| Dersin Kodu | Dersin Adı | Dersin Türü | Yıl | Yarıyıl | AKTS | Kredi |
|---|---|---|---|---|---|---|
| EBLG350 | Veri Madenciliği | Ders | 3 | 6 | 5.00 | 3.00 |
Lisans
Türkçe
Bu dersin amacı, öğrencilerin veri madenciliği sürecini uçtan uca kavramalarını ve yaygın veri madenciliği yöntemlerini uygulamalı olarak kullanabilmelerini sağlamaktır. Öğrenciler, gerçek veri kümeleri üzerinde: • Veri ön işleme, • Sınıflandırma ve regresyon, • Kümeleme ve birliktelik kuralı çıkarımı, • Model değerlendirme ve sonuçların yorumlanması gibi temel adımları R programlama ile gerçekleştirmeyi öğreneceklerdir.
Dr. Öğr. Üyesi Seca TOKER ASLAN
| 1 | Veri madenciliği, KDD ve CRISP-DM ile ilgili temel kavramları açıklar. |
| 2 | Farklı veri türlerini ve veri kalitesi problemlerini tanımlar, veri ön işleme adımlarını açıklar. |
| 3 | Temel sınıflandırma ve regresyon algoritmalarını açıklar ve uygular. |
| 4 | Temel kümeleme ve birliktelik kuralı madenciliği yöntemlerini açıklar ve uygular. |
| 5 | Uygun performans ölçütlerini ve geçerleme tekniklerini kullanarak modelleri değerlendirir. |
| 6 | Python ortamında veri madenciliği kütüphanelerini kullanarak analiz ve modelleme yapar. |
| 7 | Gerçek bir problem için uçtan uca basit bir veri madenciliği projesi tasarlar, yürütür ve raporlar. |
| 8 | Veri madenciliği uygulamalarında etik, gizlilik ve sorumlu kullanım ilkelerini tartışır. |
Birinci Öğretim
Bu ders, öğrencilerin temel programlama ve temel istatistik/olasılık bilgisine sahip olduğunu varsayar. Ön koşul olarak aşağıdaki derslerden en az biri (veya eşdeğeri) önerilir: • Programlamaya Giriş / Yapısal Programlama • Temel İstatistik / Olasılık ve İstatistik
• Öğrencilerin derse düzenli devam etmeleri ve her hafta işlenen konuları R programlama ile R Studio ortamında mutlaka denemeleri beklenir. • Laboratuvarlarda kullanılan veri kümeleri üzerinde öğrencilerin kendi ek sorgularını, grafiklerini ve alternatif modellerini denemeleri teşvik edilir. • Derse başlamadan önce temel istatistik (ortalama, varyans, korelasyon, olasılık) kavramlarının gözden geçirilmesi önerilir. • Öğrencilerin, açık veri kaynakları (Kaggle, UCI vb.) üzerinden küçük veri kümeleri indirip derste gördükleri yöntemleri uygulamaları tavsiye edilir. • Grup projesi yapılması durumunda, her öğrencinin bireysel katkısını raporda net biçimde belirtmesi ve akademik dürüstlük ilkelerine kesinlikle uyulması beklenir. • Veri madenciliği uygulamalarında kişisel verilerin gizliliği, KVKK/GDPR gibi yasal çerçeveler ve etik ilkeler konusunda duyarlı olunmalıdır; gerçek veriler kullanılıyorsa anonimleştirme yapılması önemlidir. • Kullanılan kütüphanelerin resmî dokümantasyonuna düzenli olarak başvurulması, sınavlardan ziyade proje ve portföy odaklı bir öğrenme yaklaşımının benimsenmesi tavsiye edilir.
• Veri madenciliğine giriş, KDD ve CRISP-DM süreci • Veri türleri, veri kaynakları, veri kalitesi • Veri ön işleme: veri temizleme, dönüştürme, özellik seçimi, boyut indirgeme • Keşifsel veri analizi (EDA) ve görselleştirme • Sınıflandırma: karar ağaçları, k-en yakın komşu, Naive Bayes, lojistik regresyon • Regresyon: doğrusal regresyon ve temel düzenlileştirme yaklaşımı • Kümeleme: k-means, hiyerarşik kümeleme • Birliktelik kuralı madenciliği: destek, güven, Apriori mantığı • Model değerlendirme: doğruluk, duyarlılık, özgüllük, ROC–AUC, hata ölçütleri • Dengesiz veri kümeleri, overfitting, çapraz doğrulama • Veri madenciliği uygulamaları ve etik / gizlilik konuları • R ile veri madenciliği: örnekler • Dönem projesi: problem tanımı, veri toplama/temini, modelleme, değerlendirme, raporlama
| Hafta | Teorik | [OgretimYontemVeTeknikleri] | [OnHazirlik] |
|---|---|---|---|
| 1 | Veri madenciliğine giriş, KDD ve CRISP-DM | Anlatım, Soru–Cevap, Tartışma | Ders kitabı / notlardan “Veri madenciliğine giriş” bölümünü okumak; temel istatistik kavramlarını kısaca gözden geçirmek. |
| 2 | Veri türleri, veri kaynakları, veri kalitesi | Anlatım, Örnek Olay İncelemesi, Soru–Cevap | Farklı veri türleri (sayısal, kategorik vb.) ile ilgili kısa bir kaynak okumak; derse getirmek üzere basit bir veri seti örneği bulmak (tablo, Excel vb.). |
| 3 | Veri ön işleme I: veri temizleme, eksik veriler | Anlatım, Uygulamalı Gösterim, Laboratuvar Çalışması, Problem Çözme | Sağlanan örnek veri setini önceden indirip incelemek; eksik veri, aykırı değer kavramlarını notlardan okumak. |
| 4 | Veri ön işleme II: dönüştürme, normalizasyon, indirgeme | Anlatım, Laboratuvar Çalışması, Uygulamalı Gösterim, Soru–Cevap | Bir önceki hafta yazılan kodları tekrar çalıştırmak; normalizasyon/standartlaştırma ile ilgili kısa teorik kısmı okumak. |
| 5 | Keşifsel veri analizi ve görselleştirme | Anlatım, Uygulamalı Gösterim, Laboratuvar Çalışması, Tartışma | Matplotlib/seaborn benzeri kütüphanelerin temel kullanımını incelemek; ders notlarındaki EDA örnek grafiklere göz atmak. |
| 6 | Sınıflandırmaya giriş, karar ağaçları | Anlatım, Uygulamalı Gösterim, Problem Çözme, Laboratuvar Çalışması | Karar ağaçları ile ilgili ders notu bölümünü okumak; örnek karar ağacı şemalarına (şekil) göz atmak. |
| 7 | Diğer sınıflandırma yöntemleri: k-NN, Naive Bayes, lojistik regresyon | Anlatım, Uygulamalı Gösterim, Laboratuvar Çalışması, Küçük Grup Çalışması | Önceki haftanın sınıflandırma kodlarını çalıştırmak; k-NN ve lojistik regresyon kavramlarını kısaca teorik olarak okumak. |
| 8 | Ara Sınav | Yazılı Sınav, Bireysel Çalışma | 1–7. haftalardaki tüm konuları tekrar etmek; örnek soruları çözmek; ödevlerde yazılan kodları gözden geçirmek. |
| 9 | Regresyon yöntemleri: doğrusal regresyon, temel düzenlileştirme | Anlatım, Uygulamalı Gösterim, Laboratuvar Çalışması, Problem Çözme | Basit doğrusal regresyon kavramını (doğru denklemi, hata kavramı) hatırlamak; sağlanan veri setini indirip incelemek. |
| 10 | Kümeleme: k-means, hiyerarşik kümeleme | Anlatım, Uygulamalı Gösterim, Laboratuvar Çalışması, Soru–Cevap | k-means ve kümeleme ile ilgili kısa bir kaynak okumak; görsel örnek (clustering plot) videolarına/şekillere göz atmak. |
| 11 | Birliktelik kuralı madenciliği | Anlatım, Örnek Olay İncelemesi, Uygulamalı Gösterim, Tartışma | Market sepeti analizi örneklerini okumak; destek ve güven kavramlarına ilişkin kısa notları gözden geçirmek. |
| 12 | Model değerlendirme, çapraz doğrulama, dengesiz veri | Anlatım, Uygulamalı Gösterim, Problem Çözme, Laboratuvar Çalışması | Doğruluk, duyarlılık, özgüllük, F1, ROC–AUC gibi ölçütlerin tanımlarını okumak; önceki haftalarda kurulan modellerin çıktısını incelemek. |
| 13 | Veri madenciliği uygulama alanları, mini vaka çalışmaları | Tartışma, Örnek Olay Analizi, Sunum, Beyin Fırtınası | Seçilen bir uygulama alanına (sağlık, pazarlama, finans vb.) dair kısa bir veri madenciliği makalesi bulup okumak; ders için 3–4 maddelik not çıkarmak. |
| 14 | Dönem projelerinin sunumu, etik ve gizlilik tartışması | Proje Tabanlı Öğrenme, Sunum, Akran Değerlendirmesi, Tartışma | Proje raporunu ve sunum slaytlarını tamamlamak; kullanılan veriyle ilgili etik/gizlilik risklerini düşünmek ve 2–3 maddelik not hazırlamak. |
| 15 | Final Sınavı | Yazılı Sınav, Bireysel Çalışma | Tüm dönem konularını sistematik şekilde tekrar etmek; özellikle model değerlendirme ve temel algoritmaların avantaj/dezavantajlarını özetlemek. |
- Data Mining – Concepts, Models, Methods and Algorithms, Mehmed Kantardzic, ISBN:0-471-22852-4 - Data Mining , J. Han – M. Kamber, Morgan-Kaufman, Academic Press, 2001, ISBN: 1-55860-901-6 - Han, J. , Kamber, M., Pei, J., Data Mining: Concepts and Techniques. 3rd Ed., Morgan Kaufmann Publishers, 2011 - Larose, Daniel T., Discovering Knowledge In Data An Introduction to Data Mining. New Jersey: John Wiley and Sons Ltd, 2005 - Tan, P., Steinbach, M., Kumar, V., Introduction to Data Mining, Addison Wesley, 2006
Bu derste aşağıdaki etkinlik ve yöntemler planlanmaktadır: • Kuramsal ders anlatımı (Teorik ders): Veri madenciliği kavramları, algoritmalar ve CRISP-DM süreci sunumlar ve tahtadaki örneklerle açıklanır. • Yöntem: Anlatım, soru–cevap, kısa sınıf içi tartışmalar. • Laboratuvar / Uygulamalı dersler (R ile): Bilgisayar laboratuvarında veya öğrencinin kendi bilgisayarında, R kullanılarak veri ön işleme, sınıflandırma, regresyon, kümeleme ve model değerlendirme uygulamaları yapılır. • Yöntem: Adım adım uygulama, canlı kodlama (live coding), küçük egzersizler. • Ödevler ve mini projeler: Haftalık veya iki haftada bir, gerçek veya yarı-gerçek veri kümeleri üzerinde veri temizleme, model kurma ve değerlendirme içeren ödevler verilir. • Yöntem: Bireysel çalışma, gerektiğinde kısa rapor/Notebook teslimi. • Dönem projesi (Veri madenciliği projesi): Öğrenciler bireysel veya küçük gruplar hâlinde; • bir problem seçer, • veri toplar veya uygun veri seti belirler, • veri ön işleme, modelleme, değerlendirme adımlarını uygular, • sonuçları rapor ve/veya sunum hâline getirir. • Yöntem: Proje tabanlı öğrenme, danışmanlık görüşmeleri, ara geri bildirim. • Sınıf içi tartışmalar ve vaka analizleri: Veri madenciliği uygulamalarında etik, gizlilik, önyargı ve yanlış yorumlama riskleri üzerine kısa vaka tartışmaları yapılır. • Yöntem: Tartışma, beyin fırtınası, kısa sunumlar. • Öz değerlendirme ve geri bildirim: Öğrencilerin kendi kodlarını ve modellerini eleştirel gözle değerlendirmeleri, arkadaşlarının çalışmalarına yapıcı geri bildirim vermeleri teşvik edilir. • Yöntem: Akran değerlendirmesi, eğitmen geri bildirimi.
| Yarıyıl (Yıl) İçi Etkinlikleri | Adet | Değer |
|---|---|---|
| Ara Sınav | 1 | 100 |
| Toplam | 100 | |
| Yarıyıl (Yıl) Sonu Etkinlikleri | Adet | Değer |
| Final Sınavı | 1 | 30 |
| Rapor Sunma | 1 | 20 |
| Proje Sunma | 1 | 10 |
| Proje Tasarımı/Yönetimi | 1 | 40 |
| Toplam | 100 | |
| Yarıyıl (Yıl) İçi Etkinlikleri | 40 | |
| Yarıyıl (Yıl) Sonu Etkinlikleri | 60 | |
Yok
| Etkinlikler | Sayısı | Süresi (saat) | Toplam İş Yükü (saat) |
|---|---|---|---|
| Ara Sınav | 2 | 1 | 2 |
| Final Sınavı | 2 | 1 | 2 |
| Uygulama/Pratik | 15 | 2 | 30 |
| Takım/Grup Çalışması | 7 | 2 | 14 |
| Rapor Sunma | 2 | 1 | 2 |
| Proje Hazırlama | 5 | 6 | 30 |
| Proje Sunma | 2 | 1 | 2 |
| Ara Sınav İçin Bireysel Çalışma | 5 | 2 | 10 |
| Final Sınavı içiin Bireysel Çalışma | 15 | 3 | 45 |
| Toplam İş Yükü (saat) | 137 | ||
| PÇ 1 | PÇ 2 | PÇ 3 | PÇ 4 | PÇ 5 | PÇ 6 | PÇ 7 | PÇ 8 | PÇ 9 | PÇ 10 | PÇ 11 | PÇ 12 | PÇ 13 | PÇ 14 | PÇ 15 | |
| ÖÇ 1 | 5 | 3 | 2 | 2 | 2 | 2 | 2 | 3 | 2 | 2 | 2 | 2 | 2 | 2 | 3 |
| ÖÇ 2 | 2 | 5 | 5 | 5 | 4 | 2 | 2 | 3 | 2 | 2 | 2 | 2 | 2 | 2 | 3 |
| ÖÇ 3 | 1 | 1 | 1 | 1 | 2 | 5 | 5 | 3 | 5 | 1 | 1 | 3 | 3 | 2 | 3 |
| ÖÇ 4 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 2 | 1 | 5 | 5 | 2 | 3 | 2 | 3 |
| ÖÇ 5 | 1 | 2 | 3 | 3 | 3 | 3 | 3 | 2 | 3 | 3 | 3 | 5 | 3 | 3 | 3 |
| ÖÇ 6 | 1 | 2 | 3 | 3 | 3 | 3 | 3 | 2 | 3 | 3 | 2 | 3 | 3 | 3 | 2 |
| ÖÇ 7 | 1 | 1 | 2 | 2 | 2 | 2 | 2 | 1 | 2 | 2 | 2 | 2 | 3 | 5 | 2 |
| ÖÇ 8 | 2 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 2 | 5 | 2 |