Belge benzerliği sonuçlarının nsga-ıı ile çok amaçlı optimizasyonu
Files
Date
2018
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Open Access Color
OpenAIRE Downloads
OpenAIRE Views
Abstract
Sınıflandırma algoritmalarının başarı performanslarının artırımı, veri madenciliğinin önemli amaçları arasındadır. Bu tez çalışmasında, veri madenciliği sınıflandırma başarısının sezgisel yöntemlerle arttırılması incelenmiştir. Sınıflandırmada kullanılan eğitim veri seti hem benzerlik hesap sonuçları yönünden hem de sınıflandırma yeteneği yönünden optimize edilmiştir. Aynı sınıfta olan vektörlerin benzerlik sonuçlarının maksimize edilmesi, aynı zamanda farklı sınıftaki vektörlerin benzerlik sonuçlarının minimize edilmesi amaçlanmıştır. Bu çelişen iki durum için çok amaçlı sezgisel yöntemlerden olan, Sıralı Seçkin Bastırılamayan Genetik Algoritma (NSGA II) kullanılmıştır. Hatalı sınıflandırma oranlarının, optimizasyonun her iterasyonunda sıfıra daha çok yaklaştırılması hedeflenmiştir. Bu çalışmada veri madenciliğinin tüm aşamalarının sırayla gerçekleştirilmesine özen gösterilmiştir. Ham veriler işlenerek öznitelikler çıkarılmıştır. Boyut azaltma işlemleri için ise Temel Bileşen Analizi (PCA) kullanılmıştır. Veri setleri üzerinde K En Yakın Komşu Algoritması (KNN) kullanılarak yalın haldeki sınıflandırma başarıları ile optimizasyon sonrası sınıflandırma başarıları karşılaştırılmıştır. Optimizasyonun, eğitim veri setinin sınıflandırma yeteneğini arttırdığı görülmüştür. Optimize edilmiş veriler, eğitim kümesi olarak kullanıldığında sınıflandırma başarısında artış gözlemlenmiştir.