Bütünsel genom ilişkilendirme çalışmalarında (BGİÇ) ortaya çıkan verilerin yüksek miktarda
ve çok boyutlu olması, profillerin hastalıklarla ilişkilendirilmesi ve buradan teşhise gidilmesi
sırasında farklı veri madenciliği yöntemlerinin kullanılması ile mümkün olmaktadır. Yapılan
çalışmada 1025 vaka ve 531 kontrolden oluşan melonom veri kümesi ile farklı etnik kökenli
2325 vaka ve 2350 kontrolden oluşan ve prostat kanseri veri kümesi kullanılmıştır. Bu
hastalıklarla ilgili profiller Karar Ağacı, Naive Bayes, Destek Vektör Makinası gibi farklı veri
madenciliği yöntemleri ile incelenmiştir. Her iki hastalık için de destek vektör makinası
kullanılan yöntemler arasında en iyi başarımı sağlamıştır. İlgili yöntem prostat kanseri veri
kümesinde %75.68’lık bir kesinlik değeri sunarken, melonom veri kümesi için %78,6’lik bir
kesinlik değeri yakalamıştır.
The data used in Genome Wide Association studies is vast in amount and high dimensional.
Therefore, different data mining methods are used in order to find the relations between
profiles and diseases. These methods are then used for diagnostic models. In this study two
different data sets were used. The melonoma data set consists of 1025 cases and 531 controls.
The multi ethnic prostate cancer data set consists of 2325 cases and 2350 controls. The
underlying SNPs were searched by different data mining methods such as Decision Trees,
Naive Bayes and Support Vector Machines. For both diseases support vector machine
presented the best performance results. This method presented 75.68% of accuracy for
prostate cancer data and 78.6% of accuracy for melonoma.