Makina Öğrenme Yöntemleriyle Genom Dizilim Verilerinin Analizi Geçtiğimiz yüzyılda biyoloji ve genetik alanında yaşanan ilerlemeler “Biyoinformatik” isimli yeni bir disiplinin oluşumuna ve insanoğlunun dünyadaki canlı çeşitliliğini, hastalıklara neden olan etmenleri ve çözümlerini daha iyi anlamasına yol açmıştır. Canlının yapı taşı olan genomu her yönüyle anlamayı hedefleyen genom araştırmalarının şüphesizki bu ilerlemede payı büyüktür. Bununla beraber her yeni dizileme sisteminde, genom dizileme maliyetlerinin düşmesiyle beraber genom araştırmalarının önemli bir çalışma alanı olan “kişiye özgü ilaç tasarımı” daha fazla uygulanabilir hale gelmiştir. Bu bağlamda makine öğrenme ve istatistiki analiz yöntemlerine bağlı genom analizi de önemli bir rol kazanmıştır.
Bu çalışma kapsamında, gen tedavisi araştırmalarında gen transferi amacıyla kullanılan ve HIV (İnsan Bağışıklık Yetmezliği Virüsü)’den türetilmiş lentivirüs vektörlerinin insan genomunda yerleşmeyi tercih ettiği bölgelerde gözlemlenen simetrik/palindromik davranışı yakalayan bir örüntü tarama aracı geliştirilmiştir. Örüntü tarama aracının, oluşturulan farklı test kümeleri üzerinde, çeşitli dizilim özellikleri ve değişken parametrelerle (pencere genişliği ve pencereler arası boşluk gibi) kullanılması sonucu probleme en uygun parametreler belirlenmiştir. Sonuçların anlamlılığı z-test ve Man-Whitney-Wilcoxon sıralama toplamı testi gibi istatistiki testlerle sınanmıştır.
Çalışmanın ikinci kısmında, söz konusu örüntü tarama aracında kullanılan Kanonik Bağıntı Analizi yöntemi, vaka ve kontrol gruplarındaki farklı “Bağlantı Eşitsizliği”ne sahip bölgelerin tespiti için kullanılmış ve böylece Behçet hastalığına neden olan aday mutasyonların genomdaki dağılımı incelenmiştir. Sonuçlar, söz konusu yöntemin hastalığa neden olan ve birbiriyle ilişkili mutasyonların tespiti için de kullanılabileceğini ortaya koymuştur.
Çalışmanın son aşamasında, milletlerin genetik çeşitlilikleri ve coğrafi dağılımları arasındaki ilişki incelenmiştir. Buna göre “İnsan Genomu Çeşitliliği Projesi” (Human Genome Diversity Project) kapsamında oluşturulmuş bir veri kümesinden faydalanılmış ve Temel Bileşen Analizi yöntemi yardımıyla insanların genetik çeşitliliğinin coğrafi çeşitlilikleri ile bağıntılı olduğu gösterilmiştir. Bunun yanı sıra, bu bağıntıyı ifade etme konusunda daha az sayıda tekli nükleotit çeşitliliğinin de yeterli olabildiği görülmüştür.