Destek Vektör Makinesi Yöntemi ile Bir Duygu Çözümlemesi Evrim Kasaba1, Engin Yıldıztepe1



Yüklə 34,95 Kb.
tarix02.08.2018
ölçüsü34,95 Kb.
#66436

Destek Vektör Makinesi Yöntemi ile Bir Duygu Çözümlemesi

Evrim Kasaba1, Engin Yıldıztepe1

1Dokuz Eylül Üniversitesi, İstatistik Bölümü, İzmir

evrimkasaba@gmail.com , engin.yildiztepe@deu.edu.tr


Özet: Duygu çözümleme, doğal dil işleme, istatistiksel öğrenme ve metin madenciliği yöntemlerinin kullanıldığı, popüler bir çalışma alanıdır. “Düşünce Çözümleme” ve “Fikir Madenciliği” olarak da isimlendirilmektedir. Duygu çözümleme bir metin sınıflandırma problemi olup popülerliği ve ticari getirileri sebebiyle günümüzde ilgi gören bir çalışma alanıdır. Son yıllarda sosyal ağlarda, web bloglarında, alışveriş sitelerinde belirtilen yorumların otomatik sınıflandırılması ihtiyacı bu alana olan ilgiyi arttırmıştır. Ticari şirketler, yapımcılar ve siyasiler gibi birçok kuruluş-kişi için isimlerinin ve olayların insanlarda hangi duyguyu oluşturduğu her zaman önemli bir bilgidir. İnternetin ve sosyal medyanın yaygınlaşmasından önce bu bilgiyi elde etmek oldukça zor ve masraflıydı. Ancak günümüzde insanların duygu ve düşüncelerini paylaşabildiği platformlar bu alandaki araştırmalar için önemli bir bilgi kaynağı haline gelmiştir. Duygu çözümlemede temel iki yaklaşım bulunmaktadır; sözlük tabanlı yaklaşım ve istatistiksel yaklaşım. Sözlük tabanlı yaklaşımlar, duygu çözümleme işlemlerinde anlamsal bir sözlük veri tabanını kullanan yarı denetimli yaklaşımlardır. İstatistiksel veya makine öğrenmesi yaklaşımları ise etiketli eğitim verisi üzerinden öğrenen denetimli yöntemlerdir. Destek vektör makinesi de bu yöntemlerden biridir. Bu çalışmada, duygu çözümleme hakkında kısaca bilgi verilmiş ve destek vektör makinesi yöntemi kullanılarak yapılan bir uygulama paylaşılmıştır. Uygulamada, Twitter verileri kullanılmıştır. Çalışma R istatistiksel programlama dili kullanılarak gerçekleştirilmiştir.
Anahtar Sözcükler: Duygu çözümleme, destek vektör makinesi, Twitter
A Sentiment Analysis Study Using Support Vector Machine
Abstract: Sentiment analysis is a popular area which uses natural language processing, statistical learning and text mining. It can also be named as “Thought Analysis” and “Opinion Mining”. Sentiment analysis is a problem of text classification as well as an attractive study field due to its popularity and commercial gains. This field has found more attention since the need for automatic classification of the comments given in social networks; web blogs and shopping websites, has greatly increased recently. It is always a significant information for many persons and commercial companies, producers and politicians what sentiment their names and events may arouse in people. Before the internet and the social media turned out to be widespread, it was extremely hard and expensive to obtain such data. However, today various platforms where people can share their feelings and ideas have become important sources of information for the researches on this field. There are two main approaches in sentiment analysis: dictionary based and statistical based approaches. Dictionary based approaches are semi-supervised approaches which use a semantic dictionary database in sentiment analysis procedures. On the other hand, statistical and machine learning approaches are supervised methods using labeled training data for learning. Support vector machine is one of these methods. In this study, a brief information about sentiment analysis is given and an application using support vector machine is presented. Twitter data are used in the application. This study is conducted with R statistical programming language.
Key words: Sentiment analysis, support vector machine, Twitter



1. Giriş
Ticari şirketler, yapımcılar ve siyasiler gibi birçok kuruluş-kişi için isimlerinin ve olayların insanlarda hangi duyguyu oluşturduğu her zaman önemli bir bilgidir. Bu bilgileri elde etmek için anket, dilek ve şikâyet kutuları gibi zaman alan ve masraflı yöntemler uzun süredir kullanılmaktadır. Son zamanlarda, gelişen teknoloji, yaygınlaşan internet ve sosyal medya kullanımıyla, bu bilgileri elde etmenin yeni yolları ortaya çıkmıştır. İnsanların düşüncelerini internet üzerinden herkes tarafından erişilebilen bir şekilde paylaşması sayesinde, sosyal medya, birçok kuruluş-kişi için önemli bir veri kaynağı haline gelmiştir.
Duygu Çözümleme (DÇ) yöntemleri, kişilerin, olaylar, hizmetler, ürünler, kurumlar, reklamlar hakkındaki duygu ve düşüncelerini belirlemeye çalışır. DÇ, genellikle, metin halindeki verileri, olumlu, olumsuz veya nötr (yansız) olarak sınıflandırır.
Bu çalışmada, Twitter’dan elde edilen verilerle, destek vektör makinesi yöntemi kullanılarak yapılan bir duygu çözümleme uygulamasına yer verilmiştir. Çalışmanın ikinci bölümünde, DÇ çalışmalarından bahsedilmiştir. Üçüncü bölümde kısaca destek vektör makinesi yöntemine değinilmiştir. Dördüncü bölümde ise yapılan uygulama anlatılmıştır. Son bölümde sonuçlar tartışılmıştır.
2. Duygu Çözümleme
DÇ çalışmaları 2000’li yılların başlarında, internetin popüler olmasıyla beraber başlamıştır. DÇ alanında yapılan ilk çalışmalardan biri 2002 yılında, Pang ve arkadaşları tarafından yayınlanmıştır. Film yorumlarının kullanıldığı çalışmada makine öğrenmesi yöntemlerinin duygu sınıflamadaki etkinlikleri araştırılmıştır [6]. 2009 yılında yayımlanan bir başka çalışmada Go ve arkadaşları, Twitter mesajlarını sınıflandırma üzerine çalışmışlardır [3]. Sevindi, Türkçe film yorumlarını kullanarak sözlük tabanlı yaklaşımlar ve makine öğrenmesi yöntemlerini karşılaştırmıştır. Bu çalışmada, en iyi sonucun destek vektör makinesi ile elde edildiği belirtilmiştir [7]. Türkçe için başka bir DÇ çalışması ise Çetin ve Amasyalı tarafından yapılmıştır. Çalışmada destek vektör makinesi ile naive bayes yöntemleri karşılaştırılmıştır [2].
DÇ, temelde, bir metin sınıflandırma problemi olup popülerliği ve ticari getirileri sebebiyle günümüzde ilgi gören bir çalışma alanıdır. DÇ çalışmalarında, doğal dil işleme, makine öğrenmesi, istatistiksel öğrenme ve metin madenciliği teknikleri bir arada kullanılır.
DÇ çalışmalarının başındaki en büyük sorun dil ve çevrimiçi metinlerle ilgilidir. DÇ yapabilmek için, cümleler temel öğelerine ayrıldıktan sonra, sıfatlar ve fiiller analiz edilebilmeli, kısaltmalar ve hatalı ifadeler düzeltilmeli ya da çıkartılmalıdır. Ayrıca, metinlerdeki ekler ve kökler tespit edilmelidir. Yüksek bir başarı elde etmek için doğal dil işleme sürecindeki başarı çok önemlidir.
DÇ’de iki temel yaklaşım bulunmaktadır. Sözlük tabanlı yaklaşımlar, duygu çözümleme işlemlerinde anlamsal bir sözlük veri tabanını kullanan yarı denetimli yaklaşımlardır. İstatistiksel veya makine öğrenmesi yaklaşımları ise etiketli eğitim verisi üzerinden öğrenen denetimli yöntemlerdir. Destek vektör makinesi de bu yöntemlerden biridir.
3. Destek Vektör Makinesi
Sınıflandırma işlemi, benzer özellikteki nesnelerin önceden belirlenmiş alt gruplara ayrılması işlemidir. Sınıflandırmanın temel amacı; veriyi sadeleştirerek kullanıcıya daha anlaşılır bilgiler sunmaktır. İki gruba ait verileri sınıflandırmak için bir düzlemde iki grup arasına bir sınır çizmek mümkündür. Bu sınırın çizileceği yer ise iki grubun da elemanlarına en uzak olan yer olmalıdır. İşte Destek Vektör Makinesi (DVM) bu sınırın nasıl çizileceğini belirlemektedir. DVM’nin amacı, sınıfları birbirinden ayıracak en uygun aşırı düzleminin elde edilmesidir. DVM istatistiksel teoriler üzerine inşa edilmiş bir makine öğrenmesi yöntemidir. İlk kez 1990’lı yıllarda Cortes ve Vapnik tarafından sınıflandırma ve regresyon tipi problem çözümleri için önerilmiştir [1]. DVM, doğrusal ve doğrusal olmayan olmak üzere iki durum için ele alınır. Doğrusal ayrılabilme durumunda sınıflar ayırıcı aşırı düzlem ile ayrılabilir (Şekil-1) [5]. Bu durumda, DVM bu aşırı düzlemin örnek gruplarına eşit uzaklıkta olmasını amaçlar. Verilerin doğrusal olarak ayrılamadığı durumlarda doğrusal sınıflandırıcı yerine doğrusal olmayan sınıflandırıcılar kullanılabilir (Şekil-2) [5]. Gerçek verilerin aşırı düzlem ile doğrusal olarak ayrılması genellikle mümkün olmaz. Bu durumda sınıfları ayırmak için, ayırma eğrisinin tahmin edilmesi gerekir. Ancak uygulamada bu eğrinin tahmin edilmesi oldukça zordur. Özetle, doğrusal olmayan DVM, veri setinin doğrusal bir fonksiyonla tam veya belirli bir hata ile ayrılamaması durumunda kullanılan algoritmalardır.





A


Şekil 1: Doğrusal Ayrılabilme Durumu




Şekil 2: Doğrusal Olarak Ayrılamama Durumu
4. Uygulama
Bu çalışmada, güncel iki Türkçe film (Delibal, Nadide Hayat) hakkındaki Twitter mesajları kullanılarak bir duygu analizi çalışması yapılmıştır. Çalışmada R istatistiksel programlama dili ve “RTextTools” paketi kullanılmıştır [4]. Her iki film için, Twitter API kullanılarak 1500 adet tweet elde edilmiştir. Temizlik aşamasında mesajlar duyguyu belirten kelimeler dışındaki kelimelerden temizlenmiştir. Anlamsız tweetler elenmiştir. Temizlik işlemlerinden sonra, Delibal filmi için 202, Nadide Hayat filmi için 229 yorum “Olumlu” (1), “Olumsuz” (2) olarak sınıflandırılmıştır. “Delibal” için 150, “Nadide Hayat” için 160 yorum eğitim veri kümelerini oluşturmak üzere rassal olarak belirlenmiştir. Sonraki adımda “RTextTools” paketindeki fonksiyonlar kullanılarak DVM yöntemi ile sınıflama modeli geliştirilmiştir.

Tablo 1. Filmlere ait yorumların dağılımı




Nadide Hayat

Delibal

Olumlu

195

156

Olumsuz

34

46

Toplam

229

202

DVM yöntemi ile eğitilen modellerin çapraz geçerlilik sonuçlarına göre “Delibal” için %83, “Nadide Hayat” için %91 doğruluk oranı elde edilmiştir.





Şekil 3: “Delibal” için model doğrulama sonuçları



Şekil 4: “Nadide Hayat” için model doğrulama sonuçları
5. Sonuç
Bu çalışmada, Türkçe twitter mesajları kullanılarak DVM yöntemi ile bir duygu çözümlemesi yapılmıştır. Çalışmada Türkçe iki film için Twitter’da paylaşılan yorumlar kullanılmıştır. DÇ çalışmalarına olan ilgi giderek artmaktadır. Bunun en önemli sebebi, sosyal medya veya blog sitelerinden istenilen konuda bol miktarda verinin derlenebilmesidir. Internet kullanıcılarının ürünler, hizmetler, olaylar, kişiler hakkındaki yorumlarını paylaştıkları blog sayfaları ve sosyal medya siteleri, bu yorumları incelemek isteyen araştırmacılar için geniş bir veri kaynağı haline gelmiştir. Mikro blog sitesi olarak tanımlanan Twitter bu konudaki çalışmalarda sıklıkla kullanılmaktadır. Farklı programlama teknikleri ile istenilen etiket için çok sayıda tweet elde edilebilmektedir. Ancak 140 karakterlik mesaj sınırı ve kendine has yazım jargonu nedeniyle analizlerde kullanılabilecek mesaj sayısı oldukça azalmaktadır. Bu çalışmada eğitim kümesi olarak başlangıçta elde edilen mesajların ancak yaklaşık %10’u kullanılabilmiştir.
Literatürde yer alan hizmetin veya ürünün değerlendirilmesine yönelik yöntemlerin tamamında, bir anket aracılığıyla görüşlerin alınması bulunmaktadır. DÇ’de benzer amaçla uygulanabilir. Anket ile yapılan çalışmaların zaman alıcı ve maliyetli olduğu, ayrıca tüm kitleye ulaşmanın -genellikle- imkânsız olduğu bilinmektedir. Sosyal medya ve blog siteleri ile geniş kitlelere kolayca ulaşarak, görüşlerini almak, sonrasında DÇ ile değerlendirmeler yapmak mümkün olabilir. Ayrıca, yorum yapan kişilerin değerlendirilme kaygısı olmadan yazdıkları mesajlar daha objektif sonuçlar üretilmesini de sağlayabilir.
6. Kaynaklar
[1] Cortes, C., Vapnik, V., “Support-Vector Network”, Machine Learning, 20(3) (1995).
[2] Çetin, M., Amasyalı, M., F., “Eğiticili ve Geleneksel Terim Ağırlıklandırma Yöntemleriyle Duygu Analizi”, Proceedings of Signal Processing and Communications Applications Conference (SIU), (2013).
[3] Go, A., Huang, L., Bhayani, R., “Twitter Sentiment Analysis”, Entropy, 17 (2009).
[4] Jurka, T. P., Collingwood, L., Boydstun, A. E., Grossman, E., & van Atteveldt, W. "RTextTools: A supervised learning package for text classification." The R Journal, 5(1): 6-12 (2013).

[5] Özkan, Y., “Veri Madenciliği Yöntemleri”, Papatya Yayıncılık Eğitim (2008).


[6] Pang, B., Lillian L., Shivakumar V., "Thumbs up?: sentiment classification using machine learning techniques." Proceedings of the ACL-02 conference on Empirical methods in natural language processing, Association for Computational Linguistics, Vol.10, (2002).
[7] Sevindi, İ. B., “Türkçe Metinlerde Denetimli ve Sözlük Tabanlı Duygu Analizi Yaklaşımlarının Karşılaştırılması”, Yüksek Lisans Tezi (2013).

Yüklə 34,95 Kb.

Dostları ilə paylaş:




Verilənlər bazası müəlliflik hüququ ilə müdafiə olunur ©muhaz.org 2024
rəhbərliyinə müraciət

gir | qeydiyyatdan keç
    Ana səhifə


yükləyin