Otomatik Metin Özetlemede Kullanılan ve Öne Çıkan Yöntemler



Yüklə 445 b.
tarix19.12.2017
ölçüsü445 b.
#35366



Otomatik Metin Özetlemede Kullanılan ve Öne Çıkan Yöntemler

  • Otomatik Metin Özetlemede Kullanılan ve Öne Çıkan Yöntemler

  • Türkçe Metin Özetleme Üzerine Yapılan Çalışmalar

  • Sistemden Elde Edilen Özetlerin Başarı Ölçütleri

  • Online İşlem Yapılabilen Doğal Dil İşleme Uygulamaları



Doğal dil işleme, ana işlevi doğal bir dili çözümleme, anlama, yorumlama ve üretme olan bilgisayar sistemlerinin tasarımını ve gerçekleştirilmesini konu alan bir bilim ve mühendislik alanıdır.

  • Doğal dil işleme, ana işlevi doğal bir dili çözümleme, anlama, yorumlama ve üretme olan bilgisayar sistemlerinin tasarımını ve gerçekleştirilmesini konu alan bir bilim ve mühendislik alanıdır.

  • Doğal dil işleme çalışmaları ana ve ara uygulamalar olarak iki gruba ayrılabilir. Ana uygulamalar bilgisayarla çeviri, otomatik özetleme, bilgi çıkarımı, bilginin yeniden eldesi gibi kendi başına bir uygulama oluşturan örneklerdir. Ara uygulamalar ise, tümceyi öğelerine ayırma, çözümleme, biçimbilimsel analiz (sözcük ek ve köklerini bulma), sözcük anlamını belirginleştirme gibi ana uygulamalar için gerekli işlemleri gerçekleştirirler.



Otomatik metin özetleme sistemleri birçok evrağın taranmasının gerektiği çalışmalarda kullanıcılara çok yardımcı olabilir. Ayrıca otomatik metin özetleme sistemleri bir ya da birden fazla evrak üzerinden de özet çıkarabilmektedirler.

  • Otomatik metin özetleme sistemleri birçok evrağın taranmasının gerektiği çalışmalarda kullanıcılara çok yardımcı olabilir. Ayrıca otomatik metin özetleme sistemleri bir ya da birden fazla evrak üzerinden de özet çıkarabilmektedirler.

  • Otomatik metin özetlemede temel olarak iki yöntem mevcuttur:

  • Cümle seçerek özetleme: Burada amaç metin içerisindeki önemli cümleleri puanlandırma yöntemleri kullanarak, istatistiksel metotlar ve sezgisel yaklaşımlar ile cümle seçmektir. 

  • Yorumlayarak özetleme: Bu tip özetlemedeki amaçta metin içerisindeki cümlelerin kısaltılması amaçlanmaktadır. Örneğin “ Ahmet elmadan, portakaldan, armuttan nefret eder. ” cümlesi “Ahmet meyveden nefret eder. ” olarak kısaltılır. Bu yöntemin kullanılabilmesi için zengin bir sembolik kelimeler tablosuna ihtiyaç vardır. [3]



Metin özetleme bazı kaynaklara göre de şöyle gruplandırılmıştır: çıkarımsal özet ve özetçe. Çıkarımsal özet, konu ile en ilgili metin parçalarını, belki küçük değişikliklerle seçmeyle oluşturulur. Özetçe, gerekmedikçe içeriğe değinmeden belgenin içeriğini anlatan bir açıklama yazısıdır. İki durumda da bazıları özetlemeyi, bir belgenin sıkıştırılması veya yoğunlaştırılması olarak düşünebilir. Çıkarımsal özet, konuyla daha az ilgili maddeleri çıkararak sıkıştırma işlemini yapar. Buna karşılık özetçe sıkıştırmayı, detayları gizleyip belirli bilgileri daha genel ifadelerle değiştirmek gibi daha karmaşık yöntemlerle yapar [19]. Bilgisayar tarafından üretilen özetçede amaç, insan tarafından üretilen özetçe kadar tutarlı özetçe üretmektir. Çıkarımsal özette ise amaç, belgenin içeriğini yansıtan metin parçalarından oluşan bir küme çıkarmaktır [1], [20].

  • Metin özetleme bazı kaynaklara göre de şöyle gruplandırılmıştır: çıkarımsal özet ve özetçe. Çıkarımsal özet, konu ile en ilgili metin parçalarını, belki küçük değişikliklerle seçmeyle oluşturulur. Özetçe, gerekmedikçe içeriğe değinmeden belgenin içeriğini anlatan bir açıklama yazısıdır. İki durumda da bazıları özetlemeyi, bir belgenin sıkıştırılması veya yoğunlaştırılması olarak düşünebilir. Çıkarımsal özet, konuyla daha az ilgili maddeleri çıkararak sıkıştırma işlemini yapar. Buna karşılık özetçe sıkıştırmayı, detayları gizleyip belirli bilgileri daha genel ifadelerle değiştirmek gibi daha karmaşık yöntemlerle yapar [19]. Bilgisayar tarafından üretilen özetçede amaç, insan tarafından üretilen özetçe kadar tutarlı özetçe üretmektir. Çıkarımsal özette ise amaç, belgenin içeriğini yansıtan metin parçalarından oluşan bir küme çıkarmaktır [1], [20].



Metin özetleme yapılırken kullanıcıdan çıkarılacak özet için belli girişler istenebilir (anahtar sözcükler, özetin uzunluğu v.s.) ya da metin özetleme işleminde bir sınırlama yapılmaz.

  • Metin özetleme yapılırken kullanıcıdan çıkarılacak özet için belli girişler istenebilir (anahtar sözcükler, özetin uzunluğu v.s.) ya da metin özetleme işleminde bir sınırlama yapılmaz.

  • Metin özetleme çalışmaları incelendiğinde metin içerisinde cümleleri puanlandırma yönteminin öne çıktığı görülmektedir. Cümlenin puanlandırma işlemi belli kriterler belirlenerek yapılır. Bu işlem için metnin paragraflara, paragrafların cümlelere, cümlelerinde sözcüklere ayrılması gerekir.



Cümle içerisinde metnin başlığında kullanılan sözcüklerin varlığı kontrol edilir.

  • Cümle içerisinde metnin başlığında kullanılan sözcüklerin varlığı kontrol edilir.

  • Cümlenin tarih bilgisi içerip içermediğine bakılır.

  • Cümle içerisindeki özel isimler kontrol edilir.

  • Pozitif / negatif sözcük olarak tanımlanan, sözcüklerin olup olmadığına bakılır. Pozitif sözcük; özetle, sonuç olarak, sonuçta gibi metni toparlayıcı cümlelerin içerisinde geçen sözcüklere denir. Negatif sözcük ise; çünkü, ancak, öyle gibi metnin konusu hakkında ayrıntılı bilgilerin verildiği cümlelerde kullanılan sözcüklerdir.

  • Cümlelerde anahtar sözcüklerin geçip geçmediğine bakılır. Kullanıcının arama yaparken girdiği sözcükler ya da makalelerde geçen anahtar sözcükler bu kriterde değerlendirilir.

  • Cümlenin metin içerisindeki yeri de önemlidir. Metnin ilk ve son paragraflarında yer alan cümleler öncelikli olarak değerlendirilir.

  • Metin içerisindeki her sözcüğün frekansı hesaplanır. Frekans hesaplanırken sözcüğün metin içerisindeki geçiş sıklığına bakılır. En sık geçen sözcüklerden başlanarak bir sıralama yapılır ve genellikle bu listenin %10’u değerlendirmeye alınır. En sık geçen sözcükleri içeren cümlelere artı puan eklenir.

  • Cümlenin anlamını pekiştiren eş dizimli sözcüklerin olup olmadığına bakılır.

  • Cümlenin bitiş işaretine bakılır. Eğer cümle ünlem ya da soru işareti gibi cümleye önem katan noktalama işaretleri içeriyorsa bu cümleye artı puan verilir.

  • Metin içerisindeki cümlelerin ortalama uzunlukları hesaplanır. Ortalamanın ±1 üzerinde olan cümlelere puan verilir.

  • Cümle içerisinde varlık isimlerini tanıma yöntemi kullanılarak ilgili sözcükler seçilir ve buna göre puanlandırılır.



[3] Uzundere E., Dedja E., Diri B., Amasyali M. F., "Türkçe haber metinleri için otomatik özetleme ", Akıllı Sistemlerde Yenilikler ve Uygulamaları Sempozyumu, 2008 yılında Türkçe haber metinleri üzerinde çalışılmıştır. Oluşturulan sistemde metin özetleme işlemi cümle puanlandırma yöntemiyle yapılmıştır. Puanlandırma kriterlerine haber metinlerinde olabilecek özellikler eklenmiştir. Örneğin metin içerisinde “” işareti olan cümleler, içerisinde sayısal ifadelerin olduğu cümleler gibi. Puanlandırma hesaplanırken de oluşturulan kriter puan listesine göre belirlenen kriterlerden içerdiği sözcük kadar cümleye puan verilmiştir. Örneğin cümlede bir adet başlıkta geçen sözcük, iki adet anahtar sözcük olsun; bu cümle (20*1 + 15*2)=50 puan olarak hesaplanır. Ayrıca kullanıcının özetleme oranı girmesi sağlanmıştır. Metin özeti bu özellikler göz önünde bulundurularak çıkarılmıştır. Bu çalışmada sisteme verilen 10 adet metin 15 kişi tarafından da özetlenmiş ve sonuçlar karşılaştırıldığında sistemin % 55 başarıyla özet çıkartabildiği ortaya konmuştur .

  • [3] Uzundere E., Dedja E., Diri B., Amasyali M. F., "Türkçe haber metinleri için otomatik özetleme ", Akıllı Sistemlerde Yenilikler ve Uygulamaları Sempozyumu, 2008 yılında Türkçe haber metinleri üzerinde çalışılmıştır. Oluşturulan sistemde metin özetleme işlemi cümle puanlandırma yöntemiyle yapılmıştır. Puanlandırma kriterlerine haber metinlerinde olabilecek özellikler eklenmiştir. Örneğin metin içerisinde “” işareti olan cümleler, içerisinde sayısal ifadelerin olduğu cümleler gibi. Puanlandırma hesaplanırken de oluşturulan kriter puan listesine göre belirlenen kriterlerden içerdiği sözcük kadar cümleye puan verilmiştir. Örneğin cümlede bir adet başlıkta geçen sözcük, iki adet anahtar sözcük olsun; bu cümle (20*1 + 15*2)=50 puan olarak hesaplanır. Ayrıca kullanıcının özetleme oranı girmesi sağlanmıştır. Metin özeti bu özellikler göz önünde bulundurularak çıkarılmıştır. Bu çalışmada sisteme verilen 10 adet metin 15 kişi tarafından da özetlenmiş ve sonuçlar karşılaştırıldığında sistemin % 55 başarıyla özet çıkartabildiği ortaya konmuştur .



[5] Güran A., Arslan S. N., Kılıç E., Diri B., " Sentence selection methods for text summarization", IEEE 22nd Signal Processing and Communications Applications Conference (SIU 2014),2014 yılında çıkarıma dayalı metin özetleme yapılmıştır. Bu çalışmayla cümle seçim metotlarına yeni bir kriter eklenmiştir. Varlık ismi tanıma metodu ilk kez bu çalışmada kullanılmıştır. Elde edilen sonuçlarda cümle seçim metotları farklı kombinasyonlarıyla da değerlendirilmiş olup en başarılı olan kombinasyonlar listelenmiştir. Bu çalışmada da sistem tarafından oluşturulan özetlerin (20 adet haber metni üzerinde çalışılmıştır) başarısı, bir çalışma grubu (15 kadın, 15 erkek )tarafından yapılan özetlerle analiz edilmiştir.

  • [5] Güran A., Arslan S. N., Kılıç E., Diri B., " Sentence selection methods for text summarization", IEEE 22nd Signal Processing and Communications Applications Conference (SIU 2014),2014 yılında çıkarıma dayalı metin özetleme yapılmıştır. Bu çalışmayla cümle seçim metotlarına yeni bir kriter eklenmiştir. Varlık ismi tanıma metodu ilk kez bu çalışmada kullanılmıştır. Elde edilen sonuçlarda cümle seçim metotları farklı kombinasyonlarıyla da değerlendirilmiş olup en başarılı olan kombinasyonlar listelenmiştir. Bu çalışmada da sistem tarafından oluşturulan özetlerin (20 adet haber metni üzerinde çalışılmıştır) başarısı, bir çalışma grubu (15 kadın, 15 erkek )tarafından yapılan özetlerle analiz edilmiştir.



[6] Güran A., Güler Bayazıt N., Gürbüz M. Z., "Efficient feature integration with Wikipedia-based semantic feature extraction for Turkish text summarization", Turkish Journal of Electrical Engineering & Computer Sciences, 2013 yılında Geliştirdikleri sistemde yapısal ve anlamsal kriterler birleştirilerek hibrit bir Türkçe metin özetleme sistemi yapmışlardır. Sistem sonuçları incelendiğinde hibrit sistemin daha başarılı sonuçlar çıkardığı görülmektedir. Çalışmada AHP ve ABC algoritmaları kriterlerin birleştirilmesinde kullanılmıştır. Sistemin yapısal ve anlamsal kriterlerinin birleştirilişi aşağıdaki resimde verilmiştir.

  • [6] Güran A., Güler Bayazıt N., Gürbüz M. Z., "Efficient feature integration with Wikipedia-based semantic feature extraction for Turkish text summarization", Turkish Journal of Electrical Engineering & Computer Sciences, 2013 yılında Geliştirdikleri sistemde yapısal ve anlamsal kriterler birleştirilerek hibrit bir Türkçe metin özetleme sistemi yapmışlardır. Sistem sonuçları incelendiğinde hibrit sistemin daha başarılı sonuçlar çıkardığı görülmektedir. Çalışmada AHP ve ABC algoritmaları kriterlerin birleştirilmesinde kullanılmıştır. Sistemin yapısal ve anlamsal kriterlerinin birleştirilişi aşağıdaki resimde verilmiştir.



[7] Kutlu M., Cığır C., Cicekli I., "Generic Text Summarization for Turkish ", Published by Oxford University Press on behalf of The British Computer Society, 2010 yılında yaptıkları çalışmada cümlenin metin içerisindeki ve merkeze göre olan konumunu, anahtar sözcükler, cümlenin başlıkla olan benzerliği kriterleri kullanılarak cümlenin önemi hesaplanmıştır. Ayrıca cümle seçim kriterlerinden biri olarak KP (Key Phrase) kullanılmıştır ve etkili bir yöntem olduğu elde edilen sonuçlarla ortaya konmuştur. Sistemin genel olarak çalışma yöntemi şöyledir: öncelikli olarak belirtilen kriterler eğitilerek en uygun kriter kombinasyonu oluşturulur daha sonra bu kombinasyondaki kriter kullanılarak cümleler için bir puanlama yapılır. Metnin özeti çıkarılır .

  • [7] Kutlu M., Cığır C., Cicekli I., "Generic Text Summarization for Turkish ", Published by Oxford University Press on behalf of The British Computer Society, 2010 yılında yaptıkları çalışmada cümlenin metin içerisindeki ve merkeze göre olan konumunu, anahtar sözcükler, cümlenin başlıkla olan benzerliği kriterleri kullanılarak cümlenin önemi hesaplanmıştır. Ayrıca cümle seçim kriterlerinden biri olarak KP (Key Phrase) kullanılmıştır ve etkili bir yöntem olduğu elde edilen sonuçlarla ortaya konmuştur. Sistemin genel olarak çalışma yöntemi şöyledir: öncelikli olarak belirtilen kriterler eğitilerek en uygun kriter kombinasyonu oluşturulur daha sonra bu kombinasyondaki kriter kullanılarak cümleler için bir puanlama yapılır. Metnin özeti çıkarılır .



[16] Güran A., Bekar E., Akyokuş S., “A Comprasion Of Feature and Semantic-Based Summarization Algorithms For Turkish”, International Symposium on Innovations in Intelligent Systems and Applications, Kayseri, 2010 yılında . Araştırmacıların gerçeklediği sistemde amaç, şimdiye kadar istatistiksel yöntemlerle yapılan özetleme işleminde çıkarımsal yöntemleri de kullanarak; bu iki yöntemi karşılaştırmışlardır. İstatistiksel yöntemde, cümle puanlandırma ile metin içerisindeki cümleler belli özelliklere ( başlık içerisindeki kelimeler, pozitif kelimeler, paragrafın yeri, büyük harfle başlayan kelimeler, belirteç içeren cümleler, negatif kelimeler, sayısal ifadeler, cümle uzunluğu, tarih belirten cümleler, anahtar kelimeler, işlemler ve noktalama işaretleri) göre puanlandırılmış ve en yüksek puanları alan cümleler ile özetleme işlemi gerçekleştirilmiştir. Çıkarımsal yöntem için iki farklı algoritma kullanmışlardır. Çıkarımsal olan iki yöntem içinde metinin cümle ve kelimelerinden oluşan matrisler oluşturulmuştur. Bu matrisler her hücrede tek kelime, sütunlarda da cümleler ile oluşturulmuştur. İlk algoritmada çıkarımsal özetleme SVD yöntemine dayandırılmıştır ve cümleler puanlandırılmıştır. Burada düşük puanlı olmasına rağmen özete giren cümleler için ikinci yöntem çözüm olarak kullanılmıştır. İkinci yöntemde de tekrar bir matris oluşturulup cümle puanlandırılması yapılmakta ve birinci yöntemdeki olumsuzluklar giderilmektedir. Sonuç olarak çıkarımsal yöntemle yapılan metin özetinin, manuel yapılan özete daha yakın olduğu görülmüştür

  • [16] Güran A., Bekar E., Akyokuş S., “A Comprasion Of Feature and Semantic-Based Summarization Algorithms For Turkish”, International Symposium on Innovations in Intelligent Systems and Applications, Kayseri, 2010 yılında . Araştırmacıların gerçeklediği sistemde amaç, şimdiye kadar istatistiksel yöntemlerle yapılan özetleme işleminde çıkarımsal yöntemleri de kullanarak; bu iki yöntemi karşılaştırmışlardır. İstatistiksel yöntemde, cümle puanlandırma ile metin içerisindeki cümleler belli özelliklere ( başlık içerisindeki kelimeler, pozitif kelimeler, paragrafın yeri, büyük harfle başlayan kelimeler, belirteç içeren cümleler, negatif kelimeler, sayısal ifadeler, cümle uzunluğu, tarih belirten cümleler, anahtar kelimeler, işlemler ve noktalama işaretleri) göre puanlandırılmış ve en yüksek puanları alan cümleler ile özetleme işlemi gerçekleştirilmiştir. Çıkarımsal yöntem için iki farklı algoritma kullanmışlardır. Çıkarımsal olan iki yöntem içinde metinin cümle ve kelimelerinden oluşan matrisler oluşturulmuştur. Bu matrisler her hücrede tek kelime, sütunlarda da cümleler ile oluşturulmuştur. İlk algoritmada çıkarımsal özetleme SVD yöntemine dayandırılmıştır ve cümleler puanlandırılmıştır. Burada düşük puanlı olmasına rağmen özete giren cümleler için ikinci yöntem çözüm olarak kullanılmıştır. İkinci yöntemde de tekrar bir matris oluşturulup cümle puanlandırılması yapılmakta ve birinci yöntemdeki olumsuzluklar giderilmektedir. Sonuç olarak çıkarımsal yöntemle yapılan metin özetinin, manuel yapılan özete daha yakın olduğu görülmüştür



[17] Özsoy M.G., Alpaslan F.N., “Text summarization using Latent Semantic Analysis”, Journal of Information Science 1–13, 2011 çalışmalarında LSA tabanlı algoritmalardan bahsetmişler ve iki tanesini Türkçe ve İngilizce metinler için kullanmışlardır. Cross yönteminin diğer LSA yöntemlerinden daha iyi sonuçlar verdiğini, kısa dokümanlarda LSA yaklaşımının daha düşük performanslara neden olduğunu, tf-idf yönteminin de kısa dokümanlarda iyi sonuçlar vermediğini yaptıkları çalışmada gerçeklemişlerdir. Sonuç olarak Cross ve Topic yöntemlerinin Türkçe ve İngilizce dokümanlar da iyi sonuçlar verdiğini dolayısıyla başka diller içinde kullanılabileceğini de dile getirmişlerdir.

  • [17] Özsoy M.G., Alpaslan F.N., “Text summarization using Latent Semantic Analysis”, Journal of Information Science 1–13, 2011 çalışmalarında LSA tabanlı algoritmalardan bahsetmişler ve iki tanesini Türkçe ve İngilizce metinler için kullanmışlardır. Cross yönteminin diğer LSA yöntemlerinden daha iyi sonuçlar verdiğini, kısa dokümanlarda LSA yaklaşımının daha düşük performanslara neden olduğunu, tf-idf yönteminin de kısa dokümanlarda iyi sonuçlar vermediğini yaptıkları çalışmada gerçeklemişlerdir. Sonuç olarak Cross ve Topic yöntemlerinin Türkçe ve İngilizce dokümanlar da iyi sonuçlar verdiğini dolayısıyla başka diller içinde kullanılabileceğini de dile getirmişlerdir.



[18] Çakır M., Çelebi E., “Kapsama Katsayısı Tabanlı Kümeleme İle Belge Özetleme”, IEEE 19th Signal Processing and Communications Applications Conference (SIU 2011), 186-189, Berlin, 2011 yılında metin özetleme üzerine yapılan bir çalışmada da gerçeklenen sistemin tüm diller ile kullanılabilir olması amaçlanmıştır. Çalışmada C3M (Cover Coefficient-Based Clustering Methodology) algoritması kullanılmıştır. Öncelikle özeti çıkarılacak belgeler doğal dil işlemi yöntemleri ile işlenip C3M algoritmasında kullanılabilir hale getirilmiştir.C3M algoritması ile cümleler arasındaki benzeşimleri kullanılarak; belge içerisindeki özete girebilecek olan temsilci cümleler belirlenmiş olur. Precision, Re-call ve ROUGE değerlendirme algoritmaları kullanılarak sistem performansı ölçülmüş olup; önerdikleri sistemin CSS algoritması kullanarak gerçeklenen sisteme göre daha iyi sonuç verdiğini göstermişlerdir .

  • [18] Çakır M., Çelebi E., “Kapsama Katsayısı Tabanlı Kümeleme İle Belge Özetleme”, IEEE 19th Signal Processing and Communications Applications Conference (SIU 2011), 186-189, Berlin, 2011 yılında metin özetleme üzerine yapılan bir çalışmada da gerçeklenen sistemin tüm diller ile kullanılabilir olması amaçlanmıştır. Çalışmada C3M (Cover Coefficient-Based Clustering Methodology) algoritması kullanılmıştır. Öncelikle özeti çıkarılacak belgeler doğal dil işlemi yöntemleri ile işlenip C3M algoritmasında kullanılabilir hale getirilmiştir.C3M algoritması ile cümleler arasındaki benzeşimleri kullanılarak; belge içerisindeki özete girebilecek olan temsilci cümleler belirlenmiş olur. Precision, Re-call ve ROUGE değerlendirme algoritmaları kullanılarak sistem performansı ölçülmüş olup; önerdikleri sistemin CSS algoritması kullanarak gerçeklenen sisteme göre daha iyi sonuç verdiğini göstermişlerdir .



[14] Altan Z., "A Turkish Automatic Text Summarization System", International Conference Artifical Intellegence and Applications, 2004 yılında yapılan çalışma 50 farklı dokümandan oluşan bir küme kullanılmıştır. Sistem, istatistiksel yöntemler kullanılarak paragraflara, cümlelere ve kelimelere ayrılmış olup; önceden tanımlanmış ağırlık faktörleri de göze alınarak özet verileri çıkarmıştır. Ayrıca bu sistem oluşturulurken işlem öncesinde kullanıcıya çıkarılacak özetle ilgili olarak belirleyebileceği 3 özellik (özeti çıkarılacak dokümanı seçebilir, özetin uzunluğunu belirleyebilir ve veri tabanına ekleyip eklemeyeceğine karar verebilir) girişi bulunmaktadır.

  • [14] Altan Z., "A Turkish Automatic Text Summarization System", International Conference Artifical Intellegence and Applications, 2004 yılında yapılan çalışma 50 farklı dokümandan oluşan bir küme kullanılmıştır. Sistem, istatistiksel yöntemler kullanılarak paragraflara, cümlelere ve kelimelere ayrılmış olup; önceden tanımlanmış ağırlık faktörleri de göze alınarak özet verileri çıkarmıştır. Ayrıca bu sistem oluşturulurken işlem öncesinde kullanıcıya çıkarılacak özetle ilgili olarak belirleyebileceği 3 özellik (özeti çıkarılacak dokümanı seçebilir, özetin uzunluğunu belirleyebilir ve veri tabanına ekleyip eklemeyeceğine karar verebilir) girişi bulunmaktadır.



[30] M.V. Sami, B. Diri, “Web Tabanlı Otomatik Özet Çıkarma Sistemi ”, Akıllı Sistemlerde Yenilikler ve Uygulamaları Sempozyumu, Kayseri, 2010 yılında yapılan çalışmada Türkçe web sayfalarının belirlenen parametrelere göre özetlenmesi gerçekleştirilmiştir. Özetlenecek metin içerisinde yer alan her cümleye bir puan verip, özetleme oranına göre en yüksek puanlı cümleler seçilerek metnin özeti yaklaşık %59’luk bir basarı ile çıkarılmıştır. Aşağıdaki tabloda da cümle puanlandırma özellikleri verilmiştir.

  • [30] M.V. Sami, B. Diri, “Web Tabanlı Otomatik Özet Çıkarma Sistemi ”, Akıllı Sistemlerde Yenilikler ve Uygulamaları Sempozyumu, Kayseri, 2010 yılında yapılan çalışmada Türkçe web sayfalarının belirlenen parametrelere göre özetlenmesi gerçekleştirilmiştir. Özetlenecek metin içerisinde yer alan her cümleye bir puan verip, özetleme oranına göre en yüksek puanlı cümleler seçilerek metnin özeti yaklaşık %59’luk bir basarı ile çıkarılmıştır. Aşağıdaki tabloda da cümle puanlandırma özellikleri verilmiştir.



[31] A. Güran , “Otomatik Metin Özetleme Sistemi”, Doktora Tezi, Yıldız Teknik Üniversitesi, 2013. Metin özetleme çalışmalarında kullanılan yapısal ve anlamsal tüm özellikleri birleştirmek için bulanık tabanlı ve genetik algoritma tabanlı iki yeni ağırlıklandırma sistemi önerilmiş ve bu melez sistemler ile bulunan ağırlık değerlerinin kullanılmasıyla daha yüksek başarımlara ulaşıldığı gösterilmiştir.

  • [31] A. Güran , “Otomatik Metin Özetleme Sistemi”, Doktora Tezi, Yıldız Teknik Üniversitesi, 2013. Metin özetleme çalışmalarında kullanılan yapısal ve anlamsal tüm özellikleri birleştirmek için bulanık tabanlı ve genetik algoritma tabanlı iki yeni ağırlıklandırma sistemi önerilmiş ve bu melez sistemler ile bulunan ağırlık değerlerinin kullanılmasıyla daha yüksek başarımlara ulaşıldığı gösterilmiştir.

  • Yapılan çalışmanın sonuçları oluşturulan iki yeni Türkçe veri seti üzerinden değerlendirilmiştir. İlk veri seti 130 adet haber dokümanı ve bu dokümanların özetini çıkaran 3 kişinin oluşturduğu doküman özetlerini içermektedir. İkinci veri seti ise birinci veri setine göre daha kısa olan 130 adet haber dokümanı ve 3 kişinin oluşturduğu doküman özetlerini içermektedir. Veri setlerini oluşturan haber dokümanları dilbilgisi kurallarına uygundur ve her satırı bir cümle olacak biçimde düzenlenmiştir. Kullanıcılar buradan her doküman için ayrı ayrı özete girebilecek cümleleri tikleyerek özeti oluşturmuşlardır. Tez çalışmasının sonucu olarak kullanılan melez yöntemle özetleme başarısının arttırıldığı ve Türkçe metin özetleme konusunda yapılacak olan çalışmalar için oluşturulmuş iki veri seti oluşturulduğu görülmektedir.



[32] F. C. Pembe, “Automated Query-Biased And Structure-Preserving Document Summarization For Web Search Tasks”, Doktora Tezi, Boğaziçi Üniversitesi, 2010. Arama motorları tarafından sunulan özetlerin iyileştirilmesi amaçlı bir çalışma yapılmıştır. Geliştirilen sistemde dokümanların başlık ve alt başlıkları belirlenerek hiyerarşik bir yapı oluşturulmuş olup; bu yapının üzerine cümle ve bölüm puanlandırma işlemi yapılarak özetleme işlemi gerçekleştirilmiştir. Türkçe ve İngilizce dokümanlar üzerinde yapılan deneylerin sonuçları, önerilen sistemin özetlerinin, Google özetleri ve aynı boyutlardaki doküman yapısı bilgisini kullanmayan bilgi isteğine yönelik özetlere göre, makul karar süreleriyle, doğruluk açısından üstünlük sağladığını göstermektedir .

  • [32] F. C. Pembe, “Automated Query-Biased And Structure-Preserving Document Summarization For Web Search Tasks”, Doktora Tezi, Boğaziçi Üniversitesi, 2010. Arama motorları tarafından sunulan özetlerin iyileştirilmesi amaçlı bir çalışma yapılmıştır. Geliştirilen sistemde dokümanların başlık ve alt başlıkları belirlenerek hiyerarşik bir yapı oluşturulmuş olup; bu yapının üzerine cümle ve bölüm puanlandırma işlemi yapılarak özetleme işlemi gerçekleştirilmiştir. Türkçe ve İngilizce dokümanlar üzerinde yapılan deneylerin sonuçları, önerilen sistemin özetlerinin, Google özetleri ve aynı boyutlardaki doküman yapısı bilgisini kullanmayan bilgi isteğine yönelik özetlere göre, makul karar süreleriyle, doğruluk açısından üstünlük sağladığını göstermektedir .



[33] M. Y. Nuzumlalı, “Analyzing Stemming And Sentence Simplification Methodologies For Turkish Multi-Document Text Summarization”, Yüksek Lisans Tezi, Boğaziçi Üniversitesi, 2010. Farklı seviyelerde uygulanan kök bulma ve cümle sadeleştirme yöntemlerinin çoklu doküman özetleme üzerindeki etkisini araştırmıştır. Cümlelerin sözdizimsel özelliklerini kullanan kural tabanlı cümle sadeleştirme yöntemi denenmiştir. Yaptığı çalışma ile elde edilen sonuçlar şöyle sıralanabilir : kelime sonundan harf atma tekniği ile en iyi sonuç elde edilirken, detaylı morfolojik analiz yöntemleri ROUGE ölçütüne göre başarımı arttırmamıştır. Özetleme öncesinde kullanılan cümleyi sadeleştirme yöntemleri başarıyı az miktarda arttırmıştır; cümle kısaltmaya dayalı cümle sadeleştirme yöntemleri ROUGE ölçütlerine başarıyı düşürmüştür .

  • [33] M. Y. Nuzumlalı, “Analyzing Stemming And Sentence Simplification Methodologies For Turkish Multi-Document Text Summarization”, Yüksek Lisans Tezi, Boğaziçi Üniversitesi, 2010. Farklı seviyelerde uygulanan kök bulma ve cümle sadeleştirme yöntemlerinin çoklu doküman özetleme üzerindeki etkisini araştırmıştır. Cümlelerin sözdizimsel özelliklerini kullanan kural tabanlı cümle sadeleştirme yöntemi denenmiştir. Yaptığı çalışma ile elde edilen sonuçlar şöyle sıralanabilir : kelime sonundan harf atma tekniği ile en iyi sonuç elde edilirken, detaylı morfolojik analiz yöntemleri ROUGE ölçütüne göre başarımı arttırmamıştır. Özetleme öncesinde kullanılan cümleyi sadeleştirme yöntemleri başarıyı az miktarda arttırmıştır; cümle kısaltmaya dayalı cümle sadeleştirme yöntemleri ROUGE ölçütlerine başarıyı düşürmüştür .



[34] S. B.Bilgin, “Multi-Document Summarization Using Dependency Grammars”, Yüksek Lisans Tezi, Boğaziçi Üniversitesi, 2012. Bağımsal dilbilgisi yöntemi cümleler arası benzerlikleri bulmak için kullanılmıştır. Bu çalışmada da çoklu metin özetleme yapılmıştır. Kullanılan iki farklı bağımsal ağaç bazlı cümleler arası benzerlik bulma yöntemleriyle ilk olarak ilişki çıkarımı yapılmıştır. Daha önce bağımsal dilbilgisindeki bağıntıları da hesaba katan yeni bir bağımsal dilbilgisi bazlı cümleler arası benzerlik bulma yöntemi geliştirilmiştir. Tasarlanan bu yöntemlerle elde edilen sonuçların klasik yöntemler olan cümle seçerek özetleme ve çıkarımsal özetlemeden daha iyi sonuçlar aldıklarını belirtmişlerdir .

  • [34] S. B.Bilgin, “Multi-Document Summarization Using Dependency Grammars”, Yüksek Lisans Tezi, Boğaziçi Üniversitesi, 2012. Bağımsal dilbilgisi yöntemi cümleler arası benzerlikleri bulmak için kullanılmıştır. Bu çalışmada da çoklu metin özetleme yapılmıştır. Kullanılan iki farklı bağımsal ağaç bazlı cümleler arası benzerlik bulma yöntemleriyle ilk olarak ilişki çıkarımı yapılmıştır. Daha önce bağımsal dilbilgisindeki bağıntıları da hesaba katan yeni bir bağımsal dilbilgisi bazlı cümleler arası benzerlik bulma yöntemi geliştirilmiştir. Tasarlanan bu yöntemlerle elde edilen sonuçların klasik yöntemler olan cümle seçerek özetleme ve çıkarımsal özetlemeden daha iyi sonuçlar aldıklarını belirtmişlerdir .



[35] M. Berker, “Using Genetic Algorithms With Lexical Chains For Automatic Text Summarization”, Yüksek Lisans Tezi, Boğaziçi Üniversitesi, 2011 yılında metin özetleme sisteminde genetik algoritma ve sözcük zincirleri (lexical chains) yöntemlerini kullanmıştır. Metin içerisindeki sözcüklerin bağlılıklarının hesaplanması için sözcük zincirleri yöntemi kullanılmıştır. Sözcük zincirleri ve kullanılan bazı istatistiksel yöntemlerden elde edilen sonuçlar genetik algoritma ile eğitilerek metin özetine girecek olan cümleler seçilmiştir.

  • [35] M. Berker, “Using Genetic Algorithms With Lexical Chains For Automatic Text Summarization”, Yüksek Lisans Tezi, Boğaziçi Üniversitesi, 2011 yılında metin özetleme sisteminde genetik algoritma ve sözcük zincirleri (lexical chains) yöntemlerini kullanmıştır. Metin içerisindeki sözcüklerin bağlılıklarının hesaplanması için sözcük zincirleri yöntemi kullanılmıştır. Sözcük zincirleri ve kullanılan bazı istatistiksel yöntemlerden elde edilen sonuçlar genetik algoritma ile eğitilerek metin özetine girecek olan cümleler seçilmiştir.



[36] S. Karakaynak, “Development Of Tool For Managıng Semantıc Text Content”, Yüksek Lisans Tezi, Çankaya Üniversitesi, 2009 yılındaki çalışmasında çoklu dokümanlardan saklı anlamsal analiz yöntemi kullanılarak sanal merkeze dayalı özet çıkarılması amaçlanmıştır. İlk olarak saklı anlamsal analiz yöntemi kullanılarak anahtar terimler çıkarılır. Anahtar terimler cümle çıkarmaya başlamadan önce anlama katkısı olmayan cümlelerin filtrelenmesi için kullanılır. Daha sonra özet cümleler, anahtar terimleri barındıran cümlelerden sırasıyla saklı anlam indeksleme ve kümeleme ile sanal merkeze dayalı yöntem kullanılarak çekilir. Sistemin sonuçlarında LSA yönteminin doküman içerisindeki önemli terimleri bulma konusunda etkili olduğu görülmüştür. Sistem verilen veri seti DUC 2004 konferansında sunulan bildirilerdir. Sistem sonuçları ROUGE ile gözlenmiştir.

  • [36] S. Karakaynak, “Development Of Tool For Managıng Semantıc Text Content”, Yüksek Lisans Tezi, Çankaya Üniversitesi, 2009 yılındaki çalışmasında çoklu dokümanlardan saklı anlamsal analiz yöntemi kullanılarak sanal merkeze dayalı özet çıkarılması amaçlanmıştır. İlk olarak saklı anlamsal analiz yöntemi kullanılarak anahtar terimler çıkarılır. Anahtar terimler cümle çıkarmaya başlamadan önce anlama katkısı olmayan cümlelerin filtrelenmesi için kullanılır. Daha sonra özet cümleler, anahtar terimleri barındıran cümlelerden sırasıyla saklı anlam indeksleme ve kümeleme ile sanal merkeze dayalı yöntem kullanılarak çekilir. Sistemin sonuçlarında LSA yönteminin doküman içerisindeki önemli terimleri bulma konusunda etkili olduğu görülmüştür. Sistem verilen veri seti DUC 2004 konferansında sunulan bildirilerdir. Sistem sonuçları ROUGE ile gözlenmiştir.



[20] Tülek M., “Türkçe İçin Metin Özetleme”, İTÜ Fen Bil. Ens., Yük. Lis. Tezi 2007 çalışmasında gövdeleme yöntemi ve bazı istatistiksel yöntemler (başlık, sözcük sıklığı, ipucu sözcük öbekleri, metnin içindeki konum yöntemi) kullanılarak Türkçe dokümanlar üzerinde özetleme işlemi gerçekleştirilmiştir.

  • [20] Tülek M., “Türkçe İçin Metin Özetleme”, İTÜ Fen Bil. Ens., Yük. Lis. Tezi 2007 çalışmasında gövdeleme yöntemi ve bazı istatistiksel yöntemler (başlık, sözcük sıklığı, ipucu sözcük öbekleri, metnin içindeki konum yöntemi) kullanılarak Türkçe dokümanlar üzerinde özetleme işlemi gerçekleştirilmiştir.

  •  

  • Sonuçlar 10 adet belge ve bu belgelerin kişiler tarafından çıkarılan özetlerinden oluşan veri seti üzerinden değerlendirilmiştir. Geliştirilen sisteme başlığı olan, elektronik posta, bilimsel makale ve haber metinleri gibi dokümanlar verildiğinde özetlerini çıkarabilmekte olduğu; fakat sohbet kayıtları, reklam vs. gibi daha düzensiz metinlerde başarının düşük olduğu gözlenmiştir



[37] E.Gönenç, “Automated Text Summarization And Key phrase Extraction”, Yüksek Lisans Tezi, Çankaya Üniversitesi, 2006 yılında yapılan tez çalışması şöyledir: kullanılacak olan anahtar kelimeler, doküman içerisinden kelime zincirleri yöntemi ile seçilip; otomatik özet ve anahtar kelimeleri çıkarma şeklinde yapılmıştır. Yapılan çalışmanın sonuçları İngilizce metinler üzerinden elde edilmiştir.

  • [37] E.Gönenç, “Automated Text Summarization And Key phrase Extraction”, Yüksek Lisans Tezi, Çankaya Üniversitesi, 2006 yılında yapılan tez çalışması şöyledir: kullanılacak olan anahtar kelimeler, doküman içerisinden kelime zincirleri yöntemi ile seçilip; otomatik özet ve anahtar kelimeleri çıkarma şeklinde yapılmıştır. Yapılan çalışmanın sonuçları İngilizce metinler üzerinden elde edilmiştir.



Türkçe metin özetleme üzerine yapılmış olan çalışmalar genel olarak, bir grup insana manuel olarak çıkartılan özetler ile sistemin çıkardığı özet karşılaştırılarak yapılmıştır. Kişilere bazı sınırlamalar da getirilmiştir. Çıkaracakları özetin cümle sayısı sınırı ya da özeti çıkarılacak olan metinden özete koymak istedikleri cümleleri seçmeleri istenerek kişiler yönlendirilmişlerdir.

  • Türkçe metin özetleme üzerine yapılmış olan çalışmalar genel olarak, bir grup insana manuel olarak çıkartılan özetler ile sistemin çıkardığı özet karşılaştırılarak yapılmıştır. Kişilere bazı sınırlamalar da getirilmiştir. Çıkaracakları özetin cümle sayısı sınırı ya da özeti çıkarılacak olan metinden özete koymak istedikleri cümleleri seçmeleri istenerek kişiler yönlendirilmişlerdir.

  • İstatistiksel yöntemlerle yapılan metin özetleme çalışmalarında genel olarak belli metin grupları kullanımı tercih edilmiştir; haber metinleri, web sayfaları, müşteri memnuniyeti forumları gibi. Böylelikle özete eklenecek olan cümlelerin seçim kriterleri daha spesifik hale getirilmiş ve sistemin başarısı arttırılmıştır.

  • Literatürde geçen ROUGE ölçütleri ile karşılaştırılan sistem sonuçları az miktarda olup; Türkçe için yapılan metin özetleme çalışmalarında grupların çıkardıkları özetlere kıyasla daha düşük başarılar elde edilmiştir.



Türkçe doğal dil işleme üzerine internet ortamında yayınlanan çalışmada da yukarıda bahsedilen tümceyi öğelerine ayırma, çözümleme, biçimbilimsel analiz (sözcük ek ve köklerini bulma) gibi uygulamalar başarılı bir şekilde yapılabilmektedir.

  • Türkçe doğal dil işleme üzerine internet ortamında yayınlanan çalışmada da yukarıda bahsedilen tümceyi öğelerine ayırma, çözümleme, biçimbilimsel analiz (sözcük ek ve köklerini bulma) gibi uygulamalar başarılı bir şekilde yapılabilmektedir.

  • http://tools.nlp.itu.edu.tr/Tokenizer



http://www.tnc.org.tr/index.php/tr/icerik

  • http://www.tnc.org.tr/index.php/tr/icerik

  • http://www.denizyuret.com/2006/11/turkish-resources.html

  • https://github.com/ahmetaa/zemberek-nlp

  • https://code.google.com/p/zemberek/wiki/CesitliDokumanlar

  • http://www.dblab.upatras.gr/balkanet/

  • http://www.kemik.yildiz.edu.tr/

  • http://nlp.cs.deu.edu.tr/

  • http://tools.nlp.itu.edu.tr/Tokenizer



  • Metin özetlemeyle ilgili bir çok çalışma olsa da halen popülerliğini ve gelişimini devam ettiren bir konudur. Dijital ortamdaki dokümanların taranmasını kolaylaştıracağı, zaman ve iş gücü kaybını azaltacağı bir gerçektir. Ayrıca buradan yola çıkılarak yapılacak olan ticari yazılımlar içinde önemli bir kaynak olacağı gerçektir. Metin özetleme Türkçe için çalışma alanı geniş olan bir konudur. Türkçe’nin dilbilgisi yapısının getirdiği zorlukların yapılacak olan çalışmalar ile aşılacağı düşünülmektedir. Şimdiye kadar yapılan hem yapısal hem de anlamsal Türkçe metin özetleme çalışmalarında önemli sonuçlar alındığı yukarıda verilen çalışmalarda da görülmektedir.

  • Türkçe dokümanlar üzerinde Metin özetleme üzerine yaptığımız bu araştırmada amacımız bu konuyla ilgili bir kaynak oluşturabilmektir. Bu çalışmayla Türkçe metin özetleme konusuna bir giriş yapmış bulunmaktayız. Bir sonraki hedefimiz Türkçe dokümanlarda metin özetleme üzerine farklı bir sistem geliştirilmesi ve buradan elde edilecek verilerin farklı alanlarda da kullanılmasını sağlamak olacaktır.



  • Teşekkürler…



Yüklə 445 b.

Dostları ilə paylaş:




Verilənlər bazası müəlliflik hüququ ilə müdafiə olunur ©muhaz.org 2025
rəhbərliyinə müraciət

gir | qeydiyyatdan keç
    Ana səhifə


yükləyin