MiLLİ Dİl korpuslari və onlarin formalaşmasi priNSİPLƏRİ



Yüklə 235,68 Kb.
səhifə16/41
tarix05.01.2022
ölçüsü235,68 Kb.
#111770
1   ...   12   13   14   15   16   17   18   19   ...   41
· leksikoqrafik altfond

· qrammatik altfond

· əlyazmalar kataloqu altfondu

· qədim çap kitablarının kataloqu altfondu

· təcrübi- fonetik altfond

· dialektoloji altfond” [12, s.49]

Başqırd dilinin maşın fondunun yaradılması sahəsində qazanılmış təcrübə və materiallar korpusun hazırlanmasında istifadə olunur. Bura avtomatik təhlil və sintez alqoritmləri, leksikoqrafik baza və s daxildir. Korpusda sözformalarını lüğət vahidi formasına gətirməyə imkan verən morfoloji təhlil alqoritmləri əsas komponentlərdən hesab olunur. Hazırda korpusda XX əsrin əvvəllərindən indiyə qədərki dövrü əhatə edən 63 müəllifin 579 əsərinin elektron variantı hazırlanmış, ümumi həcmi 9277754 - sözforma redaktə olunmuşdur. Başqırd dilinin milli korpusunun dövrü mətbuat (qəzet, jurnal), folklor, rəsmi-işgüzar və elmi mətnləri əhatə edən altkorpuslarının yaradılması işlərinə başlanmışdır [43, s.57].

Rusiya humanitar elm fondunun qrantı çərçivəsində Tuva Dövlət Universitetinin “Türkologiya” elmi-tədris mərkəzində 2011-ci ildən başlayaraq Tuva dilinin korpusunu yaratmaq üzrə iş aparılır. Layihənin məqsədi sistemləşdirilmiş linqvistik məlumatlar bankını düzəltmək, həmin bankdan nəzəri və tətbiqi məsələlərin həlli üçün istifadə etməkdir. Layihənin əsas məqsədi aşağıdakılardır: 1) tuva mətnlərinin məlumatlar bazası və həmin məlumatların idarə olunması sisteminin yaradılması; 2) tuva dili üzrə linqvistik və statistik tədqiqatlar aparmaq üçün informasiyanın avtomatik toplanması üzrə kompüter proqramlarının qurulması; 3) tuva mətnlərinin elektron korpusunun saytının düzəldilməsi.

Tuva dilinin korpusunun yaradılması çərçivəsində bu günə qədər sovet dövrü tuva şair və yazıçılarının əsərlərinin mətnləri elektron formata salınmışdır. Korpusda tuva folkloruna dair mətnlər, poetik nümunələr, rəsmi sənədlər və s. daxil edilmişdir. Tədqiqatçılar cavascript proqramlaşdırma dilində korpus mətnləri üzrə morfem axtarışı proqramı qurmuşlar. Onu da qeyd edək ki, proqram Internet Explorer brauzerində text formatında UTF-8 kodlaşdırılması materialı üzrə işləyir. Mətnlər Microsoft Word proqramında yığılır. Proqram verilmiş morfemin tapılması məsələsini reallaşdırır. Proqramın funksionallığının gələcəkdə artırılması nəzərdə tutulmuşdur. Tuva dilinin korpusunda elektron lüğətlərin qurulması proqramları da həyata keçirilir. Məsələn, tuva dilinin morfem lüğəti tərtib edilmişdir. Lüğətə yalnız kök və əsas morfemlər deyil, sözformalar da daxildir. Korpusun “TıvLin” lüğəti ABBYY Lingvo elektron lüğəti sistemində tərtib edilmişdir. Proqram tuva dilinə aid sözlərin işləndiyi kontekstləri axtarır və onları rus dilinə tərcümə edir. Lazım gələn söz klaviatüradan maşına daxil edilir. Hazırda www.tuvancorpus.ru korpusuna girmək və ondan istifadə etmək mümkündür.

Türk dillərinin milli korpuslarının müxtəlif kodlaşdırma və fərqli proqramlar əsasında yaradılması gələcəkdə bu korpusların birləşdirilməsində bir çox çətinliklərin meydana çıxmasına səbəb olacaqdır.

Azərbaycan tədqiqatçılarının kollektiv məqaləsində göstərilir ki, NLP ilə bağlı tədqiqatlar bir çox türkdilli xalqların milli dil korpuslarının yaradılması sahəsində işlərin genişlənməsinə imkan yaratmışdır. Belə ki, hazırda qazax, tatar və başqırd dillərinin yaradılmaqda olan milli korpusları ilə bağlı işlər gedir. Qırğız və qazax mətnlərinin statistik metodlarla tədqiqi sahəsində T.Sadıkov və B. Şarşembayevin tədqiqatları böyük maraq doğurur. Bu iki tədqiqatçının çoxillik zəhmətinin nəticəsi olan və 2011-ci ildə Ankarada Türk Dil Kurumu Yayınları tərəfindən çap olunmuş 1647 səhifədən ibarət “Manas destanı. Kırgızca-türkçe büyük dizin” sözlüyünü xüsusi qeyd etmək olar. Bu araşdırma türk dillərinin müştərək dil korpusunda yerləşdiriləcək material kimi önəmlidir. Bir milyondan çox misradan ibarət dastanın sözlüyünün tərtibi yeni texnoloji vasitələrin köməyi olmadan mümkün olmazdı. Dastanda işlənmiş sözlərin qrammatik formadan lüğət vahidi formasına gətirilməsi işləri də yerinə yetirilmişdir [20, s.18].

“Dilmanc” layihəsi çərçivəsində birdilli korpuslar əsasən yuxarıda sadalanan elektron resurslar hesabına formalaşır. Texniki cəhətdən birdilli korpusların hazırlanması və yeni resurslar hesabına zənginləşdirilməsində çətinlik müşahidə olunmur. İkidilli korpusların hazırlanmasının isə bir çox özünəməxsusluqları vardır.

Biz bu bölmədə Azərbaycan dilinin milli korpusu haqqında bəhs edəcəyik. Məsələ burasındadır ki, dilimizin milli korpusu haqqında müəyyən məlumatlara rast gəlirik. Azərbaycan dilçiliyində C.Rəhmanov bu sahədə bir sıra nəzəri tədqiqatlar aparmışdır [30, s.160]. Başqa dilçilər də bu sahədə araşdırmalar aparmışlar. Onlardan M. Mahmudov, Ə. Fətullayev, K. Vəliyevanı nümunə göstərmək olar. Məsud Mahmudovun 9 fəsildən ibarət “Kompüter dilçiliyi” adlı kitabında Azərbaycan dilinin milli korpusu barədə məlumat verilir. Azərbaycan dilçiliyində MT probleminin tədqiqi 60-cı illərin sonunda başlamışdır. Bu zaman ən mühüm məsələlərdən olan sözün sintezi, avtomatik lüğətin tərtibi kimi məsələlərə baxılmış, iltisaqi dillərə xas olan qanunauyğunluqlar; ahəng qanunu, morfemlərin söz formasında sıra düzümü və s. nəzərdən keçirilmişdir. Yəni, sintez prosesində bütün bu qanunlar nəzərə alınmışdır. Son illər MT sistemində praktiki cəhətə daha çox üstünlük verilmiş, bu baxımdan Azərbaycan dili mətnlərinin düzgünlüyünü yoxlayan AZ Spellcheck sistemi yaradılmışdır və Windows sisteminə daxil edilərək realizə olunmuşdur [32, s.53].

Böyük praktiki əhəmiyyət kəsb edən tədqiqatlardan Ə. Fətullayevin Azərbaycan dilinin formal modellərin yaradılması və onların əsasında linqvistik prosessorların qurulmasıdır. Bu tədqiqatda leksik və morfoloji səviyyədə dilin xassələrinin tədqiqi və bu xassələrin analizi üçün uyğun riyazi alqoritm işlənmişdir. Hazırlanmış alqoritm Mətnlərin Avtomatik emalı sisteminə tətbiq edilmiş və tərtib olunmuş morfoloji lüğətlər kompüter lüğəti sisteminə daxil edilmişdir. Bundan başqa bu metodlar “Azərbaycan dilində mətnlərin düzgünlüyünü yoxlayan” sistemdə istifadə olunmuşdur. Bu gün Azərbaycanda M. Mahmudovun rəhbərliyi ilə layihə hazırlanmış və bu layihə çərçivəsində 2017-ci il ərzində ən çox istifadə olunan lüğətlərin Azərbaycan dili portalına yerləşdirilməsi və lüğətlərin onlayn təkmilləşdirilməsi və yenilənməsi nəzərdə tutulur [32, s.54]. Lakin, onu da nəzərə almaq lazımdır ki, korpusdan o vaxt danışmaq olar ki, o, elektron daşıyıcılarında yerləşdirilsin və istifadəyə verilsin. Ona görə də, Azərbaycan dilinin milli korpusu barədə ingilis, rus, başqırd, tuva və s. qədər danışmaq olmur.


Yüklə 235,68 Kb.

Dostları ilə paylaş:
1   ...   12   13   14   15   16   17   18   19   ...   41




Verilənlər bazası müəlliflik hüququ ilə müdafiə olunur ©muhaz.org 2024
rəhbərliyinə müraciət

gir | qeydiyyatdan keç
    Ana səhifə


yükləyin