MiLLİ Dİl korpuslari və onlarin formalaşmasi priNSİPLƏRİ


III FƏSİL MİLLİ DİL KORPUSLARININ TƏTBİQİ



Yüklə 235,68 Kb.
səhifə32/41
tarix05.01.2022
ölçüsü235,68 Kb.
#111770
1   ...   28   29   30   31   32   33   34   35   ...   41
III FƏSİL

MİLLİ DİL KORPUSLARININ TƏTBİQİ
3.1. Kompüter dilçiliyinin tədqiqat istiqamətləri arasında əlaqələr
Müasir dünyada müxtəlif dil araşdırmaları apararkən kompüter dilçiliyindən geniş istifadə olunur. Kompüter dilçiliyini bir çox tədqiqatçılar tətbiqi dilçiliyin bir qolu hesab edirlər. Dilin müxtəlif məqsədlərlə modelləşdirilməsi ilə bağlı proqramlar kompüter texnologiyaları və vasitələri tətbiqi dilçiliyin bu sahəsində geniş istifadə olunur. Kompüter dilçiliyində qarşıya çixan ən böyük problemlərdən biri mətnlərin struktur, qrammatik və semantik cəhətdən emalıdır. Mətn formalarının, daha doğrusu, nitqin yazılı və şifahi olmasından asılı olaraq kompüter tərəfindən tanınmasıdır. Bu sahədə şifahi nitqi tanıma mühüm əhəmiyyət kəsb edir və nisbətən daha çətin problemdir. Kompüter dilçiliyinin digər problemləri nitqin sintezi və analizi ilə bağlıdır. Müasir kompüter dilçiliyi sürətlə inkişaf edir və böyük elmi, eləcə də tətbiqi nailiyyətləri ilə diqqəti cəlb edir. Bütün dillərdən bir-birinə avtomatik tərcümə sistemləri yaradıl­mış­dır. Bir sıra dillərdən bir-birinə tərcümə təkmilliyi ilə seçilir. Rusiya, ABŞ, Yaponiya kimi ölkələrdə maşın tərcüməsi üçün yaradılmış sistemlər artıq bu gün qənaətbəxş sayılır. Kompüter dilçiliyi birdilli və ikidilli maşın lüğətləri hazırlan­masında da böyük uğurlar əldə etmişdir. Kompüter dilçiliyi qarşısında ən başlıca linqvistik məsələlər (informasiyaların axtarışı, toplanması, emalı və s.) durur. Bu proses mətnlərin orfoqrafik, sintaktik və semantik yoxlanılması mərhələlərində aparıla bilər.

Birinci mərhələdə mətnlər daxil edilir və orfoqrafik səhvlər axtarılıb düzəldilir. İkinci mərhələdə sintaktik düzəlişlər aparılır. Üçüncü mərhələ səhvlərin üslub və semantik səviyyələrdə emalını əhatə edir.

Kompüter dilçiliyi müxtəlif istiqamətlərə bölünür. Burada vacib istiqamətlərdən biri maşın tərcüməsi hesab edilir. Maşın tərcüməsinin ilk təcrübəsi 1954-cü ildə aparılmışdır (ABŞ-da Vaşinqton, Corctaun Universitetində). O vaxtdan yarım əsr keçməsinə baxmayaraq maşın tərcüməsində yaranan problemlər hələ də tam həllini tapmamışdır. Bu problem düşünüldüyündən də çətin məsələyə çevrilmişdir (136).

Kompüter dilçiliyinin nailiyyətlərindən ilk öncə RETRANS sistemini qeyd etmək olar. Bu sistemin ilk versiyası 1993-cü ildə Rusiya, Fransa, ABŞ və İngiltərədə dövlət müəssisələrində istifadə edilirdi. Bundan sonra digər başqa sistem versiyalar da yaradılmışdır. 1998-ci ilə qədər bu sistemlər MS DOS sistemi çərçivəsində istifadə üçün nəzərdə tutulurdu. Lakin 1998-2000-ci illərdə onlar Windows 9x\ NT və UNİX 9 (Linux, Solaris və s.) üçün də tətbiq olundular. RETRANS sistemi lüğət blokuna terminoloji lüğətlərin də daxil edilməsini nəzərdə tutur. Bu sistemin istifadəçisi müxtəlif mövzular üzrə sonsuz sayda lüğətlər tərtib edə bilər.

Kompüter dilçiliyi dilçilik elminin bir sahəsi kimi iki yerə bölünür: 1) nəzəri və 2) tətbiqi kompüter dilçiliyi.

Nəzəri sahədə dil və kompüter arasında qarşılıqlı əlaqə xüsusi yer tutur. Təbii dilin kompüterə köçürülməsi kimi başa düşülür. Təbii dil kompüterlə yenidən işlənir. Ümumiyyətlə, nəzəri kompüter dilçiliyi təbii dilin xüsusiyyətlərini öyrənir. Bu baxımdan nəzəri kompüter dilçiliyinin böyük əhəmiyyəti var. Belə ki, insanın dildən istifadə səriştəsini kompüterə başa salmaq lazım gəlir. Nəzəri kompüter dilçiliyi sahəsində tədqiqatlar dilin formallaşdırılmasının praktik məqsədləri üçün faydalıdır.

Tətbiqi kompüter dilçiliyinin əsas problemlərindən biri təbii dilin kompüter vasitəsilə işlənməsi və süni nitqin yaradılmasıdır. Tətbiqi kompüter dilçiliyi informatika, riyaziyyat, məntiq, koqnitiv psixologiya ilə sıx bağlıdır. İlkin danışıq maşınları insan səsinin təqlidinə xidmət edirdi. Elektron nitqinin yaradılması sahəsində müasir cəhdlər nitq sintezi adlanır və bunun nəticəsində sintetik nitq alınır. Sintetik nitq sistemlərinin çevikliyi ilə bağlı problemlər mövcuddur. Məsələn, nitq istehsalı sözlərin tələffüzündən daha mürəkkəb prosesdir. Burada intonasiya, fasilə və s. amillər nəzərə alınır. Dilin formallaşdırılması zamanı dilçilik obyektlərinin qeyri- dəqiqlik probleminin həllinin təbii üsulu statistikaya müraciət hesab olunur. Hazırda mətnlərin avtomatlaşdırılmasının bir çox məsələləri əksər hallarda kompüterdə həll oluna bilir. Statistik göstəricilərin maşında əldə olunması üçün bir çox standart proqramlar qurulmuşdur [22, s.103-108].

İngilis dilindən belə bir nümunənin avtomatik təhlilinə baxaq: “To make a second try”. Bu cümlədə “to” önlük və ədatdır, “make” isim və feildir, “a” artikldır, “second” saydır, “try” isim və feildir. Bu omoqrafların hər bir tipinə aid dil vahidlərinin işlənmə tezliyi hesablana bilər.

Ümumiyyətlə, kompüter dilçiliyi anlayışı çox genişdir. Kompüter dilçiliyi bir neçə elm sahəsinin kəsişmə nöqtəsində yaranan yeni bir elmdir. Bir çox alimlər kompüter dilçiliyini tətbiqi dilçiliyin bir qolu hesab edirlər.

XX əsrin ortalarına doğru elektron hesablama maşınlarının yaranması elmdə inqilab yaratdı. Qısa zaman ərzində yeni bir elm sahəsi yarandı. Bu dövrdə dilçilik öz inkişafının elə mərhələsində idi ki, onun tədqiqat aparatı böyük həcmli massivlərlə işləməkdə çətinlik çəkirdi. Yeni metodların köməyi ilə dilin modelləşdirilməsi, statistik-riyazi baxımdan tədqiqi imkanı yarandı. Dilin indiyə qədər gizli qalan və ilk nəzərdən əhəmiyyətsiz görünən bir çox cəhətləri üzə çıxarıldı və maraqlı elmi nəticilər alındı.

Digər tərəfdən riyaziyyatçılar özləri də dil materiallarına bir tədqiqat obyekti kimi baxmağa başladılar” [12, s.23].

Son zamanlar elmi-texniki mətnlərin, müxtəlif rəsmi sənədlərin işlənməsi, maşın tərcüməsi, referatların hazırlanmasının avtomatlaşdırılması istiqamətində böyük irəliləyişlər əldə edilmişdir. Müxtəlif dillər üçün tərcümə sistemlərinin, avtomatik lüğətlərin hazırlanması da dilçilikdə yeni bir sahənin yaradılması zərurətini doğurmuşdur. Beləliklə, XX əsrin ortalarında bir sıra dəqiq elmlərlə dilçiliyin qovuşma nöqtəsində yeni bir elm sahəsi yarandı. İlk vaxtlar ona “riyazi dilçilik”, “hesablama dilçiliyi” və s. adlar verildi. Nəhayət, “kompüter dilçiliyi” olaraq yeni bir elm sahəsi meydana gəlmişdir. Bu yeni elm sahəsinin tədqiqat obyekti də, predmeti də məlum idi. “Dünya elmində və rus dilçiliyində də “kompüter dilçiliyi” dilçiliyin yeni sahəsi kimi tanınır və bu termin artıq dünya elmində vətəndaşlıq hüququ qazanmışdır” [68, s.38].

Kompüter dilçiliyi yeni bir elm sahəsi kimi, XX əsrin 60-cı illərində formalaşmağa başlamışdır. Kompüter dilçiliyini tətbiqi dilçiliyin başqa sahələrindən fərqləndirən əsas cəhət dil materiallarinin kompüterdə işlənməsidir. Müstəqil bir elm sahəsi kimi formalaşan kompüter dilçiliyində bir çox anlayış və terminlər mövcuddur.

Kompüter dilçiliyi çox geniş bir anlayışdır və bir-birindən fərqli sahələri özündə cəmləşdirir. Bura maşın tərcüməsi, kompüter lüğətçiliyi və s. daxildir. Bu sahələr özləri də çox geniş anlayışa malikdirlər. Kompüter dilçiliyinin sahələri hər biri dərin elmi araşdırmalar tələb edən sahələrdir. Kompüter dilçiliyi surətlə inkişaf edən elm sahələrindəndir” [12, s.24].

XX əsrin ortalarında kompüter dilçiliyinin əsas vəzifələri nəzəri linqvistik modellərin hazırlanmasına yönəlmişdi. Eyni dövrdə tədqiqat obyekti statistik metod­ların tətbiqinə, mətnlərin emalına, bir sıra digər məsələlərin həllinə istiqamətlənmişdi. Dilçilik elminin inkişafının müasir mərhələsi daha çox hesablama texnikasının dilçiliyin müxtəlif sahələrinə nüfuzu ilə səciyyələnir. Dil hadisələrinin mahiyyətinin araşdırılması ilə bağlı tədqiqatlara riyazı statistikanın tətbiqi, dildəki qanunauyğun­luqların yeni baxış bucağı altında nəzərdən keçirilməsi və izahı dil nəzəriyyəsinin yeni-yeni metod və nəzəri müddəalarla zənginləşməsi ilə nəticələnir [76, s.5].

Müasir hesablama texnikasının coşqun inkişafı, proqram və linqvistik təminatın getdikcə təkmilləşməsi, maşın yaddaşının və sürətinin artması dilçilikdə müxtəlif tədqiqatların aparılmasına imkanlar açır. Hazırda fərdi kompüterlərdə də iri həcmli dil materiallarının müxtəlif məqsədlərlə işlənməsi və müxtəlif nəticələrin əldə olunması sahəsində xeyli təcrübə toplanmışdır. Bu da insanın əqli fəaliyyətinin müxtəlif sahələrinin avtomatlaşdırılması üçün geniş imkanlar yaratmışdır [12, s.12].

Bununla da “insan-maşın-insan” anlayışı yarandı və bunun nəticəsində yeni bir mərhələ – kompüter dilçiliyi mərhələsi başladı. Hal-hazırda maşın tərcüməsi, avtomatlaşmış məlumat xidmətləri, proqramlaşdırılmış dil tədrisi vasitələri və s. bu kimi istiqamətlər mövcuddur.

Kompüter dilçiliyinin yarandığı ilk vaxtdan təbii dillərin mətnlərinin avtomatik işlənməsinə maraq böyük olmuşdur. İstifadəçilər sanki dildən çox təbii dildə olan mətn toplularından istifadə etməyə üstünlük verirdi.

Müasir dövrdə insan nitqini və təbii dillərdə mətnləri qəbul edən, təhlil blokundan keçirməklə qavraya bilən süni sistemlərin yaradılması “insan-kompüter-insan” ünsiyyət kanalının yaranmasının əsasını qoydu. Bu da kompüter dilçiliyində yeni bir sahənin – dialoq sisteminin formalaşmasına marağı artırdı.

Kompüter dilçiliyinin mühüm tədqiqat sahələrindən olan təbii dilin (mətnlərin) işlənməsinə XX əsrin 60-cı illərindən başlanmışdır. Konkret bir dilin kompüterdə işlənməsinin metodunun hazırlanması sistemi hesablama texnikasından səmərəli istifadə etməyə xidmət göstərir.

Kompüter dilçiliyinin əsas bölmələrini şərti olaraq riyazi və statik metodların tətbiqi ilə dilin kəmiyyət xüsusiyyətlərini öyrənən riyazi dilçilik, tezlik və maşın lüğətlərinin tərtibinin avtomatlaşdırılmasını, süni intellektin yaradılması, nitqin tanınması və sintezi kimi problemləri əhatə edən tətbiqi dilçilik, maşın tərcüməsi və son dövrdə yaranmış korpus linqvistikası bölmələri vardır.

K.Vəliyevanın fikrinə görə, kompüter dilçiliyinin əsas istiqamətlərinə aşağıda sadalanan məsələlər daxildir: “1) təbii dilin emalı; burada mətnin sintaksis, morfoloji, semantik təhlili nəzərdə tutulur; 2) korpus dilçiliyi (buraya mətnlərin elektron korpuslarının yaradılması və istifadəsi daxildir); 3) elektron lüğətlərin hazırlanması (tezaurus, avtomatik tərcümə lüğətləri, ensiklopediyalar, orfoqrafik, izahlı, termino­loji və sahə lüğətləri, səhvlərin avtomatik aşkarı üçün spelling lüğətləri və s. ); 4) mətnlərin avtomatik tərcüməsi sistemləri (Dilmanc, Google Translate və s.); 5) mətn­lərdən faktların, məlumatların, informasiyanın çıxarılması (fact extaction, text mining); 6) avtoreferatlaşdırma; bu funksiya Microsoft Word-ə daxil edilmişdir; 7) bilik (ekspert) sistemlərinin yaradılması; 8) sual-cavab (dialoq) sistemlərinin yaradılması; 9) simvollarin optik tanınması (OCR, Fine Reader proqramı); 10) nitqin avtomatik tanınması; 11) nitqin avtomatik sintezi; 12) məlumat axtarış sistemlərinin hazırlanması”[33, s.98].

Təsnifata süni intellekt sistemlərini (ətraf mühitin tanınması və qəbul edilməsi, insan və maşın arasında informasiya mübadiləsinin təmini, əmrlərin qəbul edilməsi və qərarların verilməsi) də daxil etmək olar. Ümumiyyətlə, kompüter linqvistikası ilə korpus linqvistikası arasındakı münasibət məsələsi tez-tez ortaya atılır. Tədqiqatçılar onları bəzən ayırır, bəzən korpus linqvistikasını ümumiyyətlə kompüter dilçiliyinin tərkibinə daxil edirlər. Əslində “kompüter dilçiliyi” termini özü mübahisə obyekti kimi diqqəti özünə çəkir. Əvvəllər “riyazi dilçilik”, “struktur-tətbiqi dilçilik”, “mühəndis dilçiliyi”, “hesablama linqvistikası” tipli adlarla adlandırılan bu sahənin indi “kompüter dilçiliyi” ilə ifadə olunmasının əsas səbəbi bu sahədə kompüterin tətbiqi ilə bağlıdır. Əgər bu və ya digər bir bölməni götürsək, orada kompüterdən istifadənin zəruriliyi üzə çıxır. İlk dövrlərdə hesablama linqvistikası anlayışının istifadə edilməsinin səbəbi dil vahidlərinin hesablanması ilə birbaşa bağlı idi. Hesablama aparılması zərurətinin meydana çıxması, şübhəsiz ki, bu və ya digər mətndə hansı sözün neçə dəfə rast gəlinməsini tapmaqla bağlı idi. Daha əvvəllər kompüterlər olmadıqda tədqiqatçı bu cür məsələnin həlli üçün mətni dəfələrlə oxuyur və orada axtarılan sözü qeyd edir, sonradan qeydə alınmış sözləri saymaqla kəmiyyət göstəricisini müəyyənləşdirirdi. Aydındır ki, məsələyə bu cür yanaşma ən sadə hesab əməlini yerinə yetirməklə həllini tapırdı. Qoyulan məsələnin bir qədər də mürəkkəb­ləşdirilməsi tədqiq edilən mətndə ümumiyyətlə, neçə sözdən istifadə olunması istiqamətində getmişdir. Yenə də adi hesablamalar əsasında fərqli sözlərin miqdarı müəyyənləşdirilirdi. Bir qədər də irəli getmək nəticəsində dildə istifadə olunan bütün sözlərin və ya onların əksəriyyətinin qeydə alınması oldu. Belə bir məsələnin həlli zamanı tədqiqatçılar dildə bütün istifadə olunan sözlərin tapılmasının tədqiq olunan mətnlərin sayının son dərəcə artması ilə üzləşdilər. Bütün mətnlərin əllə emalı isə mürəkkəb, daha doğrusu mümkün olmayan bir məsələ idi. Belə olanda tədqiqatçılar ümumiyyətlə, hansı həcmdə mətnləri təhlil və hesablamaya cəlb etməklə dildə işlənən sözlərin əsas hissəsini müəyyənləşdirməyin mümkünlüyü üzərində düşünməyə başlamışlar. Buradan da riyazi statistika və ehtimal nəzəriyyəsinin tədqiqat metodlarını tətbiq etmək və qoyulan məsələni həll etmək kimi ideyalar ortaya atılır. Həmin andan həm “riyazi dilçilik” anlayışı, həm də dilin riyazi-statistik yolla tədqiqi istiqaməti yaranmışdır.

Dilçilik yarandığı gündən hesablamaq, saymaq, bununla da dil sistemindəki qanunauyğunluqları üzə çıxarmağa çalışıb. Məlumdur ki, bütöv dili öyrənmək qeyri-mümkündür. Əvvəla, sistemin aşağı yarusu çox məhdud vahidlərdən ibarətdir. Fonoloji, morfoloji, hətta leksematik səviyyədə vahidlərin inventarını müəyyənləş­dirmək o qədər də asan deyildir [34, s.55].

Dilin kəmiyyət xarakteristikalarının öyrənilməsi fərqli tipli məsələlər ortaya atmağa imkan vermişdir. Dildə neçə söz var? Dildə hansı sözlər çox işlənir? Dildə hansı fonemlər çox işlənir? Dilin fonemləri hansı birləşmələri əmələ gətirir, hansı fonem birləşmələrinin yaranmasında məhdudiyyət vardır. Dilin ən çox işlənən sözlərinin düzülüş ardıcıllığı necədir? Bu tipli kifayət qədər çox məsələ ortaya atmaq olar. Hər bir məsələ də dilçilik üçün xüsusi önəm daşıyır. Fikrimizcə, ilk əhəmiyyətli iş kimi, dil vahidlərinin tezlik xüsusiyyətlərini öyrənmək məsələsi aktuallığı ilə seçilmişdir. Sonralar bu məsələ dilin tezlik lüğətlərinin yaradılmasına təkan vermiş­dir. Tədqiqatçılar danışmaq üçün neçə sözü bilməyin vacib olduğunu öyrənmək istəmişlər və bunun həllində onların köməyinə məhz tezlik lüğətləri gəlmişdir.

Azərbaycan dilçiliyində tezlik lüğətlərinin tərtibi sahəsində xeyli iş görülmüşdür. Kompüter vasitəsilə tərtib olunan lüğətləri nəzərdən keçirəcəyik. Bu məsələ kompüter və onun işləmə prinsipi “insan-maşın” dialoqunu tələb edir. Bu sistemdə tədqiq olunan məsələlər aşağıdakı mərhələlər üzrə həll edilir: “1) məsələnin ümumi qoyuluşu; 2) məsələnin riyazi qoyuluşu; 3) kompüterin girişinə daxil oluna­caq materialların (ilk verilənlərin) hazırlanması, yəni kodlaşdırılması; 4) məsələnin həlli üçün uyğun metodların seçilməsi; 5) məsələnin alqoritminin qurulması və onun blok-sxeminin hazırlanması; 6) qurulmuş alqoritmin proqramlaşdırılması; 7) məsə­lənin kompüterdə həlli; 8) kompüterdə alınan nəticələrin araşdırılması” [32, s.60].

Bütün bu ardıcıllıq hesablama dilçiliyi, riyazi dilçilik sahəsində yeni istiqamət­lərin formalaşmasına aparıb çıxarmışdır. Elektron maşın sistemlərində qənaətlə işləmək, danışılanın yazıya çevrilməsi və gözlə görünməsinin təmin edilməsi və s. məsələlər dilçilərin başqa elm sahələrilə əməkdaşlığını zəruri edir. Bu əməkdaşlıq imkan verir ki, kompüter klaviaturasında hərflərin düzülüşü onların işlənmə tezliyinə uyğun olaraq qurulsun. “Hazırkı kompüter klaviaturası bizim dilimizin tədqiqinə əsaslanmadığından işarələrin düzümündə ciddi problemlərlə qarşılaşırıq. Azərbaycan dilində ən yuxarı tezlikli “a” və “ə” qrafemləri klaviaturanın kənarına çıxarılıb. Halbuki onlar mərkəzdə olmalı idi. Statistik metod ayrı-ayrı yazıçı və şairlərin üslubunu müəyyən etməyə imkan verir. Statistik metod sübut etmişdir ki, ən qısa, qədim, ən sadə və daha çox məna tutumu olan elementlər daha yüksək işlənmə tezliyinə malikdir” [34, s.56].

F.Veysəllinin qeyd etdiyi bir çox məsələlər Azərbaycan dili üçün tədqiqat səviyyəsində həllini tapmışdır. Lakin bu tədqiqatların nəticələrindən yetərincə istifadə edilməmişdir.

Azərbaycan dilində olan mətnlərin kompüterdə yığılması Azərbaycan əlifbasının hərflərinin – qrafemlərin dilin kəmiyyət xarakteristikaları əsasında klaviaturada yerləşdirilməsini tələb edir. Qrafemlərin klaviaturada yerləşdirilməsinin hazırda istifadə olunan düzülüşü rus əlifbası hərflərinin düzülüş sxemi əsasında aparılmışdır. Belə düzülüşün istifadə edilməsi səbəbi kiril əsaslı Azərbaycan əlifbası olmuşdur.

Rus və Azərbaycan dilləri üçün ortaq olan hərflər rus dili üçün qəbul edilmiş düzülüşdə olduğu kimi saxlanılmışdır. Rus dilinin spesifik hərfləri Azərbaycan dilinin spesifik hərfləri ilə əvəz edilmişdir. Rus hərflərinin düzülüşünə əsaslanan sxem Azərbaycan dilində özünü doğrultmur. Çünki rus və Azərbaycan dili mətnləri üzrə qrafemlərin statistik-distributiv təhlilindən alınan nəticələri fərqlidir [30, s.160].

Sovet dövründə Azərbaycan dilində yazmaq üçün makinalar buraxılmamışdır. Bu məsələ yalnız 1986-cı ildə qaldırılmışdır. Nəticədə 1987-ci ildə ilk dəfə Azərbay­can dili qrafemlərinin yazı makinasının klaviaturasında yerləşdirilməsi standartı işlənib hazırlanmış və təsdiq edilmişdır.

1992-ci ildə 581-87 saylı respublika standartına yenidən baxılmış, bəzi hərflərin yerləri dəyişdirilmişdir.

Yazı makinasında hərflərin düzülüşü zamanı oxşar konfiqurasiyalı qrafemlərin yanaşı yerləşdirilməsi nəzərə alınırdı. Bu cür yerləşdirmə təkrar vurma yolu ilə səhvi düzəltməyə imkan verirdi. Qeyd olunan cəhət kompüterlər üçün əhəmiyyət daşımır. Çünki kompüterdə mətn birbaşa kağıza çap edilmir.

C.Ə.Rəhmanov göstərir ki, “Azərbaycan dili qrafemlərinin kompüter klaviatura­sında yerləşdirilməsi makina klaviaturasında yerləşdirilmədən fərqlənmir. Hərflərin klaviaturada yerləşdirilməsi zamanı aşağıdakılar nəzərə alınır: 1) hərflərin statistikası; 2) hərflərin ikili birləşmələrinin statistikası; 3) hərflərin üçlü birləşmələrinin statistikası; 4) barmaqlara düşən yükün optimal paylanması; 5) barmaqların və əllərin növbəli işləməsi; 6) hərflər zəncirinin sait və samitlərin işlənməsinə görə quruluşu; 7) dilə aid digər kəmiyyət xarakteristikaları” [30, s.162].

Göründüyü kimi, Azərbaycan dili hərflərinin klaviaturada yerləşdirilməsi məsələsi üzrə tədqiqat aparılmış və Dövlət standartı qəbul edilmişdir. Onu da qeyd edək ki, C.Ə. Rəhmanov Azərbaycan dilinin qrafem, fonem, fonem birləşmələri, hecaları və təkhecalı sözləri əsasında əhatəli tədqiqat işi aparmışdır. Bu da Azərbaycan dilinin kompüter dilçiliyində riyazi-statistik metodların işlənməsini bir daha təsdiq edir.

Kompüter dilçiliyində elektron lüğətlər məsələsi xüsusi yer tutur. Bu sahə həm dilin riyazi-statistik tədqiqatları ilə əlaqədardır, həm də müasir korpus dilçiliyi ilə birbaşa bağlıdır. Çünki korpus dilçiliyi maşın fondunda kifayət qədər böyük massivlərin toplanmasına əsas verir və bu korpuslardakı materialların müvafiq proqramlar vasitəsilə emalı nəticəsində lüğətlərin tərtibini avtomatlaşdırmağa da imkanlar verir.

Nəhayət, kompüter dilçiliyinin ən vacib istiqamətlərindən biri maşın tərcüməsi problemidir. N.Əzizli göstərir: “Müasir dövrdə informasiya mübadiləsi imkan­larının çox böyük sürətlə genişlənməsi, informasiyanın işlənməsi və emalının, eləcə də qəbul edilib dərk olunmasında da operativliyin əldə olunmasını tələb edir” [6, s.600]. Hazırda dünyanın ən uzaq nöqtələrindən müxtəlif dillərdə informasiyanın dərhal ötürülməsinə imkan verən internet xidməti vardır. İnternet yalnız informasiyanın ötürülməsini deyil, onun toplanmasını, saxlanmasını, mübadilə edilməsini də reallaşdırır. Bu cəhət mətnin avtomatik işlənməsi sistemlərinin yaradılmasını, onların işinin təkmilləşdiril­məsini, mətnin bir dildən digərinə avtomatik tərcüməsində yüksək ekvivalentliyə və adekvatlığa nail olunmasını zəruriləşdirir. Ötən əsrin 60-cı illərində maşın tərcüməsi sahəsində görülmüş praktik işlərdəki uğursuzluqlar bu sahənin başında duranlardan bəzilərinin maşın tərcüməsini “ölü doğulmuş uşaq” ilə müqayisə etməsinə səbəb olmuşdu. Bəzi tədqiqatçılar isə bu problemin linqvistika ilə heç bir bağlılığının olmadığını qeyd etməyə başlamışdılar. Həmin vaxtdan heç 10 il keçməmiş R.Q.Piotrovski maşın tərcüməsinə pessimist münasibətin səbəblərini istifadə edilən texnikanın məhdud imkanları (operativ yaddaşın, əməliyyatların yerinə yetirilmə sürətinin azlığı və s.), dil materialının formalaşdırılmasının, avtomatik analiz və sintez məsələlərinin həllini yetərincə tapmaması, nəhayət sahə üzrə peşəkar kadrların olmaması ilə izah etmiş, avtomatik tərcümənin böyük perspektivinin mövcudluğunu göstərmişdir [6, s.600].

Mətnlərin avtomatik tərcüməsi Azərbaycan dilçiliyində avtomatik tərcümə və yaxud maşın tərcüməsi haqqında geniş məlumat verilmişdir. Ədəbiyyatda maşın tərcüməsi alqoritmlərinin qurulmasına iki müxtəlif prinsip üzrə: xüsusi qaydalarla və statistikaya əsaslanmaqla yanaşılır. Statistik maşın tərcüməsi böyük­ həcmli dil cütünün müqayisəsinə əsaslanır. Dil cütü dedikdə, bir dil mətninin cümlələrinin digər dildə ona uyğun cümlələrlə ifadəsi nəzərdə tutulur. Sanki insanın iki dildə yazdığı mətn variantlarına, eləcə də, onların tərcümələrinə bənzəyir. Dil cütləri çoxaldıqca uyğunluq əmsalı daha da dəqiqləşir və nəticə etibarı ilə, statistik tərcümənin keyfiyyəti də artır. Bəzi hallarda maşın tərcüməsinin hibrit növündən istifadə edilir. Hibrit maşın tərcüməsində MT-nin müxtəlif uyğun variantlarından istifadə olunur. Azərbaycanda kompüter dilçiliyinə gəlincə isə, bizim dilçilikdə riyazi metodlardan istifadə edilməsi ötən əsrin 60-cı illərindən - M.Qarayevanın “Riyazi dilçilik tədrisdə” adlı kitabının nəşri ilə başlandı. 1976-cı ildə Nəsimi adına Dilçilik İnstitutunda Azərbaycan dilçiliyinin yeni bir sahəsi olan tətbiqi dilçilik qrupu yarandı. V.Pinesin rəhbərliyi altında tətbiqi dilçilik məsələlərinə daxil olan problemlərlə maşın tərcüməsi (sözün sintezinin formal təsviri, morfoloji analiz, mətnlərin avtomatik sintaktik təhlili və sintezi, mətnlərin avtomatik redaktəsi və s.), formal modellərin hazırlanması (türk dilində feil şəkilləri quruluşunun modelləşdirilməsi, avtomatik sintezin modeli və s.), statistik metodla qədim abidələrin statistik təhlili ilə məşğul olmağa başlandı [33, s.102].

Kompüter dilçiliyinin nailiyyəti kimi, avtomatik tərcümə real gerçəkliyə çevrilmiş və müəyyən səviyyədə insanların istifadəsinə verilmişdir. Hazırda bir çox dillərdən ingilis dilinə və tərsinə tərcümə proqramları artıq internet səhifələrində yer almışdır. İnternetdə müxtəlif saytlarda avtomatik tərcümə proqramları yerləşdirilməsi davam etdirilir. İnfor­masiya axtarış sistemində bir dildən digərinə tərcümə təklif olunur.“Hind-Avropa dillərindən bir-birinə avtomatik tərcümənin ən mürəkkəb məsə­lələri artıq işlənmişdir. Burada yeni tədqiqatlar tərcümənin ekvivalentlik dərəcəsinin artırıl­ması, adekvat tərcüməyə nail olunması ətrafında gedir. Türk dillərindən bir-birinə tərcümə üzrə tədqiqatlar isə hələ ki, kifayət qədər deyildir” [6, s.601].

Hələ ötən əsrin 70-ci illərindən başlayaraq, Azərbaycanda mətnin avtomatik işlənməsi sistemləri, Azərbaycan dili mətnlərinin avtomatik sintezi, analizi, ümumiyyətlə mühəndis dilçiliyinin müxtəlif məsələləri ilə əlaqədar bir çox tədqiqat əsərləri yazılmışdır. Bütövlükdə isə bu problem, müxtəlif elm sahələrinin qovşağında yaranan tədqiqat istiqaməti kimi beynəlxalq miqyasda diqqət mərkəzindədir. Mətnin avtomatik işlənməsi, avtomatik tərcümə sahəsində ardıcıl elmi-praktik işlər aparılır, konkret nəticələr əldə edilir. Bununla belə, həllini gözləyən ümumi və xüsusi aspektli məsələlərin sayı azalmır, tədqiqatların yeni məcraya yönəldilməsinə ehtiyac çoxalır. Avtomatik tərcümədə mənbə və obyekt dilin dəyişməsi yeni məsələnin qoyuluşuna və bu məsələyə tədqiqata cəlb edilən dillərin prizmasından baxılmasına səbəb olur.

Avtomatik tərcümənin ilk dövrlərdə bir dildən çox zaman ingilis dilinə tərcümə şəklində gerçəkləşdirilməsinə diqqət verilmişdir. Belə bir cəhət bəzi dillərin domi­nantlığından irəli gəlirdi. Məsələn, keçmiş SSRİ-də rus dili dominant olduğundan, müttəfiq respublikalardakı milli dillərdən rus dilinə və əksinə avtomatik tərcümə məsələləri diqqət mərkəzinə çəkilmişdi. Əlbəttə, bu o demək deyil ki, avtomatik tərcümənin eynisistemli dillər və qohum dillər üzrə aparılması məsələsi, avtomatik tərcümə zamanı aralıq dildən istifadə olunması ilə bağlı araşdırmalar unudulmuşdur.

Şübhəsiz, maşın tərcüməsi korpus dilçiliyi ilə sıx bağlıdır. Korpus maşın tərcüməsinin avtomatik təhlil və sintez problemlərinə fərqli aspektdə yanaşmağa əsas verir.

Beləliklə kompüter dilçiliyinin bir sıra istiqamətləri haqqında ümumi təsəvvür bu istiqamətlərin bəzilərini ayrılıqda təhlilə cəlb etmək imkanı verir.


Yüklə 235,68 Kb.

Dostları ilə paylaş:
1   ...   28   29   30   31   32   33   34   35   ...   41




Verilənlər bazası müəlliflik hüququ ilə müdafiə olunur ©muhaz.org 2024
rəhbərliyinə müraciət

gir | qeydiyyatdan keç
    Ana səhifə


yükləyin