3.2. Milli dil korpuslarının elektron lüğətçiliyinə təsiri
Elektron lüğətlər maşın tərcümə sistemində olan digər lüğətlərdən çox əvvəl hazırlanmışdır. Hazırda proqram təminatı bazarında çox geniş lüğət seçimləri mövcuddur - ən sadədən ən mürəkkəbinə qədər.
Daha sadə elektron lüğətlər OC - MS-DOS nəzarəti ilə işləyərək bütün IBM kompüterlərdə istifadə oluna bilir. Daha mürəkkəb çoxfunksiyalı elektron lüğətlər verilənlər bazasına müxtəlif mövzular daxil etməklə OC Windows NT, Windows 95 və s. nəzarəti ilə istifadə olunur. Əlbəttə ki, belə lüğətlərin istifadəsi üçün daha güclü kompüter lazım olur (AT-486 DX).
İlk yaranan elektron lüğətlərə yalnız bir lüğət qoşmaq olurdu. İndiki zamanda isə elektron lüğətlərə çox sayda lüğətlər daxil etmək olur. Əvvəllər elektron lüğətlərin istifadəçi tərəfindən genişləndirilməsi mümkünsüz idi, lakin, müasir LİNGVO 4.6 və daha artıq versiyalarda bu mümkündür. “Tərcümə etmə rejiminə görə elektron lüğətlərdə 2 tərcümə rejimini qeyd etmək olar: avtomatlaşmış və interaktiv rejim. Birinci rejimdə tərcümə sözbəsöz şəkildə aparılır. Bu cür lüğətlərin söz bazası çox zəif olur. Bu cur lüğətlər, təəssüf ki, tərcüməçinin köməyinə çatmır və onun işinə təsiri olmur” [146].
İkinci rejimdə kompüterin monitorunda görünən yad sözün üzərindən basaraq açılacaq pəncərədən tərcümə funksiyasını tapıb və istədiyimiz sözü tərcümə edə bilərik. Bu tərcüməçilər üçün çox effektli bir rejimdir. Çox az vaxt sərf olunduğundan tərcüməçinin işini asanlaşdırır. Məhz bu kimi eyni zamanda bir neçə lüğət bazasına qoşulan elektron lüğətlər istənilən tərcüməçinin işini sürətləndirə bilər.
Keyfiyyətli tərcümə üçün məxəz dildə işlənən bütün sözlərin lüğət sistemində tapılması çox vacibdir. Tərcümə olunmayan sözlər isə sistemdən tərcümə olunmamış şəkildə çıxaraq sonradan tərcümə nəticələrinin redaktəsi zamanı tərcüməçi tərəfindən tərcümə edilir. Bu cür lüğətlərdən dilçilər, tələbələr, xarici dil öyrənən insanlar istifadə edirlər. Bundan başqa iş adamları sadə sənədlərin tərcüməsi üçün elektron lüğətlərdən istifadə edirlər.
Maşın lüğətləri bir çox müxtəlif məqsədlərlə istifadə oluna bilən lüğətlərdir. Maşın lüğətlərinin müxtəlif növləri var:
Smartfon və ya əl kompüterləri formasında
CD- Rom və DVD –Rom formatında
Ödənişli və ya ödənişsiz onlayn formatında
Əksər lüğət növləri elektronik formatda mövcud olur. Bura birdilli və çoxdilli lüğətlər, tarixi lüğətlər (məsələn, Oxford English Dictionary), səyahət lüğətləri, idiomlar lüğəti və s. daxildir .
Elektron lüğətlərin üstünlükləri istifadəçinin daha çox və daha geniş məlumat ala bilməsini təmin etməkdir. Bu lüğətlərin daha geniş axtarış funksiyaları vardır. Digər üstünlükləri verilən sözlərin tələffüzlərini audio şəkildə ifadə etmələridir. Müxtəlif kontekstlərdə, nümunələr əsasında sözlərin bir neçə tərcüməsinin verilməsi və axtarışı elektronik (maşın) lüğətlərinin digər üstünlüklərindən biridir. İstifadəçinin vaxta qənaət edərək lazımi sözün istənilən dildə qarşılığının tapılmasına imkan yaradır. Bu cür lüğətlər tərkibində 500000 və artıq söz ehtiyyatı və onların izahlarını toplaya bilir. Bir çox maşın lüğətləri onlayn diskussiyalar təklif edirlər.
Məşhur maşın lüğəti brendlərindən “İnstant- Dict Besta and Golden Global View” –u nümunə çəkmək olar. Bu maşın özündə yalnız lüğət deyil, həmçinin, MP3 player, video player və sadə oyunları da cəmləşdirir. Bəzilərində mikrafon və kamera da mövcud olur.
Maşın lüğətlərinin digər bir növü isə cib elektronik lüğətlərdir. LCD ekranı və düymələri olan bu lüğət maşını çox əlverişli hesab olunur. Bu lüğətlər xüsusilə Yaponiya, Çin, Koreya kimi ölkələrdə çox məşhurdur. Bu cür lüğətlərin krossvord həlli, səs üstünlükləri hesablaya və s. kimi üstünlükləri mövcuddur.
Müasir dövrdə texnologiyanın inkişaf etdiyi bir dövrdə hər kəs mobil telefondan istifadə edir. Müasir mobil telefonların lüğət funksiyası tərcüməçi və dilçilərin köməyinə çatır. Tez bir zamanda vaxt itkisi yaratmadan bu vasitədən istifadə etmək olur.
Onlayn lüğətlərin bir neçə növü var:
Texniki sözlərin lüğəti. Məsələn, The Free Dictionady.com
“Premium” lüğətlər. Məsələn, Oxford English Dictionary.
İstifadəçi üçün açıq və reklamla dəstəklənən lüğətlər. Məsələn, Collins On-line Dictionary, Duden On-line.
Dilçiliyin ən qədim sahələrindən biri lüğətçilikdir. Müasir dövrdə bu sahə yeni mərhələyə qədəm qoymuşdur. Həyatımızda, cəmiyyətimizdə lüğətlərin rolu böyükdür. Mədəniyyətlərarası ünsiyyət, dövlətlərarası ünsiyyət daim inkişaf edir. Bəlkə elə buna görə də lüğətə və lüğətçilik sahəsinə maraq hələ də azalmır, əksinə artır.
Lüğətlər həyatımızda ünsiyyət rolunu daşıyır. Bütün dünya xalqlarının lüğətlərə tələbatları vardır. Bir lüğəti tərtib etmək üçün 10 illər gərək olur. Sözlər, söz formaları, birləşmələri və s. toplanmalı, qruplaşdırılmalı, əlifbaya görə düzülməli və s. Bu proses olduqca ağır və yorucu bir prosesdir. Bir lüğəti ərsəyə gətirmək uzun illər vaxt aparır. Nəticədə, lüğət formalaşdıqda, onun tərkibindəki sözlər köhnəlir, arxaikləşir və yenilənməyə ehtiyac duyur.
Yaşadığımız kompüter texnologiyası dövründə müasir kompüterlər lüğətçilik elminə və lüğətçilərə böyük köməkdir. Qısa zaman müddətində yuxarıda adları çəkilən proseslər surətlə kompüterin köməkliyi ilə yerinə yetirilə bilər. Sözlərin sayının çoxalması lüğəti tərtib edən şəxsi artıq narahat etmir. Digər tərəfdən lüğətçi tərtib etdiyi lüğəti internet məkanında da yerləşdirə bilər. Deməli, kompüter 2 məsələdə yardımçı olur. Həm lüğətin tərtib olunmasında, həm də onun istifadəçiyə asanlıqla çatdırılmasında. Lüğətçiliyin inkişafının yeni mərhələsi həm də lüğət və onun tərtibi məsələsinə yeni baxışın yaranması və formalaşması ilə səciyyələnir [12, s.65].
Fikrimizcə lüğət tərtibi dedikdə burada yeni üsullardan, texnoloji üsullardan istifadə nəzərdə tutulur. Lüğətçilikdə kompüterlərdən istifadə olunması bəzən yardımçı bir vasitə kimi anlaşılır, lüğətçilik də o qədər önəmli bir vasitə kimi qəbul edilmir. Fikrimizcə kompüter istifadəsini düzgün qiymətləndirmək lazımdır.
“Kompüter dilçiliyinin əsasları” kitabında müəllif Y.N.Marçuk bu sahədə müxtəlif terminlər işlətmişdir. Məsələn, “kompüter lüğətçiliyi, hesablama lüğətçiliyi, maşın lüğətçiliyi” və s. O, bu terminlərin hamısını kompüter dilçiliyinin predmeti olduğunu göstərir [69, s.4].
Düşünürük ki, bu terminlərin hamısını konkret bir terminlə əvəz etmək daha yaxşı olardı. Əslində bu terminlər hamısı eyni mənanı əks etdirən sinonim terminlərdir və onların tədqiqat obyekti kompüterlə tərtib olunan lüğətlərdir. Kompüter lüğətçiliyi kompüter dilçiliyinin bir sahəsi, kompüter lüğətləri isə bu sahənin obyektidir.
Kompüter lüğətlərinin bir sıra üstünlükləri mövcuddur; lüğətə müraciət daha surətli və daha sadədir, eyni zamanda bir neçə lüğətə müraciət edərək sözün mənalarını müqayisə etmək olar, vaxtaşırı yenilənərək yeni mənalar əlavə olunur və dildəki yeniliklər və yeni sözlər tez bir zamanda bu lüğətlərdə öz yerlərini alır. Kompüter lüğətləri açıq sistemdir və yeni sözləri ani zaman müddətində əlavə etmək, düzəliş etmək, köhnəlmiş sözləri çıxarmaq asanlıqla mümkündür.
Kompüter lüğətlərinin əksəriyyəti Geniş Ümumdünya Sahəsində (WWW- World Wide Web) yerləşdirilmişdir. Maşın lüğətlərinin kağız lüğətlərindən üstünlükləri bununla bitmir. Digər üstünlükləri həcmin qeyri-məhdudluğu, həcmin geniş olmasına baxmayaraq informasiyanın tez və operativ axtarışı, digər lüğətlərlə müqayisələr aparıla bilməsi, irihəcmli olmasına baxmayaraq yığcam və dəqiq olması, daim yenilənməsi və s.
Kompüter lüğətlərində əlavə informasiyalar da yerləşdirilə bilər. Məsələn, sözün ifadə etdiyi əşyanın şəkli, səslənmə variantı və s [44, s.83].
Düşünürük ki, bu cür lüğətlər gələcəkdə daha da təkmilləşəcək və daha çox yararlı olacaqlar. Belə ki, şəkil və səslənmədən əlavə xüsusi adların transformasiyası və tələffüzünün göstərilməsi xidmətinin yaradılması gələcəkdə dilçilərin çox böyük köməkçisi ola bilər.
Kompüter lüğətlərinin digər üstün cəhəti onun canlı orqanizm kimi daim inkişafda olması və ətraf mühitlə təmasda olmasıdır. Maşın lüğətləri müxtəlif elmi mərkəzlər tərəfindən müxtəlif məqsədlərlə tərtib olunur. Ona görə də onların bəzilərinin yalnız elektron forması mövcuddur. Bəzilərinin isə həm elektron həm də kağız formatları vardır. Müasir dövrdə yalnız kağız variantda olan lüğətlərin elektron forması yaradılır və düşünürük ki, bu lüğətlər gələcəkdə geniş istifadəçi kütləsi toplayacaqdır.
Maşın tərcüməsi üçün nəzərdə tutulmuş lüğətlər digər lüğətlərdən fərqli funksiyalara malik olurlar.
İngilis dilində ən çox yayılmış və geniş istifadə olunan kompüter lüğətinə “Dictionary.com”, “Dictionaries”, “On-line Dictionaries” göstərmək olar. Bu lüğətlərin hər biri 200-dən çox lüğətdən ibarətdir. İngilis dilində olan “Your Dictionary” 240 dildə olan lüğətlərdən və 30-dan artıq kitablardan ibarətdir. Bu cür lüğətlərdə axtarılan sözün bu və ya digər nitq hissələrinə mənsubluğu, eləcə də həmin sözün sinonimi, antonimi və omonimi haqqında məlumat əldə etmək olar. İstənilən axtarış sistemlərindən bu onlayn lüğətləri sorğu verməklə axtarıb onlardan yararlanmaq mümkündür. Bu lüğətlər Avropa, eyni zamanda şərq dillərini əhatə edir. Rusiyanın məşhur “mail.ru” elektron poçt saytında lüğət resurslarına rast gəlmək mümkündür.
Kompüter tərcümə lüğətlərinin ən çox istifadə olunanları Abbyy Lingvo 12, Multilex Delux6.4, Context 7.0 və s. hesab olunur. Onların hər birinə bir neçə lüğət daxildir. Məsələn, Abbyy Lingvo kompüter lüğətlər sisteminə 47 lüğət daxildir və sistem daim yenilənir. Maşın lüğətlərin digər bir növü çoxdilli elektron lüğətlərdir. Bu cür lüğətlər bir neçə dili əhatə edir. Amma, bu dillərin bəzilərində lüğət bazası zəifdir və həmin dillərə tərcümədə boşluqlar yaranır.
“Context” lüğətlər sisteminə 46 lüğət yerləşdirilmişdir. Bu lüğətlərin bir hissəsi kağız lüğətlərin elektron versiyasıdır (Xarici sözlər lüğəti, Frazeoloji lüğət və s.) Context 4.0 lüğətinin üstün cəhəti ingilis və rus dillərinin morfologiyasına bələd olmasıdır. Əsas üstünlüyü tərcümə üçün çoxlu tematik lüğətlərin mövcudluğu, istənilən formada olan söz birləşmələrinin çıxarılmasının mümkünlüyüdür. Sinonim və antonimlərin əks olunmaması isə çatışmayan cəhətdir [146].
Tamlığa və əhatə dairəsinə görə “Polyglossum” elektron lüğəti birinci yeri tutur. Lüğətdə aviasiya, kosmos, maşın detalları, geodeziya, yeyinti və s. əhatə olunmuşdur. Multilex və Lingvo lüğətlərinin hər ikisi tibb, texniki poliqrafiyaya aid mövzuları əks etdirir. Hər ikisi həcmcə təxminən eynidirlər. İnternetə yerləşdirilmiş lüğətlər həm müstəqil, həm də tərcümə sistemlərində komponentlərdən biri kimi elektron məkana daxil olmuşlar.
“Dilmanc” Azərbaycanda ilk maşın tərcüməsi sistemidir. Azərbaycan-İngilis, İngilis-Azərbaycanca “Dilmanc” tərcümə sahəsində artıq tanınmışdır. Bu sistemdə alınmış tərcümənin səsləndirilməsi də mümkündür. “Dilmanc”da maşın tərcüməsi sahəsində işlərə 2003-cü ildən başlanmışdır.
Digər lüğətlərdən “Poliqlot” lüğətlər sistemini nümunə gətirmək olar. Burada bir neçə dillərdən qarşılıqlı lüğətlər təmsil olunmuşdur. Qeyd etmək lazımdır ki, “Kitab.az” saytının qızıl onluğunda “Poliqlot” elektron lüğətlər sistemi 5-ci yerdədir.
Qeyd olunduğu kimi, korpusların yaradılması ideyası ilk əvvəl, tezlik lüğətlərinin tərtibi ilə əlaqədar olmuşdur. Mahiyyətcə belə lüğətlərin tərtibi məsələnin qoyuluşundan asılı olmuşdur. “Məsələnin riyazi qoyuluşu” verilənlərin (bu halda bizim qoyduğumuz məsələnin xarakterindən asılı olaraq materiallar nəzərdə tutulur) ədədi şəklə gətirilməsi – yəni kodlaşdırılması, onun tərkibinə daxil olan hissələrin həlli nəzərdə tutulur. Tərkib hissələrinin ardıcıl həlli qoyulmuş məsələni tamamlayır. Əlbəttə, məsələnin həlli üçün ona uyğun metodlar araşdırılarkən qarşıya çıxan müxtəlif variantlardan optimalını seçmək lazımdır. Məsələn, tezlik lüğətinin tərtibi zamanı əlverişli metod artıq standart hala keçmiş növləşdirmə metodudur. Seçilmiş üsula əsasən isə, məsələnin alqoritmi qurulmalıdır. Dilin riyazi-statistik metodların köməyi ilə tədqiqində Azərbaycan dilçiliyində önəmli yer tutan tezlik lüğətləri tərtib olunmuşdur. Məlumdur ki, tezlik lüğətlərində sözlər və onların mətndəki işlənmə tezliyinin göstəricisi qeyd olunur. Bu lüğətləri tərtib edərkən bir sıra çətinliklər qarşıya çıxır. Birincisi, mətnləri elə seçmək lazımdır ki, kafi qədər ədəbi dil normalarını özündə əks etdirmiş olsun. Bu, bir o qədər də asan iş deyil. İkincisi, daha mürəkkəb məsələ mətnlərin ümumi həcmini seçməkdən ibarətdir. Azərbaycan dilinin tezlik lüğəti üçün əsas mənbə qəzet materialları olmuşdur. İxtiyari götürülmüş mətnlərdən 100 min söz seçilmişdir. Tezlik lüğətlərinin tətbiqinin məlumatların avtomatik işlənməsində - avtomatik tərcümədə, referatlaşdırmada, polioqrafiyada, kriminalistikada, anonim yazıların müəlliflərini müəyyənləşdirməkdə müstəsna əhəmiyyəti vardır [33, s.100].
Azərbaycanda ilk tezlik lüğəti 1997-ci ildə işıq üzü gördü. 2004-cü ildə onun yenidən işlənmiş variantı nəşr olundu. 2010-cu ildə isə Azərbaycan dilinin tezlik lüğəti çap edildi. Bu lüğətin tərtibi üçün Azərbaycan dilinin bütün üsulları təmsil olunmaqla, təxminən 50 milyona yaxın sözdən ibarət mətnlər linqvostatistik təhlilə cəlb olunmuşdur. Lüğətdə 12000-ə yaxın söz kökü əhatə olunmuşdur. Azərbaycanın tezlik lüğəti leksikanın statistik modeli kimi ümumi leksikologiyanın, dil tədrisinin bir çox problemlərinin həllində əvəzsiz mənbə rolunu oynayır. Bundan başqa, tarixi abidələrin öyrənilməsində statistik metodların tətbiqi təkzibolunmaz əhəmiyyət kəsb edir [12, s.128].
Hal-hazırda Azərbaycanda NLP sistemlərinin yaradılması sahəsində tədqiqatlar “Dilmanc” layihəsi çərçivəsində aparılır. Layihə çərçivəsində indiyə qədər bir çox işlər götürülmüş və görülməkdədir.
Layihə çərçivəsində hazırlanmış, dilin bütün üslublarını əhatə edən ikidilli paralel mətn korpuslarını və konkret dilləri əhatə edən irihəcmli birdilli korpusları xüsusi olaraq qeyd etmək olar. Həmin korpuslar və onların həcmi aşağıdakı cədvəldə göstərilmişdir:
Dostları ilə paylaş: |