Cədvəl 3.4.1
Korpusun janr və mövzu strukturu
Bədii mətnlər
|
15%
|
Informativ mətnlər
˄
publisist elmi
|
85%
˄
60% 25%
|
[54, s.67]
Bütün mətnlər 3 növdə saxlanılır: mətn arxivi (olduqları kimi), verilənlər bankı (artıq işlənilmiş formada), korpusun özü (xüsusi formatda olan mətnlər).
Korpus dilçiliyində korpusun qurulması prosesində həll olunan vacib məsələlərdən biri markerlənməmiş mətndən markerlənmiş mətnə keçidin təmin olunmasıdır. İngilis dilinin korpus terminologiyasında “appotation” termini istifadə olunur. Həmin termin rus dilinə də keçmişdir. Bununla yanaşı, rus dilində “razmetka” və “marker” terminlərindən də istifadə edilir. Azərbaycan dilində korpus dilçiliyi yeni olduğundan müvafiq terminoloji baza yaradılmamışdır. Bununla belə, annotasiya, annotasiyalama, nişanlama, markerləmə kimi termin variantlarından istifadə etmək mümkündür. Gələcəkdə korpus linqvistikası terminologiyasının nizama salınması, unifikasiyası və standartlaşdırılması prosesində bu terminlərdən birinin əsas variant kimi seçilməsi məsələsinə, yəqin ki, baxılacaqdır.
Annotasiyalama və ya markerləmə anlayışı korpusa daxil edilən linqvistik informasiyanı nəzərdə tutur. Korpus yalnız mətnlərin seçilməsi, kontekstlərin təsadüfi ədədlər qaydası ilə müəyyənləşdirilib korpusa daxil edilməsi ilə tamamlanmır. Bu halda korpus mənasını itirir və elektron kitabxana ilə müqayisədə olduqca əhəmiyyətsiz bir topluya çevrilir. Korpusun mühüm təyinedici amillərindən biri ona daxil edilən mətnlərin annotasiyalanmasıdır. Annotasiyalama ilkin dövrdə yalnız linqvistik informasiyanı əhatə etmişdir. Korpus dilçiliyi inkişaf etdikcə mətnlərin əlavə informasiyalarla təchiz edilməsinin də zəruriliyi aşkara çıxmışdır. Korpusa onun yaradılması, mətnin janrı, müəllifi, yazılma dövrü, mətnin seçildiyi əsərin adı, nəşr haqqında dəqiq məlumat, kontekstin çap versiyasında yerləşdiyi səhifənin nömrəsi haqqında informasiyalar daxil edilir. Bunlar isə linqvistik məlumatlar deyildir. Linqvistik informasiya sintaktik strukturla bağlı olduqda cümləyə, leksem və qrammatik xüsusiyyətlər barədə olduqda sözə aiddir. Annotasiyalama məlumatın daxil edilməsi prosesini də özündə birləşdirir.
Ümumiyyətlə, linqvistik markerləmənin aşağıdakı növləri vardır: “1)morfoloji (şəkilçilərə və digər komponentlərə ayırma və s); 2) lemmalaşdırma (hər bir söz-formanın ilkin formasının göstərilməsi); 3) morfoloji-sintaktik markerləmə və nitq hissələrinə ayırma (part-of-speech-tagging): əsası, nitq hissəsini, qrammatik kateqoriya göstərilməsini markerləmə; 4) sintaktik (sintaktik əlaqə növünü, cümlə tipini, cümlə üzvünü və s.) markerləmə; 5) semantik (semantik omonimliyi aradan qaldırmaq, informativ strukturu qeyd etmək və s.) markerləmə; 6) diskursiv markerləmə (replikaları, söyləmləri, nitq aktlarını və s)” [54, s.34].
Müasir korpus linqvistikasında diqqət daha çox sintaktik markerləməyə yönəldilmişdir. Morfoloji və ya sintaktik təhlil (parsinq) maşın tərcüməsində istifadə olunan eyni tərtibli işləri əhatə edir. Morfoloji səviyyədə markerləmədə sözformanın hansı nitq hissəsinə aidliyi, onun qəbul etdiyi şəkilçilərin və ya qrammatik vasitələrin funksiyaları aydınlaşdırılaraq qeydə alınır. Qeyd edilən məlumatlar dilin qrammatik sistemi üçün qəbul olunmuş anlayışların hesabına formalaşdırılır. İlk dövrlərdə markerləmə dilin morfologiyası əsasında yerinə yetirilmişdir. Markerləmənin maşın vasitəsilə reallaşdırılmasının əsasında ekspertin maşına daxil etdiyi məlumatlar durur:
“Kupeyə yenicə daxil olmuşdum ki, ortaboylu, enlisifət bir kişi dişlərini ağarda-ağarda qalxıb əlimi sıxdı və adını dedi:
-Tanış olaq, kupe yoldaşınız…
Mən də adımı söylədim. Bir müddət sakit oturduq. Mənim fikrim uzaqda idi. Gələcək istirahətim haqqında düşünürdüm. Moskva kənarı, şam ağacları, sakit çay… Elə bu vaxt kupe yoldaşım sükutu pozdu” [11, s.300].
Markerləmə verilmiş kontekstin söz-forma səviyyəsində seqmentasiyasını tələb edir. Seqmentasiyanın nəticəsini təqribən probeldən probelə ayırmalar kimi təsəvvür etmək olar. Əgər mətndə qeyri-linqvistik informasiyaları markerləmə lazım gələrsə, onda ekspert ilk növbədə bu informasiyanı markerləyir. Markerləmə məqsədilə müxtəlif işarələmələr qəbul edilir. Məsələn, M-müəllif; yazılma tarixi YT; birinci çap tarixi-BÇPT; kitabın nəşr ili-KNİ, kontestin seçildiyi səhifə KS və s. Bu marker işarələrinin hər birinin qarşısında müvafiq qeydlər aparılır (10), (YT-DTY-yəni dəqiq tarix yoxdur)/ QDT-1958-1960/ İÇV-1988/ BÇPT-1988/ KNİ- 1988 /KS-300).
Korpus istifadəçisi bu məlumatı əldə etmək üçün korpusun hansı blokuna müraciət etməyi bilməlidir. Korpus tərtibçiləri bu məqsədlə korpusda bu məlumatı yerləşdirmə yerini ayırırlar. Deyək ki, tərtibçilər bunu müəllif haqqında məlumat bloku kimi ayırmış və bloku MNİ simvolu ilə markerləmişlər. Onda istifadəçi həmin bloka daxil olaraq lazım gələn informasiyanı alır. İnformasiya iki şəkildə yerləşdirilə bilər. Birinci forma korpusa daxil edilmiş müəlliflər haqqında informasiya blokudur. İkinci forma kontekst seçildikdən sonra aktivləşir. İstifadəçi seçilmiş kontestin müəllifi və bu tekstin yerləşdirilməsi barədə məlumata kontekstdən keçid alır.
Qeyd olunan məsələlərin hər birinin həlli müəyyən çətinliklər yaradır. İstifadəçi müəllif haqqında informasiya blokuna birbaşa daxil olduqda o, korpusdan bu müəllifin hansı əsərlərindən istifadə olunması haqqında məlumat alır və buradan da birbaşa mətn korpusuna daxil olaraq korpusları əldə edir. Digər halda istifadəçi korpusdan konteksti seçir və sonra onun kimə aid olması, hansı tarixdə qələmə alınması, hansı mənbədən seçilməsi haqqında məlumatları əldə edir. Korpusun müəllifi kontekstin çap variantı barədə məlumatlara fərqli istiqamətlərdən daxil ola bilir. Ona görə də markerləmə və annotasiya zamanı istinadların korpusda yerləşdirilməsi, onlara fərqli nöqtələrdən müraciətlərin mümkünlüyü korpus dilçiliyində nəzərə alınır. Burada diqqəti cəlb edən əsas məsələlərdən biri odur ki, istifadəçi müəllifə görə konteksti və ya kontekstə görə müəllifi seçməsi qeyri-müəyyəndir. Əgər müəllifə görə kontekst seçilirsə, onda istifadəçi əvvəlcə müəllifi tapır və onun əsərlərində seçilmiş kontekstləri taparaq tədqiqata cəlb edir. Digər variantda tədqiqatçı kontekstin hansı mənbəyə və ya hansı müəllifə aidliyini müəyyənləşdirir. Şübhəsiz ki, bunlar fərqli məsələlərdir və qeyri-linqvistik informasiyanın alınması ilə bağlıdır. Korpus dilçiliyində bu qəbildən olan kifayət qədər çox məsələ ortaya çıxır və onlardan hər birinin həllinin özünəməxsus çətinlikləri vardır.
NƏTİCƏ
1. Korpus linqvistikası böyük həcmdə dil materialını toplamaq, saxlamaq və müxtəlif linqvistik problemləri həll etmək üçün bu materialdan istifadə etmək məqsədi ilə bağlı təşəkkül tapmışdır.
2. Dilin milli korpusunu yaradarkən ora toplanan mətnlərin seçilmə meyarlarını nəzərə almaq vacibdir. Korpus mətnindən istifadə zamanı mətndə işlənən sözləri, söz birləşmələrini, qrammatik kateqoriyaları təhlil etmək imkanı əldə olunmalıdır.
3. Korpusların təsnifi meyarları dairəsi kifayət qədər genişdir. Bu meyarlar korpusların təyinatı ilə bağlılığa malikdir. Kompüter dilçiliyi inkişaf etdikcə korpuslardan istifadənin yeni formaları axtarılıb tapılır. Korpus linqvistikasının gələcək perspektivləri və tipləri həm də korpus materiallarının annotasiyalaşdırılmasına əsaslanır. Morfoloji, sintaktik, semantik, terminoloji markerləmə ən azı bu dörd korpusu qeyd etməyin zəruriliyini təsdiqləyir.
4. Korpus linqvistikasında standart dil, sosial dialektlər, slenqlər, dilin variantları korpusları yaradır. Müasir dövrdə ingilis dili qlobal dil hesab edilir və hər bir ölkənin ingiliscəsi bir-birindən fərqlənir. Böyük Britaniya dialektləri Amerika dialektlərindən sayca daha çoxdur. Hər bir dialektin özünəməxsus xüsusiyyətləri mövcuddur. Bu baxımdan dilin korpusunu yaradarkən ora daxil edilən mətn fraqmentlərinin dilin bütün dialekt formalarını əhatə etməsi vacibliyi əsas məsələlərdəndir. Dil variantları, dialekt və ləhcələr, slenqlər əsasında müxtəlif korpuslar yaratmağın məqsədəuyğunluğu Braun, LOB, FLOB kimi mövcud korpuslar təcrübəsində təsdiqini tapır.
5. Korpus linqvistikası ənənəvi dilçilikdən fərqlənir. Korpus linqvistikası nitqi öyrənir. Ənənəvi dilçilikdə isə əsas diqqət dilin tədqiqi üzərində cəmləşdirilmişdir. Korpus linqvistikasının nitqi tədqiq etməsi onun materialından irəli gəlir. Bu material yazılı, çap olunmuş və transkripsiya edilərək elektron daşıyıcılarına daxil edilmiş şifahi nitq nümunələridir. Korpusu təşkil edən mətnlər real mövcud mətnlərdir və onlar müxtəlif tipli kommunikasiya prosesinin nəticəsi olan nitq məhsullarıdır.
6. Annotasiyalama və ya markerləmə anlayışı korpusa daxil edilən linqvistik informasiyanı nəzərdə tutur. Korpus yalnız mətnlərin seçilməsi, kontekstlərin təsadüfi ədədlər qaydası ilə müəyyənləşdirilib korpusa daxil edilməsi ilə tamamlanmır. Korpus dilçiliyi inkişaf etdikcə mətnlərin əlavə informasiyalarla təchiz edilməsinin də zəruriliyi aşkara çıxmışdır.
Dostları ilə paylaş: |