MiLLİ Dİl korpuslari və onlarin formalaşmasi priNSİPLƏRİ


Korpusda annotasiyalama və markerləmə



Yüklə 235,68 Kb.
səhifə36/41
tarix05.01.2022
ölçüsü235,68 Kb.
#111770
1   ...   33   34   35   36   37   38   39   40   41
3.4. Korpusda annotasiyalama və markerləmə
Korpus linqvistikası tətbiqi dilçiliyin linqvistik korpuslarının qurulması və istifadə edilməsinin ümumi prinsiplərini öyrənən bölməsidir. Burada dil materialının əsas mənbəyi mətnlərdir. Həmin mətnlər üzrə linqvistik tədqiqatlar aparılır. Mətnlərə görə dildə istifadə edilən, emosionallıq və ekspressivliyi ifadə edən vasitələr: onların sintaktik konstruksiyaları, ümumiyyətlə, hər cür sintaktik konstruksiyalar müəyyənləşdirilir. Mətnlər sözün və ya hər hansı sözformanın bilavasitə solunda və sağında işlənməsi mümkün olan başqa söz və ya sözformaları aşkara çıxara bilir. Korpus vasitəsilə, demək olar ki, bütün mümkün söz birləşmələri, sintaqmalar müəyyənləşdirilir, onların işlənmə tezlikləri haqqında məlumatlar əldə edilir. Korpusun qurulmasının vacib elementlərindən biri müvafiq annotasiyaların tərtibidir. Annotasiyada hər bir sözformanın bütün linqvistik parametrlərinin işarələnməsi nəzərdə tutulur. Korpusların həcmi genişləndikcə onlardan istifadə dairəsi də genişlənir. Başqa sözlə desək, korpusdan lazım gələ biləcək hər cür linqvistik informasiyanın çıxarılması yolları ardıcıl olaraq davamlı şəkildə öyrənilir.

Korpus linqvistikası iki aspekti əhatə edir. Birinci aspekt korpusu yaratmaq, ikinci aspekt isə onu annotasiya (işarələmə) ilə təchiz etməkdir. Korpus üzrə eksperimental-linqvistik tədqiqatlar aparılır.

Korpuslar real mətnlər əsasında qurulduğundan onun tərkibində yer almayan konstruksiyaların mümkünlüyü və ya qeyri-mümkünlüyü haqqında fikir söyləmək olmur. Korpus çox böyük həcmə malik olduğundan onun nəticələri yüksək ehtimalla reprezentativ hesablanır. Əgər müəyyən söz birləşməsi korpusda qeydə alınmırsa, daha çox onun yoxluğundan danışmaq olur. Eyni zamanda korpusa müxtəlif müəlliflərin yaratdığı mətnlər daxil edildiyindən belə mətnlərdə dilin normalarının müxtəlif səviyyələrdə pozulması faktlarına kifayət qədər rast gəlinir. Korpus faktı üzə çıxarır. Bu faktın normativlik məsələsini qiymətləndirmək işi tədqiqatçıya aiddir.

Korpus linqvistikası ənənəvi dilçilikdən fərqlənir. Korpus linqvistikası nitqi öyrənir. Ənənəvi dilçilikdə isə əsas diqqət dilin tədqiqi üzərində cəmləşdirilmişdir. Korpus linqvistikasının nitqi tədqiq etməsi onun materialından irəli gəlir. Bu material yazılı, çap olunmuş və transkripsiya edilərək elektron daşıyıcılarına daxil edilmiş şifahi nitq nümunələridir. Korpusu təşkil edən mətnlər real mövcud mətnlərdir və onlar müxtəlif tipli kommunikasiya prosesinin nəticəsi olan nitq məhsullarıdır.

Korpus dili onun özünü nitqdə təzahür etdirdiyi formada təsvir edir. Korpus üçün materialların xüsusi üsullarla seçimi hər cür mətnləri kifayət qədər tam əhatə etmək məqsədi daşıyır.

Korpus linqvistikası kəmiyyət metodlarına, distributiv təhlilə istinad edirsə, ənənəvi dilçilik keyfiyyət metodlarına söykənir. Korpus üçün forma, ənənəvi dilçilik üçün həm ifadə, həm də məzmun planı əhəmiyyətlidir. Korpus linqvistikasında ehtimal planı əhəmiyyətlidir. Korpus linqvistikasında ehtimal nəzəriyyəsindən və riyazi statistikadan istifadə olunur. Əldə olunan nəticələr nitq materialının emalından tətbiqini tapır. Yüksək kəmiyyət göstəricilərinə malik faktlar, dil hadisələri dil sisteminin qanunauyğunluqları kimi qəbul olunur. Əldə olan faktlar mümkün qanunauyğunluqların səbəblərini aydınlaşdırmaq üçün material rolunu oynayır. Korpusdan istifadə edən tədqiqatçı bədii ədəbiyyatı və ya mətnləri oxumaqla misal, nümunə, illüstrativ material axtarışında olmur. Korpusdan lazımi şəkildə bəhrələnmək fakt və misalları asanlıqla əldə etmək imkanı yaradır. Bu baxımdan korpusun tətbiqi daha sadə və sərfəlidir.

Ənənəvi dilçilik məntiqi mülahizə və hökmlərlə işləyir. Tədqiqatçı tapdığı və ya üzləşdiyi faktı məntiqi yolla izah etməyə çalışır. Bu prosesdə lazım gəldikdə o, yeni faktlar aşkara çıxarmaq istəyir. Korpus linqvistikası yeni faktların axtarışına kömək edir. Göründüyü kimi, ənənəvi dilçilikdə nəzəriyyədən izaha, müddəanı faktlarla təsdiqləmək istiqaməti aparıcıdır. Korpus dilçiliyi isə faktdan nəzəriyyəyə yönəlir, faktı və ya oxşar faktları izah etmək üçün material verir.

Korpus linqvistikasında analiz, seqmentləmə və seqment təhlili imkanları genişdir. Çünki onun obyekti hazır mətndir və bu mətni təşkil edən vahidlər üzə çıxarılır. Korpus linqvistikasında mətndə yer alan sözformalar öyrənilir. Korpusun strukturu və riyazi təminatı sözformanın yaxın ətrafını müəyyənləşdirməyə imkan yaradır. Korpus hansı sözformadan sonra sözformanın gəlmək ehtimalını hesablamaq üçün material verir. Nəticənin reprezentativliyi korpusun həcmindən asılı olaraq dəyişə bilir. Müasir korpus həcmləri bütün söz birləşmələri və ya sözlər ardıcıllığını qurmaq kimi tətbiqi məsələni ortaya atmağa əsas verir.

Korpus linqvistikası empirik metodlara, ənənəvi dilçilik rasional metodlara əsaslanır. Korpusda empirik söz materialı induktiv metodla, ənənəvi dilçilikdə isə deduktiv metodla işlənir. Korpus linqvistikasında nitq fəaliyyəti üzərində müşahidə aparılırsa, ənənəvi dilçilikdə nitq materialı intiutiv seçilir.

Korpus linqvistikasının əsas xüsusiyyətlərindən biri odur ki, burada o dərəcədə böyük həcmdə material toplanır ki, onun emalı və oradan lazım gələn linqvistik faktları, məlumatları toplamaq müəyyən çətinliklər meydana çıxarır. Ona görə də linqvistik annotasiyalaşdırma mühüm əhəmiyyət kəsb edir. Korpus dilçiliyi bir sıra tələblərə cavab verməlidir. Həmin tələblər korpusun qurulması zamanı qarşıya qoyulmuş məsələlərdən irəli gəlir. Hər şeydən əvvəl, korpusun nə üçün yaradılması sualı cavabını tapmalıdır. Məsələn, hələ ötən əsrin 60-cı illərində yaradılmış Braun korpusunun qarşısında qoyulan əsas vəzifə Amerika ingilis dilinin tezlik lüğətinin hazırlanması idi. Bu məqsədlə Braun korpusuna bir milyon sözün daxil edilməsi nəzərdə tutulmuşdur. Tədqiqatçılar korpusa daxil edilən sözləri çox zaman “söz işlətmə” (словоупотребление) termini ilə adlandırırlar. Bu anlayışın mahiyyətini anlamaq üçün konkret nümunəni nəzərdən keçirək. Qeyd olunduğu kimi, korpusa bir-birindən təcrid edilmiş sözlər deyil, mətn, mətn fraqmentləri daxil edilir.

Qeyd edək ki, korpus dilçiliyində fərqli mətnlərdən xüsusi seçmə yolu ilə mətn hissələri seçildiyindən belə mətnlərdə orfoqrafiya və orfoepiya qaydalarının pozulması halları da qeydə alına bilər. Dil daim inkişaf edir, onun normalarında, orfoqrafiya və orfoepiya qaydalarında dəyişikliklər edilir. Məsələn, Azərbaycan dilinin də orfoqrafiya qaydaları dəfələrlə dəyişdirilmişdir. Bir vaxtlar şe’r, fe’l, sonralar apostrofsuz şer, fel, daha sonra şeir və feil variantları qəbul edilmişdir.

Mətn korpuslarından istifadə etmək dil tədqiqatçılarını maraqlandıran məsələlərə yenidən baxmaq üçün imkan yaradır. Sözün, söz birləşməsinin, söyləmin, qrammatik kateqoriyaları real mətnlərdə hansı şəkildə reallaşması ilə bağlı külli miqdarda yeni materialları, faktları üzə çıxarmaq olur. Belə vaxtlar dili öyrənən amillərin gərgin zəhməti hesabına üzə çıxarılmış faktlar korpus mətnlərində əksini tapır. Bunu faktlar əsasında izah etməyə çalışaq. Ç.Hüseynzadə müasir Azərbaycan dilinin morfoloji normalarını tədqiq etmişdir. Müəllif tədqiqat işində Azərbaycan dilinin müəyyən tarixi dövrlərindəki nitq nümunələrinə müraciət etmiş və nümunələr vermişdir. Məsələn, "Fyuzat" və "Şəlalə" jurnallarının səhifələrində "ərəbləşmiş osmanlılıq" ədəbi dil üçün əsas məziyyət hesab olunurdu. "Fyuzat" jurnalı bunu praktik cəhətdən də həyata keçirirdi. Məsələn, Ə.Hüseynzadə Götenin "Faust" əsərini Azərbaycan oxucularına belə bir dildə təqdim edirdi:

Ənzari-şəbabimdə pədidar olan ey zila!


Yüklə 235,68 Kb.

Dostları ilə paylaş:
1   ...   33   34   35   36   37   38   39   40   41




Verilənlər bazası müəlliflik hüququ ilə müdafiə olunur ©muhaz.org 2024
rəhbərliyinə müraciət

gir | qeydiyyatdan keç
    Ana səhifə


yükləyin