I FƏSİL
KORPUS DİLÇİLİYİ VƏ ONUN YARADILMASI
1.1. Korpus dilçiliyinin tarixinə baxış
Korpus dilçiliyi – kompüter dilçiliyinin bir hissəsi olaraq kompüter texnologiyasının köməyi ilə dil korpuslarının (korpus mətnlərinin) yaradılması və öyrənilməsinə yönələn bir elm sahəsidir.
Ən müasir tətbiqi dilçilik sahələrindən biri olan korpus linqvistikasının qədim tarixi kökləri vardır. Bu köklər dil materialının toplanıb sistemə salınması ilə bağlıdır. Uzaq keçmişə gedən lüğətçilik ənənələrində sözlərin yığılması xüsusi əhəmiyyət kəsb etmişdir. Sonralar bu sözlər əsasında kartotekalar yaradılmışdır. Demək olar ki, XX əsrin 80-cı illərinin sonunadək SSRİ-də lüğətlərin kartotekalar əsasında tərtibi aparıcı olmuşdur. Tərtibçilər hər bir baş sözü və onun izahını bir, bəzən isə daha artıq karta yazaraq əlifba üsulu ilə xüsusi kartotekalar hazırlayır, son nəticədə bu kartlardakı məlumatları ardıcıl yerləşdirməklə lüğətlər hazırlamışlar. Dilin müxtəlif problemləri ilə məşğul olan alimlər də problemə aid misal və nümunələri kartlarda qeyd etmişlər. Xüsusi arxiv şəklində qorunub saxlanılan belə kartotekalar müxtəlif məsələlərin həlli prosesində təkrar istifadə olunmuşdur. Müasir korpus linqvistikasının bir funksiyası da mövcud dil materiallarını toplayıb mahiyyətcə kartotekaya uyğun şəkildə saxlamaqdır. Kompüter texnologiyasının inkişafı imkan verir ki, toplanmış materialları artıq kartoteka yeşiklərində, kataloq dolablarında deyil, maşın daşıyıcılarında saxlamaq olsun. Eyni zamanda, tələb olunan informasiyanın axtarış sistemi də yaradılmışdır. Göründüyü kimi, tədqiqatçılar korpusların tərtibi və öyrənilməsi işinə korpus linqvistikasından çox-çox əvvəl başlamışlar. Qurani-Kərimin vahid mətninin tərtibi məqsədilə Ömər bütün variantların toplanıb müqayisə edilməsindən istifadə etmişdir. XVIII əsrdə Bibliyanın öyrənilməsi, lüğətlərin (Cohnson, Oxford English Dictionary, Webster Dictionary) hazırlanması, dilin tədrisi (Thorndikea 1921 tezlik korpusu), deskriptiv qrammatika (Fries, 1940; Auırk 1968) kartoteka prinsipindən istifadəyə əsaslanmışdır. Kvirkin Survey of English Usage sonuncu qeyri-elektron korpus sayılır. Onun hazırlanmasına 1964-cü ildə başlanmış, iş 25 il davam etmişdir. Bu kartoteka korpusuna ölçüsü 6x4 düym olan bir milyon kartoçka daxil olunmuşdur. Hər kartda 17 sətir yazıda bir sözforma barədə zəruri məlumat əksini tapmışdır.
İstər kartotekaların tərtibi, istərsə də onların saxlanması müxtəlif çətinlik və problemlərlə üzləşməyə səbəb olurdu. Məsələn, dil tarixinə dair sözləri abidələrdən seçib toplamaq və sözün işlənməsinə aid nümunələri kartlara daxil etmək üçün çox sayda tədqiqatçının əməyindən istifadə olunurdu. Tədqiqatçılar bu işə illərlə vaxt sərf edirdilər. Toplanmış kartları sözlərə görə əlifba sırası ilə düzmək, nəhayət, onları yazı makinasında yazmaq lazım gəlirdi. Eyni zamanda, bu kartotekanın qorunub saxlanması üçün xüsusi dolablar hazırlatmaq, dolabların sayı artdıqca saxlanma otaqlarını genişlətmək və s. bu kimi problemlər ortaya çıxırdı. Elektron maşınlardan istifadə, sonralar kompüter texnologiyasının inkişafı problemlərin həlli üçün yeni imkan və şərait yaratdı.
Elektron daşıyıcılarında ilk linqvistik korpusun qurulmasına 1960-cı ildə qərar verilmişdir. ABŞ-da Braun Universitetində müasir Amerika ingilis dilinin standart korpusu 1961-ci ildən 1964-cü il daxil olmaqla qurulmuşdur. İlk kompüterləşən korpus- Braun korpusu (The Brawn Corpus) tərkibinə amerikan qəzet, jurnal və kitablarından təxminən 500 mətn daxil idi. Braun korpusuna daxil olan hər bir mətn 2000 sözdən ibarət olan 500 mətni, ümumilikdə isə, 1 milyon sözü əhatə edirdi. Korpusun müəllifləri U. Frensis və Q.Kuçera külli miqdarda material və toplulardan istifadə etmişdilər [54, s.11].
İlk olaraq ABŞ-da ingilis dilinin korpusunun yaradılması həm texnologiyanın ABŞ-da inkişafından, həm də korpus ideyası və onun qurulma səbəbləri, məqsədlərinin düzgün əsaslandırılmasından, eləcə də, ölkədə istifadə olunan bu dilə bütün dünyada olan maraqdan asılı olmuşdur. Braun korpusunun yaradılması bütün dünyada dilçilərin və qeyri-dilçilərin ingilis dili sahəsində araşdırmalarına xeyli kömək olmuşdur. Bu da dilçilik elminin, həmçinin ingilis dilinin inkişafına təkan vermişdir. Braun korpusunun əsas məqsədi ABŞ yazılı ingilis dilinin ayrı-ayrı janrlarını öyrənmək və bu janrları müqayisə etmək, bu dilin tezlik lüğətini düzəltmək idi. Bu korpusun yaradılması ümummilli marağa və diskusiyalara səbəb olmuşdur. Əslində, birinci korpusun formalaşdırılması bu sahədə işlərin nəzəri məsələlərini öyrənmək tələbini də ortaya atdı. Yəni korpus dilçiliyi haqqında elmi məqalələrin yazılmasına da sanki start verildi. Müxtəlif tədqiqatçılar korpus qurmaq problemi ətrafında araşdırmalar aparmağa başladılar.
İkinci kompüter korpusunu Lankaster və Oslo Universitetləri ilə Berqen elmi mərkəzi birgə hazırlamışdır. 1970-78-ci illərdə hazırlanmış bu korpus universitetlərin və elmi mərkəzin yerləşdiyi şəhərlərin adlarının birinci hərfləri əsasında düzəldilmiş abreviatur adlandırılmışdır. LOB linqvistik korpusunun strukturu Braun korpusunun strukturuna oxşardır. Korpusa bir milyon sözforma daxil edilmişdir. İstər Braun, istərsə də LOB korpusların mətn həcminin bir milyon sözforma götürülməsi bu miqdarın dildəki bütün sözformaları əhatə etməsi ilə əsaslandırılmışdır. Lakin aparılmış statistik tədqiqatlar aşağı tezlikli sözformaların korpusda çoxluq təşkil etdiyini və onların öyrənilməsi üçün illüstrativ materialın azlığını təsdiqləmişdir. Onu da qeyd edək ki, Braun korpusu Amerika, LOB korpusu isə Britaniya ingilis dili materialını əhatə edir [54, s.12].
Hər iki korpus bu gün də çox aktual və yararlıdır. Onlar üzərindən çoxsaylı araşdırmalar aparılır və ingilis dilinin incəlikləri bu korpusların köməkliyi ilə öyrənilir.
London-Land Corpus (London Land korpus) 1975-ci ildə tamamlanmışdır. Bu korpus ingilis danışıq (şifahi nitq) dili əsasında yaradılmışdır. Korpusa 500 min sözforma həcmində mətn daxil edilmişdir. Sözformaların transkripsiyası, fonetik və prosodik annotasiyaları verilmişdir. LLC London kollec universitetinin əməkdaşları tərəfindən kağızda toplanmışdır. İsveçrə Land (Lund) şəhərinin dilçiləri sonradan bu korpusu kompüterə daxil etmişlər.
LLC korpusunun yaradılmasından az sonra leksikoqrafik tədqiqatlar üçün American Heritage Intermediate korpusu hazırlandı. Korpus dilçiliyi getdikcə inkişaf etdirilmişdir. İngilis danışıq dilinin öyrənilməsi məqsədilə Lancaster /IBM Spoken English Corpus, Corpus of Spoken American English) korpusları, habelə Celsinki Corpus of English Texts: Diachronic Part, International corpus of Learners English korpusları da qurulmuşdur.
Bu korpusların yaradılmasından sonra daha sürətlə işləyən, böyük yaddaş həcminə malik kompüterlər istehsalı başlanmışdır. Bundan başqa skaynerlərin köməyi ilə mətnləri kompüterə daxil etmək işi də asanlaşmışdır. Əvvəllər bu iş klaviaturanın köməkliyi ilə uzun zaman ərzində həyata keçirilirdi. Skaynerlər və mətni tanıma proqramları vasitəsilə əvvəl çap olunmuş mətnlərin maşın yaddaşına köçürülməsi mətnlərin toplanmasını sürətləndirdi. Nəticədə, korpusa bir milyon deyil, milyardlarla söz toplusundan ibarət mətnlər daxil etmək imkanı əldə olundu. 1990-cı ildə artıq 600 dan çox kompüter korpusu mövcud idi.
SSRI-də korpus dilçiliyi məsələsi maşın fondu adı altında öyrənilirdi və ötən əsrin 80-cı illərində maşın fondunun yaradılması ilə bağlı tədqiqatlara önəm verilmişdir.
Rus dilinin maşın fondunun yaradılması ideyası 1980-ci illərin əvvəllərində ortaya atılmışdır. 1985-ci ildə SSRİ EA-nın Rus dili institutunda bu korpusun yaradılmasına başlanmışdır.
İngilis dilinin müasir korpusları arasında Britaniya milli dil korpusu (British National Corpus), müasir Amerika ingiliscəsi korpusu (Corpus of Contemporary American English) mühüm yer tutur. Korpus ingilis dilinin müəyyən bir sahəsini araşdırarkən həmin dilin variantları ilə bağlı materiallardan istifadə etmək imkanı verir. Bu istiqamətdə çətinlikləri aradan qaldırmaq üçün BNC və COCA-nın böyük əhəmiyyəti vardır.
Artıq 1990-cı ilin birinci yarısında korpus dilçiliyi ayrıca bir sahə kimi formalaşmağa başladı. “Korpus dilçiliyi öz yetkinlik çağına çatdı.” C.Svartvik 1992-ci ildə korpus dilçiliyi haqqında məqaləsinin girişində bu cümləni qeyd etmişdir [132, s.116].
“Korpus dilçiliyi kompüter dilçiliyi ilə sıx əlaqədədir, həm ondan istifadə edir, eyni zamanda onu zənginləşdirir” [54, s.13].
Müasir korpus dilçiliyinə təsir edən ilk əsas istiqamətlərdən biri dilçiliyin müqayisəli-tarixi metodudur. Dilçilər daim mətn toplularını müqayisə məqsədilə istifadə edirdilər. İlk korpuslarla yanaşı tarixi korpuslar da elektron formata malik idilər. Tarixən kartotekalar mövcud idi. Bütün yazılı mətnlər, qəzet və jurnal materialları bu kartotekalarda toplanılırdı. Onların toplanması və saxlanma prosesi çox zaman tələb edirdi. Getdikcə müxtəlif janrlarda olan mətnlərin çoxalması, eyni zamanda texnologiyanın inkişafı elektron formada korpusların yaradılmasına gətirib çıxardı.
Ümumiyyətlə, korpus alman mənşəli söz olub (das Korpus) linqvistik təhlil məqsədilə istifadə olunan mətnlərin toplusudur. Bu mətnlərin tərkibi minlərlə, milyonlarla sözlərdən ibarət olub kompüterin yaddaşında toplanır. Müasir korpusların əksəriyyəti sistemləşmiş şəkildədirlər. Bu o deməkdir ki, mətnlər xüsusiyyətlərinə görə, yəni janrlara, dialektlərə görə sistemləşirlər. “Korpus – sistemləşmiş, kompüterləşmiş mətnlərin toplusudur. Korpus hər hansı bir dilin öyrənilməsi məqsədilə yaradılır. Dilin digər topluları isə başqa məqsədlə istifadə olunur. Korpusun tərkibi dilin öyrənilməsi məqsədini dəstəkləməlidir” [54, s.5].
Milli korpus içindən seçildiyi dili təmsil edir. Heç bir korpus həcmindən və quruluşundan asılı olmayaraq dilin özü ilə eyni xüsusiyyətdə ola bilməz.
Korpus dedikdə, hər hansı konkret bir dildə mətnlərin elektron formada toplanmış külliyyatı başa düşülür. Korpuslardan bəhs etdikdə dilin milli korpusunu xüsusi qeyd etmək yerinə düşərdi. Dilin milli korpusunda həmin dil tam şəkildə, bütün səviyyələrdə təmsil olunur. Korpusu təşkil edən mətnlər və həmin mətnlərə müraciət formaları müəyyən qaydalar üzrə nizamlanır. İstifadəçi onu maraqlandıran istənilən məsələ ilə bağlı korpusdan lazımi məlumat əldə etmək imkanına malik olmalıdır. Korpusda dilin bütün üslubları, janrları, inkişaf mərhələləri, özəllikləri, fonetikası, qrammatikası, frazeologiyası, lüğətləri (ikidilli, çoxdilli tərcümə lüğətləri, terminoloji, tarixi, etimoloji, dialektoloji, statistik, antonimlər, sinonimlər, omonimlər, müxtəlif sorğu lüğətləri, onomastik, ensiklopedik və s.) ehtiva olunur. Bundan başqa, milli korpusda müxtəlif istiqamətli və janrlı bədii mətnlər, jurnal, qəzet materialları, elmi, elmi-populyar, tədris mətnləri, dini-fəlsəfi mətnlər, texniki mətnlər, rəsmi-işgüzar və hüquqi mətnlər, məişət mətnləri və s. geniş əks olunur. Bu mətnlər korpusda altkorpuslar təşkil edir (kütləvi informasiya vasitələri altkorpusu, dialekt mətnləri altkorpusu, poetik mətnlər altkorpusu, tədris altkorpusu, şifahi nitq, aksentoloji, multimediya altkorpusları və s.).
Korpus yaradıcılarının məqsədi korpusun seçildiyi dili maksimum dərəcədə təmsil etməkdir. Yəni hər hansı bir insan xarici dili öyrənərkən və ya o dili araşdırarkən həmin dilin korpusuna müraciət edirsə, korpus bu dilə dair maksimum dərəcədə material və məlumatı özündə birləşdirməli və aydınlaşdırmalıdır. Dil mütəxəssisinin araşdırdığı dilin hərtərəfli əhatə olunması üçün korpusun zəngin olması çox vacibdir.
Buna baxmayaraq, korpus bəzən dilə məxsus olmayan cəhətləri də bizə göstərir. Ümumiyyətlə, dilin milli korpusunu yaradarkən ora toplanan mətnlərin meyarlarını nəzərə almaq vacibdir. Korpus mətnindən istifadə zamanı mətndə işlənən sözləri, söz birləşmələrini, qrammatik kateqoriyaları təhlil etmək imkanı yaranır. Konkret dillər üçün milli korpusların yaradılması ideyası yeni deyil. Əvvəllər bu maşın fondu adlanırdı. Hazırda dünyanın bir çox ölkələrində dünyanın aparıcı dilləri üçün korpus tərtib olunur. Əlbəttə bu korpuslar elmi və texniki göstəricilərinə görə eyni deyil. “Dünyanın ən çox sayılan və örnək götürülən korpusu Britaniya Milli Korpusu hesab olunur. Slavyan dilləri ailəsində isə rus və çex dillərinin milli korpusları xüsusilə seçilir”[12, s.46].
Korpus dilçiliyində “milli” sözünün işlənməsi ilk yaranan korpuslardan birində Britaniya ingilis dilinin fərqləndirilməsi ilə əlaqədardır. Britaniyada işlənən ingilis dilinin bir çox variantları olduğuna görə (məsələn, Amerika ingiliscəsi, Avstraliya ingiliscəsi və s.) məhz Britaniyada işlənən ingilis dilini vurğulamaq məqsədilə, onu digər variantlardan ayırmaq məqsədilə “milli” sözü əlavə olunmuşdur. Bu ənənə sonralar da saxlanılmış və digər dillərin korpusları yaradıldıqda ilk korpusun adında olan “milli” sözü saxlanılmış, digərlərində də işlədilmişdir.
Rus dilinin Uppsal korpusu Isveçin Uppsal Slavyanşünaslıq universitetində ötən əsrin 80-cı illərində yaradılmışdır. Korpusa ümumi həcmi bir milyon sözforma təşkil edən 600 mətn daxil edilmişdir.
Qeyd olunduğu kimi, linqvistik korpuslar əvvəlcə bir milyon sözü əhatə etmişdir. Həmin korpuslar hərtərəfli məlumatın toplanması üçün yetərli olduğu düşünülmüşdür. Lakin araşdırmalar korpusun ümumi həcminin aşağı tezliklə işlənən sözləri öyrənmək üçün kifayət etmədiyini göstərdi. Bir milyon sözü əhatə edən mətndə işlənməsi 1-5 tərtibində olan sözlər çoxluq təşkil edirdi.
Həcmin milyonla məhdudlaşdırılması dildə bir çox mətnlərin nəzərə alınmasına səbəb olurdu. Mətnlər təsadüfi seçimlər üzrə müəyyənləşdirilirdi və tam mətnlər, demək olar ki, korpusa daxil edilmirdi.
Kompüterlərin imkanları kifayət qədər genişləndikdən sonra korpusdakı mətnlərin artırılmasının və ya iri həcmli yeni korpusların yaradılmasının məqsədəuyğunluğu təsdiqini tapdı. Eyni zamanda, tədqiqatçılar dilə aid yazılı abidələrin mətnlərinin tam şəkildə korpusa daxil etməyə ehtiyac olduğunu göstərirdilər. Bu cür korpuslar dilin müəyyən tarixi dövrünü öyrənmək üçün materialların xüsusi qaydada bir yerə toplanmasına imkan verəcəkdi. Nəticədə ötən əsrin 90-cı illəri ərəfəsində yüz milyon sözü əhatə edəcək korpusların qurulması başlandı.
The Cobuild Proceck və ya The Bank of English korpusu Collins nəşriyyatında yeni lüğətin hazırlanması məqsədilə 1980-ci ildə Bermengem Universiteti ilə birgə The Bank of English (Ingilis dili bankı) korpusunu qurmağa başladı. The Bank of English monitorinq, yoxlama korpusu idi. Layihənin rəhbəri Con Sinklerin sözlərinə görə bu korpus dilin daimi və ardıcıl dəyişməsini nəzərdə tutur və onun həcmi müəyyən miqdarla məhdudlaşdırılmır. Yeni materiallar süzgəcdən keçirilir, onlardan yeni linqvistik məlumatlar götürüb korpusa salınır. Korpusun həcmi 1997-ci ildə 300 milyon, 2005-ci ildə isə 525 milyon sözə çatdırılmışdır. Hər ay korpusa 2,5 milyon söz həcmində material əlavə olunur. Bu korpus həm yazılı, həm də şifahi nitqi əhatə edir. Korpusun 25%-i şifahi nitq materialıdır.
The Longman Corpus Network kommersiyalaşdırılmış məlumat bazasıdır. Baza Longman kompaniyası ilə Lankaster universiteti tərəfindən yaradılmış və 50-100 milyon söz həcmindədir.
Britaniya Milli korpusu-British National Corpus - ingilis dilini tam şəkildə təqdim edir. Burada bir janr deyil, bütün janrlara aid materiallar daxil edilmişdir. Korpus materiallarının 90%-i yazılı, 10%-i şifahi nitqi özündə birləşdirir. Britaniya Milli korpusunun yaradılmasında müxtəlif təşkilatlar iştirak etmişdir. Britaniya hökuməti bu layihəyə dəstək vermiş, korpus 1995-ci ildə formalaşdırılmışdır. Bura 4124 mətn daxildir ki, onlardan 863-ü danışıq dilindən və şifahi monoloqlardan transkripsiya edilmişdir. Hər bir mətn orfoqrafik cümlələr şəklində seqmentləşdirilmiş, bu cümlələrin tərkibindəki hər sözə avtomatik söz sinfi (nitq hissəsinə aidlik) kodu verilmişdir. Korpusda 6,4 milyon orfoqrafik cümlə vardır. Sözlərin seqmentasiyası və təsnifi CLAWS proqramı ilə yerinə yetirilmişdir. Təsnifat sxemi 65 nitq hissəsini nəzərdə tutur və bu nitq hissələri müvafiq sənədlərdə təsvir olunmuşdur. Bütün mətnlərə ən standart üsullarla-SGML və TEI sistemi ilə xülasələr hazırlanmışdır. Korpus yaradılarkən mətnlərin seçilməsində çoxsəviyyəli nəzarət sistemindən istifadə edilmişdir. Beynəlxalq ingilis dili korpusu – The International Corpus of English (ICE) bir sıra universitetlərin birgə layihəsi çərçivəsində yaradılmış 20 paralel alt korpusu özündə birləşdirir. Hər alt korpus milyon söz həcminə malikdir. Korpus ingilis dilinin rəsmi və ya ikinci dil kimi istifadə olunduğu ölkələrdəki (Avstraliya, Kanada, Yeni Zelandiya və b.) ingilis dili materialları ilə təchiz edilmiş, mürəkkəb riyazi təminat mexanizminə malikdir.
Amerika milli korpusu-American National Corpus-2003-cü ildə istifadəyə verilmişdir. Həcmi 100 milyon söz işlətmə səviyyəsində nəzərdə tutulmuş, hələlik 11 milyon həcminə çatdırılmışdır. Korpusa giriş pulludur. Korpus XML formatındadır.
Gigaword corpora ingilis, ərəb, çin və digər dillərin korpusu olub Avropa İttifaqı tərəfindən maliyyələşdirilir. Korpusu Linguistic Data Consortium kompaniyası yaradır. Hazırda korpusda bir milyard sözişlətmə vardır.
Rus dilinin milli korpusu 2004-cü ildə açılmışdır. Bu korpus Rusiya Elmlər Akademiyasının rus dili, Dilçilik İnstitutları, “Yandeks” kompaniyası tərəfindən Moskva, Peterburq, Voronej və başqa şəhərlərin linqvistlərinin iştirakı ilə 2001-ci ildən qurulur. 2007-ci ildə korpusa yazılı, şifahi, dialekt mətnləri olmaqla 140 milyon söz və söz-forma daxil edilmişdir. Korpus morfoloji və semantik cəhətdən tam annotasiyalaşdırılmışdır.
Bundan əlavə, Corpus of Contemporary American English (400 mln.söz), Oxford English corpus (2 mld.söz) korpusları da hazırlanmışdır. Onu da qeyd edək ki, bir çox milli dillər üzrə korpusların yaradılması sahəsində də işlər aparılmaqdadır.
Dostları ilə paylaş: |