1.2. Əsas dil korpusları
Korpus anlayışı dilçilərin daim işlətdikləri ənənəvi kartotekaların davamçısı kimi meydana gəlmişdir. XX əsrdə bu kartotekalar kompüterləşdilər və ümumişlək oldular. Bu yolda internetin əvəzsiz xidməti vardır. İnternetin hesabına müxtəlif dil araşdırmaları üçün yararlı olan iri həcmli mətnlərdən istifadə etmək imkanları yarandı. Korpusun formalaşmasında onun strukturuna aid olan bütün məsələlər həll olunmalıdır. İlk öncə vacib məsələ dil materialının reprezentativliyi həm mətn materialının yetərliyi, həm də onun müxtəlifliyi ilə təmin olunmalıdır. İkinci vacib məsələ xronologiyadır. Belə qəbul edilir ki, korpusun xronologiyası müxtəlif janrlar üçün fərqli olmalıdır.
Korpus geniş istifadəçi kütləsi üçün yaradılır. O, həmçinin müxtəlif məsələlərin həlli üçün yaradılır. V.P.Zaxarov “Korpus dilçiliyi” kitabında korpusun formalaşma prosesini aşağıdakı mərhələlərlə izah edir:
“1. Mətnin daxil olmasının təminatı.
Mətnlərin elektron formata keçidinin təminatı. Bu proses müxtəlif formada - əl ilə, skaynerlə, internet vasitəsilə və s. baş verir.
Analiz və mətnlərin ilkin emalı. Bu mərhələdə müxtəlif mənbələrdən daxil edilən mətnlər yoxlanılır və düzəlişlər aparılır.
Konvertasiya mərhələsində korpus üçün yararlı, lazım olmayan şəkillər, cədvəllər və s. silinir.
Qrafematik mərhələ. Leksik olmayan elementlərin seçilməsi, qeyri- mətn elementlərin silinməsi, xüsusi mətn elementlərinin nəzərdən keçirilməsi və s. həll edilir. Bir qayda olaraq bu işlər avtomatlaşmış rejimdə yerinə yetirilir.
Düzəliş mərhələsi. Buraxılmış səhvlərə düzəlişlər edilir” [54, s.27].
Hazırda dünyanın aparıcı dillərinin çoxunun korpusu mövcuddur. Onların bəzilərini nəzərdən keçirək.
Braun korpusu : Qeyd olunduğu kimi, bu korpus 1964-cü ildə hazırlanmışdır. 1971 və 1979-cu illərdə onun təkmilləşdirimiş variantları istifadəyə buraxılmışdır.
Braun korpusunun müasir variantı 1.014.312 söz işlətmədən ibarətdir. Mətnlər 1961-ci ildə ABŞ-da nəşr olunmuş nəsr əsərlərindən seçilmişdir və bu zaman əsərlərin əvvəl heç zaman çap olunmaması, müəlliflərin bilavasitə Amerika ingilis dilinin daşıyıcıları olması nəzərə alınmışdır. Təbii ki, bir sıra mətnlər 1961-ci ildə çap olunsalar da onların daha əvvəl yazılması istisna edilmir. Korpusa hər birində 2000+ miqdarda söz olan 500 kontekst daxil edilmişdir. Hər bir nümunə konteksti abzasın və ya mətnin daha böyük parçasının (məsələn, fəsil) başlanğıc hissəsindən götürülmüşdür. Belə kontekst 2000 sözü əhatə etdikdə tamamlanmış hesab edilmişdir. Kontekstin son cümləsinin tamamlanması və ümumi həcmin 2000-dən az olmaması şərti nəzərə alınmışdır. 2000+ işarəsi bəzi kontekstlərin 2000 sözdən çox olmasını göstərir. Mətnlər müxtəlif janrlı əsərlərdən götürülmüşdür. Dialoqlar kontekstin ümumi həcminin 50% -ni aşdıqda belə kontekst götürülməmişdir. Qəzet materialları da müxtəlif rubrikalar üzrə seçilmişdir. Mətnlərin seçilmə qaydası Braun universitetində bu mövzuya həsr edilmiş konfransın qərarı ilə təyin edilmişdir. Bütün hallarda mətnlərin proporsionallığına diqqət yetirilmişdir.
Braun korpusu üçün mətn fraqmentləri təsadüfi ədədlər cədvəli üzrə seçilmişdir. Nəşrin fraqment seçiləcək səhifəsi də bu cədvəl əsasında təyin olunmuşdur. Seçilən mətndən istinadlar, cədvəllər, şəkillər, simvollar çıxarılmışdır. Söz-formalara ayırma durğu işarələri, iki soz-forma arasındakı boşluq, abzasın başlanğıcı kimi vahidlərlə təyin edilmişdir. Bu, geniş istifadə olunan seqmentasiya üsuludur. Söz-formaların ümumi həcmini kompüter hesablayır. Belə hesablama konkret mətn fraqmenti üzrə də aparılır. Söz-formaların ümumi sayı fraqmentdə 500-dən çox olduqda cümlə bitmədikdə söz-formaların sayının bir qədər artırılmasına məhdudiyyət qoyulmur. Məsələn: “She opened the door of a room on the floor below and took the child over to a bed in which a woman was lying” [127]. Əgər Moemin əsərindən seçilən fraqment verilmiş nümunənin “floor” sözündə 500-ə çatmışdırsa, onda cümlənin tamamlanması məqsədilə nöqtəyə qədər olan sonrakı söz-formalar da korpusa daxil edilir. Yəni “floor” sözündən sonra gələn “below and took the child over to a bed in which a woman was lying” parçasındakı söz-formalar da korpusa daxil edilir. Onların sayı 15-dir. Nəticədə Moemdən seçilmiş parçanın söz-forma sayı 500 deyil, 515 təşkil edəcəkdir.
Korpusda hər bir janr müəyyən işarələməyə malik olur. Bədii ədəbiyyatdan seçilmiş nümunələrin özlərinin ardıcıllığı da nişanlanır. Tutaq ki, bədii ədəbiyyatdan seçmələr A ilə işarələnmişdir. Mətn parçalarının özləri də ardıcıl nömrələnir. S.Moemin əsərindən seçilən parça korpusun bədii ədəbiyyat mətnlərindən seçilmiş parçalar arasında nömrəsi 24 olarsa, onu belə bir işarə ilə qeyd etmək olar: .
Braun korpusunda bədii əsərlərdən nümunələrin ümumi qeydiyyat forması aşağıdakı cədvəldə verilmişdir.
Dostları ilə paylaş: |