Cədvəl 1.1.1
Yazılı və şifahi korpuslarda işlənən sözlərin miqdarı
|
Ad
|
İl
|
İşlənən sözlərin miqdarı
|
Dil
|
|
1
|
BUC
|
1964
|
1.000.000
|
ing. (ABŞ)
|
çap
|
2
|
ANİ
|
1971
|
5.000.000
|
ing. (ABŞ)
|
çap
|
3
|
LOB
|
1978
|
1.000.000
|
ing. (BB)
|
çap
|
4
|
Birmengem
corpus
|
1987
|
20.000.000
|
ing. (BB)
|
çap
|
5
|
Kolhapur corpus
|
1988
|
1.000.000
|
ing. (Hind)
|
çap
|
6
|
TOS CA
|
1988
|
1.500.000
|
ing.(BB)
|
çap
|
7
|
SEV Corpus
|
1989
|
1.000.000
|
ing.(BB)
|
çap
|
8
|
CHİLDES
|
1990
|
20.000.000
|
ing.(uşaq)
|
şifahi
|
9
|
Nicmengen
|
1991
|
132.000.000
|
ing.(BB)
|
çap şifahi
|
10
|
LIELC
|
1991
|
50.000.000
|
ing.
|
Çap şifahi
|
11
|
Map Task Corpus
|
1991
|
147.000.000
|
ing. (Şotland.)
|
şifahi
|
12
|
LCLE
|
1992
|
10.000.000
|
ing.
|
Çap xaricilər üçün
|
13
|
SEC
|
1992
|
53.000.000
|
ing.(BB)
|
şifahi
|
14
|
Wellington Corpus
|
1993
|
1.000.000
|
ing.(Yeni Zeland.)
|
çap
|
15
|
POW
|
1993
|
65.000.000
|
ing.(uşaq)
|
şifahi
|
16
|
BNC
|
1995
|
100.000.000
|
ing.(BB)
|
şifahi, çap, yazılı
|
17
|
Corpus of Spoken
|
1991
|
2.000.000
|
ing.(ABŞ)
|
şifahi
|
18
|
İCLE
|
1997
|
200.000.000.
|
ing.
|
Yazılı-əcnəbilər
|
19
|
Bank of English
|
1997
|
320.000.000
|
ing.(BB)
|
çap
|
[79]
Türk dilləri üçün NLP sistemlərinin yaradılması işlərinə ötən əsrin sonlarından, daha dəqiq desək, 80-ci illərdən başlanmışdır. Həmin vaxtlar türk dillərinin maşın fondunun yaradılması ilə bağlı müzakirələr aparılır, hazırlıq işləri görülürdü. Bu həm də, ilkin variantda da olsa, NLP sistemlərinin yaranması kimi qeyd oluna bilər. Həmin illərdə elmi dairələrdə “korpus” deyil, analoji terminoloji anlamda “maşın fondu” termini işlənirdi. İndinin özündə də “korpus” və “maşın fondu” terminlərinin yanaşı işlədilməsi halları müşahidə olunur. Milli dil korpuslarının yaradılması sahəsində çalışan tədqiqatçıların bir qrupu informasiya texnologiyalarının bugünkü durumu baxımından “milli korpus” termini əvəzinə “kompüter fondu” termininin işlənməsini daha məqbul hesab edirlər. Bütün bunlar göstərilən terminin hələ də tam sabitləşməməsindən xəbər verir [20, s.41].
Azərbaycan dilində korpus linqvistikası üzrə ilk araşdırmalar C.Rəhmanova aiddir. Müəllif keçmiş SSRİ-də qəbul olunmuş Maşın fondu problemi ilə məşğul olmuşdur. Tədqiqatçı korpus probleminə bir qədər fərqli şəkildə yanaşmışdır. Onun türk dilləri maşın fondunun yaradılması ilə bağlı işlərində fondun daxilində müxtəlif korpusların qurulması məsələləri qoyulur. O göstərir: “Türk dilləri maşın fondunun yaradılması prosesinin ilkin işlərindən biri türk dillərinə aid abidələrin, müxtəlif lüğətlərin fonda daxil edilməsidir. Bu baxımdan terminoloji lüğətlər ayrı-ayrı sahə terminlərini əhatə edir və onlar sayca daha böyük miqdarda leksik vahidi özündə birləşdirir. Hər bir dilin özünün terminoloji bazası vardır. Bu baxımdan türk dilləri maşın fondunda ayrı-ayrı dillər üzrə terminlər bazası yaratmaq zəruridir. Göstərilən bazalar arasında rabitəni qurmaqla türk dilləri maşın fondunun terminoloji korpusunu formalaşdırmaq mümkündür” [30, s.160]. C.Rəhmanov türk dillərinin yazılı abidələrini xronologiyasını nəzərə almaqla korpusa daxil etməyi və hər bir abidə üzrə korpus linqvistikasının tələbləri üzrə fərqli axtarış sistemlərini qurmaq, nəhayət abidələrin mətnləri üzrə konkordanslar yaratmaq və mövcud fonddan tədqiqatlar üçün istifadə etməyi nəzərdə tutur. Bu yanaşma dövrünə görə korpus linqvistikasından daha çox ilk növbədə elektron kitabxananın formalaşdırılmasına köklənmişdir. Tədqiqatların aparıldığı dövr üçün Azərbaycanda elektron kitabxananın yaradılması zamanı bir qədər qabaqlamaq olsa da, zəruridir. Hazırda məsələyə əsl korpus linqvistikası mövqeyi ilə yanaşmaq tələbi daha aktualdır. Fikrimizcə, bu aktuallıq nəzərə alınmışdır. Hal-hazırda Azərbaycan dilinin milli korpusu sahəsində Ə.Fətullayevin rəhbərliyi altında böyük işlər görülür.
Milli kitabxanada, elmi tədqiqat müəssisələrində, ali məktəblərdə nəşr olunan ədəbiyyatların elektron variantları yaradılır və internetə yerləşdirilir. Korpus dilçiliyinin inkişafında internet qlobal şəbəkəsinin heç də az rolu olmamışdır. Belə ki, internet sayəsində bu və ya digər korpuslar geniş istifadəçi kütləsi üçün əlyetən oldu və bu korpusların zənginləşməsində internetin böyük əhəmiyyətini qeyd etmək lazımdır. Hətta korpus dilçiliyinin problemlərinin müzakirəsi üçün xüsusiləşmiş elektron formatda “Corpora List” tərtib olunmuş, vaxtaşırı dərc olunan “International Journal of Corpus Linguistics” jurnalı hazırlanmışdır. Korpus dilçiliyinin nəzəri və təcrübi problemləri xüsusi seminarlarda, kompüter dilçiliyi ilə bağlı elmi konfranslarda müzakirə olunur. Buna hər il təşkil olunan kompüter dilçilyinə aid “Dialoq” beynəlxalq konfransını misal göstərmək olar. Müasir dövrdə beynəlxalq əlaqələrin getdikcə intensivləşməsi, elmin sürətli inkişafı nəticəsində elmi-texniki ədəbiyyatın onlarla xarici dilə qısa müddət ərzində tərcüməsi zəruri tələbata çevrilmişdir. Qeyd etmək lazımdır ki, elmi-texniki məlumatların avtomatik axtarışı, mətnlərin müxtəlif mətnəmələgətirmə xüsusiyyətlərinin tədqiqi, referatların və sairin avtomatik alınması kimi məsələlər də maşın tərcüməsi ilə sıx əlaqədardır. Tərcümə ədəbiyyatının nəşri durmadan artır. Lakin, dünyanın müxtəlif xalqlarının dilində nəşr olunan elmi – texniki ədəbiyyatların çox cüzi bir hissəsini tərcümə etmək mümkün olur. Məhz bu səbəbdən tərcümə prosesinin avtomatlaşdırılması ideyası meydana gəlmişdir [12, s.98].
Fikrimizcə, bu baxımdan korpus dilçiliyini müstəqil bir dilçilik sahəsi kimi səciyyələndirmək düzgün olmazdı. Korpus dilçiliyi kompüter dilçiliyinə aid edilə bilər.
Ümumiyyətlə, milli dil korpusları dövlət əhəmiyyətli, strateji məsələdir. Ölkənin dilinin təbliğində də dil korpuslarının əhəmiyyətini qeyd etmək zəruridir. Həmçinin, ayrı-ayrı dillər üçün milli korpusların hazırlanması böyük zəhmət tələb edən ağır işdir.
Qeyd etmək lazımdır ki, “korpus” termininin çox sayda izahları mövcuddur. Məsələn, E.Fineqan öz dərsliyində korpusa aşağıdakı kimi izahat verir: “Korpus- hər hansı bir şəraitdə olan məlumatı özündə cəmləşdirən mətnlərin maşın formatında toplusudur” [107, s.11]. Vikipediya isə korpusu elektron formada mətnlər toplusu kimi izah edir.
T. McEneri və E. Vilsona gorə:“Korpus – hər hansı bir dilin bütün kriteriyalarına cavab verən dil fraqmentlərinin toplusudur” [124, s.4].
Fikrimizcə, hər hansı bir dilin kriteriyaları dedikdə, o dilin leksik, qrammatik, orfoqrafik, semantik və digər qanunları nəzərdə tutulur. Bir dilin korpusunu yaradarkən bütün bu qanunları əks etdirən yazılı və şifahi mətnlər toplanmalıdır. Çünki, dilçilər və dilçiliklə məşğul olan alimlər hər hansı bir dili araşdırarkən o dilin bütün kriteriyalarına cavab verən “korpus”dan geniş istifadə edirlər. Bu baxımdan korpus dilçiliyinin böyük əhəmiyyəti vardır.
Ədəbiyyatda “linguistic corpus, text corpus və linguistic corpora” terminlərindən istifadə olunur. Bunlardan üçüncüsü korpusların birləşdirilməsini və ya cəmini ifadə edir. İngilis dilində korpus sözünün cəmi kimi “corpuses” əvəzinə çox vaxt “corpora” sözündən istifadə olunur. Korpusa müxtəlif təriflər verilmişdir. Ümumi şəkildə korpus mürəkkəb filoloji obyektdir.
Korpus müəyyən şəkildə təşkil olunmuş söz vahidləri toplusudur. Onun tərkibinə xüsusi şəkildə seçilmiş mətnlər və ya mətn fraqmentləri daxil olur.
Korpus istənilən dildəki şifahi və ya yazılı nitq məhsulu olan təbii mətnlər çoxluğudur. Həmin material kompüterdə saxlanılır və avtomatik axtarışa imkan verir.
Korpus xarici meyarlar əsasında seçilmiş, dili ən tam şəkildə təmsil edən, elektron formaya keçirilmiş mətn parçaları toplusudur. Konkret yazıya və yazıçılara, müəyyən dövrə, müəyyən mövzuya və s. aid mətnlər korpusu təşkil edir.
Tədqiqatçılar yazılı, şifahi və çap olunmuş mətn korpuslarını bir-birindən ayırırlar. Şifahi korpus dedikdə şifahi nitq məhsullarının mətinləşdirilib toplanması nəzərdə tutulur. Lakin kompüterə şifahi nitqi də daxil etmək mümkün olduğundan korpus həm yazılı, həm də şifahi nitq məhsulu olur. Çap materialı və ya çap korpusu nəşr olunmuş mətnləri əhatə edir. Yazılı mətn korpusu həm nəşr olunmuş, həm də nəşr edilməmiş mətnləri əhatə edir. Əslində korpus elektron daşıyıcılarında olan mətnlər (digital text) sayılır.
Korpus linqvistikası iki əsas istiqamətdə inkişaf edir. Birinci istiqamət korpusların yaradılması, onların imkanlarının genişləndirilməsi ilə əlaqədar araşdırmaları əhatə edir. İkinci istiqamət korpus bazasında tədqiqatların aparılmasıdır. Bu halda korpusların hansı linqvistik problemləri həll etməyə kömək göstərdiyini bilmək vacibdir. İlkin olaraq korpuslar linqvistik material bazasını formalaşdırmağa xidmət etmişdir. Korpus linqvistikası özü öz materialını hazırlayır, bu materialı yerləşdirmək prinsiplərini müəyyənləşdirir. Nəticədə korpusun strukturu qurulur. Korpus materialından istifadə etməyin öz xüsusiyyətləri və öz istifadə aparatı vardır. Korpus elektron daşıyıcılarda yerləşdirilir. Lakin bu, materialın sadəcə bir yerə toplanması demək deyildir. Hərçənd ki, korpus linqvistikası indi belə bir problemi də həll edir. İlk dövrlərdə kitabların, lüğətlərin, qəzetlərin kompüterə daxil edilməsi – elektron kitabxanalar vardır və bu kitabxanaların fondları ildən-ilə zənginləşir. Elektron kitabxanalar da kataloq sistemləri, avtomatik axtarış bazaları ilə təchiz edilmişdir. Bu və ya digər kitabı birbaşa internetdə axtarmaq mümkündür. Axtarış prosesində istifadəçi müxtəlif hallarla qarşılaşır. Müəyyən şəbəkədə kitabın müəllifi və ya adı əsasında axtarışlar aparmaq olur. Əsərin müəllifinin adı və soyadı üzrə axtarış zamanı müxtəlif nəticələr alınır. Eyni adı və soyadı daşıyan xeyli sayda istinadlar üzə çıxır. İstifadəçi yazıçının adı və soyadı üzrə axtarış aparır. Nəticədə eyni adı və soyadı daşıyan şair, dövlət xadimi, aktyor, müğənni, alim və başqaları barədə məlumatlar göstərilir. Kitabın adı əsasında axtarış aparıldıqda eyni adlı film, mahnı, restoran, klub, mağaza və s. haqqında məlumatlar alınır. Belə hallarda axtarış sistemini sıxmaq (məsələn, əsərin müəllifi və əsərin adını bir yerdə axtarmaq) lazım gəlir. Axtarışa çıxarılan adı sıxmaq da həmişə müvafiq nəticəni vermir. Konkret frazanın, birləşmənin tam üst-üstə düşən variantının axtarışı zamanı da bir sıra çətinliklərlə üzləşmək mümkündür. Bu zaman axtarış frazasının müxtəlif formaları olur. Frazanın seçimi subyektiv amillərdən asılıdır.
Elektron kitabxananın daxilində axtarış aparmaq daha optimal nəticələr verir. Bundan əlavə elektron kitabxananın özünün müvafiq axtarış sistemi olur. Məsələn, kitabxanadakı bədii əsərlər janrlara görə kataloqlaşdırılır. Aydındır ki, müəyyən hekayəni axtaran istifadəçi hekayələr blokuna girir. Burada müəllif adı üzrə axtarış sistemi qurulubsa istifadəçi əvvəlcə müəllifi tapır, sonra onun hekayələrinin siyahısına daxil olur və istədiyi hekayəni aktivləşdirir. Elektron kitabxana korpus deyildir. Elektron kitabxana adi kitabxana sistemi üzrə qurulur və kompüterin imkanları hesabına lazım gələn ədəbiyyatın axtarışı maksimum dərəcədə optimallaşdırılır. Yeni ideyalar əsasında proqram təminatları işlənib tətbiq olunduqca daha mükəmməl sistemlər yaradılır. Korpusda mətnlər və mətnlərdən fraqmentlər toplanılır. Korpusun strukturu onun təyinatı, məqsəd və vəzifələri üzrə qurulur. Müasir korpusların yaradılması proseslərinin əvvəlində tədqiqatçılar daha çox sözü mətndən axtarıb tapmağı, avtomatlaşdırmanı nəzərdə tutmuşdular. Ona görə də korpuslarda müəyyən sözün və onun sözformalarının axtarıb tapılmasına diqqət yetirilmişdir.
Korpus dil sisteminin obyektiv linqvistik təsvirini verir. Obyektivlik konkret ünsiyyət materiallarını öyrənməkdən irəli gəlir. Korpus linqvistikası ilə ənənəvi dilçilik arasında başlıca fərqlərdən biri korpusda ünsiyyət prosesində üzə çıxan hər cür dil hadisələrinin əhatə olunmasıdır.
Düşünürük ki, milli dillərin korpuslarının yaradılması da günün vacib və zəruri məsələlərindəndir. Elmi-texniki və s. ədəbiyyatımızın bütün dünyada yayılması məqsədilə elektron kitabxanaların və milli korpusun yaradılması zəruridir. Korpus Azərbaycan dilinin araşdırılması, öyrənilməsi və təbliğinə də zəmanət verəcəkdir. Çünki hər hansı bir dili öyrənərkən, bu dili araşdırarkən korpus dilçiliyindən geniş istifadə olunur. Maşın tərcüməsi zamanı korpusdan istifadə sistemləri qurulmaqdadır.
Müasir dövrdə korpus haqqında dilçilər tam məlumatlı olmasalar belə, onlar korpusun nə qədər böyük əhəmiyyətə malik olduğunu qəbul edirlər. “Dilin korpusu hər hansı bir dildə olan mətnlərin elektron toplusudur” fikrini bu cür izah edə bilərik [59, s.14]. Təsəvvür edək ki, mətn hissələrdən ibarət bir oyuncaqdır və hər hansısa bir ağıllı uşaq bu oyuncaqla oynadığı halda, dilçi bu oyuncağı hissələrə bölməyə, parçalamağa çalışır. Normal insan mətni oxuyub hər hansısa bir məlumat almaq üçün istifadə etdiyi halda, dilçi bu mətni hissələrə bölməyə başlayır. Məsələn, qrammatik hissələrə, leksik hissələrə və s. Dilçilər mətnləri hissələrə bölür, bu şəkildə ayrılmış, artıq hissələrə bölünmüş, işlənmiş mətnlər korpusda yer alır. Kompüterlərin tətbiqindən əvvəl dilçi müəyyən bir sözün və ya ifadənin quruluşunu araşdırırdısa o, yüzlərlə kitablara müraciət edir, kartotekalardan istifadə edirdi. Bir araşdırma aparmaq üçün illərlə material toplanılırdı. Müasir dövrdə “korpus” bu vaxtı xeyli qisaldıb. Artıq müasir kompüterlərin, internetin, elektron kitabxanaların olması bu məsələni həll edib. Toplanması illərlə vaxt alan ədəbiyyatları və materialları müasir dövrdə qısa bir zamanda toplamaq mümkündür. İndi vaxt materialın toplanmasına deyil, araşdırmalara sərf olunur. Korpus çətin işləri xeyli yüngülləşdirir. Dilçilər üçün korpusun rolu əvəzedilməzdir. Korpusdan əldə edilən materialın miqdarı və keyfiyyəti korpusaqədərki dövrlə müqayisəedilməz dərəcədə yüksəkdir. Bir dili araşdırarkən 10000 və daha çox nümunələrdən istifadə etmək 10 nümunə istifadə etməkdən üstün sayılır. Bu 10000 nümunəni tapmaq üçün isə həmin dilin korpusundan istifadə edilir.
Beləliklə, korpus linqvistikasının ötən əsrin 60-cı illərindən başlayaraq meydana çıxması, bir sıra korpusların hazırlanması son nəticədə korpus dilçiliyinin aktuallığını və vacibliyini təsdiq etmişdir. Bu sahədə işlər ardıcıl davam etmiş və davam etməkdədir. Hazırda əksər dillərin milli korpuslarının qurulması sahəsində işlər həyata keçirilir. Bir sıra dillər üzrə yüksək effektli korpuslar istifadəçilərin ixtiyarına verilmişdir. Dünya miqyasında əsas və mükəmməl korpuslar artıq müəyyənləşdirilmişdir.
Dostları ilə paylaş: |