Cədvəl 1.3.1
Korpusun klassifikasiyası
Ardı
Ədəbi göstəricilərinə görə
|
ədəbi
dialektoloji
danışıq
terminoloji
qarışıq
|
Janrına görə
|
Folklor
Dramaturji
Publisistik
|
İşarələməyə görə
|
Kodlaşmış
Kodlaşmamış
|
İşarələmə xüsusiyyətinə görə
|
Morfoloji
Sintaktik
Semantik
|
Əldə olunma prinsipinə görə
|
Açıq
Ticari
Bağlı
|
Mətn ölçüsünə görə
|
Tam mətnli
Fraqmentli
|
[54, s.16]
Əlbəttə ki, bu klassifikasiyasını tam deyil, yalnız şərti qəbul etmək olar. Belə ki, korpuslar yaranma məqsədinə görə çoxməqsədli və xüsusiləşmiş olurlar. Çoxməqsədli korpuslar müxtəlif janrlarda olan mətnləri toplayır, xüsusiləşmiş korpuslar isə, yalnız bir və ya bir qrup janrı əhatə edir. Mətnlərin korpusları janrlara görə qruplaşa bilər: onlar ədəbi, folklor, dramaturji, publisist və s. qruplara ayrıla bilir. İşarələmə kriteriyası korpusu kodlaşmış (işarələnmiş) və kodlaşmamış (işarələnməmiş) qruplara bölür. Bu bölgünü başqa adla da adlandırmaq olar. Məsələn, indeksləşmiş və indeksləşməmiş. İndeksləşmiş korpusda sözlərə və ya cümlələrə işarələr (teqlər) qoyulur. (morfoloji, sintaktik, semantik və s.)
Korpusun istifadəçisi üçün vacib meyarlardan biri ondan rahat istifadədir. Azad girişi olan korpuslarda onlayn vasitə ilə istənilən zaman mətnlərə tam həcmdə axtarış vermək olar. Tarixi korpuslarda isə, ondan istifadə haqqını almaq lazım gəlir. Bağlı korpuslar xüsusi məqsədlər üçün istifadəyə nəzərdə tutulmuşdur və xalq istifadəsi qadağandır. Mətnlərin həcmi kriteriyasına görə korpuslar birdilli, ikidilli və çoxdilli korpuslara bölünürlər. Birdilli korpuslarda dilin variantları, dialektləri qarşılaşdırılır. Məsələn, ingilis dilinin variantları kimi ikidilli və çoxdilli korpusları iki əsas tipə bölmək olar:
1. Çox sayda original mətnləri və bu mətnlərin bir və ya bir neçə başqa dillərə olan tərcümələrini nümayiş etdirən korpuslar;
2. İki və ya bir neçə dildə yazılmasından asılı olmayaraq eyni sahəni əhatə edən mətnləri birləşdirən korpuslar;
Bu cür korpuslar tərcüməçilər tərəfindən ən çox istifadə olunan korpuslardır. Hər iki tip korpuslardan tərcümə zamanı, maşın tərcüməsində, terminoloji lüğətlərin tərtibatında, həmçinin dillərin müqayisəli araşdırılmasında geniş istifadə olunur. Mətnlərin paralel korpusları böyük həcmli informasiya əldə edilməsini təmin edir. Onların köməkliyi ilə; 1) birdilli və çoxdilli lüğətləri hazırlamaq, 2) maşın tərcüməsi sistemi üçün lüğət fondu yaratmaq, 3) terminoloji və frazeoloji sözləri tərcümə etmək mümkündür.
Dil göstəricilərinə görə korpuslar yazılı, şifahi və qarışıq tiplərə bölünür. Yazılı korpusda şifahi nitq təqdim olunmur (Braun korpusu). Şifahi korpusda yalnız şifahi nitq toplanır, qarışıq korpuslara adətən milli korpuslar aid edilir (Britaniya Milli Korpusu). İlk şifahi korpus London-Lund korpusu olmuşdur. Bu proyekt 1959-cu ildən London kollecində R.Kvirk) tərəfindən hazırlanmışdır. Şifahi nitqin mətnləri radioverlişlərdən, rəsmi görüşlərin nitqindən, qeyri-rəsmi görüşlərin nitqindən toplanmışdır. Korpusun maşın forması 1979-cu ildə İsveçdə Lund Universitetində yaranmışdır. Məhz bu korpus ilk maşın korpusu olmuşdur. Tərkibində 34 mətn toplayan bu korpusda hətta gizli yazılmış danışıqlar toplanmışdır. Şifahi korpusun yaradılması çətin olduğundan London- Lund korpusu uzun müddət şifahi ingilis dilinin öyrənilməsində və araşdırılmasında istifadə oluna biləcək yeganə mənbə idi. London –Lund korpusunun meydana gəlməsi leksika, qrammatika sahəsində çoxsaylı araşdırmalara qapı açdı. Beləliklə, “actually”, “really”, “you see”, “I mean” kimi sözlərin istifadəsi araşdırıldı [54, s.23].
Hazırda korpus dilçilərinin əsas marağı şifahi nitqdə emosiyaların ötürülməsinə yönəldilmişdir. Şifahi korpus yazılı korpusa nisbətən ləng hazırlanır. İlk növbədə şifahi nitq hansısa video və ya audiolentlərə yazılır. Sonra bu yazıları hər hansısa bir hərflərlə, işarələrlə yazmaq lazım gəlir. Bu da çox vaxt və səbr tələb edən məsələdir. Fonetik dil resurslarının yaradılmasında əsas çətinlik şifahi nitqin transkripsiyaya alınmasıdır. Bu zaman aşağıdakı problemlər meydana çıxır:
Transkripsiya üçün alqoritmin seçilməsi
Sözlərin dialekt variantları
Sözlərdəki vurğular
Danışıq zamanı nitqi izləyən bəzi hallar (gülüş, öskürək, pauza və s.)
Dinləyən zaman bəzi sözlərin anlaşılmaması
Yaradılma çətinliyinə baxmayaraq dünyada bir neçə fonetik korpuslar mövcuddur. 70-ci illərdə ABŞ-da X.Dalem və onun köməkçiləri tərəfindən “İngilis dilinin amerikan variantının şifahi korpusu” yaradılmışdır. Tərkibinə bir milyon söz toplayan bu korpusda ABŞ-ın 9 şəhərindən 21 kişi, 8 qadının nitqi toplanmışdır. Bu nitqlər standart ingilis dilinin orfoqrafiyası əsasında transkripsiya olunmuşdur. Yazı zamanı anlaşılmayan sözlər Z hərfi ilə işarələnmişdir. Vurğu və dialektlər də həmçinin nəzərə alınmamışdır.
M. Mahmudov şifahi dilin korpusuna publisist nitq, film nitqi, ədəbi nitq, teatral nitq, qeyri- rəsmi nitq və s. daxil edir. Onun fikrinə görə, korpusların yaradılmasında ən vacib problemlərdən biri korpusun şifahi mətnlərlə doldurula bilinməməsidir. Belə ki, telefon danışıqları, qeyri-rəsmi danışıqları toplamaq çətin və vaxt tələb edən proseslərdəndir.
Morfoloji markerlə təchiz olunmuş mətnlər korpusu altkorpusların ən irihəcmli və əsaslarından sayılır. M. Mahmudov bura aşağıdakıları daxil edir:
“1. Müxtəlif istiqamətli və janrlı müasir bədii nəsr nümunələri
Dostları ilə paylaş: |