sintaktik korpus;
dialekt mətnlər korpusu- Rusiyanın müxtəlif regionlarının dialekt materialları qrammatik xüsusiyyətləri qorunmaqla götürülmüşdür;
poetik mətnlər korpusu- XVIII əsrdən bu günə qədərki poeziyanı əhatə edir;
rus dilinin vurğu tarixi korpusu- sözlərdəki vurğuların tarixi haqqında
informasiya və mətnlər toplanmışdır;
şifahi dilin korpusu- audio yazıların, fərdi şifahi nitqlərin, filmlərin
transkriptlərinin toplandığı korpusdur. Korpus 1930-2000-ci illəri əhatə edir;
multimediya korpusu- 1930-2000-ci illərdə lentə alınmış filmlərin fraqmentləri əsasında yaranmış korpusdur. Bu korpusda dil mətnləri ilə yanaşı, filmlərdə istifadə olunmuş qeyri-verbal vasitələrin, jestlərin yazıya alınmış mətnləri də yerləşdirilmişdir” [54, s.74].
Multimediya korpusu səslənən nitqi araşdırmaq üçün yaradılmış elektron resursdur. Bu tip korpus mətnlərdən savayı, video və audio yazıları özündə birləşdirir. Yenə də qeyri-verbal vasitələr nəzərə alınmışdır. Dili araşdırarkən onun ayrı-ayrı elementləri, həmçinin danışıq zamanı müxtəlif hərəkətləri də öyrənmək imkanı vardır. Rus dilinin multimediya korpusu 2010-cu ildə ümumi istifadəyə verilmişdir. Bu korpus təbii dialoqda həm verbal, həm də nonverbal qarşılığın araşdırılmasına və öyrənilməsinə şərait yaradır. Bir çox dilçilərin fikrincə, təbii improvizə olunmuş nitq tədqiqat üçün çox vacib əhəmiyyət daşıyır.
O.S.Rublyova rus dilinin milli korpusu sahəsində aparılan tədqiqatları kompüter dilçiliyinin predmetinə aid edir. Kompüterlərdə lüğət materialları maşın kartotekalarında saxlanılır və istifadə olunur. Kompüter texnologiyası inkişaf edib təkmilləşdikcə daha mükəmməl leksikoqrafik məlumatlar bazası yaranır. O.S. Rublyovanın fikrincə, “Rus dilinin milli korpusunu belə leksikoqrafik bazalardan biri hesab etmək olar” [78, s.34].
Fikrimizcə, məhz belə zəngin leksik bazanın hesabına rus dilinin maşın tərcümə sistemi öz mükəmməlliyi ilə seçilir.
Türk dillərinin milli korpusu: Ayrı-ayrı türk dilləri üçün maşın fondunun yaradılması ideyasının irəli sürülməsi və inkişafında R.Q.Piotrovski, A.M.Şerbak, V.Q.Quzevin xidmətləri böyükdür. Türk dillərinin maşın fondunun yaradılmasının ilkin mərhələsində türk ulu dilinin rekonstruksiyası məsələsinin həlli nəzərdə tutulurdu. Bu mürəkkəb məsələnin araşdırılması üçün aşağıdakı məlumatların toplanması zəruri idi:
“1. türk dillərinin birhecalı söz köklərinin müxtəlif növləri barədə struktur-fonetik informasiya;
morfem siyahıları;
sintaktik əlaqələri əks etdirən sxemlər;
konkret dillərin fonetik, qrammatik quruluşu barədə analitik göstəricilərin toplusu” [12, s.48].
Qeyd olunduğu kimi türk dillərinin korpusunun yaradılması məsələsi SSRI-də maşın fondunun qurulması ideyası ilə bir zamanda ortaya atılmışdır. Sonralar rus dilinin korpusunun yaradılması məsələsi təkrar qoyulduqda türk dillərinin korpuslarının qurulması problemi də aktuallaşdı. Xarici dilçilik məktəblərinin bir sıra türk dillərinin öyrənilməsi marağı çərçivəsində onların korpuslarını yaratma meylinin formalaşmasına səbəb olmuşdur. Almaniya Elmi-tədqiqat cəmiyyətlərindən biri Rusiya Fundamental Tədqiqatlar Fondu ilə müştərək şor dilinin korpusunu yaratmaq üzrə “Şorika” layihəsini birgə həyata keçirdilər. Nəticədə, 1999-2001-ci illərdə Shoebox proqramının tətbiqi ilə şor dilinin mətnlər korpusu yaradıldı. Bu korpusa bədii əsərlər (nəsr və poeziya), folklor nümunələri (epos və dastanlar) daxil edilmişdir. Korpusda mətnlərin bir qismi transkripsiya ilə verilmişdir. Korpusa şorca-rusca və rusca-şorca lüğətlər də daxil edilmişdir [127].
Rusiya Elmlər Akademiyasının Ufa elmi mərkəzinin tarix, dil və ədəbiyyat institutunun informasiya texnologiyaları laboratoriyası başqırd dilinin korpusunu yaratmışdır [33, s.98]. Bu korpusa ötən əsrin 40-cı illərindən nəşr olunmuş əsərlər daxil edilmişdir. Başqırd dilinin maşın fondu informasiya-axtarış sistemi kimi fəaliyyət göstərir. Buraya əsas kartoteka, leksikoqrafik materiallar, eksperimental-fonetik materiallar, qrammatik, dialektoloji bazalar daxildir. Sistemin yaradıcıları əlyazma və qədim kitabların da kataloqunu düzəltmişlər [43, s.54].
Başqırd dilinin maşın fondunun yaradılması ilə bağlı işlərə 2003-cü ildən başlanmışdır. Fondda xüsusi məlumatlar bazası yerləşdirilmişdir. Başqırd dilinin maşın fondu 7 məlumat bazasını özündə birləşdirən altfondlardan ibarətdir:
“· əsas kartotekalar altfondu
Dostları ilə paylaş: |