Ey zilli-tülüqat oluyorsun yenə peyda” [9, s.64].
Korpus dilçiliyinin üstünlüklərindən biri odur ki, dilin kəmiyyət xüsusiyyətləri üzrə tədqiqat aparanlar birbaşa korpus materialından istifadə edirlər. Korpusdan istifadə etməklə materialın seçilməsi, toplanması, maşına daxil edilməsi kimi ağır zəhmət tələb edən işlərdən azad olurlar. Korpus onlara lazım gələn materialı verir.
Onu da qeyd etmək lazımdır ki, bir sıra məqsədlər üçün mövcud elektron kitabxanalarından istifadə etmək mümkündür. Hazırda mətnlərin, qəzet və jurnalların birbaşa elektron variantları hazırlanır. Bir çox istifadəçi proqramlarında (məsələn, “Word”) axtarış sistemləri vardır. Bu sistemlərdən də istifadə etməklə bəzi məsələlərin həlli mümkündür. Yazıçının, şairin dilinin tezlik lüğətlərini, eləcə də onların işlətdikləri sözlərin ümumi həcmini müəyyənləşdirmək olar. Hazırda internetə də bu və ya digər dərəcədə korpus kimi baxmaq mümkündür. İnternet korpus ilə linqvistik korpus bir-birindən fərqlənir. İnternetdə mətnlər xüsusi annotasiyalarla təczih olunmur, onlar sistemləşdirilmir.
“Dilmanc” layihəsində hazırlanmış korpus müxtəlif mənbələrdən götürülmüş mətnlər əsasında formalaşdırılmışdır. Mətnlərin götürüldüyü mənbələri aşağıdakı kimi qruplaşdırmaq olar: Kitabxanalar (Milli kitabxana, Prezident kitabxanası, AMEA kitabxanası, Universitet kitabxanaları, Dünya kitabxanası (Prezident fərmanı ilə tərcümə olunmuş xarici ədəbiyyat); Nəşriyyatlar (“Elm”, “Şərq- Qərb”, “Lider”, “Elm və Təhsil”, “Maarif”, “Qanun”, Jurnal və qəzet nəşriyyatları); Lüğətlər (izahlı, terminoloji, ikidilli tərcümə, tarixi, etimoloji, orfoqrafiya, orfoepiya və s.); Elektron lüğətlər ( “Dilmanc”, “Poliqlot”, Linqvosoft və s.); Televiziyalar (seriallar, xarici və yerli filmlər, müxtəlif verilişlər (Discovery, History channel və s.); Saytlar, azərbaycandilli internet saytları, Azərbaycan dilində olan digər internet resursları, xəbər agentlikləri və s.
Korpusu hazırlayarkən xüsusi prosedürlər və proqramlardan istifadə edilir. Məsələn, qrafematik analizdən istifadə edilir. Bu proses mətn daxilində təbii dildə olan bir çox simvolların ayrı-ayrı anlaşılan söz formalarına salınması prosesidir. Bu proses dilçilikdə “tokenizasiya” adlanır. Bəzən bu proses dilçilər üçün çətin olur. Çünki, misal üçün, ingilis dilində elə sözlər var ki, onlar birmənalı tokenizasiya oluna bilmirlər. Məsələn, “Jan” qisaltmasını həm “January” sözünün qısaltması, eyni zamanda xüsusi ad kimi qəbul etmək olar. Bu ikimənalılıq bu sözlərin qrafemləşməsini çətinləşdirir.
Digər vacib məsələ morfoloji məsələ- lemmatizasiyadır (sözün ilkin formasının yaradılması). Bir çox dillərdə söz bir neçə formada müxtəlif anlamlar verə bilər. Məsələn, ingilis dilində “walk” feli bir neçə formada işlənə bilər: walk, walked, walking. Lüğətdə qeyd olunmuş ilkin forma- “walk” bu sözün lemması sayılır.
Parsinq- dilin leksemini (sözləri) həmin dilin qrammatikasına uyğun ardıcıllıqla yerləşdirilməsi prosesidir. Avtomatik sintaktik analizatorların (parserlərin) ardıcıllıqla yığılması kompüter dilçiliyində çox vacib məsələ hesab edilir [54, s.30]. Məsələn, Çex dilinin milli korpusu müasir Çex dilini təmsil edir. Korpus F. Çermakın başçılığı ilə yaradılır. Korpus 100 mln. yazılı mətn, həmçinin, 750 min şifahi və dialekt nitqi əhatə edir. Korpusun janr və mövzu strukturunu aşağıdakı kimi vermək olar:
Dostları ilə paylaş: |