MiLLİ Dİl korpuslari və onlarin formalaşmasi priNSİPLƏRİ



Yüklə 235,68 Kb.
səhifə19/41
tarix05.01.2022
ölçüsü235,68 Kb.
#111770
1   ...   15   16   17   18   19   20   21   22   ...   41
Müasir dramaturgiya

  • Memuar-bioqrafik ədəbiyyat

  • Jurnal publisistikası

  • Qəzet publisistikası və xəbərlər

  • Elm və tədris mətnləri

  • Dini, dini-fəlsəfi mətnlər

  • Rəsmi-işguzar və hüquqi mətnləri

  • Məişət mətnləri (şəxsi yazışmalar, gündəliklər və s.)” [12, s.55]

    Bədi mətnlər korpusun 40%-ni təşkil edir. Korpusa daxil edilən mətnlər bu mətnlərin naşirləri tərəfindən təsdiq olunmuş kitab, jurnal və qəzet materialları hesab olunur. Naşirlərin təsdiq etmədiyi və icazə vermədiyi mətnlər korpusa daxil edilmir. Milli dil korpuslarının əsas istifadəçiləri, əlbəttə ki, dilçi və tədqiqatçılardır. Lakin, istifadəçiləri təkcə tədqiqatçılarla məhdudlaşdırmaq olmaz. Müəyyən tarixi dövrün və ya konkret müəllifin dili ilə bağlı statistik məlumatlar ədəbiyyatçıları, tarixçiləri və s. də maraqlandıra bilər. Ana dilin və ya xarici dillərin tədrisi prosesi üçün də milli korpuslar olduqca əlverişlidir. Son zamanlar dərslik və dərs vəsaitləri daha çox korpus materiallarına əsaslanmaqla hazırlanır. Tanış olmayan sözün və ya qrammatik formanın nüfuzlu müəlliflər tərəfindən istifadə olunma xüsusiyyətlərini xarici dil daşıyıcıları, məktəblilər, müəllimlər, jurnalistlər, redaktorlar, yazıçılar, bütün maraqlananlar çox qısa vaxt ərzində effektiv olaraq milli korpusun köməkliyi ilə yoxlayıb təhlil edə bilərlər. Korpus dil və mədəniyyət baxımından böyük maraq doğuran orijinal bədii ədəbiyyat nümunələrini əhatə edir. Lakin, milli korpus təkcə bədii ədəbiyyat toplusu deyil. Bədii mətnlərlə yanaşı bura yazılı və şifahi dil nümunələri- memuarlar, esselər, publisist əsərlər, elmi-populyar və elmi ədəbiyyatlar, çıxışlar, şəxsi yazışmalar, gündəliklər, sənədlər və s. daxil edilir.

    Korpusun tiplərindən bir neçəsinə izahat verək. Sintaktik korpus morfo-sintaktik markerlə təchiz olunmuş mətnlərdən ibarətdir. Bu, o deməkdir ki, morfoloji informasiya ilə təchiz olunmuş hər bir sözlə yanaşı, hər bir cümlə üçün də onun sintaktik strukturu verilmişdir [12, s.56]. Qəzet korpusunda kütləvi informasiya vasitələrində dərc olunmuş məqalələr əhatə olunur. Korpus daim təzələnir və ora daim yeni mətnlər daxil edilir. Dialekt mətnlərin korpusu müxtəlif regionlardan toplanmış dialektləri təmsil edir. Mətnlərin morfoloji, sintaktik və leksik xüsusiyyətləri olduğu kimi saxlanılmışdır. Xalis dialekt leksikası xüsusi izahla təchiz edilmişdir. Poetik mətnlər korpusu nəzmlə yazılmış əsərləri ehtiva edir. Adi semantik və morfoloji markerlə yanaşı korpusda xüsusi şer markerləri qoyulmuşdur. Müxtəlif şer formalarını həmin markerdə tapmaq olar. Şifahi nitq korpusuna maqnitafon yazıları, çıxışlar, şəxsi söhbətlər, kinofilmlərin transkriptləri yerləşdirilmişdir. Multimediya korpusuna müxtəlif illərdə istehsal olunmuş filmlər daxildir. Multimediya korpusunda səslənən nitq parçalarının şifrəsi açılmış, kadrda müşahidə olunan görüntü, səslənmə, jestlər paralel olaraq yerləşdirilmişdir. Bu korpusda axtarış təkcə tələffüz olunan mətnə görə deyil, həm də jestlərə (baş işarəsi, əl işarəsi və s.) və nitq hadisəsi tipinə (şübhə, lağa qoyma, kinayə və s.) görə aparıla bilər. Axtarışdakı sorğuya görə, videogörüntüyə və səslənməyə də fraqmentlər şəklində baxmaq mümkün olur.

    İnformasiya texnologiyaları, kompüterlər, internet sistemləri təkmilləşdikcə, korpus da yenilənir, təkmilləşir, daha çevik və istifadə üçün yararlı olur.

    Müasir dövrdə sahə terminologiyalarının unifikasiyası və standartlaşdırılması aktual məsələlərdən biri sayılır. Məlumdur ki, terminlərin unifikasiyası regional xarakter daşıya bilər, yaxud qohum dillər üzrə unifikasiya aparmaq mümkündür. Sahə terminlərinin türk dilləri üzrə vahid unifikasiya metodikasının hazırlanması həm nəzəri, həm də praktik əhəmiyyət kəsb edir. Qohum dillər üçün unifikasiya prinsiplərinin müəyyənləşdirilməsi problemin beynəlxalq səviyyədə həllinə təkan verə bilər. Eyni zamanda bu proses türk dillərində elmi leksikanın inteqrasiyasına yol açmaqla yanaşı, elmin inkişafı üçün də əhəmiyyətlidir.

    Türk Dilləri Maşın Fondunun (TDMF) terminoloji korpusunun yaradılması aşağıdakı əsas məsələləri özündə birləşdirir:

    1) TDMF-yə daxil olan hər bir dil üçün sahə terminlərinin toplanması, nizama salınması və unifikasiyası;

    2) sahə terminlərinin maşın fonduna daxil edilməsi;

    3) ayrı-ayrı dillərin terminoloji leksikasının TDMF-nin ortaq dilinə avtomatik tərcümə olunması məsələsinin həlli;

    4) türk dilləri terminologiyasının sahələr üzrə unifikasiyası.

    TDMF-nin terminoloji korpusunun yaradılması bu məsələ ilə bağlı xüsusi riyazi təminat blokunun qurulmasını tələb edir.

    Korpus mətnləri üzərində işləyərkən 2 əsas şərtə riayət etmək lazımdır:

    1. Korpusun yaradıcısının atdığı hər bir addım onu yeni bir linqvistik araşdırmaya doğru aparır və bu yeni addım əvvəlki addımlara, həmçinin, korpusun qiymətləndirilməsinə də təsir edir. Əlbəttə, istifadəçi axtardığını tapmaq üçün bu araşdırmadan xəbərdar olmalıdır.

    2. Korpusun istifadəçisini bütün iş prosesi, həmçinin, səhvlər haqqında xəbərdar etmək lazımdır, çünki, kodlaşmada edilən hər hansı səhv korpus istifadəçisinin əldə etdiyi nəticəsinə təsir göstərə bilər.

    Korpusun formalaşmasında əsas tələblərdən biri odur ki, korpus fonetik cəhətdən tam olmalıdır, yəni, mətnin fonetik transkripsiyasında nitqin bütün əsas fonemləri iştirak etməlidir – yaradılmış korpus fonetik cəhətdən balanslaşmış olmalıdır. Korpus dilçiliyində ümummilli standart mövcuddur. Korpusla bağlı bütün standartlar ümummilli təşkilatlar komitəsi tərəfindən hazırlanır. Bu standartlar “dilçilik resursları” adı altında aşağıdakı kimi təsvir olunur:

    1. Terminlərin standartlaşması prinsip və metodları


    1. Terminoloji lüğətlər

    2. Dil resurslarının yaradılması

    3. kompüter leksikoqrafiyası

    4. terminologiyada və dilçilik resurslarında kodlaşma” [54, s.41] .

    Korpusun formalaşmasında, həmçinin, mətnin özündə müxtəlif növ dil informasiyaların daşınması tələb olunur. Bu yolla korpus dilçiliyində işarələnmiş korpus fikri meydana çıxdı. Həqiqətən də, hər bir sözlə birlikdə həmin söz haqqında daha dolğun informasiya ala bilmək daha maraqlı araşdırmaya səbəb ola bilər.

    Dilçilikdə kodlaşma dedikdə hər bir sözün və ya terminin özünün kodu nəzərdə tutulur. Bu kod altında həmin terminə məxsus qrammatik və leksik xüsusiyyətlər toplanır. Bu kodlar həmçinin “tag” kimi də tanınır. (ing. “tag”- işarə) Müasir dövrdə standart işarələməni təyin etmək üçün ümummilli proyekt “Text Encoding Initiative”(TEI) hazırlanmaqdadır [54, s.41].



    Yüklə 235,68 Kb.

    Dostları ilə paylaş:
  • 1   ...   15   16   17   18   19   20   21   22   ...   41




    Verilənlər bazası müəlliflik hüququ ilə müdafiə olunur ©muhaz.org 2024
    rəhbərliyinə müraciət

    gir | qeydiyyatdan keç
        Ana səhifə


    yükləyin