Cədvəl 3.2.1
Dilmanc layihəsi çərçivəsində yaradılmış korpuslar
№
|
Adı
|
Həcmi
|
1
|
İngilis-Azərbaycan ikidilli korpusu
|
2 milyon cümlə
|
2
|
Türk-Azərbaycan ikidilli korpusu
|
277 min cümlə
|
3
|
Rus-Azərbaycan ikidilli korpusu
|
4,5 milyon cümlə
|
4
|
Azərbaycan birdilli korpusu
|
60 milyon cümlə
|
5
|
Türk birdilli korpusu
|
322 milyon cümlə
|
[141]
Qeyd etmək lazımdır ki, yuxarıda qeyd olunan bu ikidilli və birdilli korpuslar “Dilmanc” layihəsi çərçivəsində fəaliyyət göstərən mətnin formal linqvistik təhlili və maşın tərcüməsi sistemlərində uğurla istifadə olunmaqdadır. İkidilli paralel mətn korpusları Azərbaycan, türk, rus və ingilis dilləri arasında avtomatik tərcümə vasitəsi və lüğət kimi istifadəçilərə təqdim olunmuşdur.
Birdilli korpuslar həm də tərcümə olunmuş cümlələrin düzgünlüyünün, ünsiyyət prosesində müşahidə olunma ehtimalının yoxlanması baxımından əhəmiyyətlidir. Nitqin tanınması prosesində yanlış, qüsurlu tələffüz nəticəsində düzgün tanınmamış sözlərin dəqiqləşdirilməsində birdilli korpuslar dil modeli kimi böyük fayda verir. Nəzərdə tutmaq lazımdır ki, düzgün tələffüz olunmamış sözlərin işlənmə tezliyi birdilli korpusda təsbit olunmuş səslərin düzgün variantından az olacaq. Məsələn, əgər tələffüz prosesində “Günəş işıq saçır” cümləsində “günəş” sözü səhvən “cünəş”, “düneş”, “küneş” kimi deyilmişsə, birdilli korpusun köməyi ilə bu sözün düzgün variantı (günəş) tapıla bilər. Birdilli korpuslar tərcümə olunmuş cümlələrdə sintaktik vahidlərin yanaşı gəlmə və birləşmə variantlarını da düzgün müəyyənləşdirməyə imkan verir. Cümlədə (mətndə) ümumi və xüsusi isimlərin dəqiq müəyyənləşdirilib izah olunması və durğu işarələrinin düzgün qoyuluşu prosesində birdilli mətnlər korpusu əvəzsiz mənbədir.
Dostları ilə paylaş: |