Dərs vəsaiti Bakı 2014


Mətni axtarış texnologiyaları



Yüklə 1,75 Mb.
səhifə41/48
tarix25.05.2018
ölçüsü1,75 Mb.
#51492
növüDərs
1   ...   37   38   39   40   41   42   43   44   ...   48

8.8. Mətni axtarış texnologiyaları


      1. Mətni axtarış texnologiyalarının əsasları

Cəmiyyətdə informasiya mübadiləsi əsas etibarı ilə mətn formasında həyata keçirilir. Buna görə də müasir informasiya sistemlərinin informasiya resurslarının olduqca böyük hissəsini mətn informasiyası təşkil edir.

İnformasiya sistemlərinin ilk inkişaf mərhələlərindən mətn informasiyasının səmərəli saxlanması, emalı və axtarışı texnologiyalarının işlənib hazırlanmasına xüsusi diqqət yetirilmişdir.

Mətn informasiyası ilə işləyən informasiya sistemləri arasında ən geniş yayılmış mətni axtarış sistemləridir. Bunların vəzifəsi istifadəçini maraqlandıran təbii dildə olan sənədləri kompüterdə saxlanan mətn sənədləri kolleksiyasından tapıb təqdim etməkdən ibarətdir. Mətni axtarış sistemlərinin inkişafı elmi-tədqiqat və təhsil sferalarında avto- matlaşdırılmış kitabxana sistemlərinin yaranmasına səbəb oldu.

Son illərdə isə bu sistemlər daha geniş diapazonda tətbiq edilir.

Ötən əsrin 50-ci illərində yaradılan ilk avtomatlaşdırılmış informasiya sistemləri başlıca olaraq informasiya axtarışını reallaşdırdığına görə, informasiya-axtarış sistemi adlanırdı. Bunlar 2 yerə: sənədli və faktoqrafik axtarış sistemlərinə bölünürdü ki, bunla- rın haqqında yuxarıda bəhs edilmişdir.

Mətni axtarış texnologiyalarında təbii dilin emalı əhəmiyyətli yer tutur. Bu, təbii dildəki mətnin kompüter tərəfindən dərki, təhlili və mətn üzərində müxtəlif əməliyyat-


ların icrası, həmçinin mətnin kompüter yaddaşına generasiyası ilə bağlı işləri əhatə edir. Bu məsələlər isə süni intellekt sahəsinə aiddir.

Müasir mətni axtarış texnologiyalarında mətni təhlil etmək üçün təkcə linqvistik aparat deyil, həmçinin statistik metodlar, riyazi məntiq və ehtimal nəzəriyyəsi, klaster təhlili, süni intellekt metodları və verilənlərin idarə edilməsi texnologiyaları tətbiq edilir.



İnformasiya supermagistralı üzrə işlər, xüsusilə də, 1990-cı illərin ortalarında bir sıra dünya ölkələrində meydana çıxan elektron kitabxanalar mətni axtarışa marağı kəskin şəkildə artırdı. Qlobal kompüter şəbəkələrində, Veb-də mətni axtarış, multidilli axtarış istiqamətləri yarandı.

50 illik tarixi ərzində deskriptorlu informasiya-axtarış sistemlərindən tammətnli axtarış sistemlərinədək böyük bir inkişaf yolu keçilmişdir.


Əsas anlayışlar.


Təbii dilin məzmun müxtəlifliyi olduqca genişdir. Belə ki, bu material qəzet və jurnallarda çap edilmiş məqalələr, müxtəlif texniki sənədlər, hesabatlar, kitablar, dissertasiyalar, məktublar, qanunvericilik aktları və s. ola bilər.

Mətni axtarış sistemlərində əsas informasiya vahidi sənəddir. Sənəd – bu və ya digər təbii dildə təqdim edilən bitkin məzmunlu hüquqi mahiyyətdir.

Tammətnli axtarış sistemləri elektron sənədləri ilə, yəni kompüter yaddaşında saxlanan və avtomatlaşdırılmış emal üçün hazır olan sənədlərlə işləyir. Bunlara ―sənədlər kolleksiyası‖ deyilir. Mətni axtarış istifadəçi sorğuları ilə aktuallaşır. Sorğu axtarış kriterisi şəklində formalaşdırılır. Axtrış çoxaspektliliyinin vahidi sənəddir. Axtarış kriterisi termlər yığımı (söz və ya sözbirləşməsi) və ya məntiqi operator simvolları (VƏ, VƏ YA, DEYİL) ilə birləşdirilmiş termlər ola bilər. Sorğuya uyğun elektron sənədi relevant sənəd,yəni, tanına bilən sənəd adlanır. Bu, sadə halda ―hə-yox‖ məntiqi ilə, mürəkkəb sistemlərdə isə ―qeyri-səlis‖ məntiqlə reallaşdırılır. Sonuncu halda tanıma dərəcəsi mühüm rol oynayır. Bəzən sorğu kompüter tərəfindən səhv anlaşılır, lazım olan sənəd əvəzinə başqa sənəd təqdim edilir. Bu hadisə informasiya kü adlanır.

Axtarışın keyfiyyət göstəricisi tamlıq və dəqiqlikdir. Axtarışın tamlığı sorğulara təqdim edilən relevant sənədlərin sayının yaddaşdakı relevant sənədlərin ümumi sayına nisbətidir. Axtarışın dəqiqliyi sorğuya cavab verən relevant sənədlərin sayının sorğuya cavab olacaq sənədlərin ümumi sayına nisbətidir.

200


      1. Mətni axtarış prinsipləri


Müasir mətn axtarışı sistemlərinin mürəkkəbliyinin mənbələri. Müasir sistemlər deskriptorlarla və ya sənəddəki atributlarla (nəşr ili, müəllifi, nəşriyyat və s.) işləyən əvvəlki axtarış sistemlərindən fərqli olaraq sənədin məzmunu ilə iş görür.

Təbii dildə verilən cümlə və ya ifadə çox hallarda ikimənalı və bolluqlu olur. Sinonimləri, omonimləri, qramatik forma müxtəlifliklərini nəzərə almaq lazım gəlir. Cümlədəki sözlər arasındakı məna əlaqələri çox zaman əyani olmur. Yeni terminlər və anlayışlar yaranır. Bütün bunlar mətni informasiya resurslarının strukturlaşdırılmama- sına dəlalət edir.



Sənədlərin təqdimatı. Mətni axtarış sistemlərində saxlanan sənəd kolleksiyaları olduqca iri ola bilir. Sənəddəki mətnlər də iri həcmli ola bilir. Buna görə də bütün mətnin təhlili səmərəli deyil. Vəziyyətdən çıxış yolu sənədin struktur təqdimatı ilə, başqa sözlə, sənədin təqdimat nümayəndələri ilə işləməkdən ibarətdir.

Sənədlərin indeksləşdirilməsi. Sənədlərin təqdimatı onların xassələri (atributları) çoxluğu ilə yaradılır. ―Dublin nüvəsi‖ (DC 1.1) adlanan beynəlxalq standartda sənədin təqdimatı 15 metaverilən elementlə verilir:

Title (resursun adı);

Creator (resursu hazırlayan və buna məsul olan şəxs, təşkilat və ya şöbə);

Subject (resursun məzmununda müzakirə edilən mövzu); Deskription (resursun məzmununun sərbəst formada təsviri); Publisher (resursa müraciət təmin edən şəxs, təşkilat, şöbə);

Contributor (Creator-da göstərilənlərdən əlavə, resursun hazırlanmasında iştirak edənlər);

Date (resursun yaradılması və ya təqdim edilməsi tarixi); Type (resursun janrı, kateqoriyası və digər xarakteristikaları); Format (resurs təqdimatının xarakteri);

İdentifier (resursa dəqiq iqtibas);

Source (resursun götürüldüyü mənbəyə iqtibas);

Language (resursun təqdimat dili);

Relation (verilənlərlə əlaqəli resursa iqtibas);

Coverage (resursun aid olduğu sahə, zaman və s.);

201
Rights (resursa intellektual mülkiyyət hüququ).

Kvalifikatorlar – metaverilən elementlərin semantikasının dəqiqləşdiriciləri ―Dublin nüvəsi‖ndəki qeyri-müəyyənlikləri aradan qaldırır. Məsələn, Date elementi üçün yaradıl- ma tarixi, müraciət tarixi kimi dəıqiqləşdirmə etmək olar.

Sənədlə assosiasiyalanmış ixtiyarı atribut indeksləşdirilmiş xassə adlanır. Bu xassələrə əsasən axtarış sistemində verilənlərin köməkçi strukturu qurulur ki, bunun köməyi ilə sənədin bütün məzmununa baxmadan lazımi sənədi axtarıb tapmaq olur. Köməkçi struktur indeks, göstərilən atributların sənədlə assosiasiyalanması propsesi sənədin indeksləşdirilməsi adlanır.

Köhnə axtarış sistemlərində deskriptor adlanan ayrı-ayrı söz və söz birləşmələrin- dən istifadə olunurdu. Deskriptor sənədin axtarış obrazı idi. Bu sistemlər deskriptorlu sistem adlanırdı. Deskriptorlu sistemlər hələ də istifadə edilir.

Sənədlərin indeksləşdirilməsi sənədin annotasiyası və ya tam mətni əsasında müəllif tərəfindən adi qaydada, ya da sənədin kompüter təhlili yolu ilə avtomatik həyata keçirilir. İstifadəçi sorğularının təqdimatı. Mətni axtarış sistemlərinin digər mühüm məsə-

ləsi istifadəçi sorğularının məzmununun strukturlaşdırılmış təqdimatıdır. Sorğuların təqdimatı da sənədlərin təqdimatına uyğun prinsiplərdən çıxış edərək hazırlanır. Əks halda sorğu ilə axtarış obyektini müqayisə etmək mümkün olmaz.

Sənədlərin relevantlığı kriteriləri. İstifadəçi sorğusunun emalı prosesində növbəti baxılacaq sənədin relevantlığı qiymətləndirilməlidir. Bu məqsədlə relevantlıq (yaxınlıq) kriterisindən istifadə edilir. Bu kriteri sənəd və sorğunun təqdimat üsulundan asılıdır. Məsələn, deskriptorlu sistemlərdə sənəd o zaman relevant sayılır ki, sorğudakı axtarış obrazını əmələ gətirən deskriptorlar sənədin axtarış obrazındakı deskriptorlar çoxluğunun alt çoxluğu olsun. Müasir sistemlərdə daha mürəkkəb kriterilərdən istifadə edilir.

Mətni axtarışın ümumi prinsipləri. Müasir mətni axtarış sistemlərində sənədlərin indeksləşdirilməsi və təqdimatı, istifadəçi sorğularının təqdimatı və sənədlərin relrvant- lığının qiymətləndirilməsi üçün çoxsaylı yanaşmalar tətbiq edilir. Buna baxmayaraq, axtarışın təşkilinin müəyyən ümumi prinsipləri də mövcuddur.

S

202



ənəd sistemə daxil edilərkən indeksləşdirilir və təqdimatı hazırlanır ki, bu da sor- ğuların emalı zamanı həmin sənədin əvəzedicisi kimi çıxış edir. Sonra konkret sənədlərin

indeksləşdirilən xassələri əsasında sənədlər kolleksiyası avtomatik indeksləşdirilir.



İstifadəçi sorğusu sistemə daxil olan kimi onun da təqdimatı hazırlanır. Bu, sənədin təqdimatına anolijidir. Sonra sorğu təqdimatı yaxınlıq kriterisi üzrə sənəd təqdimatları ilə bir-bir müqayisə edilir. Uyğunluq şərti ödəndikdə axtarış bitir.


      1. Yüklə 1,75 Mb.

        Dostları ilə paylaş:
1   ...   37   38   39   40   41   42   43   44   ...   48




Verilənlər bazası müəlliflik hüququ ilə müdafiə olunur ©muhaz.org 2024
rəhbərliyinə müraciət

gir | qeydiyyatdan keç
    Ana səhifə


yükləyin