Encyclopedia


Tabelul 1. Elemenele cadrului şi realizările lor sinactice (Frame Elements and Their Syntactic Realizations)



Yüklə 371,54 Kb.
səhifə2/5
tarix07.09.2018
ölçüsü371,54 Kb.
#79597
1   2   3   4   5

Tabelul 1. Elemenele cadrului şi realizările lor sinactice (Frame Elements and Their Syntactic Realizations).


Frame Element

Number Annotated

Realizations(s)

Avenger

(8)

CNI.-- 2exx
NP.Ext 5exx
PP[by].Ext 1exx

Injured_Party

(8)

NP.Ext 2exx
2nd.-- 2exx
NP.Obj 4exx

Injury

(5)

2nd.-- 2exx
NP.Obj 2exx
PPing[for].Dep 1exx

Offender

(8)

INI.-- 6exx
PP[on].Dep 2exx

Punishment

(8)

INI.-- 8exx

FrameNet acordă oricărui utilizator posibilitatea de a face legătura de la sens la forma de reprezentare a lui (meaning to form). Folosind diferite interogări utilizatorul poate să obţină informaţie diferită despre forme gramaticale care pot reprezenta diferite evenimente, concepte, relaţii între concepte-participanţi. Sistemul prezintă diferite structuri gramaticale cu conceptul ales.

Spre exemplu, întrebarea poate fi: Ce rol sintactic joacă Răufăcător în propoziţii? Răspunsul este:

• complement direct: we'll pay you back for that

• complement cu prepoziţie on they'll take vengeance on you

• complement cu prepoziţie against we'll retaliate against them

• complement cu prepoziţie with she got even with me

• complement cu prepoziţie at they got back at you

Poate fi realizată analiza din alt punct de vedere – de la gramatică la sens (grammar to the meaning). Atunci se analizează care concepte pot apărea în anumite roluri gramaticale. Spre exemplu, întrebarea poate fi: Care concepte pot juca rolul complementului direct a Răzbunării? Răspunsul este:

• Partea_ofensată I've got to avenge my brother

• Pagubă My life goal is to avenge my brother's murder.
Autorii proiectului au intenţie de a include în baza de cunoştinţe toate cuvintele importante asociate cu şabloanele semantice. Pentru fiecare cuvânt vor fi prezentate toate şabloanele lexicale în care ele pot apărea. Sigur că pentru îndeplinirea acestui fel de sarcină este necesar un volum imens de texte şi muncă, dar se aşteaptă că în viitor lucrul acesta va fi automatizat şi sistemul va fi în stare să lucreze automat în baza exemplelor deja create.
Exemple de structuri codificate folosind limbajul XML
În cele ce urmează sunt date unele exemple de propoziţii şi structuri formate în baza lor. Structurile pot fi prezentate în formă de arbore în care nodurile sunt formele lexicale ale cuvintelor şi arcurile sunt notate cu denumirile conceptelor-participante. Structurile sunt codificate folosind metodologia RDF. Scopul creării structurilor adnotate este aprovizionarea datelor pentru un sistem automat care poate găsi predicatele relevante semantic pentru noţiunile folosite, rolurile lor tematice în propoziţii şi noţiunile, asociate cu ele în structurile semantice.

Elementele codificate sunt subiectul şi complementele verbului tranzitiv.



  1. The boy caught a spider.



catch



boy

spider






  1. The man was caught stealing a fish.



catch



SOMEONE

man

stealing






  1. The teacher talked to the students about ambition.



use



teacher

to: students

about: ambition






  1. The freshmen have to take a chemistry test.

test

take



SOMEONE

freshmen

chemistry






  1. The senator paid me a complement on my work.



pay

complement



senator

me

on: work




Continuarea lucrului cu FrameNet

Proiectul FrameNet este în continuă dezvoltare, se definesc cadre noi, se adaugă unități lexicale, se marchează propoziții. Raportul din luna mai 2010 conține următoarele date:

  • au fost definite 1014 cadre;


  • au fost adăugate 5249 unități lexicale pentru care propozițiile au fost extrase și marcate;

  • pentru 4273 unități lexicale propozițiile încă nu au fost extrase din corpus și marcate.

Paralel cu marcarea propozițiilor a fost lansată o altă metodă de marcare – marcarea textelor întregi. În majoritatea cazurilor toate rolurile definite in cadru nu sunt prezentate intr-o propoziție, dar pot fi menționate în cîteva propoziții consecutive a unui text. Dacă din text se extrage doar o propoziție și se marchează, multă informație rămîne în text și este pierdută. Astfel, marcarea textului în întregime permite reprezentarea mai deplină a elementelor cadrului și legăturilor între acestea.

FrameNet tot mai mult este utilizat în cercetări și aplicații lingvisticii computaționale. Cercetătorii din domeniu încearcă să folosească baza de propoziții marcate create în cadrul proiectului pentru interpretarea sensului textului creînd aplicații pentru traducere, sumarizare a textelor, în sisteme de dialog.

Se crează sisteme ce marchează rolurile semantice automat, instruindu-se în baza propozițiilor marcate FrameNet. Sarcina de marcare automată a rolurilor semantice conform cadrelor definite în FrameNet a fost propusă în cadrul exercițiului SemEval 2010 (http://nlp.cs.swarthmore.edu/semeval/tasks/index.php) și a fost rezolvată cu succes de numeroase sisteme.

Cercetătorii din diferite țări au încercat crearea bazelor similare pentru alte limbi. A fost creat FrameNet spaniol (http://gemini.uab.es:9080/SFNsite), au fost lansate proiecte de creare bazelor similare pentru limbile franceză, italiană, germană și altele. A fost creată o bază paralelă englezo-chineză cu marcarea semantică. Încercările de a crea FrameNet pentru limba română s-au oprit din cauza lipsei finanțării, însă la Academia Română se efectuiază cercetări în direcția dată.
WordNet
Noțiuni de bază
Înca la începutul erei lingvisticii computaţionale una din problemele principale a fost crearea vocabulalelor potrivite pentru sistemele automatizate. Cum a arătat practica, dicţionarele clasice folosite de oameni nu erau utile pentru sistemele computaţionale. Listele de cuvinte în ordinea alfabetica cu definițiile în formă de propoziții este greu de procesat automat din punct de vedere a obținerii informației semantice. Sistemele computaţionale aveau nevoie de o metodă absolut diferită de grupare semantică a cuvintelor.

Cercetătorii încercau să modeleze memorizarea și prelucrarea cuvintelor în creierul uman. Direcția de cercetare ce se ocupa de problemele acestea a fost numită psiholingvistica din cauză că se afla la intersecția psihologiei și lingvisticii. Psiholingviştii analizau modul în care oamenii învață limba, cum ei utilizează cuvintele și limba în general în comunicare. Ei au cercetat cum sunt păstrate cuvintele în memoria omului cu scopul creării baze de cuvinte similare. În anii 1980-1990 au fost propuse diverse teorii psiholingvistice. Teoriile acestea au fost demonstrate în baza seturilor mici de cuvinte (din care majoritatea erau substantive) organizate conform teoriilor date. Problema constă, însă în faptul că nici un dicționar din cele propuse nu a fost testat din cauza volumurilor lor mici. La Universitatea din Princeton, SUA, în 1985 cu problema aceasta intensiv se ocupa George Miller, el a creat o bază de date unde cuvintele au fost organizate după concepte dar nu în ordinea alfabetică modelînd reprezentarea vocabularului în mintea omului. Rezultatul muncii intensive de-a lungul anilor 1985-1990 a fost lexiconul semantic WordNet. Prima versiune a lexiconului a fost lansată în 1990, WordNet conţinea aproximativ 95,600 forme de cuvinte (51,500 cuvinte simple si 44,100 colocaţii) organizate în aproximativ 70,100 sensuri sau seturi de sinonime. WordNet a fost de fapt primul lexicon atît de voluminos încît putea fi folosit în sistemele de procesare a textelor din orice domeniu. Dicționar semantic utilizat în domeniul lingvisticii computaționale a fost numit lexicon.

În toate dicționarele clasice unitatea de bază este cuvîntul în forma sa scrisă. Însă reprezentarea sensului în formă de explicație nu este potrivită în lexicoane semantice. Sensul trebuie să fie reprezentat în alt mod. Dacă cuvintele au deja reprezentare bine formată prin forma lor lexicală, reprezentarea sensului trebuia cumva stabilit. În utilizarea limbii cotidiană noi reprezentăm sensurile prin cuvinte, însă astfel de fenomene ale limbii ca polisemia, omonimia și sinonimia fac practic imposibilă folosirea cuvintelor pentru reprezentarea sensurilor în sistemele computaționale. Multe cuvinte au mai mult decît o semnificație (fenomenul polisemiei) și, respectiv, multe semnificații pot fi reprezentate cu cuvintele diferite (fenomenul de sinonimie). Astfel, în termenii bazelor de date relația între cuvinte și sensuri este multe la multe. Tabelul 1 demonstrează relația dată. w1, w2, w3, ... sunt cuvintele, s1, s2, s3, ... sunt sensurile (conceptele) care se reprezintă prin cuvinte; e1,1 e1,2, e1,3, ... ei,j sunt valori booleene ce arată posibilitatea redării sensului i prin cuvîntul j.
Tabelul 1. Matrice relațiilor sensuri  cuvinte


cuvinte

sensuri


w1

w2

w3

...

wm

s1

e1,1

e1,2

e1,3







s2

e2,1

e2,2

e2,3







s3










...




...










ei,j




sn













en,m

Cum deja a fost menționat în WordNet unitatea de bază este nu cuvîntul ca în alte dicționare, dar sensul, conceptul reprezentat prin cuvinte. Astfel, în WordNet problema prezentării sensului este rezolvată folosind setul de cuvinte care-l pot reprezenta. Cuvintele care reprezintă același concept, au același sens, se numesc sinonime. Astfel, pentru WordNet au fost inventate unităţile de reprezentatre a sensului – seturi de sinonime sau serii de sinonime (synonym set sau synset, în limba românească se utilizează cuvîntul sinset). Fiecare cuvînt polisemantic apare în atîtea seturi de sinonime cîte sensuri are, fiecare din seturile date codifică un sens a cuvîntului dat. De exemplu: {board, plank} şi {board, committee} prezintă foarte bine două sensuri ale cuvântului ‘board’: scîndură și comitet.

Ca bază a dicţionarului, sinseturile au stabilit împărţirea WordNet-ului în categorii după parţi de vorbire. Sinonimul substantivului poate fi numai substantiv, verbului – verb, s.a.m.d. Astfel, în WordNet cuvitele sunt grupate in substantive, verbe, adjective și adverbe. Alte părți de vorbire ca pronume, prepoziții, conjuncții, articole și altele sunt considerate părți de vorbire funcţionale; acestea nu sunt încluse în WordNet fiindcă se consideră că ele nu au sens propriu. Acestea părți de vorbire numai ajută în combinarea sensurilor cuvintelor semnificative și formarea structurii sintactice a propoziţiei.
Relații între cuvinte și sensuri
Sinonimia a fost considerată relația principală între cuvinte pe parcursul creării lexiconului WordNet. Definiția noțiunii de sinonimie a fost discutată intens. Definiția din dicționar: “care are același (sau aproape același) înțeles” nu este strictă și în multe cazuri trezește discusii aprinse în privința relației de sinonimie între două cuvinte. În final s-a hotărît de acceptat o definiție a fenomenului de sinonimie care sună în felul următor: două cuvinte pot fi numite sinonime în cazul dacă pot înlocui unul pe altul într-un context fără a schimba sensul acestuia. Dar uneori cuvintele care descriu aceiaşi noțiune nu pot inlocui unul pe altul într-un context. De exemplu, suvintele cu același sens a cumpăra, a achiziționa, a procura, a târgui sunt utilizate în diferite tipuri de texte și în multe cazuri nu pot înlocui unul pe altul.

Unul din avantajele WordNet-ului este un număr de legături semantice între sinseturi. A fost destul de logic paralel cu sinonimia de a întroduce și relația de antonimie. Relaţia de antonimie este una de baza pentru adjective şi adverbe.

Relațiile de sinonimie și antonimie sunt relații între cuvinte și se numesc relații lexicale. În afară de relații lexicale în WordNet sunt întroduse relații semantice între sensuri, în cazul dat între seturi de sinonime. O relație importantă este relația numită HYPERNYMY – HYPONYMY (în limba română: HIPERONIMIE - HIPONIMIE).

HIPERONIMIA - HIPONIMIA. Cum a fost deja menționat, sinonimia şi antonimia sunt relaţii lexicale intre cuvinte, hiperonimia – hiponimia sunt relaţii semantice între sensurile cuvintelor sau între concepte. Este logic că relația include două concepte, în cazul nostru c1 și c2. Spunem că un concept c1 este un hiponim al lui c2 sau că c2 este un hiperonim a lui c1 dacă c1 este un concept mai particular decât c2, sau dacă c2 este un concept mai general decât c1. Verificarea acestor relaţii poate fi făcută prin includerea cuvintelor w1 şi w2 care definesc conceptele c1 şi c2 aflate în această relaţie în exprimări de tipul “w1 ESTE UN w2” sau “w1 ESTE UN TIP DE w2”, “w1 ESTE UN FEL DE w2” (reprezentarea logică în limba engleză utilizează predicatul ISA - “w1 IS A w2”, “w1 IS A KIND OF w2”). Relaţia de hiperonimie este tranzitivă (dacă c1 este un hiponim al lui c2, iar c2 este un hiponim al lui c3, atunci c1 este un hiponim al lui c3) şi asimetrică (dacă c1 este un hiponim al lui c2, atunci c2 nu este un hiponim al lui c1). Pentru comparare, relații de sinonimie și antonimie sunt simetrice (dacă w1 este un sinonim al lui w2, atunci w2 este sinonimul lui w1). Însă putem spune că relaţia de hiponimie este relaţia opusă relaţiei de hiperonimie. Dacă w1 este hiponim al w2, atunci w2 este hiperonim lui w1.

Exemple de relația dată sunt: vulpea este hiponimul lui animal; animal este o noțiune mai generală care include mai multe specii, inclusiv și vulpea. Animal este hiperonim și la cîine, care în rîndul său este hiperonim la pudel, collie, doberman, terrier, spaniel și multe alte. Relația aceasta poate fi verificată așa cum a fost descris mai sus: collie este un cîine; cîine este un tip de animal, etc.

Relaţia de hiponimie este bine cunoscută în Inteligenţa Artificială, pentru că ea stă la baza reprezentării cunoştinţelor în sistemele bazate pe moştenirea proprietăţilor. Într-adevăr un hiponim moşteneşte toate trăsăturile unui hiperonim, în acelaşi timp diferenţiindu-se de alte hiponime ale aceluiaşi hiperonim prin anumite trăsături specifice numai lui. Relaţia de hiponimie stă la baza organizării substantivelor în WordNet. Utiizînd relația dată substantivele sunt organizate într-o structură ierarhică. De exemplu, un lanţ: oak @ -> tree @ -> plant @ -> organism (stejar – copac – plantă - organizm) prezintă legăturile de hiponimie. Semnul @-> este utilizat în WordNet pentru codificarea relației date și poate fi citit ‘is a’ sau ‘is a kind of’. De exemplu: oak is a kind of tree; tree is a plant; plant is a kind of an organism.

În afară de relații descrise a fost întrodusă încă o relație care autorii WordNet-ului au considerat destul de importantă. Relația aceasta este numită HOLONYMY – MERONYMY (în limba română: HOLONIMIA – MERONIMIA). Relația dată este relaţia parte-întreg (HasAsAPart sau IsAPart în engleză). Astfel, spunem că un concept c1 este un meronim al unui concept c2 dacă putem accepta exprimări de genul: “c1 este o parte a lui c2” sau “c2 are ca parte pe c1”. Relaţia de meronime este tranzitivă şi asimetrică şi poate în rândul ei forma o ierarhie. De exempu, degetul este o parte a mînii, astfel, el este meronimul iar mîna este holonim. În rîndul său mîna este o parte a corpului, în relația aceasta mîna este meronim, iar corpul este holonim.



Relaţii morfologice. Pe parcursul creării WordNet-ului s-a evidenţiat necesitatea de a avea posibilitate de a lucra cu toate formele cuvintelor. Problema aceasta pentru limba engleza nu este foarte complicată, dar şi în acest caz programul care prelucrează diferite forme ale cuvintelor nu a fost atît de simplu cum părea iniţial. Însă, în final, programul a fost creat şi lucrează ca partea de interfaţă WordNet-ului. Programu analizează cuvîntul întrodus de utilizator si în caz dacă cuvîntul nu este în forma lui inițială, îl înlocuiește cu forma lui canonică. De exemplu, daca a fost întrodis cuvîntul cats, el va fi înlocuit cu cat, iar dacă a fost întrodus cuvîntul worked, el va fi înlocuit cu work. În baza cu cuvinte acestea sunt stocate numai în forma lor inițială.
Substantivele în WordNet.
Definiţia unui substantiv, spre exemplu, conturlinie închisă, care mărgineşte o parte dintr-o suprafaţă, prezintă, ca regulă, un termen mai general (linie închisă) însoțit de caracteristicile specifice obiectului definit (care mărgineşte o parte dintr-o suprafaţă). Astfel, cuvintele sunt descrise folosind alte cuvinte, care în rîndul său sunt descrise cu alte cuvinte. Ideea pricipală este că lexicografii creează o structură ierarhică din cuvinte folosind noţiunea mai generală în definiţia cuvintelor. Legătura aceasta între cuvânt şi termenul mai general şi a fost introdusă ca bază pentru formarea structurii relaţiior între substantive în WordNet. Pentru crearea ierarhiei acestea a fost utilizată relația de hiperonimie – hiponimie. În limbaje de programare astfel de ierarhii se numesc sisteme de moştenire unde subclasa moşteneşte toate proprietăţile clasei mai generale care-i aparţine. WordNet tot este un sistem cu moştenire. Fiecare noţiune (sinset) conţine referinţe la noţiunea mai generală şi o mulţime de referinţe spre noţiuni mai particulare.

Un exemplu de relații de acest gen este prezentat mai jos:



"emotion" "positive-emotion" "joy"

"negative-emotion" "enthusiasm"

"ambiguous-emotion" "cheerfulness"

"gratitude"


"surprise"

"gravity"

În exemplul prezentat numai o mică parte de relații a fost evidențiată cu scopul demonstrării arborelui de clase și subclase. Mai jos sunt date cîteva verificări pentru relaţiile date.

"amusement" isa "joy"

"joy" isa "positive-emotion"

"positive-emotion" isa "emotion"

Toate substantivele sunt repartizate in 25 fisiere fiecare prezentând un component semantic primitiv. Fiecare din acestea 25 clase are un sinset de bază care-l reprezintă şi este vîrful arborelui în fişierul dat. În urmare sunt listate acestea 25 clase reprezentate prin sinseturile de bază:

{act, action, activity} {food} {possession}

{animal, fauna} {group, collection} {process}

{artifact} {location, place} {time}

{attribute, property} {motive} {relation}

{body, corpus} {natural object} {shape}

{cognition, knowledge} {natural phenomenon} {state, condition}

{communication} {person, human being} {substance}

{event, happening} {plant, flora}

{quantity, amount} {feeling, emotion}

Pentru a completa ierarhia creată a fost adăugat un vîrf, un set de noțiuni mai generale care se unesc la o noțiune globală, în cazu dat ‚entitate’. Iniţial în WordNet vîirful nu a fost realizat. Însă, la urmă, a fost creată o ierarhie de vîrf, care conţinea 7 grupuri globale:

Figura 1. Taxonomia de vîrf pentru substantivele în WordNet.

Este interesant că ierarhia substantivelor practic nu conţine mai mult de 10 nivele, o parte din care sunt noţiuni tehnice introduse artificial. În cazul exemplului cu emoții sunt doar 7 arcuri de la noțiunea de vîrf pînă la ulimul nivel.

Astfel de structură arborescentă în care conceptele sunt organizate într-un mod ierarhic este numită TAXONOMIA.

În procesul de clasificare a substantivelor trei tipuri de caracteristici au fost luate în consideraţie. Au fost grupate substantivele cu aceleaşi atribute (modificatori), părţi (meronime), funcţii (predicate). Meronimia este indicată prin legăturile între sinseturi, atribute – ca referinţe de la adejective la substantive, funcţii – ca legături de la verbe la substantive. Inițial se plănuia de adăugat caracteristicile pentru fiecare nivel al ierarhiei care pot fi moştenite de nivelurile inferioare. Au fost planuite următoarele caracteristici: atribute, părţi şi funcţii. Trebuie de notat că atributele sunt descrise folosind adjective, părţile cu substantive şi funcţiile cu verbe. De exemplu, atributul unui cîine este pufos sau rău, părțile sunt urechi sau dinții, iar funcțiile sunt a lătra, a păzi. Iniţial au fost realizate numai legăturile între substantive. Crearea legăturilor între diferite părţi de vorbire a fost amînată. Când WordNet a fost creat se presupunea ca el va fi folosit paralel cu un dicţionar explicativ, însă în procesul de lucru la fiecare sinset s-a adăugat o descriere scurta a sensului (numită gloss). Un exempu de sinset este:

00030664 v perfume scent | apply perfume to; "She perfumes herself every day"

După numărul de identificare (00030664) urmează indicatorul părții de vorbire (v - verb) și apoi cuvintele sinsetului respectiv (perfume scent). Linia verticală despartă cuvintele și definiția sensului cu un exemplu (apply perfume to; "She perfumes herself every day"). Ca regulă definiția este însoțită de exemple ca și în cazul dat. Relațiile sunt stocate în fișiere aparte și se referă la sinseturi prin numerele lor de identificare.

În cele ce urmează este dat un exemplu al reţelei de relaţii între câteva noţiuni; sunt prezentate relaţiile de hiponimie, meronimie şi antonimie. Rezultatul este o reţea destul de interconnectată.


Yüklə 371,54 Kb.

Dostları ilə paylaş:
1   2   3   4   5




Verilənlər bazası müəlliflik hüququ ilə müdafiə olunur ©muhaz.org 2024
rəhbərliyinə müraciət

gir | qeydiyyatdan keç
    Ana səhifə


yükləyin