DOMENII DE APLICARE ALE ÎNVĂȚĂRII BAYESIENE
Deși metodele de învățare Bayesiană au fost studiate timp de mai mulți ani, de curând aplicațiile practice ale acestora au început să fie foarte răspândite. Datorită evoluării continue a tehnologiei și respectiv apariției unor calculatoare rapide, algoritmii Bayesieni pot ajunge la un rezultat într-un timp relativ scurt, surclasând de multe ori alte metode de învățare automată mai complicate. În cele ce urmează, vor fi prezentate câteva astfel de aplicații, pentru a scoate în evidență simplitatea prin care această abordare poate face față unui set diversificat de probleme care pot apărea în viața de zi cu zi.
Recunoașterea expresiilor faciale și a emoțiilor
Întrucât recunoașterea expresiilor faciale și a emoțiilor cu ajutorul unui sistem inteligent reprezintă o problemă pe cât de interesantă pe atât de provocatoare, mulți cercetători au încercat de-a lungul timpului să găsească o metodă cât mai bună pentru realizarea acestui lucru.
Emoțiile fac parte din noi, ca ființe umane, materializându-se prin gesturi ale mâinilor, ale corpului, prin expresii faciale, precum și prin tonul folosit în cadrul unei conversații. Fiecare individ se caracterizează astfel printr-o modalitate unică de manifestare, prin exprimarea, sau din contră, ascunderea propriilor sentimente.
Interacțiunea dintre 2 sau mai multe persoane poate decurge natural tocmai prin cunoașterea acestei laturi emoționale, spre deosebire de interacțiunea dintre un om și un calculator, cel din urmă nefiind capabil să înțeleagă și să reacționeze în conformitate cu starea de spirit a interlocutorului său.
În ultima perioadă, s-a dezvoltat un interes crescut pentru îmbunătățirea acestor relații dintre om și calculator. Ekman și Friesen au dezvoltat în anul 1978 un sistem de măsurare al comportamentului facial [6] aplicat pe mai multe înregistrări video, preluate în timp ce subiecților le erau arătate imagini cu impact emoțional atât pozitiv cât și negativ. Aceștia considerau că emoțiile sunt strict legate de mimica feței, existând șase expresii faciale universale [6] de bază și anume: fericirea, uimirea, supărarea, frica, furia și disprețul.
Din anul 1900, comunitatea de ingineri a început să studieze aceste rezultate, în vederea construirii unor metode automate de recunoaștere a expresiilor faciale și a emoțiilor [17] pe baza expresiilor faciale, din imagini și înregistrări video.
În anul 2002, un grup de cercetători au venit cu o propunere nouă pentru rezolvarea acestei probleme și anume utilizarea clasificatorului naiv Bayes, având ca model de distribuție, distribuția Cauchy. Această alegere a fost făcută luând în considerare faptul că distribuția Gaussiană poate fi uneori invalidă.
În vederea rezolvării acestei probleme, a fost ales un model facial care era împărțit în 16 suprafețe, pe baza cărora au fost evidențiate 12 măsurători de mișcare a diverselor componente ale feței. Ca modalitate de testare a algoritmului, setul de date inițial a fost împărțit în două categorii: date de antrenament și date de test, urmând să fie extras din setul de date destinat antrenării un subset de date pe baza căruia să fie aplicată o clasificarea inițială. Modelul de distribuție (distribuția Cauchy sau distribuția Gaussiană) care obținea cel mai bun rezultat, urma să fie utilizată în clasificarea instanțelor din setul de testare.
Baza de date utilizată conținea imagini preluate de la cinci persoane (care nu erau actori) și care au fost instruiți să mimeze expresii faciale corespunzătoare celor șase tipuri de emoții prezentate mai sus. După fiecare astfel de mimare, se revenea la o expresie neutră, tocmai pentru a nu influența în niciun fel următoarele reprezentări.
În urma acestor experimente, utilizarea distribuției Cauchy a determinat o medie a acurateților luând în considerare cele 5 persoane de 80.05%, pe când distribuția Gaussiană a obținut o medie a acurateților de 79,36% [17]. Se poate observa faptul că prima metodă nu a adus o îmbunătățire spectaculoasă sistemlui, iar acest lucru se datorează tocmai utilizării aceluiași mediu de urmărire pentru fiecare persoană.
Repetându-se acești pași, dar reducând domeniul de clase la un număr de patru (neutru, bună dispoziție, indispoziție, surprindere), sistemul poate prezice acum prin utilizarea distribuției Cauchy cu o acuratețe de 88-89% [17] dacă o anumită persoană exprimă o expresie facială fericită, supărată sau surprinsă.
A urmat un nou test, pentru a putea lua în considerare independența celor 5 persoane. Astfel, pentru antrenare au fost folosite imaginile preluate de la patru dintre subiecți, iar imaginile rămase au fost folosite pentru testare. Pentru a putea evidenția toate cazurile posibile, acest experiment a fost repetat de cinci ori. Întrucât modul de exprimare al fiecărei ființe umane este diferit, acuratețea sistemului a scăzut în cazul distribuției Cauchy la 63,58%, iar în cazul distribuției Gaussiene la 58, 94%.
Recunoașterea vizuală a gesturilor
În domeniul învățării automate, studierea roboților mobili constituie de asemenea un subiect interesant, deseori abordat de către specialiști. Pentru a putea determina un sistem să recunoască anumite gesturi, reprezentate de altfel de mișcări corporale, este nevoie de o tehnologie avansată, atât din punct de vederere al componentelor fizice utilizate, cât și din punct de vedere al logicii aplicate.
Modelele Markov ascunse au constituit o metodă des folosită pentru rezolvarea acestei probleme. Totuși, s-a observat faptul că numărul de parametrii necesari pentru a defini modelul cresc exponențial, pe măsură ce crește și numărul de stări observate.
Pentru a depăși această limitare, prin găsirea unui model de recunoaștere a gesturilor care să poată fi antrenat pe baza unui set mic de date și în același timp să dea rezultate bune, a fost propusă o extensie a clasificatorului naiv Bayes, numită Clasificatorul Naiv Bayes Dinamic [8], care simplifică modelul prin descompunerea stării observate într-un set de atribute independente.
Acesta este format dintr-o pereche de forma unde , fiecare cu reprezentând un set de atribute instanțiate (generate de un proces dinamic), iar un set de variabile generate de același proces la un moment .
Clasificatorului naiv Bayes dinamic i-a fost atribuită următoarea funcție de distribuție a probabilității: , unde:
-
reprezintă distribuția probabilității inițiale pentru variabila de clasă ,
-
reprezintă distribuția probabilității unui atribut dintr-o anumită clasă,
-
reprezintă tranziția distribuției probabilității dintre clase, în timp.
Produsul este folosit tocmai pentru susținerea presupunerii naive conform căreia atributele claselor sunt independente.
Această abordare a fost folosită pentru un set de 150 de exemple corespunzătoare celor cinci gesturi principale: atenție, oprește-te, mergi la stânga, mergi la dreapta, vino. Aceste exemple au fost preluate în diferite condiții de iluminare, distanța dintre persoană și cameră variind între trei și cinci metrii. Au fost obținute două seturi de atribute reprezentative pentru descrierea gesturilor: atribute de mișcare pentru descriera deplasării mâinii în spațiu și atribute de staționare pentru descrierea relațiilor dintre poziția mâinii și celelalte părți ale corpului[8].
Setul de imagini obținute a fost divizat astfel: 60% pentru antrenament, iar restul de 40% pentru testare. Modelul a fost antrenat de mai multe ori, numărul de exemple utilizate pentru procesul de antrenare variind între 5% și 100%, folosindu-se de fiecare dată setul complet pentru testare.
În urma acestor experimente, a fost obținută o medie a ratei de recunoaștere de 96,75%, comparativ cu 98,47% rata de recunoaștere obținută în urma folosirii modelelor Markov ascunse. Diferența majoră se observă însă în momentul în care se folosesc între 1% și 10% (între două și cincisprezece imagini pentru fiecare gest) din setul de date de antrenament, clasificatorul dinamic având o performanță mai ridicată, chiar daca numărul de parametrii folosiți este mult mai mic decat în cazul modelelor Markov.
Dostları ilə paylaş: |