Universitatea babeş-bolyai cluj-napoca facultatea de matematicǎ Şi informaticǎ specializarea informatică



Yüklə 465,96 Kb.
səhifə4/14
tarix03.01.2019
ölçüsü465,96 Kb.
#89267
1   2   3   4   5   6   7   8   9   ...   14

ÎNVĂȚAREA BAYESIANĂ

Învățarea Bayesiană este o metodă de deducție probabilistică, care se bazează pe conceptul conform căruia elementele cantitative sunt direct influențate de către distribuția probabilităților, iar pentru luarea unei decizii optime ar trebui să luăm în calcul comportamentul acestor probabilități, în conformitate cu datele de antrenament observate. În ceea ce privește învățarea automată, învățarea Bayesiană este importantă, întrucât ne oferă o abordare numerică a evidenței ipotezelor alternative.

Acest tip de deducție reprezintă temelia algoritmilor care manipulează probabilitățile, constituind în același timp și o modalitate de înțelegere, aprofundare și dezvoltare a unor algoritmi din literatură care nu se axează în mod explicit pe acest aspect.

Există două motive concrete care scot în evidență relevanța acestor algoritmi de învățare Bayesiană [13].

Primul dintre acestea se referă la acei algoritmi care calculează în mod explicit probabilitatea pentru fiecare ipoteză în parte, spre exemplu Clasificatorul Naiv Bayes. Dacă ne uităm puțin la abordările anumitor probleme de învățare de până acum din literatură, vom observa faptul că acești algoritmi se pretează cel mai bine, fiind cei mai practici și ușor de aplicat. De-a lungul timpului au fost făcute diverse studii comparative menite să evidențieze diferențele comportamentale dintre clasificatorul naiv Bayes și alți algoritmi puternici de învățare automată, precum arborii de decizie sau rețelele neuronale. S-a demonstrat astfel că primul algoritm menționat era competitiv cu celelalte două, reușind în prisma simplității sale să obțină în anumite cazuri rezultate mai bune, într-un timp de execuție mai scurt.

Al doilea motiv conform căruia metodele de învățare Bayesiană sunt demne de folosit, este reprezentat de faptul că aceste abordări ne oferă o perspectivă interesantă de înțelegere a altor algoritmi, care nu se axează pe teoria probabilistică. Astfel, poate fi realizată o analiză prin care să se poată determina condițiile care ar trebui respectate în vederea obținerii ipotezei cu probabilitatea cea mai mare, pe baza datelor de antrenament. De asemenea, în cazul rețelelor neuronale abordarea Bayesiană ar putea fi folosită pntru minimizarea sumei pătratelor erorii, iar în cazul arborilor de decizie ar putea fi realizată o analiză a interferenței inductive, în vederea obținerii unor reprezentări cât mai mici a acestora.

În cele ce urmează, voi prezenta câteva caracteristici esențiale ale învățării Bayesiene [13]:


  • Probabilitatea estimată a corectitudinii fiecărei ipoteze este direct influențată de setul de date de antrenament, fiecare instanță nouă putând crește, respectiv micșora această valoare. Acest lucru oferă flexibilitate algoritmului, comparativ cu alte abordări care elimină complet acele ipoteze inconsistente cu una sau mai multe instanțe observate.

  • În vederea determinării probabilității finale a unei ipoteze, cunoștințele inițiale a acesteia (aflate sub forma unei probabilități inițiale, căreia îi este atribuită o anumită distribuție a probabilității) sunt acumulate cu instanțele noi observate.

  • Metodele de învățare Bayesiană pot utiliza ipoteze care reprezintă în sinea lor predicții probabilistice (de exemplu: ”un anumit pacient care suferă de pneumonie are 94% șanse de a se recuprea complet”).

  • Clasificarea instanțelor noi se realizează prin combinarea valorilor probabilistice a mai multor ipoteze.

  • Chiar și în cazurile în care calculele se dovedesc a fi greu de făcut, metodele Bayesiene sunt capabile să găsească o modalitate de luare a unor decizii optime.

Desigur, ca în orice domeniu existent, odată cu beneficiile aduse de utilizarea anumitor metode, apar și anumite dificultăți, sau dezavantaje. În cazul de față, o dificultate practică a învățarii Bayesiene este constituită de necesitatea cunoașterii unor probabilități inițiale. Dacă acestea lipsesc, atunci este necesară aproximarea acestor valori, în funcție de cunoștințele existente. De asemenea, costul computațional ridicat pentru determinarea ipotezei optime în cazul general, poate constitui o dificultate practică, aceasta fiind totuși redusă semnificativ în anumite cazuri.

    1. Teorema lui Bayes

Teorema lui Bayes stă la baza teoriei probabilităților, fiind inițial stabilită de către Reverend Thomas Bayes. În termeni largi, reprezintă înțelegerea modului în care probabilitatea unei ipoteze considerată ca fiind corectă poate fi influențată de apariția unei instanțe noi. A fost folosită într-o varietate mare de domenii, de la biologie marină, până la conceperea unor sisteme de blocare e emailurilor de tip spam, iar în filozofia științelor, a fost utilizată pentru a clarifica relația dintre terorie și dovadă.

Pentru a putea enunța concret Teorema lui Bayes, vor fi utilizate următoarele notații:


  • Pentru o anumită ipoteză , vom nota cu probabilitatea inițială a acesteia, înainte să fie observată vreo dată de antrenament. este deseori numită probabilitatea anterioară a lui și poate evidenția orice informație inițială pe care o avem despre posibilitatea ca să fie o ipoteză corectă. În cazul în care nu avem cunoștințe anterioare, putem atribui fiecărei ipoteze aceeași probabilitate.

  • Similar, vom nota cu probabilitatea inițială/anterioară a datelor de antrenament care vor fi observate.

  • va reprezenta probabilitatea datelor de antrenament , în raport cu ipoteza .

  • Ceea ce ne interesează de fapt pe noi, se numește probabilitatea posterioară a ipotezei și este calculată după vizulizarea datelor de antrenament . Se notează cu și reflectă influența datelor de antrenament , în contrast cu probabilitatea anterioară care este independentă de .

Astfel, putem defini teorema lui Bayes care calculează probabilitatea posterioară , în funcție de: probabilitatea anterioară - , probabilitatea anterioară a datelor de antrenament - și probabilitatea datelor de antrenament în raport cu ipoteza - :

În majoritatea algoritmilor de învățare, dintr-o mulțime de ipoteze , se dorește găsirea acelei ipoteze care are probabilitatea cea mai mare de a fi corectă (sau măcar una dintre ele, în cazul în care sunt mai multe ipoteze care respectă această condiție), luând în considerare un set de date observate . O astfel de ipoteză se numește ipoteză MAP (Maximum A Priori) [13] (notată cu ) și poate fi identificată cu ajutorul formulei lui Bayes. Practic, se calculează probabilitatea posterioară pentru fiecare ipoteză candidat, alegându-se ulterior ipoteza cu valoarea probabilistică cea mai mare.



Întrucât este o constantă și nu depinde de , nu influențează în niciun fel determinarea ipotezei cu probabilitatea posterioară maximă. Astfel, ecuația a fost simplificată, renunțându-se la acest termen.

În unele cazuri, probabilitățile anterioare ale fiecărei ipoteze sunt egale () fapt pentru care va fi exclus și termenul , rămânând doar termenul care va determina rezultatul. Orice ipoteză care maximizează acest termen se numește ipoteza cu probabilitatea maximă ML (Maximum Likelihood) [13] (notată cu ).

Pentru a fi clară conexiunea dintre teorema lui Bayes și problemele de învățare automată, ne-am referit la setul de date observate ca la la un set de date de antrenament corespunzătoare anumitor funcții țintă, iar la ca reprezentând spațiul acestor funcții. Urmărirea acestor pași generali definește conceptul de învățare Bayesian prin forță brută, care în ciuda faptului că este un consumator puternic din punct de vedere computațional (deoarece este aplicată teorema lui Bayes pentru fiecare ipoteză din pentru a calcula), reușește în anumite cazuri concrete să egaleze sau chiar să surclaseze performanța altor algoritmi de învățare automată considerați mult mai eficienți.

Totuși teorema lui Bayes nu se rezumă doar la atât, fiind generală și deci ușor scalabilă la diferite abordări. De exemplu spațiul ipotezelor ar putea fi înlocuit cu un set de propoziții care se exclud reciproc, respectându-se condiția ca suma probabilităților lor să fie exact 1.


    1. Yüklə 465,96 Kb.

      Dostları ilə paylaş:
1   2   3   4   5   6   7   8   9   ...   14




Verilənlər bazası müəlliflik hüququ ilə müdafiə olunur ©muhaz.org 2024
rəhbərliyinə müraciət

gir | qeydiyyatdan keç
    Ana səhifə


yükləyin