Universitatea babeş-bolyai cluj-napoca facultatea de matematicǎ Şi informaticǎ specializarea informatică


Abordări ale ipotezei cu probabilitatea maximă



Yüklə 465,96 Kb.
səhifə5/14
tarix03.01.2019
ölçüsü465,96 Kb.
#89267
1   2   3   4   5   6   7   8   9   ...   14

Abordări ale ipotezei cu probabilitatea maximă

Metodele de învățare Bayesiană pot fi utilizate în anumite cazuri pentru determinarea ipotezelor cu probabilitatea maximă a unor algoritmi, chiar dacă aceștia nu manipulează în mod direct probabilitățile, adică nu folosesc formula lui Bayes pentru determinarea acestora.

În ceea ce privește problemele de învățare care au o funcție țintă cu valori continue (precum rețelele neuronale sau regresia liniară), un studiu amănunțit în cadrul căruia s-au utilizat metode Bayesiene ne arată faptul că sub anumite circumstanțe, orice algoritm care minimizează suma pătratelor erorii dintre predicțiile ipotetice și datele de antrenament va găsi o ipoteză de probabilitate maximă [13].

Pentru a demonstra acest lucru, să presupunem că avem un algoritm de învățare L care folosește un spațiu al instanțelor X și un spațiu al ipotezelor H compus din clase având funcții cu valori reale definite peste X (fiecare ipoteză h din H este o funcție de forma: unde reprezintă setul de date reale). Rolul algoritmului de învăţare L este acela de a învăţa o funcţie target necunoscută pe baza ipotezelor din H. Avem disponibil un set de date de antrenament m, fiecare instanţă având valoarea funcției target coruptă de un zgomot ales aleator, corespunzător distribuției probabilistice normale. Astfel, fiecare exemplu din setul de date de antrenament poate fi văzut sub forma unei perehi , unde . În cazul de față reprezintă valoarea funcției target lipsită de zgomot, iar este o variabilă aleatoare ce reprezintă zgomotul. Considerăm că valorile sunt independente, având ca model de distribuție cea Normală, cu media 0. Scopul algoritmului de învățare este acela de a găsi ipoteza cu probabilitatea maximă.



Pentru exemplificare, se poate observa imaginea precedentă [13], problema prezentată fiind aceea de învățare a unei funcții liniare, cu valori reale. Funcția target f corespunde liniei solide, iar datele de antrenament de forma sunt reprezentate de cele cinci puncte. Linia punctată corespunde funcției liniare care minimizează suma pătratelor erorii, fiind de asemenea și ipoteza cu probabilitatea maximă . După cum se poate observa, nu este aceeași cu ipoteza corectă, iar acest lucru se datorează faptului că a fost aleasă în urma observării doar a cinci instanțe și acestea prezentând zgomot.

Întrucât este vorba despre numere reale, este imposibil să le asignăm valori aleatoare astfel încât suma acestora să fie 1. Din această cauză, ne sunt necesare densitățile probabilităților. Vom nota densitatea probabilității, aceasta fiind calculată astfel:

În ceea ce privește Distribuția Normală, reprezintă un model de distribuție sub formă de clopot care este caracterizată de media ei și de către deviația standard .

Scopul nostru este acela de a arăta faptul că ipoteza care minimizează suma pătratelor erorii este chiar , adică ipoteza cu probabilitatea maximă. Astfel, vom scrie formula maximizării valorii ipotezelor, folosindu-ne de această dată de densitatea probababilităților:

Având în vedere faptul că instanțele din setul de date de antrenament sunt independente, putem considera ca fiind produsul mai multor entități de forma :



Deoarece zgomotul îndeplinește o Distribuție Normală cu media 0 și varianță necunoscută, fiecare trebuie de asemenea să îndeplinească o Distribuție Normală centrată mai degrabă în jurul funcției target decât în 0. Astfel, poate fi scris ca o Distribuție Normală cu varianța și media . Obținem:



Întrucât funcția logaritmică este monotonă, putem să ne simplificăm munca prin maximizarea logaritmului expresiei:



Primul termen poate fi eliminat, deoarece este independent de h:



Maximizarea unei valori negative este egală cu minimizarea valorii pozitive a acesteia, fapt pentru care putem elimina semnul negativ, alături de valorile constante:



După cum se poate observa, rezultatul obținut ne confirmă faptul că ipoteza cu probabilitate maximă este reprezentată de minimizare sumei pătratelor erorii dintre datele de antrenament observate și predicțiile ipotezelor . Acestă abordare este deseori utilizată în diverse analize ale metodelor de învățare Bayesiană, datorită faptului că este mult mai ușor de urmărit și demonstrat din punct de vedere matematic. După cum am precizat și anterior, este posibil ca să nu fie identic cu , reprezentând intenția de atingere a idealului. Totuși, această egalitate poate fi atinsă, dacă ne asumăm uniformitatea probabilităților inițiale ale ipotezelor.

Importanța abordării acestei probleme, constă în faptul că se folosește deseori în rețelele neuronale, cât și în alte abordări ale estimării funcțiilor cu valori reale. Există însă și anumite limitări ale acestui model, având în vedere faptul că s-a luat în considerare zgomotul doar în cazul funcțiilor țintă ale datelor de antrenament.

O altă problemă care se pretează funcțiilor cu valori reale, ar putea fi reprezentată de învățarea sistemului să prezică probabilități. Să presupunem că avem o funcție nedeterministă , unde X reprezintă spațiul instanțelor, iar cu reprezintă valoarea funcției target (0 sau 1). Această definiție presupune excluderea mutuală a celor două funcții țintă, în sensul că fiecare dintre acestea corespunde negării celeilalte. Util ar fi ca sistemul să nu scoată în evidență doar acel rezultat pe care îl consideră ca fiind cel mai bun, ci să ne prezinte și predicția probabilistică ce l-a determinat să ia această decizie. Așadar, dorim ca algoritmul să învețe o nouă funcție țintă , astfel încât . Vom putea deduce apoi prin scăderea din 1 a valorii obținute.

Dacă am dori de exemplu să abordăm această problemă în rețelele neuronale, astfel încât acestea să învețe funcția , o modalitate nu foarte elevată ar putea fi constituită de identificarea frevențelor de apariție a fiecărei valori pe care o poate lua , luând în considerare fiecare instanță din X, acestea fiind ulterior folosite în procesul de antrenare.

Există totuși o modalitate directă de instruire a unor astfel de sisteme pe baza setului de date de antrenament, astfel încât să poată fi obținută o ipoteză de probabilitate maximă pentru . Considerăm setul de date de antrenament D ca fiind compus din perechi de forma: unde reprezintă valoarea lui , adică 0 sau 1. De asemenea, instanțele corespunzătoare setului de deate pentru antrenament sunt considerate ca fiind independente. Pe baza acestor presupuneri, se obține [13]:



Expresia din partea dreaptă a ecuației poate fi văzută ca o generalizare a Distribuției binomiale. De asemenea, ca în cazul precedent, uneori poate fi mai ușor să lucrăm cu funcția logaritmică. Astfel obținem:



Această ecuație ne prezintă cantitatea care trebuie maximizată în vederea obținerii ipotezei cu probabilitatea maximă, rezultat anolog problemei prezentată anterior, în care, pe baza unor setări prestabilite ipoteza era obținută prin intermediul sumei pătratelor erorii.

Definiția ipotezei de probabilitate maximă ar putea ajuta la analiza Principiului descrierii lungimii minime, în vederea găsirii unor reprezentări cât mai mici a arborilor de decizie. Pentru realizarea acestui lucru, este necesară cunoașterea tuturor probabilităților inițiale , cât și probabilitățile datelor de antrenament D în raport cu ipotezele h, adică.

Această abordare nu scoate însă în evindență faptul că ipotezele cele mici sunt întotdeauna și cele mai bune.




    1. Yüklə 465,96 Kb.

      Dostları ilə paylaş:
1   2   3   4   5   6   7   8   9   ...   14




Verilənlər bazası müəlliflik hüququ ilə müdafiə olunur ©muhaz.org 2024
rəhbərliyinə müraciət

gir | qeydiyyatdan keç
    Ana səhifə


yükləyin