1.2. Învățarea supervizată
Învăţarea supervizată este un tip de învăţare inductivă ce pleacă de la un set de exemple de instanţe ale problemei şi formează o funcţie de evaluare, denumită şablon, care să permită clasificarea unor instanţe noi. Învăţarea este supervizată în sensul că setul de exemple este dat împreună cu clasificarea lor corectă. Aceste instanţe rezolvate se numesc instanţe de antrenament. Formal, setul de instanţe de antrenament este o mulţime de perechi atribut-valoare (x,f(x)), unde x este instanţa iar f(x) clasa căreia îi aparţine instanţa respectivă.
Scopul învăţării este construirea unei funcţii de tip şablon care să clasifice corect instanţele date ca exemplu, iar pentru un x pentru care nu se cunoaşte f(x) să propună o aproximare cât mai corectă a valorii f(x). Astfel, învățarea supervizată este echivalentă cu optimizarea unei funcții de eroare care măsoară diferența dintre răspunsurile care ar trebui să le producă sistemul și cele pe care le produce efectiv. [4]
Probleme importante ale învățării nesupervizate sunt cele de clasificare, probabilistice. Astfel, clasificarea supervizată implică gruparea datelor pe baza unor modele prestabilite, denumite clase de antrenament. De obicei, acestea reprezintă o grupare de referință ce corespunde realității, folosită inițial pentru antrenarea sistemului înaintea clasificării propriu-zise a datelor. [5]
În continuare vor fi prezentate pe scurt fundamentele teoretice ale câtorva tehnici folosite în cadrul învățării nesupervizate, precum rețele neuronale, arborii de decizie și învățarea bayesiană.
1.2.1. Rețele neuronale
În cadrul învățării nesupervizate, rețelele neuronale ocupă o categorie aparte, fiind des folosite la rezolvarea numeroaselor probleme. Cea mai semnificativă proprietate a reţelelor neuronale este capacitatea de a învăţa din mediul înconjurător şi de a-şi îmbunătăţi performanţele pe baza acestui proces de învăţare. Reţeaua neuronală învaţă pe baza unui proces iterativ de ajustare a ponderilor sinaptice şi eventual al nivelului de activare. Dacă procesul de învăţare decurge bine, atunci reţeaua neuronală acumulează tot mai multe informaţii, la fiecare iteraţie.[4]
Reţelele neuronale au fost inspirate de modelul creierului biologic privit ca o reţea uriaşă în care unităţi de calcul mici transmit semnale simple prin conectori către alte unităţi din reţea, în urma modelului format de conectori şi a semnalelor transmise rezultând raţionamente inteligente. O reţea neuronală este formată dintr-o mulţime de noduri şi conexiuni între noduri. Intrările într-un nod pot veni fie din exteriorul reţelei fie de la un alt nod din reţea, iar ieşirile pot merge în afara reţelei sau pot intra în alt nod din reţea. Fiecare conexiune are ataşat un cost ce afectează semnalul transmis prin ea. Învăţarea unei reţele se face prin ajustarea acestor costuri.
Acest tip de rețele pot fi unistratificate cu flux unidimensional, numite perceptron, sau multistratificate:
-
Perceptronul: este un model de reţea neuronală unistratificată cu flux unidirecţional. Semnalele de intrare sunt fie de tip excitatorfie de tip inhibator. Perceptronii sunt capabili să înveţe doar funcţii liniar separabile, adică funcţii în a căror reprezentare în spaţiu putem separa oricare doua clase de valori ale funcţiei printr-un singur plan.
-
Rețele neuronale multistratificate: are un strat de intrare, ce conţine noduri în care toate intrările provin din exteriorul reţelei, un strat intern, ascuns, şi un strat de ieşire, în care ieşirile tuturor nodurilor pleacă în exteriorul reţelei. [4]
1.2.2. Arbori de decizie
Un arbore de decizie este una din cele mai utilizate structuri de reprezentare utilizate în învăţarea automată. Pentru o instanţă specificată de un set de proprietăţi, arborele verifică anumite proprietăţi pentru a naviga în interiorul său şi ajunge la o frunză care va fi eticheta acelei instanţe. Fiecare nod intern al arborelui reprezintă un test făcut asupra uneia sau mai multor proprietăţi ale instanţei, iar ramurile descendente din acel nod sunt identificate de posibilele rezultate ale acelui test. Astfel, un arbore de decizie construieşte pentru o instanţă o conjuncţie logică ce se verifică pentru proprietăţile instanţei şi formează un fel de demonstraţie a clasificării făcute pe baza acelor proprietăţi. [4]
1.2.3. Învãțarea Bayesianã
Învăţarea în modelul Bayesian presupune menţinerea unor variante posibile ale şablonului, fiecare variantă fiind evaluată prin calcularea probabilităţii ca ea să clasifice corect o instanţă viitoare. Această probabilitate se calculează folosind rezultatele anterioare ale clasificărilor făcute de şablonul respectiv. La un moment dat, trebuie însă ca cel puţin o parte din şabloanele ipotetice să fie eliminate ca fiind posibile soluţii. Acest lucru se face prin stabilirea unui şablon ca fiind cel mai probabil şi eliminarea tuturor celorlalte, sau cel puţin a celor cu o probabilitate considerabil mai mică. [4]
1.3. Învãțarea prin întãrire
Spre deosebire de metodele de învăţare supervizată prezentate mai sus, învăţarea prin întărire se face fără ca algoritmul de învăţare să compare direct şablonul obţinut cu rezultatele corecte pentru exemplele de antrenament. În schimb este implementată o modalitate de a “răsplăti” sau “pedepsi” sistemul în funcţie de cât de mult se apropie de rezultatul corect. Acest feedback este singura metodă a sistemului de învăţare de a se regla pentru îmbunătăţirea rezultatelor sale. Acest lucru face învăţarea prin încurajare mai dificilă, căci sistemul nu mai primeşte informaţii directe despre cum şi cât să se corecteze, ci doar ştie dacă se apropie sau se depărtează de rezultatul optim. De asemenea, feedback-ul poate veni doar uneori, nu neapărat la fiecare schimbare în şablonul ipotetic, deci sistemul trebuie să aibă o modalitate de a direcţiona şi impulsiona singur schimbarea pentru îmbunătăţirea şablonului. [4]
Concretizând, învățarea prin întărire se referă la o clasă exactă de probleme din învățarea automată care admite ca un sistem să exploreze mediul, să perceapă anumite stări și să încearce niște acțiuni. În schimbul acțiunilor efectuate, sistemul va primi o recompensă pozitivă sau negativă. Astfel, algoritmul de învățare prin întărire va urmări să găsească o politică de maximizare a recompensei pe parcursul execuției, în contextul problemei date. Spre deosebire de majoritatea formelor de învăţare în care sistemului i se spune dinainte ce acţiuni să întreprindă, în cazul învăţării prin întărire sistemul trebuie sa descopere singur care acţiuni duc la obţinerea unei recompense mai mari. Acţiunile întreprinse pot afecta nu numai recompensa obţinută imediat, dar şi situaţia următoare, şi în consecinţă toate recompensele viitoare. Programarea sistemelor se face prin semnale de întărire sau slabire (răsplată/pedeapsă) fără a fi nevoie să se precizeze modalitatea concretă de rezolvare a sarcinii necesar a fi îndeplinită. Comportamentul adecvat se învaţă prin interacţiuni de tipul încercărilor succesive asupra mediului înconjurător dinamic. [2]
O diferenţă majoră dintre învăţarea prin întărire şi învăţarea de tip supervizat o reprezintă faptul că primului tip îi este necesară o fază explicită de explorare a mediului în scopul achiziţionării de cunoştinţe. Cel de al doilea tip de învăţare, cel supervizat, presupune acumularea cunoştinţelor pe baza unor exemple furnizate de către un expert sau supervizor extern şi, deşi reprezintă unul din tipurile cele mai importante de instruire, nu este adecvată învăţării din interacţiuni cu mediul. În probleme interactive este deseori imposibil şi nepractic să se obţină exemple de comportament adecvat şi reprezentativ pentru toate situaţiile posibile în care un sistem ar putea să se găsească. Este deci necesară capacitatea sistemului de a învăţa din propria experienţă. [3]
În acest context intervine problema explorare versus exploatare: pentru a obţine o recompensă însemnată un sistem instruit prin învățare prin întărire va prefera acţiuni care au mai fost încercate în trecut şi care au dovedit că aduc un aport substanţial.
Totodată este necesar să încerce şi noi acţiuni care s-ar putea dovedi mai productive decât cele testate până în prezent. În consecinţă, dilema explorare-exploatare se rezumă la faptul că un sistem trebuie să exploateze cunoştinţele deja acumulate pentru a maximiza recompensa, dar trebuie şi să exploreze noi acţiuni care s-ar putea dovedi mai bune decât cele deja efectuate. Sistemul trebuie să încerce o varietate de acţiuni şi progresiv să le favorizeze pe cele care par a fi mai bune. [2]
În continuare vor fi prezentate pe scurt fundamentele teoretice ale câtorva tehnici folosite în cadrul învățării prin întărire:
-
Q learning: este o metodă bazată pe valoarea acțiunilor. Sistemul poate alege o acțiune cu o valoare estimată cât mai mare, denumită și ”acțiune lacomă”. Această metodă exploatează cunoștințele curente în scopul maximizării recompensei. Comportamentul sistemului poate fi îmbunătățit prin acțiuni de tipul ε-lacome, care descriu selectarea unei mici proporții ε de date care vor fi alese aleator, iar restul datelor alese vor fi de tipul celor cu valoarea estimată cât mai mare. Unele strategii din Q-learning încep cu o valoare ε mare, pentru încurajarea explorării, după care valoarea sa este treptat diminuată.
-
Metode de tip Monte Carlo: nu presupun cunoașterea completă a a modelului mediului. Sunt necesare însă secvenţe de stări, acţiuni şi recompense desprinse din interacţiunea actuală sau simulată cu mediul.
-
Metode bazate pe programarea dinamică: sunt acele metode care se bazează pe anumiți algoritmi care pot fi folosiți la calculul unor strategii optime, având dat un obiect modelat cu procese de decizie de tip Markov. Aceste metode presupun oferirea de recompense întârziate, ceea ce înseamnă că o recompensă substanțială poate să apară doar la finalul unui șir de acțiuni care nu aduc decât o recompensă imediată nesemnificativă. Astfel, sistemul va trebui să învețe care dintre acțiuni sunt dezirabile astfel încât să poată obține o recompensă în viitorul apropiat. Acest tip de metode sunt importanți din punct de vedere teoretic din cauza necesității existenței unui model perfect. [2]
Dostları ilə paylaş: |