Învăţarea supervizată:
Orice situaţie în care pot fi observate atât semnalele de intrare cât şi semnalele de ieşire ale unei componente se numeşte învăţare supervizată. Aceasta constă în faptul că agentul crede că o anumită acţiune are un anumit rezultat iar mediul emite un stimul prin care îi spune agentului care este rezultatul corect al acţiunii sale. Pe de altă parte, în învăţare, agentul primeşte o evaluare a acţiunii sale dar nu i se spune care este acţiunea corectă. Acest tip de învăţare se numeşte învăţare prin întărire.
În cazul învăţării supervizate agentului i se prezintă o mulţime de exemple de instruire. Un exemplu de instruire este o pereche de forma (x, f(x)) unde x este intrare iar f(x) este ieşirea dorită. Agentul calculează pe baza intrării o anumită ieşire. Un exemplu de instruire pentru o reţea neuronală este o pereche formată dintr-un vector de intrare şi ieşirea dorită. Când se prezintă reţelei un vector de intrare se calculează ieşirea reţelei şi se compară cu vectorul de ieşire dorit. Diferenţa dintre ieşirea dorită şi cea obţinută reprezintă eroarea. Ponderile reţelei sunt modificate conform unui algoritm care tinde să minimizeze eroarea. Vectorii din mulţimea de instruire sunt prezentaţi secvenţial modificându-se în mod corespunzător ponderile, până când eroarea totală (eroare asociată întregii mulţimi de instruire ) atinge o valoare acceptabilă.
Învăţarea nesupervizată:
Învăţarea care are loc fără ca agentul să primească vreo o sugestie despre semnalele de ieşire corecte se numeşte învăţare nesupervizată.
În ciuda numeroaselor sale aplicaţii, învăţarea supervizată a fost criticată ca fiind neplauzibilă din punct de vedere biologic. Aceste critici pornesc de la observaţia că este greu de conceput existenţa în creier a unui mecanism de instruire care ar compara ieşirile dorite cu cele reale, propagând înapoi în toată reţeaua de neuroni corecţiile efectuate. Dacă acesta ar fi mecanismul de instruire se pune problema provenienţei formelor de ieşire dorite.
Pe de altă parte s-a pus în evidenţă o auto – organizare a creierului încă din stadiile timpurii ale dezvoltării sale. Această auto – organizare nu poate fi explicată satisfăcător ca rezultatul unui mecanism de învăţare supervizată. Învăţarea nesupervizată este un model de învăţare mult mai plauzibil pentru sistemele biologice. În general, un model de învăţare nesupervizată este unul în care ajustarea ponderilor nu se bazează pe compararea cu răspunsuri ideale predeterminate. Mulţimea de instruire constă doar în vectorii de intrare.
În general algoritmii de clasificare nesupervizată modifică ponderile reţelei pentru a produce vectori de ieşire care sunt consistenţi. Prin aceasta înţelegem faptul că aplicarea a doi vectori de intrare care sunt suficient de asemănători va genere aceeaşi formă de ieşire (sau două forme foarte apropiate). Procesul de învăţare grupează vectorii similari în clase. Prezentând reţelei un vector dintr-o clasă aceasta va genera un vector de ieşire specific. Răspunsul pe care îl va produce o clasă de vectori de intrare nu poate fi însă determinat înainte de încheierea procesului de învăţare. Prin urmare ieşirile unei astfel de reţele trebuie, în general, să fie interpretate, adică să primească o formă inteligibilă după procesul de învăţare. De obicei sunt uşor de identificat relaţiile intrare – ieşire pe care reţeaua le stabileşte.
Capitolul III
Învăţarea prin întărire
Concepte generale:
Domeniul Învăţării prin Întărire are o istorie bogata si s-au făcut cercetări in mai multe domenii înainte de a fi unite în ceea ce azi numim învăţare prin întărire. Unul dintre aceste domenii este psihologia; unde s-au făcut cercetări în privinţa învăţării prin încercare şi eroare. Un alt domeniu care a contribuit la teoria învăţării prin întărire este acel al controlului optimal si soluţiile sale. Controlul optimal este termenul folosit pentru a descrie problema de a proiecta un controller pentru a minimiza comportamentul sistemelor dinamice.
Învăţarea prin întărire poate fi văzută ca un microcosmos pentru toate problemele de Inteligenţă Artificială. Un agent primeşte nişte percepţii de la mediul în care se află, le marchează ca fiind utilităţi pozitive sau negative si apoi se decide ce acţiune să execute (figura 3.1.a).
rt+1
st+1
Fig. 3.1.a. Interacţiunea dintre agent şi mediu în
învăţarea prin întărire
La fiecare pas de timp t, agentul primeşte informaţii despre starea în care se află,
st S, unde S este setul stărilor posibile, şi pe baza acestei informaţii selectează acţiunea at A(st) unde A(st) este setul de acţiuni disponibile din starea st. La următorul pas, în parte ca u consecinţă a acţiunii efectuate, agentul primeşte o recompensă numerică
rt+1 R, şi se află într-o nouă stare st+1. LA fiecare pas de timp agentul efectuează o mapare de la stări la probabilităţile de a alege o acţiune posibilă. Această mapare se numeşte politica agentului notată cu t, unde t(s, a) este probabilitatea ca a = at şi s = st.
Metodele de învăţare prin întărire specifică cum ar trebui agentul să-şi modifice politica ţinând cont de experienţa acumulată.
Învăţarea prin întărire ne arată cum un agent poate învaţă şi deveni expert într-un mediu necunoscut, când i se dau numai recompense ocazionale. Scopul Învăţării prin Întărire este de a folosi recompensa primită pentru ca agentul să înveţe să facă acţiuni corecte. Recompensa e un număr si valoarea acesteia variază de la pas la pas. Scopul agentului este de a maximiza totalul recompenselor primite. Agentul trece printr-o succesiune de stări si primeşte o anumita recompensă. Aceasta poate fi recompensa de câştig (+1 de exemplu), de eşec (-1) sau nulă când nu s-a ajuns la o stare terminală (0).
Agentul învaţă să-şi maximizeze recompensele primite. Daca dorim ca agentul sa facă un anumit lucru trebuie să stabilim recompensele astfel încât agentul sa ajungă acolo unde vrem maximizând aceste recompense. Dar recompensa care îi va fi atribuită agentului pentru o acţiune trebuie sa-i spună acestuia ce dorim ca el sa obţină nu cum să obţină. Învăţarea prin Întărire e sinonima cu învăţarea prin interacţiune. În timpul învăţării sistemele adaptive încearcă aplicarea de acţiuni asupra mediului în care se află, iar apoi sunt recompensate in funcţie de acţiunea pe care o executa. Algoritmii de învăţare prin întărire reţin selectiv ieşirile care maximizează recompensa primita. În multe medii complexe învăţarea prin întărire este singura metodă de a antrena programe să îndeplinească sarcini cu un grad mare de dificultate. De exemplu, la jocuri este extrem de greu pentru un antrenor uman să-i dea evaluări exacte şi consistente ale unui număr mare de poziţii, care ar fi necesare pentru a antrena o funcţie de evaluare direct din exemple. În loc de acest lucru, programului i se poate spune când a câştigat sau a pierdut, şi acesta poate folosi aceste informaţii pentru a-şi construi o funcţie de evaluare care estimează aproape exact probabilitatea de reuşită sau eşec dintr-o anumită poziţie. Un agent primeşte percepţii de la mediul în care se află, le clasifică în utilităţi pozitive şi negative, iar apoi se decide ce acţiune să aleagă.
În învăţarea prin întărire următoarele elemente pot varia:
-
mediul: Mediul poate fi accesibil sau inaccesibil. Într-un mediu accesibil, stările mediului pot fi identificate prin percepţii; spre deosebire de mediul inaccesibil unde agentul trebuie să-şi construiască o stări interne pentru a avea informaţii despre mediu.
-
cunoştinţele: Agentul poate începe învăţarea ştiind câte ceva despre mediu şi efectele acţiunilor sale asupra mediului, sau nu ştie nimic la început despre mediul în care se află şi va primi informaţii despre mediu pe măsură ce învaţă.
-
recompensele: Acestea pot fi primite numai în stări terminale sau şi în stările intermediare.
-
tipul agentului: agentul poate fi un “elev” activ sau pasiv. Dacă este pasiv agentul urmăreşte lumea în care se află şi încearcă să înveţe utilitatea din stările în care se află. Un agent activ trebuie să acţioneze folosind informaţia învăţată, şi, de asemenea, poate să-şi utilizeze generatorul de probleme pentru a-i sugera să exploreze porţiuni necunoscute din mediul în care se află.
După cum s-a văzut în capitolul doi (secţiunea 2.2.3) sunt câteva modele de bază pentru proiectarea unui agent inteligent. Deoarece agentul va primi recompense în timpul învăţării, la învăţarea prin întărire sunt doar două tipuri de agenţi ce pot fi luaţi în considerare:
-
agentul care învaţă o funcţie de utilitate pe baza stărilor şi foloseşte aceste informaţii pentru a selecta acţiunile care maximizează funcţia de utilitate
-
agentul care învaţă o funcţie de tipul acţiune – valoare. Acest tip de învăţare se numeşte Q - learning.
Un agent care învaţă o funcţie de utilitate trebuie să aibă un model al mediului în care se află pentru a putea lua decizii, deoarece trebuie să ştie în ce stare se află pentru a putea lua o decizie. Un agent care învaţă pe baza unei funcţii acţiune – valoare nu trebuie să aibă un asemenea model. Cât timp agentul îşi cunoaşte mutările legale, poate să le compare valorile direct fără să ţină seama de ieşirile lor.
Dostları ilə paylaş: |