Mediul:
Definiţie: Printr-un model de mediu se înţelege orice poate folosi agentul pentru a intui care va fi răspunsul mediului la acţiunile sale. Fiind date o stare şi o acţiune modelul de mediu face o predicţie asupra următoarei stări şi a următoarei recompense.
După cum s-a văzut în secţiunea 2.2.3 există mai multe tipuri de agenţi. De asemenea există mai multe tipuri de medii asupra cărora agentul acţionează. Însă, în toate cazurile, natura conexiunii este aceeaşi: agentul execută acţiuni asupra mediului, iar mediul furnizează percepţii agentului.
Mediile pot fi descrise printr-o serie de caracteristici ortogonale, cum sunt cele indicate mai jos :
-
mediu accesibil / mediu inaccesibil
Un mediu este accesibil daca aparatul senzorial al agentului îi permite accesul complet la stările mediului. Un mediu este efectiv accesibil dacă senzorii agentului detectează toate aspectele care sunt relevante pentru alegerea unei acţiuni. Un mediu accesibil este foarte convenabil deoarece agentul nu are nevoie de o stare internă care să conserve informaţiile despre stările anterioare.
Un mediu se numeşte determinist daca starea următoare a mediului este complet determinată de starea curentă şi de acţiunile selectate de agent. Cele mai multe din situaţiile reale sunt atât de complexe încât deşi ele sunt complet deterministe, pentru scopuri practice trebuie tratate ca fiind nedeterministe.
-
mediu episodic / mediu neepisodic
Într-un mediu episodic existenţa agentului este divizată în episoade. Fiecare episod e alcătuit din percepţiile agentului şi acţiunile sale. Calitatea acţiunii depinde doar de episodul curent, nu şi de acţiunile efectuate în episoadele anterioare. Într-un univers episodic agentul nu trebuie să anticipeze acţiunile viitoare posibile.
Daca mediul se schimbă în timpul acţiunii agentului atunci mediul este dinamic pentru agent. În caz contrar mediul este static. Într-un mediu dinamic agentul trebuie să ţină seama de schimbările intervenite în timp ce el alege o acţiune.
-
mediu discret / mediu continuu
Dacă există un număr limitat de percepţii distincte atunci spunem că mediul este discret.
În figura 1.6.3 este descris modelul general al unui mediu şi interacţiunile sale cu agenţii. Simulatorul are ca intrare unul sau mai mulţi agenţi, îi dă, în mod repetat, fiecărui agent percepţiile corecte şi primeşte acţiunile agenţilor.
procedure Run_Environment(stare, Update_FN, agenţi, terminare)
intrări: stare //starea iniţială a mediului
Update_FN //funcţie care modifică mediul
agenţi //setul de agenţi
terminare //un predicat pentru a testa starea terminală
repeat
for each agent in agenţi do
Percepţie[agent]=Get_Percept(agent, stare)
end
for each agent in agenţi do
Acţiune[agent]=Program[agent](Percepţie[agent])
end
stare=Update_FN(acţiuni, agenţi, stare)
until terminare(stare)
Fig.1.6.3 Modelul general al unui mediu.
În figura 1.6.4 este descrisă funcţia Run_Eval_Environment care aplică o măsură a performanţei fiecărui agent şi returnează o listă a procentajelor. Variabila scores reţine scorul fiecărui agent.
function Run_Eval_Environment(stare, Update_FN, agenţi, terminare,
Performance_FN) returns scores
variabile locale: scores //vector de aceeaşi dimensiune ca şi
//agenţi
repeat
for each agent in agenţi do
Percepţie[agent]=Get_Percept(agent, stare)
end
for each agent in agenţi do
Acţiune[agent]=Program[agent](Percepţie[agent])
end
stare=Update_FN(acţiuni, agenţi, stare)
scores = Performance_FN(scores, agenţi, stare)
until terminare(stare)
return scores
Fig. 1.6.4 Program de simulare al unui mediu care verifică
măsura performanţei fiecărui agent
Învăţarea unui domeniu:
În învăţarea unui domeniu specific, sistemul conţine numeroase concepte predefinite, structuri de reprezentare a cunoştinţelor, restricţiile domeniului şi reguli euristice. Se aşteaptă ca sistemul să deducă noi atribute şi concepte în procesul de învăţare (inducţie constructivă). Un sistem bazat pe această abordare este dezvoltat pentru un domeniu particular şi nu poate fi folosit direct în alt domeniu. Strategiile de învăţare folosite sunt: învăţarea din exemple, învăţarea prin analogie şi învăţarea prin observaţie şi descoperire.
S-au construit sisteme ce combină această abordare şi calculul neuronal. Separând mecanismele de inferenţe generale de cunoştinţele specifice domeniului s-au realizat sisteme ce pot fi aplicate la o largă varietate de domenii diferite.
Strategii de învăţare:
Tipuri de învăţare:
În procesul de învăţare, informaţia furnizată de un profesor sau de mediu este transformată într-o formă nouă în care ea este memorată pentru uzul ulterior. Natura acestei transformări determină tipul de strategie. Astfel putem distinge învăţarea mecanică, învăţarea prin instruire, învăţarea prin deducţie, învăţarea prin analogie şi învăţarea prin deducţie. Ultima se subdivide în învăţarea din exemple şi învăţarea din observaţie (învăţarea nesupervizată) şi prin descoperire.
În învăţarea mecanică informaţia furnizată de profesor nu suferă nici o transformare esenţială, fiind memorată direct. Problema de bază este cum să fie indexată şi memorată cunoaşterea în vederea regăsirii ulterioare. În învăţarea prin instruire, transformările de bază sunt selecţia şi reformularea (mai ales la nivel sintactic) a informaţiei furnizate de profesori. În învăţarea prin deducţie, pe baza cunoaşterii datei, sunt formulate inferenţe deductive care au proprietatea de a conserva adevărul concluziile utile fiind memorate. Dacă procesele de transformare presupun generalizarea informaţiei primite şi selectarea celui mai plauzibil sau dezirabil rezultat, avem de-a face cu un proces de inferenţă inductivă. În învăţarea prin analogie se combină învăţarea deductivă şi cea inductivă. Descrierile din diferite puncte de vedere sunt combinate pentru a determina o substructură comună, care să servească drept bază pentru analogii. Găsirea substructurii comune presupune inferenţă inductivă, în timp ce realizarea proiecţiei analogice este o formă de deducţie.
Dostları ilə paylaş: |