În capitolele anterioare am prezentat cele mai frecvent utilizate tehnici de recomandare din acest domeniu. Fiecare dintre aceste tehnici are adepți ce pretind că aceasta este o îmbunătățire față de o altă tehnică, având în vedere un anumit scop. Cu toate acestea nu există o noțiune comună de calitate a sistemelor de recomandare, și prin urmare, compararea diferitelor sisteme este dificilă. Mulți cercetători au recunoscut această problemă și mai multe contribuții ce încearcă să o rezolve au fost prezentate de-a lungul timpului. În acest subcapitol vom prezenta pe scurt stadiul actual în evaluarea sistemelor de recomandare.
3.4.1 Abordări de evaluare
Sistemele de recomandare pot fi evaluate folosind abordarea off-line, diferite metode experimentale live sau o combinație a acestor două abordări. Vom prezenta în continuare metoda off-line cât si metoda online [27].
3.4.1.1 Metoda off-line
În metoda off-line de evaluare nici un utilizator real nu este implicat fiind utilizat un set de date existent. Setul de date este împărțit într-un set de test și un set de formare (antrenare). Utilizând rating-urile din setul de antrenament, algoritmul sistemului de recomandare încearcă să prezică rating-urile ce se află în setul de test, care mai apoi pot fi comparate pentru a determina eroarea absolută.
În validarea încrucișată de k ori (K-fold cross validation), setul de date este partiționat în K subseturi. Din aceste subseturi, unul este reținut și utilizat ca set de test, în timp ce seturile rămase sunt utilizate pentru antrenament. Acest proces este repetat de K ori, de fiecare dată cu un set de test diferit.
Algoritmul de recomandare este evaluat mai apoi prin compararea evaluărilor prezise de sistem și evaluările din setul de test. Acest rezultat poate fi evaluat utilizând mai multe metrici, ce vor fi descrise pe scurt în secțiunile ce urmează.
Evaluările off-line au avantajul că sunt rapide, economice și ușor de efectuat cu o cantitate mare de date, mai multe seturi de date și cu mai mulți algoritmi. Când setul de date include și marcaje ale timpului care indică momentul când un element a fost evaluat, este posibilă replicarea tuturor interacțiunilor cu sistemul de recomandare. Cu toate acestea un sistem permite evaluarea previziunilor pentru elementele ce au fost efectiv evaluate de către utilizator, astfel se limitează setul de elemente ce pot fi evaluate. Mai mult de atât, evaluarea off-line nu poate măsura ”adevărata” satisfacție a utilizatorului.
3.4.1.2 Evaluarea on-line
În evaluarea on-line utilizatorii interacționează cu un sistem de recomandare funcțional și chiar primesc recomandări. Feedback-ul din partea utilizatorilor este mai apoi colectat de sistem, fie în mod implicit sau explicit. Un astfel de experiment poate fi controlat (de exemplu, se asignează utilizatori diferitelor condiții) sau poate fi în cadrul unei cercetări în care un sistem de recomandare este lansat pentru a observat comportamentul acestuia. Realizarea unei astfel de evaluări este consumatoare de timp și dificilă, dar pentru acest domeniu este inevitabilă realizarea unei astfel de evaluări din moment ce aceasta este singura modalitate de a măsura satisfacția utilizatorilor.
3.4.2 Metrici de acuratețe
Figura 3.9 Exemplu de evaluări
Din nenumăratele dimensiuni ce ar putea fi măsurate, precizia este de departe cel mai abordat [27]. O metrică de acuratețe măsoară cum un rating prezis de sistemul de recomandare diferă față de rating-ul oferit de utilizator. Metricile de precizie pot măsura cât de bine rating-urile unui utilizator pot fi reproduse de către sistemul de recomandare, și de asemenea, cât de bine este prezisă lista preferințelor acestuia. Pentru a ilustra aceasta diferență subtilă, un exemplu este prezentat în Figura 3.9. În coloana din stânga sistemul de recomandare (coloana RS), încearcă să reproducă rank-ul fiecărui utilizator, în timp ce în dreapta (coloana User) încearcă să reproducă rating-ul oferit de utilizator fiecărui element de la A la F.
Menționăm faptul că există trei subcategorii ale metricelor de performanță, pe care nu le vom detalia în această lucrare: metrici de performanță pentru predicție, pentru clasificare și pentru rank-uri.
3.4.3 Acoperirea
Pe lângă metricele de acuratețe, există o serie de alte dimensiuni ce pot fi măsurate. Una dintre aceste dimensiuni, menționată și în literatura de specialitate este acoperirea. Acoperirea măsoară procentajul elementelor pentru care sistemul de recomandare poate oferi predicții sau recomandări. Un sistem de recomandare nu poate genera întotdeauna o predicție, deoarece nu ar putea exista suficiente date. De exemplu, când un element nu a mai fost votat anterior, o tehnică bazată pe element nu poate prezice rating-ul pe care un utilizator l-ar oferi acelui element.
Există două tipuri de acoperire abordate de Herlocker în [27]: acoperirea predicțiilor (prediction coverage) și acoperirea cataloagelor (catalogue coverage). Acoperirea predicțiilor măsoară procentajul elementelor pentru care sistemul poate oferi recomandări. Acoperirea cataloagelor, pe de altă parte este o măsură a procentului de elemente care este recomandat vreodată unui utilizator. O acoperire mai mare înseamnă că sistemul este capabil de a lua decizii în cât mai multe situații posibile. Acoperirea poate fi măsurată prin alegerea unui set aleatoriu de perechi utilizator-element, pentru ca mai apoi sistemul de recomandare să genereze recomandări pe baza acestui set. În cele din urmă, atât acoperirea predicțiilor cât și cea a cataloagelor poate fi măsurată.
3.4.4 Satisfacția utilizatorilor
Satisfacția utilizatorilor este un aspect oarecum vag și slab definit, acesta fiind prin urmare, forte dificil de măsurat. În contextul cercetării, satisfacția utilizatorului, este definită ca măsura în care un utilizator poate face față problemei supraîncărcării cu informații. Dimensiunile descrise în secțiunile anterioare, vor sprijini sau inhiba satisfacția utilizatorilor într-o anumită măsură. Cu scopul de a putea determina efectul acestor dimensiuni în satisfacția utilizatorului, aceasta în sine trebuie definită.
Herlocker a prezentat un număr de dimensiuni de-a lungul cărora metodele de evaluare a satisfacției utilizatorului pot fi clasificate [27]. Aceste dimensiuni sunt:
-
Explicite vs implicite. Metoda de evaluare poate cere în mod explicit factorul de mulțumire al utilizatorului, sau acesta poate fi observat. Metodele de evaluare implicite necesită ipoteze, în scopul de a traduce observațiile într-o măsură de satisfacție a utilizatorilor, de exemplu, o creștere a vânzărilor unui anumit produs implică o satisfacție mai mare a utilizatorilor ce au achiziționat acel produs.
-
Studii de laborator vs studii în mediul real (field studies). Studiile de laborator se desfășoară în medii controlate în timp ce studiile în mediu real au loc într-un context concret al utilizatorului.
-
Rezultate vs procese. Studiul se poate axa doar pe rezultatele obținute, dar se poate orienta și spre procesele din care acestea provin.
-
Pe termen scurs vs pe termen lung. Evaluările pe termen scurt ale utilizatorului pot omite rezultate care apar doar după o anumită perioadă de timp. De exemplu, evoluția preferințelor utilizatorului este un fenomen ce poate fi investigat doar pe o perioadă lungă de timp.
Studiile care au investigat satisfacția utilizatorilor cu privire la sistemele de recomandare sunt puține, iar studiile care se concentrează pe satisfacția utilizatorilor cu privire la recomandări sunt chiar mai rare. Multe studii care se concentrează pe satisfacția utilizatorilor sunt în primul rând încadrate în categoria interacțiunilor om-calculator și nu se focusează asupra proprietăților sistemelor de recomandare.
Dostları ilə paylaş: |