Probleme care pot apărea în învățarea automată
De cele mai multe ori, partea de cercetare a învățării automate este oarecum separată de motivația aplicării practice a acestor algoritmi. Totuși, un astfel de sistem auto-instruibil ar trebui să fie scalabil la potențialele probleme care pot apărea în timpul dezvoltării unei aplicații din viața reală, care pe cât de interesantă și captivantă ar putea părea, pe atât este de imprevizibilă și instabilă.
În urma unor studii amănunțite, s-a demostrat că alegerea algoritmilor de învățare (de exemplu: mașini cu suport vectorial, arbori de decizie, rețele neuronale șamd.) influențează de cele mai multe ori performanța sistemului într-o măsură foarte mică, iar pentru multe probleme din viața reală este ușor să găsim soluția optimă în ceea ce privește metoda utilizată (de exemplu validarea încrucișată).
Totuși, există și cazuri în care niciunul dintre algoritmii de învățare automată nu se ridică la măsura așteptărilor noastre. În asemenea situații, ar trebui să ne îndreptăm privirea către setul de date de antrenament folosit, care poate fi de asemenea problematic, din 3 puncte de vedere diferite [14]:
-
Fie setul de date colectat este prea mic pentru ca sistemul să poată învăța o generalizare a modelului, fie conține informații eronate sau irelevante, care nu reflectă adevărata situație a problemei propuse spre a fi rezolvată.
-
În al doilea rând, este posibil ca datele oferite către antrenament să conțină ”zgomot”. Fie valorile instanțelor conțin ”zgomot” aleator sau sistematic, fie caracteristicile/etichetele acestora sunt deficitare.
-
În al treilea rând, este posibil ca aceste caracteristici ce descriu instanțele să nu fie suficiente pentru o deosebire concretă. De exemplu, mărimea pantofului unui pacient, nu va ajuta la diagnosticarea tipului de afecțiune pulmonară pe care acesta o are.
Compromisul interferență-variație (”dilema”) poate reprezenta de asemenea o problemă a performanței scăzute, în cazul algoritmilor de învățare supervizată. Ne-am dori cu siguranță să putem găsi o modalitate prin care să obținem o acuratețe ridicată luând în considerare atât datele de antrenament care ne sunt oferite inițial, cât și capacitatea sistemului de a generaliza pe baza unor date încă necunoscute. Așadar, se încearcă minimizarea simultană a două surse diferite ale erorii, lucru care previne generalizarea unei funcții pe baza setului de antrenament [19].
Eroarea de interferență se datorează predicțiilor greșite ale algoritmului de învățare. O valoare ridicată a acesteia poate cauza omiterea unor relații relevante dintre caracteristicile instanțelor și funcțiile țintă.
Eroarea de variație este dată de fluctuațiile care pot apărea la nivelul predicțiilor sistemului. O valoare ridicată a acesteia semnalează obținerea unor rezultate aleatoare, care nu sunt reprezentative pentru caracterizarea performanței.
Întrucât aceste două tipuri de erori se află în balanță, iar dacă dorim minimizarea uneia dintre ele, implicit cauzăm accentuarea celeilalte, este nevoie de un compromis care să poată rezolva într-o anumită manieră această ”dilemă” și să crească pe cât posibil performanța sistemului.
Aplicații ale învățării automate
Încă din momentul în care au apărut calculatoarele iar știința a început sa evolueze tot mai mult în această direcție, ne-am întrebat dacă vom fi vreodată capabili să concepem un astfel de sistem care să învețe, care să poată fi îmbunătățit automat, prin intermediul experienței acumulate.
Impactul reușitei ar fi unul major, gândindu-ne la reducerea semnificativă a intervenței umane în cazuri care necesită o bază foarte mare de cunoștințe, sau care au nevoie de o atitudine fermă, lipsită de trăiri emoționale ce ar putea influența în mod negativ un anumit rezultat, sau chiar periclita vieți umane.
De asemenea, există si varianta opusă, conform căreia tocmai lipsa factorului emoțional ar putea constitui problema majoră a învățării automate, în sensul în care un astfel de sistem nu ar putea reproduce naturalețea și spontaneitatea unei ființe umane. Tocmai din această cauză, încă există o oarecare reticență în aplicarea acestor algoritmi, mai ales în anumite domenii cu factor de risc ridicat, precum medicina.
Până în prezent, evoluția învățării automate a urmat un drum ascendent, având în vedere faptul că au fost descoperiți diverși algoritmi aplicabili în domeniul de față cu rezultate foarte bune, conducând astfel la o fundamentare teoretică solidă.
De exemplu, conturile de mail pe care le folosim au în spate algoritmi ai învățării automate, care identifică spam-ul. Google folosește de asemenea astfel de algoritmi pentru a identifica și reduce pe cât posibil apariția spam-ului web. Companii prestigioase de ecommerce folosesc această tehnologie alături de alte instrumente, pentru a opri folosirea frauduloasă a cărților de credit.
În continuare, vom prezenta câteva astfel de sisteme autonome, care au fost deja create, sau care sunt încă în proces de dezvoltare și optimizare, dar care promit efectul garantat al unei revoluții spectaculoase tehnologice, în momentul în care vor fi pregătite pentru a putea fi utilizate în viața reală [18]:
-
Amazon, unul dintre inițiatorii învățării automate bazată pe conceperea motoarelor de recomandare și a algoritmilor de categorizare a prețurilor, încearcă să dezvolte un sistem care să decidă autonom drepturile de acces la diferite resurse care ar trebui oferite fiecărui angajat în parte. În rezolvarea acestei probleme, este folosită o bază de date consistentă, ce conține informații relevante despre rolurile angajaților și nivelele de acces care le-au fost acordate.
-
Universitatea Cornell lucrează în prezent la un algoritm de identificare a balenelor din ocean pe baza unor înregistrări audio, astfel încât navele să le poată evita. De asemenea, Universitatea de Stat din Oregon încearcă să dezvolte un produs soft care va fi capabil să determine specia unei păsări pe baza unor înregistrări audio colectate din mediul natural.
-
Companiile și organizațiile de asistență medicală folosesc o tehnică numită Simularea Evenimentelor Discrete, pentru a prezice timpul de așteptare al unui pacientului în camera de așteptare a departamentului de urgențe. Pentru ca acest lucru să fie posibil, se folosesc datele pacienților, diagrame ale departamentului de urgență și chiar structura camerei respective.
-
Cercetătorii de la IMB au reușit să găsească o modalitate de a extrage criterii de diagnosticare a insuficienței cardiace, pe baza unor documente/notițe puse la dispoziția tuturor de către medicii de specialitate. Aceștia au conceput apoi un sistem inteligent de regăsire a informației, prin intermediul unei tehnici numită Procesarea Limbajului Natural. Softul astfel obținut, poate, pe baza unor criterii inițiale preluate de la pacient, să decidă dacă acesta suferă de insuficiență cardică, sau nu.
-
Organizația Healint din Singapore a creat o aplicație numită JustShakeIt, menită să vină în ajutorul persoanelor care suferă de boli care pot cauza convulsii. Aceasta permite trimiterea unui mesaj de urgenţă unei liste de contacte prestabilite, prin agitarea telefonului cu o mână. Învăţarea automată este folosită în cazul de față, pentru a distinge cazurile de urgenţă reale față de mișcarea firească a telefonului.
Dostları ilə paylaş: |