Universitatea babeş-bolyai cluj-napoca facultatea de matematicǎ Şi informaticǎ specializarea informatică


Clasificarea plantelor și a animalelor pe baza MicroARN-ului



Yüklə 465,96 Kb.
səhifə9/14
tarix03.01.2019
ölçüsü465,96 Kb.
#89267
1   ...   6   7   8   9   10   11   12   13   14

Clasificarea plantelor și a animalelor pe baza MicroARN-ului

MicroARN-urile reprezintă molecule de ARN monocatenare, având molecule de aproximativ 21-23 nucleotide cu complementaritate imperfectă [10]. În ultimii ani, s-a demonstrat faptul că aceste molecule mici de ARN noncodant sunt implicate direct în procesele de diferențiere neuronală și dezvoltare cerebrală, putând genera afecțiuni precum: boala Alzheimer, boala Parkinson, retardul mintal și atrofia musculară spinală.

Experimentele de laborator tradiționale realizate în vederea clasificării microARN-urilor plantelor și animalelor s-au dovedit a fi costisitoare atât din punct de vedere al resurselor utilizate, cât și din punct de vedere al timpului consumat. Din această cauză, s-a dorit aprofundarea acestui domeniu prin intermediul unor surse informatice, precum învățarea automată.

Un studiu recent ne arată cum un grup de cercetători a ales să aplice clasificatorul naiv Bayes pentru rezolvarea acestei probleme. Au fost preluate caracteristici reprezentative ale MicroARN-ului precum: numărul de gene MicroARN prezente, locul de amplasare în cadrul genomului prezența grupurilor de MicroARN, biosinteza MicroARN-ului, locația legăturilor de MicroARN în raport cu genele țintă, numărul de astfel de legături și funcțiile îndeplinite de către aceste gene, obținându-se astfel diferențele dintre plante și animale [10].

Totuși, nu au fost utilizate toate aceste atribute în procesul de clasificare. Spre exemplu, atributele precum prezența cluster-ilor nu au fost luate în considerare, informațiile oferite de către acestea fiind considerate irelevante. Caracteristicile cu adevărat importante și reprezentative pentru această problemă au fost în număr de patru, referindu-se la complementaritete, numărul de nepotriviri cu ARN-ul țintă, numărul de gene țintă și dimensiunea fold back loop [10].

Pentru evaluarea sistemului, a fost aleasă validarea încrucișată, utilizându-se nouă zecimi din setul de date pentru antrenare și restul de o zecime pentru testare. Acest proces a fost repetat de 10 ori, de fiecare dată preluându-se informațiile din setul de date în mod aleator. În urma acestor experimente, a fost obținută o acuratețe de 85,71%, fiind clasificate corect 84 de instanțe, dintr-un număr total de 98.



    1. Optimizarea deciziilor pentru tratamente

În domeniul medical, s-a încercat de asemenea această apropiere de resursele informatice, dorindu-se crearea unui sistem care să vină în ajutorul medicilor, prin oferirea unor posibile soluții, unor sfaturi, rolul lor nefiind acela de înlocuire totală a implicației umane. Acest lucru se datorează risculul major care învăluie medicina, viața pacienților având o importanță mult prea mare pentru a putea fi acordată încredere absolută unei mașini inteligente lipsită de emoții.

Totuși, un ajutor în plus venit în manieră obiectivă nu strică, fapt pentru care mai mulți cercetători au aprofundat această problemă, care pe cât este de interesantă și utilă, pe atât este de dificilă.

O astfel de abordare, a fost reprezentată de aplicarea clasificatorului naiv Bayes (CNB) în evaluarea riscului de progresie, respectiv revenire a cancerului, în urma radioterapiei. Această abordare a fost puțin problematică, deoarece chiar dacă CNB este tolerant cu datele zgomotoase și incomplete prezentând astfel anumite beneficii, mulți specialiști consideră faptul că independența atributelor ar putea constitui un deficit pentru domeniul medical.

În cadrul acestui studiu au fost analizate datele preluate de la 140 de pacienți diagnosticați cu tumoare pe creier, care au fost tratați incepând cu 1 ianuarie 2000, până în 31decembrie 2005. Informațiile obținute au ajutat la obținerea a 96 de atribute reprezentative pentru descrierea celor două clase de diagnosticare a pacienților:


  • 0 – revenirea, respectiv progresia cancerului în urma radioterapiei,

  • 1 – stabilizarea, respectiv lipsa progresiei cancerului în urma radioterapiei.

Aceste atribute selectate pentru categorizare, au fost împărțite în următoarele categorii [10]: histologie (tipul histolgic al tumorii), imagistica craniană, locația tumorii primare, simptomele neurologice înainte de tratament, tratamentul chirurgical, radioterapia, boli coexistente, descoperirile făcute în laborator, tratamentul de susținere, pacientul.

Pentru determinarea calității sistemului, a fost folosită validarea încrucișată, comparându-se rezultatele oferite de către sistem, cu rezultatele reale obținute în urma aplicării tratamentelor pentru pacienții bolnavi. Acuratețea inițială a sistemului a fost de 82% (din 142 de cazuri, 116 pacienți au fost clasificați corect, în timp ce restul de 26 de pacienți au fost clasificați incorect). Sensibilitatea sistemului a fost de 0,79 iar specificitatea de 0,83. În urma unor optimizări făcute cu ajutorul evaluatorilor WEKA, procentul acurateții a crescut la 84%, sensibilitatea fiind acum 0,80 iar specificitatea 0,87.

Rezultatele obținute cu ajutorul clasificatorului naiv Bayes au fost promițătoare, însă scopul principal fiind determinarea celui mai bun sistem capabil să rezolve problema de față, au fost abordate și alte metode de învățare automată precum: arborii de decizie și rețelele Bayesiene (care sunt de altfel unele dintre cele mai populare sisteme folosite în medicină), comparațiile fiind prezentate în tabelul următor [10]:




Acuratețe

Sensibilitate

Specificitate

Clasificatorul naiv Bayes

82%

0,79

0,83

Rețelele Bayesiene

80%

0,73

0,85

Arborii de decizie

71%

0,62

0,75

S-a observat faptul că folosirea clasificatorului naiv Bayes oferă rezultate mult mai bune, comparativ cu celelalte două metode abordate. Abilitatea de a adăuga cu ușurință atribute noi sistemului, într-un mediu aflat în continuă dezvoltare și schimbare precum medicina, face din acest clasificator un instrument valoros. De asemenea, ușurința utilizării acestui sistem constituie un avantaj, având în vedere faptul că atât arborii de decizie, cât și rețelele neuronale necesită depunerea unui efort mult mai mare din partea clinicianului care utilizează programul.

În cazul arborilor de decizie, ar trebui eliminate acele reguli greșite generate de către sistem, în timp ce extinderea acestor arbori cu atribute noi reprezintă o operațiune costisitoare din punct de vedere al timpului consumat. În ceea ce privește rețelele neuronale, evaluarea importanței atributelor este imposibilă, procesul de optimizare și generalizare fiind astfel îngreunat.


    1. Yüklə 465,96 Kb.

      Dostları ilə paylaş:
1   ...   6   7   8   9   10   11   12   13   14




Verilənlər bazası müəlliflik hüququ ilə müdafiə olunur ©muhaz.org 2024
rəhbərliyinə müraciət

gir | qeydiyyatdan keç
    Ana səhifə


yükləyin