Introducere în subiectul datelor deschise (open data) suport de curs



Yüklə 160.46 Kb.
səhifə1/3
tarix03.04.2018
ölçüsü160.46 Kb.
  1   2   3




Introducere în subiectul datelor deschise (open data)

- suport de curs -
Editor: Coaliția pentru date deschise prin Asociația pentru Tehnologie și Internet – ApTI

Autori:
Nicolaie Constantinescu

Codrina Maria Ilie

Matei-Eugen Vasile
Proiect finanțat prin granturile SEE 2009 – 2014, în cadrul Fondului ONG în

România. Mai multe detalii despre granturi vezi la http://www.eeagrants.org și

http://www.fondong.fdsc.ro.

Octombrie 2014

Document pus la dispoziție sub licența CC-BY

Conţinutul acestui material nu reprezintă în mod necesar poziţia oficială a granturilor SEE

2009 – 2014


  1. Ce sunt datele deschise? (tehnic, juridic, exemple practice)



  1. Concept

Datele deschise sunt un concept care nu poate fi definit doar din punct de vedere tehnic sau doar din punct de vedere juridic. Pentru a defini datele deschise, trebuiesc luate în considerare în același timp atât aspectele tehnice cât și aspectele juridice. Foarte succint, în context European, datele deschise sunt date ce pot fi utilizate în mod liber, reutilizate și redistribuite de către oricine – supuse doar, cel mult, la necesitatea atribuirii în condiții identice.1


Pentru o definiție mai precisă, trebuiesc analizate definițiile date de diverse organizații conceptului de date deschise. De exemplu, definiția dată de Open Knowledge Foundation conceptului de 'deschis', în special când vine vorba de date deschise, este: „Datele deschise sunt elementele de bază ale cunoașterii deschise2. Cunoașterea deschisă este ceea ce devin datele deschise când acestea sunt folositoare, pot fi folosite și sunt folosite.
Trăsăturile cheie ale deschiderii sunt:


  • Disponibilitate și acces: seturile de date trebuie să fie disponibile în întregime și la un cost nu mai mare decât ar fi rezonabil, de preferință disponibile pentru a fi descărcate de pe Internet. De asemenea, datele trebuie să fie disponibile într-un format ușor de folosit și de modificat.

  • Reutilizare și redistribuție: seturile de date trebuie să fie puse la dispoziție sub termeni care permit reutilizarea și redistribuirea acestora, inclusiv combinarea acestora cu alte seturi de date. Datele trebuie să poate fi citite în mod automat.

  • Participare universală: oricine trebuie să poată folosi, refolosi și redistribui – nu ar trebui să existe nici o discriminare pe baza modului de utilizare, a persoanelor sau a grupurilor. De exemplu, restricțiile de tipul 'necomercial' care interzic utilizarea în scopuri 'comerciale', sau restricții care permit utilizarea doar în anumite scopuri (de exemplu, doar în scop educațional) nu sunt permise.”3

Descrierea completă, la care se face referire mai sus, dată de Open Knowledge Foundation pentru conceptul de 'deschis' este:


Sumar: Cunoașterea este deschisă dacă oricine poate să o acceseze, folosească, modifice și redistribuie – singurii termeni impuși fiind, cel mult, unii având ca scop conservarea datelor de proveniență și a caracterului deschis al acesteia.

Acest sens esențial al termenului 'deschis' corespunde cu sensul termenului 'deschis' folosit în legătură cu software-ul cu sursă deschisă4 și este sinonim cu 'liber', așa cum este acest termen descris în definiția operelor culturale libere5. Definiția termenului 'deschis' a fost derivată, inițial, din definiția software-ului cu sursă deschisă, care la rândul său a fost derivată din Ghidul pentru Software Liber al Proiectului Debian6.
Termenul operă va fi folosit pentru a descrie o cunoștință care este transferată.

Termenul licență se referă la condițiile legale sub care este publicată o operă. Acolo unde nu este specificată o licență, vor fi folosiți termenii legali care se aplică din oficiu utilizării unei opere (de exemplu, legislația privind drepturile de autor sau domeniul public).
1. Opere Deschise
O operă deschisă trebuie să îndeplinească următoarele cerințe atunci când este distribuită:
1.1. Licență deschisă

Opera trebuie să fie pusă la dispoziție sub o licență deschisă (în concordanță cu definiția din secțiunea 2). Orice termeni suplimentari care însoțesc opera (cum ar fi termeni de utilizare sau brevete deținute de titularul licenței) trebuie să nu contrazică termenii licenței.
1.2. Accesibilitate

Opera va fi disponibilă în întregime și contra unui cost unic și nu mai mare decât ar fi rezonabil, de preferință fiind ca aceasta să fie disponibilă pentru descărcare gratuită pe Internet . Orice alte informații necesare pentru respectarea licenței (cum ar fi numele contribuitorilor, necesare pentru cerințele de atribuire) trebuie să însoțească opera.
1.3. Format deschis

Opera trebuie să fie furnizată într-un format convenabil și ușor de modificat, astfel încât să nu existe obstacole tehnologice nenecesare în calea exercitării drepturilor oferite de licență. În particular, datele trebuie să poată fi citite automat, în volum mare și să fie reprezentate într-un format deschis (adică un format ale cărui specificații să fie publice, disponibile gratuit și care să nu impună restricții, materiale sau de altă natură, asupra folosirii acestuia) sau, în cel mai rău caz, să poată fi procesate cu cel puțin un instrument software cu surse libere/deschise.
F
igura 1: Formatele fișierelor disponibile pe data.gov.ro
2. Licențe deschise
O licență este deschisă dacă termenii săi satisfac următoarele condiții:
2.1. Permisiuni necesare

Licența trebuie să permită în mod irevocabil următoarele:

2.1.1. Folosire

Licența trebuie să permită folosirea liberă a operei licențiate.

2.1.2 Redistribuire

Licența trebuie să permită redistribuirea operei licențiate, inclusiv vânzarea, fie doar a operei individuale sau folosind-o ca parte a unei colecții alcătuite din opere din multiple surse de proveniență

2.1.3. Modificare

Licența trebuie să permită creerea de opere derivate din opera licențiată și să permită distribuția acestor opere derivate sub aceiași termeni ca opera originală licențiată.

2.1.4. Separare

Licența trebuie să permită ca orice parte a operei să poată fi folosită, distribuită sau modificată separat de oricare altă parte a operei sau de orice colecție din care opera făcea parte când a fost distribuită. Toți cei care primesc price orice parte a unei opere sub termenii licenței originale ar trebui să aibă aceleași drepturi ca cele acordate împreună cu opera originală.

2.1.5. Compilație

Licența trebuie să permită ca opera licențiată să fie distribuită împreună cu alte opere distincte fără a se impune restricții asupra acestor alte opere.

2.1.6. Nediscriminare

Licența trebuie să nu discrimineze împotriva oricărei persoane sau a oricărui grup.

2.1.7 Propagare

Drepturile atașate operei trebuie să se aplice tuturor celor cărora le este redistribuită opera fără a fi necesară acceptarea de către aceștia a oricăror altor termeni legali suplimentari.

2.1.8. Utilizare în orice scop

Licența trebuie să permită folosirea, redistribuirea, modificarea și compilația în orice scop. Licența trebuie să nu restrângă abilitatea nimănui de a folosi opera într-un anumit context sau scop.

2.1.9 Gratis

Licența trebuie să nu impună nici un fel de onorariu, plată recurentă pentru drepturi intelectuale sau orice alt mecanism de remunerație materiala ca parte a condițiilor impuse.
2.2. Condiții acceptabile
Licența nu va limita, introduce ambiguități sau reduce în vreun fel permisiunile specificate în secțiunea 2.1. cu excepția următoarelor condiții permise:
2.2.1. Atribuție

Licența poate cere ca distribuirea operei să trebuie să includă atribuția contribuitorilor, titularilor de drepturi, sponsorilor și creatorilor cât timp cât această cerință nu este oneroasă.

2.2.2. Integritate

Licența poate cere ca versiunile modificate ale operei licențiate să poarte un alt nume sau număr de versiune decât opera inițială sau, altfel, să indice care sunt modificările care au fost făcute.

2.2.3. Redistribuire similară

Licența poate cere ca operele derivate sau copiile să rămână sub aceiași licență sau o licență similară celei a operei originale.

2.2.4. Înștiințare

Licența poate cere menținerea înștiințărilor de drepturi de autor și identificarea licenței.

2.2.5. Sursă

Licența poate cere ca operele derivate să fie distribuite într-o formă care să permită modificări ulterioare.

2.2.6. Interzicere a restricțiilor tehnice

Licența poate interzice distribuirea operei prin mijloace care folosesc măsuri de natură tehnica care impun restricții asupra exercitării drepturilor care sunt, altfel, acordate.

2.2.7. Neagresiune

Licența poate cere ca cei care aduc modificări operei să acorde publicului permisiuni suplimentare (de exemplu, licențe de brevet) necesare pentru exercitarea drepturilor acordate de licență. De asemenea, licența poate condiționa permisiuni pe neagresiunea față de licențiați când vine vorba exercitarea oricărui drept acordat (din nou, de exemplu, cum ar fi cazul disputelor privind brevete).”
Trebuie ținut cont că această definiție a datelor deschise nu face nici o referire la proveniența datelor. Se poate face o clasificare a datelor deschise și în funcție de proveniența acestora, în acest caz unele dintre cele mai semnificative categorii fiind datele deschise științifice și datele deschise guvernamentale.
După cum a fost specificat la început, aceasta este definiția datelor deschise în context European. În Statele Unite ale Americii, când se vorbește de date deschise, de cele mai multe ori se subînțelege că este vorba de date deschise guvernamentale. Acest fapt poate fi remarcat, de exemplu, în ghidul politicilor de date deschise al Sunlight Foundation7. Sunlight Foundation este o organizație Americană8 în timp ce Open Knowlegde Foundation este o organizație Europeană (Britanică)9.
Întrebarea firească care se pune în acest moment este „De unde acestă diferență între perspectiva Europeană și cea Americană?”. Răspunsul la acestă întrebare stă în faptul că, în Europa, în legislația privind drepturile de proprietate intelectuală există conceptul de drepturi asupra bazelor de date în timp ce în Statele Unite ale Americii acest drept nu există.
În contextul drepturilor de proprietate intelectuală, o entitate fizică sau juridică nu poate avea drepturi de proprietate asupra datelor în sine, ci doar asupra unor creații. Prin introducerea dreptului asupra bazelor de date10, datele propriu-zise nu pot fi în proprietatea cuiva în continuare, dar colecțiile de date pot fi11. Din această cauză, datele produse de instituțiile publice, din fonduri publice și de interes public, deși individual nu pot fi în proprietatea cuiva, prin intermediul faptului că aceste date formează baze de date iar legislația acordă drepturi în mod explicit asupra bazelor de date, instituțiile care gestionează aceste baze de date se pot folosi de această situație legislativă pentru a nu furniza publicului datele respective.
Un exemplu de astfel de situație poate fi observat la CFR și mersul trenurilor. Datele legate de mersul trenurilor, individual, nu pot intra sub incidenta legislației privind drepturile de proprietate intelectuală. Totalitatea acestor date, însă, formând o bază de date, poate intra sub incidența legislației privind drepturile de proprietate intelectuală din cauza dreptului de baze de date iar CFR-ul se folosește de această stare de fapt pentru a interzice oricărei terțe părți de la a crea aplicații sau servicii pornind de la aceste date. O interogare a mersului trenurilor pe site-ul oficial al CFR-ului produce, în subsolul paginii, următorul mesaj „Toate drepturile rezervate. Acest site contine material protejat de Legea 8 din 1996 cu modificarile si completarile ulterioare. Orice utilizare sau reproducere neautorizata este interzisa. Nicio parte a www.cfrcalatori.ro nu poate fi reprodusa, transmisa prin orice mijloc electronic sau mecanic, inclusiv fotocopiere, inregistrare sau prin stocarea si extragerea de informatii fara dreptul explicit in scris al SNTFC CFR Calatori.”12 Un exemplu de terț care a fost scos de pe piață de CFR prin folosirea dreptului de baze de date este site-ul mersultrenurilor.ro, care oferea servicii bazate pe datele din mersul trenurilor. După cum se poate vedea de pe prima pagină a acestui site, acesta nu a mai fost actualizat din Octombrie 201313. Acesta este un exemplu clasic de cum date care sunt disponibile din punct de vedere tehnic nu sunt open data pentru că datele respective nu sunt disponibile și din punct de vedere juridic.
Așadar, în context American, conceptul de date deschise se referă în principal la transparența organizației care furnizează respectivele date și la aspectele tehnice privitoare la modul în care respectivele date sunt făcute publice, fără a fi nevoie de a lua în calcul aspecte juridice. În context European, în plus față de cele enumerate mai sus trebuiesc luate în calcul și aspectele juridice ale modului în care sunt publicate datele pentru ca aceste date să poată fi considerate date deschise.

  1. Juridic

Pentru ca un set de date făcut public să poată fi considerat date deschise, din punct de vedere juridic, conform definiției extinse de la punctul 1, acesta trebuie să fie publicat sub o licență care să ofere utilizatorilor o serie de drepturi fără de care utilizarea datelor nu ar fi posibilă din punct de vedere juridic. O alternativă mai radicală este ca aceste date să fie puse explicit în domeniul public. Problema este că punerea în domeniul public este foarte dificilă, dacă nu de-a dreptul imposibilă în multe jurisdicții. Ca substitut la punerea în domeniul public sunt licențele care oferă aceleași drepturi ca domeniul public.


Lista de licențe recomandate de Open Knowledge Foundation pentru datele deschise conține următoarele licențe14:


  1. Creative Commons CCZero (CC0)1516 – licență echivalentă cu a pune date sau conținut în domeniul public

  2. Open Data Commons Public Domain Dedication and Licence (PDDL)17 – licență echivalentă cu a pune date în domeniul public

  3. Creative Commons Attribution 4.0 (CC-BY-4.0)18 – licență care poate fi folosită pentru date sau conținut și care necesită atribuție – aceasta este una dintre licențele de date deschise cu cea mai mare răspândire

  4. Open Data Commons Attribution License (ODC-BY)19 – licență care poate fi folosită pentru date și care necesită atribuție – aceasta a fost creată special pentru baze de date

  5. Creative Commons Attribution Share-Alike 4.0 (CC-BY-SA-4.0)20 – licență care poate fi folosită pentru date sau conținut și care necesită atribuție și redistribuire similară – aceasta este alta dintre licențele de date deschise cu cea mai mare răspândire

  6. Open Data Commons Open Database License (OdbL)21 – licență care poate fi folosită pentru date și care necesită atribuție și redistribuire similară – aceasta a fost creată special pentru baze de date

Desigur, pot fi folosite sau create alte licențe care să îndeplinească cerințele necesare unei licențe compatibile cu conceptul de date deschise. Un exemplu de astfel de licență este:




  1. Licența pentru o Guvernare Deschisă (OGL-ROU-1.0)22 – Licența de utilizare a informațiilor deschise publicate pe portalul de date deschise http://data.gov.ro




  1. Tehnic

Pentru ca un set de date făcut public să poată fi considerat date deschise, din punct de vedere tehnic, conform definiției extinse de la punctul 1 acesta trebuie să ofere23:




  1. Accesibilitate: Setul de date trebuie să fie disponibil contra unui cost rezonabil sau, de preferință, gratuit pe Internet.

  2. En-gros: Întregul set de date trebuie să fie făcut disponibil, nu doar părți din acesta.

  3. Format deschis: Setul de date trebuie fie disponibil într-un format care să nu condiționeze (ca de exemplu formatele de date brevetate) sau îngreuneze reutilizarea respectivelor date.

Dincolo de datele propriu-zise, foarte importante sunt și metadatele cum ar fi data și ora la care a fost creată fiecare înregistrare, data și ora la care a fost creat un fișier care conține un set de date etc.


În ziua de astăzi, modalitatea care asigură accesul celor mai mulți utilizatori cu cel mai mic efort este publicarea pe Internet. Orice altceva nici nu se poate considera că respectă cerințele de ordin tehnic ale definiției datelor deschise. Dincolo de acest aspect fundamental, un set de date poate fi publicat pe Internet folosind mai multe metode:

  1. Publicarea seturilor de date folosind fișiere

  2. Publicarea seturilor de date prin intermediul unui API web


3.1. Publicarea seturilor de date folosind fișiere
În cazul publicării seturilor de date folosind fișiere, trebuiesc luate în considerare două aspecte:

  1. Modalitatea tehnică de publicare a fișierelor

  2. Formatul de fișier folosit


3.1.1. Modalitatea tehnica de publicare a fișierelor
Publicarea fișierelor poate fi realizată în multiple feluri. Nu are rost încercarea de a crea o listă exhaustivă de metode care pot fi folosite pentru că numărul acestora este foarte mare. Vom prezenta doar câteva dintre modalitățile cele mai comune și mai convenabile pentru toate părțile implicate:


  1. Publicarea pe web, pe pagina instituției/organizației: Aceasta este una dintre modalitățile cele mai simple din punct de vedere tehnic dacă instituția/organizația care publică respectivele date are deja o pagină web funcțională. Dacă respectiva instituție/organizație nu are deja o pagină web, atunci soluția devine mai complicată, în funcție de disponibilitățile tehnice și/sau financiare ale respectivei instituții/organizații. Din punctul de vedere al utilizatorilor datelor publicate, publicarea acestora pe pagina web proprie a instituției/organizației poate pune cel puțin două tipuri de probleme. În primul rând, în funcție de design-ul paginii, pot exista dificultăți în a identifica informațiile privitoare la momentul publicării datelor respective. În al doilea rând, în funcție de design-ul paginii, pot exista dificultăți în găsirea fișierelor pe pagină. Un exemplu de organizație care publică seturi de date deschise pe propria pagină web este Eurostat24.

  2. Publicarea pe web, pe portaluri unor terți: Aceasta modalitate este similară cu precedenta. Din punct de vedere tehnic, pentru instituția/organizația care publică respectivele date este mai simplu pentru ca terța parte care se ocupa de platforma respectivă este entitatea care se ocupă de aspectele tehnice. Instituția/organizația care publică respectivele date trebuie doar să furnizeze fișierul/fișierele cu seturile de date. Singurele probleme care pot apărea din punctul de vedere al instituției/organizației care publică setul de date sunt cele de natură de politică a instituției/organizației. Din punctul de vedere al utilizatorilor, această alternativă este mai convenabilă pentru ca aceștia pot găsi date din multiple surse în același loc iar un astfel de portal, fiind special creat pentru publicarea de seturi de date, ar trebui să aibă, cel puțin teoretic, un design optimizat pentru nevoile utilizatorilor. Un exemplu autohton de astfel de portal de date deschise este portalul data.gov.ro25. Un alt exemplu este portalul de date deschise al Uniunii Europene26.

  3. Publicarea prin intermediul BitTorrent: Aceasta este o altă alternativă foarte ușor de folosit atât de către instituția/organizația care publică datele cât și de către utilizatori. Avantajul acestei alternative față de cele precedente este că degrevează resursele tehnice ale instituției/organizației care publica datele și asigură o mai mare robustețe a mecanismului de publicare a datelor.


3.1.2. Formatul de fișier folosit
Când vine vorba formatul fișierelor publicate, în primul rând, acest format trebuie să satisfacă cerința de format deschis, ale cărui specificații să fie publice, disponibile gratuit și care să nu impună limitări de natură materială, tehnica sau de orice alt fel. În cel mai rău caz, în caz că formatul folosit nu este un format deschis așa cum a fost acesta definit mai sus, trebuie ca să existe cel puțin un instrument cu surse libere/deschise care să poată deschide fișierul și exporta datele într-un format deschis.
În al doilea rând, formatul folosit trebuie să fie interpretabil automat. De exemplu, dacă un set de date este publicat în fișiere PDF, chiar dacă sunt îndeplinite toate celelalte cerințe impuse de conceptul de date deschise, respectivul set de date nu sunt date deschise pentru că fișierul nu este ușor interpretabil în mod automat. Acest lucru este valabil pentru fișiere PDF generate direct din date, dar cu atât mai mult pentru fișiere PDF care conțin pagini scanate. Evident, aceasta problemă nu se limitează la fișiere PDF, ci se referă la orice format de fișier care nu poate fi ușor interpretat în mod automat.
Câteva formate deschise care satisfac toate cerințele pentru date deschise:

  1. CSV (Comma Separated Values – Valori Separate prin Virgulă): Acesta este cel mai comun și mai accesibil format de fișier pentru reprezentarea seturilor de date. Acest format poate fi deschis atât cu programe de calcul tabelar cât și cu orice editor de text.

  2. XML (eXtended Markup Language): Acest format poate fi folosit pentru a reprezenta atât date cât și metadate într-un mod structurat.

  3. ODS (Open Document Spreadsheet): Acesta este formatul de fișier de calcul tabelar din suita de formate de fișier publicate de Open Document Format27.

Un exemplu de format care nu satisface cerințele de format deschis dar pentru care există cel puțin un instrument cu surse libere/deschise care să poate deschide astfel de fișiere și să le poată exporta într-un format deschis:



  1. XLS (Microsoft Excel Spreadsheet): Acest format de fișier poate fi deschis cu instrumente cu surse libere/deschise cum ar fi LibreOffice Calc28 sau Gnumeric29.

Figura 2: Formate de fișiere disponibile pentru salvarea de date de pe site-ul Eurostat



Dostları ilə paylaş:
  1   2   3


Verilənlər bazası müəlliflik hüququ ilə müdafiə olunur ©muhaz.org 2017
rəhbərliyinə müraciət

    Ana səhifə