Capitolul 3



Yüklə 169.35 Kb.
səhifə1/3
tarix03.11.2017
ölçüsü169.35 Kb.
  1   2   3

Cursul 6


ANALIZA COMPARATIVA A DIFERITELOR INSTRUMENTE UTILIZATE PENTRU INTEGRAREA DATELOR




În integrarea orientată pe date un rol important îl au instrumentele. Aceste instrumente le putem clasifica în două categorii:

  • instrumente pentru gestiunea datelor, în cazul în care datele sunt deja stocate în baze de date sau în depozite de date şi

  • instrumente pentru extragerea datelor din diferitele surse şi încărcarea acestora într-o bază de date consolidată.

În acest capitol vor fi prezentate principalele sisteme de gestiune a bazelor de date şi a depozitelor de date şi câteva teste realizate cu instrumentele folosite pentru migrarea datelor.


3.1. Sisteme de gestiune a bazelor de date



Un sistem de gestiune a bazelor de date este un ansamblu complex de programe care asigură interfaţa între o bază de date şi utilizatorii acesteia.

Sistemul de gestiune a bazelor de date este componenta software a unui sistem de bază de date care interacţionează cu toate celelalte componente ale acestuia, asigurând legătura şi interdependenţa între elementele sistemului.

Rolul unui SGBD într-un context de sistem de bază de date este de:

1. a defini şi descrie structura bazei de date, lucru care se realizează printr-un limbaj propriu specific, conform unui anumit model de date;

2. a încărca/valida datele în baza de date respectând nişte restricţiile de integritate impuse de modelul de date utilizat;

3. a realiza accesul la date pentru diferite operaţii (consultare, interogare, actualizare, editare situaţii de ieşire), utilizând operatorii modelului de date;

4. a întreţine baza de date cu ajutorul unor instrumente specializate (editoare, utilitare (shells), navigatoare, convertoare etc.);

5. a asigura protecţia bazei de date sub aspectul securităţii şi integrităţii datelor.



Obiectivul general al unui SGBD este de a furniza suportul software complet pentru dezvoltarea de aplicaţii informatice cu baze de date. Fiind un mediu specializat, SGBD satisface cerinţele informaţionale ale utilizatorului într-un mod optim. Astfel, el asigură minimizarea costului de prelucrare a datelor, reduce timpul de răspuns (timp util), asigură o mai buna flexibilitate şi deschidere a aplicaţiei, asigură protecţie ridicată a datelor.

Cele mai utilizate SGBD-uri sunt:



  • ORACLE – realizat de firma Oracle Corporation USA, produs complet relaţional, robust, bazat pe SQL standard extins, ajuns la versiunea 10G, extensie orientată obiect, arhitectura client/server, lucrul distribuit, BD Internet, optimizator de regăsire;

  • DB2 - realizat de firma IBM, bazat pe SQL, optimizator de regăsire, respectă teoria relaţională, lucrul distribuit, robust;

  • INFORMIX – realizat de firma Informix, respectă teoria relaţională, lucru distribuit, robust;

  • PROGRESS – realizat de firma Progress Software, are limbaj propriu (Progress 4GL), suportă SQL, rulează pe o gamă largă de calculatoare sub diferite sisteme de operare;

  • SQLServer – realizat de firma Microsoft, bazat pe SQL, rulează în arhitectura client/server;

  • INGRES II – realizat de firma Computer Associates, este un SGBDR complet, implementează două limbaje relaţionale (întâi Quel şi apoi SQL), este suportat de diferite sisteme de operare (Windows, VMS, UNIX), lucrează distribuit în arhitectura client/server, extensie cu facilităţi orientate obiect, permite aplicaţii tip Internet, protecţia ridicată a datelor, organizarea fizică a tabelelor se face prin sistemul de operare, are numeroase componente;

  • VISUAL FOXPRO - realizat de firma Microsoft, are un limbaj procedural propriu foarte puternic, extensie orientată obiect, programare vizuală, nucleu extins de SQL, rapid;

  • ACCESS – realizat de firma Microsoft, bazat pe SQL, are limbajul procedural gazdă (Basic Access), are generatoare puternice;

  • PARADOX - realizat de firma Borland, are limbaj procedural propriu (PAL) şi suportă SQL.

3.2. Sisteme pentru gestiunea depozitelor de date




3.2.1 Oracle Discoverer

Instrumentele oferite de Oracle Discoverer cuprind: elemente de analiză multidimensională a datelor care implementează operaţiile specifice (navigare în cadrul ierarhiilor, rotaţii, secţiuni) şi funcţii de analiză (de previziune, de construire a scenariilor “ce se întâmplă dacă?”); elemente de vizualizare a datelor prin construirea de rapoarte şi grafice flexibile şi uşor de modificat de către utilizatorul final.

Oracle Discoverer 9.0.4. este alcătuit din două componente majore (figura 3.1):


  • un mediu pentru definirea structurilor de date şi a metadatelor utilizate în analiză – Oracle Discoverer Administrator;

  • mai multe medii pentru construirea şi prezentarea rapoartelor şi analizelor – OracleAS Discoverer Plus, OracleAS Discoverer Viewer, Oracle Discoverer Desktop [NET05].

Arhitectura Oracle Discoverer este compusă din trei niveluri distincte: nivelul datelor, nivelul End User Layer (EUL V5 pentru versiunea Oracle Discoverer 9.0.4) care conţine metadatele şi structurile specifice utilizate în analiză şi nivelul interfeţei cu utilizatorul.

Accesul la date se realizează prin intermediul nivelului EUL şi este un acces direct, fără construirea unui depozit de date suplimentar. Structurile multidimensionale de tipul dimensiunilor şi a tabelelor de fapte sunt transformate automat din sursele relaţionale în obiecte de tipul Folder şi grupate şi încărcate în obiectele de tipul Business Area ale nivelului EUL. Din acest motiv, pe baza de date relaţională trebuie construite mai întâi o serie de view-uri care să faciliteze maparea datelor pe obiectele din Oracle Discoverer.

Pentru construirea unei aplicaţii de analiză de tipul Business Intelligence sunt necesare două etape:


  • definirea obiectelor în Oracle Discoverer Administrator şi

  • construirea prezentărilor în Oracle Discoverer Desktop sau Oracle Discoverer Plus sau Viewer.


Figura 3.1. Arhitectura Oracle Discoverer
Oracle Discoverer oferă posibilitatea construirii unui depozit virtual de date, centralizat sau bazat pe data marts, folosind surse de date diferite, extrase de obicei din bazele de date relaţionale. Depozitul se bazează pe tabele sau pe un set de viziuni construite pe baza de date. Integrarea datelor se poate realiza prin acest nivel de tabele virtuale care pot fi construite pe baze de date diferite prin intermediul data link-urilor.


3.2.2 Oracle Warehouse Builder


Soluţia cea mai complexă oferită de compania Oracle pentru analiza, proiectarea, dezvoltarea şi implementarea unui depozit de date este Warehouse Builder 10g. Este conceput ca un mediu integrat care să asiste întregul ciclu de dezvoltare a depozitelor de date. Acesta permite şi migrarea datelor obţinute în alte medii cum ar fi OLAP Analytic Workspace Manager sau Oracle Discoverer sau chiar versiunile anterioare de Oracle Express.

Spre deosebire de Oracle Discoverer în care se realiza un depozit virtual, în Warehouse Buider datele sunt stocate fizic într-un repository special construit pe baza de date.

Principalele obiecte cu care lucrează Warehouse Builder sunt prezentate în continuare:



  • colecţiile (collections) reprezintă un mecanism generic de grupare. Ele sunt o cale de acces mai uşoară la definiţiile obiectelor folosită pentru a realiza activităţi la nivel de grup, de exemplu validarea sau generarea de cod;

  • bazele de date (databases) reprezintă maparea unor date din baze de date Oracle sau non-Oracle. Se introduc noţiunile de „modul” şi „locaţie”;

Modulul reprezintă un mod logic de grupare a definiţiilor de obiecte. De exemplu, un modul de bază de date Oracle reprezintă o grupare logică de obiecte care aparţin unei baze de date (scheme) Oracle. Atât bazele de date (databases), fişierele (files), aplicaţiile (applications), cât şi fluxurile de procese (process Flows) sunt grupate din punct de vedere logic în module.

Locaţia defineşte informaţii referitoare la schema bazei de date sau la instrumente destinaţie. Locaţiile sunt specifice tipurilor de module: baze de date Oracle, baze de date non-Oracle, SAP sau fişiere. Atunci când se creează o locaţie, se memorează o definiţie logică ce conţine tipul de locaţie şi versiunea.

  • fişierele (files). Un modul de fişiere defineşte o „legătură” către un director ce conţine un număr de fişiere text. Putem folosi un wizard pentru a importa aceste fişiere, ele putând conţine tipuri multiple de înregistrări, înregistrări separate prin caractere etc.;

  • aplicaţiile (applications) conţin definiţii ale pachetelor de aplicaţii. Oracle Warehouse Builder asigură un instrument de integrare pentru sistemele SAP;

  • fluxul de date (process flow) conţine definiţii ale fluxurilor de procese. Acestea sunt conţinute în module, iar în cadrul modulului sunt conţinute în pachetele de fluxuri de date. Codul pe care Warehouse Builder-ul îl generează pentru a reprezenta definiţiile fluxurilor de date respectă standardul XML Process Definition Language(XPDL);

  • transformările publice (public transformations) reprezintă transformări ce pot fi folosite în cadrul proiectului. Acestea sunt divizate în transformări obişnuite şi transformări predefinite. Cele obişnuite pot fi definite sau importate de către utilizator, în timp ce, cele predefinite sunt legate de instalarea Warehouse Builder. Toate acestea sunt disponibile în schema destinaţie. Transformările publice sunt divizate în următoarele categorii:

Administration” - de exemplu: activarea/anularea restricţiilor, analizare tabela/schemă,etc;

Character”- de exemplu CHR, CONCAT, LDAP,LTRIM,etc;

Conversion” - pentru realizarea conversiilor dintre tipurile de date;

Date” - asigură un număr de transformări specifice pentru datele de tip „date” ;

Numeric” - de exemplu ABS, SIN,FLOOR, etc;

OLAP” - asigură accesul la procedurile de încărcare a cubului şi dimensiunilor

Other” - inclusiv transformări NVL;

XML” - pentru a expune transformările de încărcare XML;



  • conexiunea la Runtime Repository (Runtime Repository Connections) conţine specificaţiile de conectare la depozitul central de rulare (runtime repository).

Datele provenite din surse multiple, atât din fişiere, cât şi din baze de date de diferite generaţii şi producători, sunt preluate şi încărcate într-un modul centralizat, numit modul sursă şi apoi acestuia i se aplică procesul de extragere, transformare şi încărcare (ETL) într-un modul destinaţie, din care vor fi utilizate pentru analiză. Iată, pe scurt, obiectele acestor două module:

1) Modulul sursă se defineşte pe baza tabelelor din sistemelor tranzacţionale existente în cadrul instituţiei. Pentru simplificarea procesului de extragere şi încărcare a datelor în depozit se pot construi view-uri sau tabele suplimentare care să prezinte datele într-o formă asemănătoare celor din dimensiuni şi fapte. Datele pot proveni fie din diverse fişiere, fie din tabelele aplicaţiilor operaţionale pe diferite platforme ca Oracle, Microsoft, SAP, Informix, Hyperion etc. Ele sunt centralizate şi integrate în acest modul pe care se va aplica procesul ETL.

2) Modulul destinaţie va conţine dimensiunile, tabelele de fapte, cuburile şi mapările necesare depozitului de date. În cadrul acestui modul se pot defini următoarele elemente:



  • dimensiunile - Warehouse Builder permite proiectarea dimensională (acesta reprezintă un avantaj faţă de cei mai importanţi concurenţi). Dimensiunile constau în unul sau mai multe niveluri şi ierarhii şi conţin atribute;

  • cuburile - sunt descrise de dimensiuni. Cuburile fac parte din modelarea dimensională. În mod obişnuit, un cub are legături cu una sau mai multe dimensiuni şi conţine măsuri ale datelor care ne interesează. Într-o implementare relaţională, cubul este realizat ca o tabelă relaţională, în timp ce în mediul OLAP cubul este creat ca o structură separată;

  • mapările - reprezintă fluxuri de date necesare modelării procesului ETL (Extract, Transform and Load). Warehouse Builder generează cod pentru implementarea mapărilor în mediul de rulare (runtime). Se poate genera cod în trei tipuri de limbaje în funcţie de natura sursei: PL/SQL, SQL Loader (în cazul în care sursa o reprezintă fişierele text) şi ABAP (în cazul în care sursa e reprezentată de tabelele din cadrul pachetelor de aplicaţii SAP);

  • transformările – se prezintă sub formă de cod PL/SQL implementat ca şi funcţie, procedură sau pachet. Warehouse Builder asigură utilizatorului posibilitatea de a defini cod PL/SQL şi de a-l include într-o mapare pentru a implementa orice tip de transformare;

  • tabelele - definiţii de tabele sunt folosite deseori în proiectarea unui sistem de inteligenţă a afacerilor;

  • viziunile - se pot folosi viziuni pentru a simplifica eventualele interogări de regăsire;

  • viziunile materializate - pot fi foarte importante pentru a uşura cererile de regăsire. Warehouse Builder permite definirea de viziuni materializate;

  • tabelele externe - Warehouse Builder permite proiectarea tabelelor externe în cadrul sistemului destinaţie (target). Pentru a nu folosi direct un fişier text ca şi sursă într-o mapare şi a rula programul de încărcare SQL, se poate defini o tabelă externă. Avantajele folosirii definiţiei unei tabele externe comparativ cu folosirea definiţiei unui fişier text sunt: rularea select-urilor în paralel şi flexibilitate în cadrul transformărilor PL/SQL, datorată posibilităţii realizării unui join eterogen între tabelele externe şi tabelele relaţionale;

  • listele avansate (advanced queues) - pot fi folosite atât ca sursă cât şi ca destinaţie într-o mapare;

  • secvenţe - definiţiile de secvenţe pot fi folosite ca obiect sursă într-o mapare pentru a genera o valoare numerică în secvenţă.

După realizarea procesului de încărcare în modulul destinaţie, Warehouse Builder validează obiectele şi generează următoarele tipuri de script-uri:

  • script-uri DDL – pentru crearea şi ştergerea obiectelor de tipul dimensiunilor, tabelelor de fapte, ierarhiilor;

  • fişiere de control SQL*Loader – pentru extragerea şi transportul datelor pornind de la fişierul sursă;

  • script-uri TCL pentru programarea şi conducerea job-urilor – Enterprise Manager.

Prin intermediul utilitarului de transfer, Warehouse Builder Transfer Wizard se permite exportul metadatelor către următoarele tipuri de destinaţie: un fişier în conformitate cu standardul OMG CWM, Oracle Discoverer, Oracle Express şi OLAP Server.

Datorită facilităţilor sale, a posibilităţilor de integrare a datelor din surse multiple şi diferite, dar şi a mediului integrat de dezvoltare oferit, se poate spune că Oracle Warehouse Builder 10g este cel mai potrivit instrument de realizare a unui depozit de date.




3.2.3. Microsoft SQL Server 2005 Business Intelligence


Prin instrumentele Analysis Services, Microsoft SQL Server 2005 integrează soluţii avansate pentru depozite de date şi Business Intelligence. În prezentarea oficială a produsului, compania Microsoft [NET01] precizează că Analysis Services oferă instrumente pentru realizarea unor analize complexe asupra informaţiilor stocate în baze de date de mari dimensiuni.

Componenta Online Analytical Processing (OLAP) integrată în cadrul acestei soluţii, oferă posibilităţi avansate de realizarea a analizelor multidimensionale asupra datelor. Suplimentar, OLAP permite realizarea analizei pe baza unor surse eterogene de informaţie, componenta OLE DB oferind posibilitatea de conectare la diverse alte sisteme de gestiune a bazelor de date.

OLAP Actions, o nouă facilitate din cadrul Analysis Services, permite declanşarea diverselor acţiuni pe baza rezultatelor analizelor. Analizele realizate prin intermediul instrumentelor OLAP pot deveni accesibile prin intermediul Web-ului, fiind asigurat în acest mod un nivel deosebit de mobilitate în accesarea informaţiilor.

SQL Server dispune de doi algoritmi (Microsoft Decision Trees şi Microsoft Clustering) care permit realizarea unor analize complexe prin data mining.

Pentru realizarea analizelor şi exploatarea avantajelor oferite de Analysis Services este posibilă integrarea cu diverse aplicaţii. Instrumentele Pivot Table şi Pivot Chart, accesibile în cadrul suitei Microsoft Office, pot fi utilizate pentru sintetizarea datelor rezultate în urma analizelor OLAP sau data mining. Microsoft Data Analyzer este un instrument specializat dedicat managerilor, care permite realizarea simplă a unor rapoarte şi grafice pe baza datelor furnizate de Analysis Services.

SQL Server 2005 Reporting Services este un instrument destinat realizării de rapoarte clasice şi automate, disponibile la cerere sau generate periodic într-o multitudine de formate de raportare (HTML, PDF, Excel).

Pentru o analiză comparativă prezentăm în continuare un tabel cu câteva soluţii şi instrumente existente de realizare şi prelucrare a datelor multidimensionale.

După cum se poate observa, instrumentele oferite de Oracle acoperă întreaga gamă a posibilităţilor de stocare şi prelucrare a unui depozit de date, iar prin facilităţile de transfer şi comunicare între aceste instrumente se poate dezvolta o soluţie complexă de depozit de date în funcţie de necesităţile de realizare.

Opţiuni de procesare multi-dimensională

Baza de date relaţională

Baza de date multidimensională

Fişiere

Motorul server Multi-dimensional

Oracle Express (ROLAP mode)

Oracle AWM

Oracle Warehouse Builder

Crystal Holos (ROLAP mode)
IBM DB2 OLAP Server
CA EUREKA:Strategy
Longview Khalix
Informix MetaCube
Speedware Media/MR
Microsoft Analysis Services
Pilot Analysis Server
Sagent
Applix iTM1
WhiteLight

Oracle Express
Oracle Warehouse Builder


SAS CFO Vision
Crystal Holos
Comshare Decision
Hyperion Essbase
Gentia
Speedware Media/M
Microsoft Analysis Services
PowerPlay Enterprise Server
Pilot Analysis Server
Applix iTM1


Oracle Warehouse Builder



Motorul client Multidimensional

Oracle Discoverer
Informix MetaCube

Comshare FDC
Dimensional Insight
Hyperion Enterprise
Hyperion Pillar
PwC CLIME

Oracle Personal Express

Brio.Enterprise
BusinessObjects
Cognos PowerPlay
iTM1 Perspectives


Tabel 3.1 Opţiuni de stocare şi prelucrare a datelor multidimensionale




Dostları ilə paylaş:
  1   2   3


Verilənlər bazası müəlliflik hüququ ilə müdafiə olunur ©muhaz.org 2017
rəhbərliyinə müraciət

    Ana səhifə