Datawarehouse-concepten
Het basisconcept van een datawarehouse is het faciliteren van een enkele versie van de waarheid voor een bedrijf voor besluitvorming en prognoses. Een datawarehouse is een informatiesysteem dat historische en commutatieve gegevens uit enkele of meerdere bronnen bevat. Datawarehouse-concepten vereenvoudigen het rapportage- en analyseproces van organisaties.
Kenmerken van datawarehouse
Data Warehouse Concepts hebben de volgende kenmerken:
- Onderwerpgericht
- Geïntegreerd
- Tijd variant
- Niet vluchtig
Onderwerpgericht
Een datawarehouse is onderwerpgericht omdat het informatie biedt over een thema in plaats van over de lopende activiteiten van bedrijven. Deze onderwerpen kunnen verkoop, marketing, distributies, enz. Zijn.
Een datawarehouse richt zich nooit op de lopende operaties. In plaats daarvan legde het de nadruk op het modelleren en analyseren van gegevens voor besluitvorming . Het biedt ook een eenvoudig en beknopt overzicht van het specifieke onderwerp door gegevens uit te sluiten die niet nuttig zijn om het besluitvormingsproces te ondersteunen.
Geïntegreerd
In Data Warehouse betekent integratie het instellen van een gemeenschappelijke maateenheid voor alle vergelijkbare gegevens uit de ongelijke database. De gegevens moeten ook op een gangbare en universeel aanvaardbare manier in het Datawarehouse worden opgeslagen.
Een datawarehouse wordt ontwikkeld door gegevens uit verschillende bronnen te integreren, zoals een mainframe, relationele databases, platte bestanden, enz. Bovendien moet het consistente naamgevingsconventies, formaat en codering behouden.
Deze integratie helpt bij een effectieve analyse van gegevens. Er moet worden gezorgd voor consistentie in naamgevingsconventies, attribuutmetingen, coderingsstructuur enz. Beschouw het volgende voorbeeld:
In het bovenstaande voorbeeld zijn er drie verschillende applicaties genaamd A, B en C. De informatie die in deze applicaties is opgeslagen, is Geslacht, Datum en Balans. De gegevens van elke applicatie worden echter op een andere manier opgeslagen.
- In toepassing Een geslachtsveld slaat logische waarden op zoals M of F
- In toepassing B is het geslachtsveld een numerieke waarde,
- In applicatie C-applicatie wordt het geslachtsveld opgeslagen in de vorm van een tekenwaarde.
- Hetzelfde is het geval met datum en saldo
Na het transformatie- en opschoningsproces worden al deze gegevens echter in een gangbaar formaat opgeslagen in het Data Warehouse.
Tijd variant
De tijdshorizon voor datawarehouse is vrij uitgebreid vergeleken met operationele systemen. De gegevens die in een datawarehouse worden verzameld, worden herkend met een bepaalde periode en bieden informatie vanuit historisch oogpunt. Het bevat een element van tijd, expliciet of impliciet.
Een voorbeeld van zo'n plaats waar gegevens van Datawarehouse-gegevens tijdsvariantie weergeven, bevindt zich in de structuur van de recordsleutel. Elke primaire sleutel in de DW moet impliciet of expliciet een tijdselement hebben. Zoals de dag, weekmaand, etc.
Een ander aspect van tijdvariantie is dat zodra gegevens in het magazijn zijn ingevoegd, deze niet kunnen worden bijgewerkt of gewijzigd.
Niet vluchtig
Datawarehouse is ook niet-vluchtig, wat betekent dat de vorige gegevens niet worden gewist wanneer er nieuwe gegevens in worden ingevoerd.
Gegevens zijn alleen-lezen en worden periodiek vernieuwd. Dit helpt ook om historische gegevens te analyseren en te begrijpen wat en wanneer er is gebeurd. Het vereist geen transactieproces, herstel en controlemechanismen voor gelijktijdigheid.
Activiteiten zoals verwijderen, bijwerken en invoegen die worden uitgevoerd in een operationele applicatieomgeving, worden weggelaten in de datawarehouse-omgeving. Er zijn slechts twee soorten gegevensbewerkingen die worden uitgevoerd in Data Warehousing
- Gegevens laden
- Toegang tot de gegevens
Hier zijn enkele belangrijke verschillen tussen applicatie en datawarehouse
Operationele applicatie | Datawarehouse |
Complexe programma's moeten worden gecodeerd om ervoor te zorgen dat gegevensupgradeprocessen een hoge integriteit van het eindproduct behouden. | Dit soort problemen doet zich niet voor omdat er geen gegevensupdate wordt uitgevoerd. |
De gegevens worden in een genormaliseerde vorm geplaatst om minimale redundantie te garanderen. | Gegevens worden niet in genormaliseerde vorm opgeslagen. |
Technologie die nodig is om problemen met transacties, gegevensherstel, rollback en resolutie te ondersteunen, aangezien de impasse vrij complex is. | Het biedt relatieve eenvoud in technologie. |
Datawarehouse-architectuur
Datawarehouse-architectuur is complex omdat het een informatiesysteem is dat historische en commutatieve gegevens uit meerdere bronnen bevat. Er zijn drie benaderingen voor het construeren van datawarehouse-lagen: één laag, twee lagen en drie lagen. Deze 3-tier-architectuur van Data Warehouse wordt hieronder uitgelegd.
Single-tier architectuur
Het doel van een enkele laag is om de hoeveelheid opgeslagen gegevens te minimaliseren. Dit doel is om gegevensredundantie te verwijderen. Deze architectuur wordt in de praktijk niet vaak gebruikt.
Architectuur op twee niveaus
Tweelaagse architectuur is een van de datawarehouse-lagen die fysiek beschikbare bronnen en datawarehouse van elkaar scheidt. Deze architectuur is niet uitbreidbaar en ondersteunt ook geen groot aantal eindgebruikers. Het heeft ook verbindingsproblemen vanwege netwerkbeperkingen.
Drielaagse datawarehouse-architectuur
Dit is de meest gebruikte architectuur van datawarehouse.
Het bestaat uit de bovenste, middelste en onderste laag.
- Onderste laag : de database van de Datawarehouse-servers als onderste laag. Het is meestal een relationeel databasesysteem. Gegevens worden opgeschoond, getransformeerd en in deze laag geladen met behulp van back-endtools.
- Middelste laag : de middelste laag in datawarehouse is een OLAP-server die is geïmplementeerd met behulp van het ROLAP- of MOLAP-model. Voor een gebruiker biedt deze applicatielaag een geabstraheerde weergave van de database. Deze laag fungeert ook als bemiddelaar tussen de eindgebruiker en de database.
- Bovenste laag : de bovenste laag is een front-end clientlaag. Toplaag zijn de tools en API waarmee u verbinding maakt en gegevens uit het datawarehouse haalt. Dit kunnen querytools, rapportagetools, beheerde querytools, analysetools en dataminingtools zijn.
Datawarehouse-componenten
We zullen meer te weten komen over de Datawarehouse-componenten en de architectuur van datawarehouse met diagram, zoals hieronder weergegeven:
Het Data Warehouse is gebaseerd op een RDBMS-server, een centrale informatieopslagplaats die is omgeven door enkele belangrijke Data Warehousing-componenten om de hele omgeving functioneel, beheersbaar en toegankelijk te maken.
Er zijn hoofdzakelijk vijf datawarehouse-componenten:
Datawarehouse-database
De centrale database vormt de basis van de datawarehousing-omgeving. Deze database is geïmplementeerd op de RDBMS-technologie. Hoewel dit soort implementatie wordt beperkt door het feit dat het traditionele RDBMS-systeem is geoptimaliseerd voor transactionele databaseverwerking en niet voor datawarehousing. Ad-hoc-query's, samenvoegingen van meerdere tabellen en aggregaties zijn bijvoorbeeld resource-intensief en vertragen de prestaties.
Daarom worden alternatieve benaderingen van Database gebruikt, zoals hieronder vermeld:
- In een datawarehouse worden relationele databases parallel geïmplementeerd om schaalbaarheid mogelijk te maken. Parallelle relationele databases maken ook een gedeeld geheugen of een gedeeld niets-model mogelijk op verschillende multiprocessorconfiguraties of massaal parallelle processors.
- Nieuwe indexstructuren worden gebruikt om het scannen van relationele tabellen te omzeilen en de snelheid te verbeteren.
- Gebruik van multidimensionale database (MDDB's) om eventuele beperkingen te overwinnen die worden opgelegd door de relationele datawarehouse-modellen. Voorbeeld: Essbase van Oracle.
Sourcing-, acquisitie-, opschonings- en transformatietools (ETL)
De tools voor data sourcing, transformatie en migratie worden gebruikt voor het uitvoeren van alle conversies, samenvattingen en alle wijzigingen die nodig zijn om data om te zetten naar een uniform formaat in het datawarehouse. Ze worden ook wel ETL-tools (Extract, Transform and Load) genoemd.
Hun functionaliteit omvat:
- Anonimiseer gegevens volgens de wettelijke bepalingen.
- Voorkomen dat ongewenste gegevens in operationele databases in het datawarehouse worden geladen.
- Zoek en vervang veelgebruikte namen en definities voor gegevens die uit verschillende bronnen komen.
- Samenvattingen en afgeleide gegevens berekenen
- Als er gegevens ontbreken, vul ze dan in met standaardwaarden.
- Gededupliceerde herhaalde gegevens die uit meerdere gegevensbronnen kwamen.
Deze extraheren, transformeren en laden tools kunnen cron-jobs, achtergrondtaken, Cobol-programma's, shell-scripts, enz. Genereren die regelmatig gegevens in het datawarehouse bijwerken. Deze tools zijn ook handig om de metadata te onderhouden.
Deze ETL-tools hebben te maken met uitdagingen op het gebied van database- en gegevensheterogeniteit.
Metagegevens
De naam Meta Data suggereert een aantal technologische Data Warehousing-concepten van hoog niveau. Het is echter vrij eenvoudig. Metadata zijn gegevens over gegevens die het datawarehouse definiëren. Het wordt gebruikt voor het bouwen, onderhouden en beheren van het datawarehouse.
In de Data Warehouse-architectuur spelen metagegevens een belangrijke rol, omdat ze de bron, het gebruik, de waarden en de kenmerken van datawarehouse-gegevens specificeren. Het bepaalt ook hoe gegevens kunnen worden gewijzigd en verwerkt. Het is nauw verbonden met het datawarehouse.
Een regel in de verkoopdatabase kan bijvoorbeeld het volgende bevatten:
4030 KJ732 299.90
Dit zijn betekenisloze gegevens totdat we de meta raadplegen die ons vertelt dat het was
- Modelnummer: 4030
- Verkoopagent-ID: KJ732
- Totale verkoopbedrag van $ 299,90
Meta Data zijn daarom essentiële ingrediënten bij het omzetten van data in kennis.
Metadata helpt om de volgende vragen te beantwoorden
- Welke tabellen, attributen en sleutels bevat het datawarehouse?
- Waar kwamen de gegevens vandaan?
- Hoe vaak worden gegevens opnieuw geladen?
- Welke transformaties werden toegepast bij reiniging?
Metadata kunnen worden ingedeeld in de volgende categorieën:
- Technische metagegevens : dit soort metagegevens bevat informatie over het magazijn dat wordt gebruikt door ontwerpers en beheerders van datawarehouses.
- Zakelijke metagegevens: dit soort metagegevens bevat details waarmee eindgebruikers de informatie die in het datawarehouse is opgeslagen gemakkelijk kunnen begrijpen.
Hulpmiddelen voor zoekopdrachten
Een van de belangrijkste doelen van datawarehousing is het verstrekken van informatie aan bedrijven om strategische beslissingen te nemen. Met querytools kunnen gebruikers communiceren met het datawarehouse-systeem.
Deze tools vallen in vier verschillende categorieën:
- Query- en rapportagetools
- Applicatie-ontwikkelingstools
- Tools voor datamining
- OLAP-hulpprogramma's
1. Hulpprogramma's voor zoekopdrachten en rapportage:
Query- en rapportagetools kunnen verder worden onderverdeeld in
- Rapportagetools
- Hulpprogramma's voor beheerde query's
Rapportagetools:
Rapportagetools kunnen verder worden onderverdeeld in productierapportagetools en desktoprapportschrijver.
- Rapportschrijvers: dit soort rapportagetools zijn tools die zijn ontworpen voor eindgebruikers voor hun analyse.
- Productierapportage: Met dit soort tools kunnen organisaties regelmatig operationele rapporten genereren. Het ondersteunt ook grote batchopdrachten, zoals afdrukken en berekenen. Enkele populaire rapportagetools zijn Brio, Business Objects, Oracle, PowerSoft, SAS Institute.
Hulpprogramma's voor beheerde query's:
Dit soort toegangstools helpt eindgebruikers om problemen in de database en SQL- en databasestructuur op te lossen door een meta-laag tussen gebruikers en database in te voegen.
2. Hulpmiddelen voor applicatie-ontwikkeling:
Soms voldoen ingebouwde grafische en analytische tools niet aan de analytische behoeften van een organisatie. In dergelijke gevallen worden aangepaste rapporten ontwikkeld met behulp van hulpprogramma's voor applicatieontwikkeling.
3. Tools voor datamining:
Datamining is een proces waarbij zinvolle nieuwe correlaties, patronen en trends worden ontdekt door grote hoeveelheden gegevens te ontginnen. Datamining-tools worden gebruikt om dit proces automatisch te laten verlopen.
4. OLAP-hulpprogramma's:
Deze tools zijn gebaseerd op concepten van een multidimensionale database. Het stelt gebruikers in staat om de gegevens te analyseren met behulp van uitgebreide en complexe multidimensionale weergaven.
Datawarehouse Bus Architectuur
Datawarehouse Bus bepaalt de datastroom in uw warehouse. De datastroom in een datawarehouse kan worden gecategoriseerd als Instroom, Upflow, Downflow, Uitstroom en Metastroom.
Bij het ontwerpen van een databus moet men rekening houden met de gedeelde dimensies, feiten over datamarts heen.
Datamarts
Een datamart is een toegangslaag die wordt gebruikt om gegevens naar de gebruikers te sturen. Het wordt gepresenteerd als een optie voor een groot datawarehouse, omdat het minder tijd en geld kost om te bouwen. Er is echter geen standaarddefinitie van een datamart die verschilt van persoon tot persoon.
In een simpel woord Datamart is een dochteronderneming van een datawarehouse. De datamart wordt gebruikt voor het partitioneren van gegevens die worden aangemaakt voor de specifieke groep gebruikers.
Datamarts kunnen worden gemaakt in dezelfde database als het Datawarehouse of in een fysiek aparte Database.
Best practices voor datawarehouse-architectuur
Om datawarehouse-architectuur te ontwerpen, moet u onderstaande best practices volgen:
- Gebruik datawarehouse-modellen die zijn geoptimaliseerd voor het ophalen van informatie, zoals de dimensionale, gedenormaliseerde of hybride benadering.
- Kies de juiste ontwerpaanpak als top-down en bottom-up benadering in Data Warehouse
- Er moet voor worden gezorgd dat gegevens snel en nauwkeurig worden verwerkt. Tegelijkertijd moet u een aanpak volgen waarbij gegevens worden geconsolideerd tot één versie van de waarheid.
- Ontwerp zorgvuldig het data-acquisitie- en opschoningsproces voor datawarehouse.
- Ontwerp een MetaData-architectuur die het delen van metadata tussen componenten van Data Warehouse mogelijk maakt
- Overweeg de implementatie van een ODS-model wanneer de behoefte aan het ophalen van informatie bijna onderaan de gegevens-abstractiepiramide ligt of wanneer er meerdere operationele bronnen moeten worden benaderd.
- Men moet ervoor zorgen dat het datamodel geïntegreerd is en niet alleen geconsolideerd. In dat geval zou u het 3NF-datamodel moeten overwegen. Het is ook ideaal voor het aanschaffen van ETL- en gegevensopschoningstools
Overzicht:
- Datawarehouse is een informatiesysteem dat historische en commutatieve gegevens uit enkele of meerdere bronnen bevat. Deze bronnen kunnen traditioneel datawarehouse, clouddatawarehouse of virtueel datawarehouse zijn.
- Een datawarehouse is onderwerpgericht omdat het informatie biedt over het onderwerp in plaats van over de lopende activiteiten van de organisatie.
- In Data Warehouse betekent integratie het instellen van een gemeenschappelijke maateenheid voor alle vergelijkbare gegevens uit de verschillende databases
- Datawarehouse is ook niet-vluchtig, wat betekent dat de vorige gegevens niet worden gewist wanneer er nieuwe gegevens in worden ingevoerd.
- Een datawarehouse is een tijdvariant omdat de gegevens in een DW een lange houdbaarheid hebben.
- Er zijn hoofdzakelijk 5 componenten van de Data Warehouse-architectuur: 1) Database 2) ETL-tools 3) Metadata 4) Query-tools 5) Datamarts
- Dit zijn vier hoofdcategorieën van querytools 1. Query en rapportage, tools 2. Applicatie-ontwikkelingstools, 3. Dataminingtools 4. OLAP-tools
- De tools voor data sourcing, transformatie en migratie worden gebruikt voor het uitvoeren van alle conversies en samenvattingen.
- In de Data Warehouse-architectuur spelen metagegevens een belangrijke rol, omdat ze de bron, het gebruik, de waarden en de kenmerken van datawarehouse-gegevens specificeren.