Wat is Data Lake?
Een Data Lake is een opslagplaats die grote hoeveelheden gestructureerde, semi-gestructureerde en ongestructureerde gegevens kan opslaan. Het is een plek om elk type gegevens in het oorspronkelijke formaat op te slaan zonder vaste limieten voor accountgrootte of bestand. Het biedt een grote hoeveelheid gegevens om de analytische prestaties en native integratie te verbeteren.
Data Lake is als een grote container die sterk lijkt op echte meren en rivieren. Net als in een meer heb je meerdere zijrivieren die binnenkomen, een datameer heeft gestructureerde data, ongestructureerde data, machine-to-machine, logboeken die er in realtime doorheen stromen.
The Data Lake democratiseert gegevens en is een kosteneffectieve manier om alle gegevens van een organisatie op te slaan voor latere verwerking. Research Analyst kan zich richten op het vinden van betekenispatronen in data en niet op data zelf.
In tegenstelling tot een hiërarchisch Dataware-huis waar gegevens worden opgeslagen in bestanden en mappen, heeft Data Lake een platte architectuur. Elk data-element in een Data Lake krijgt een unieke identifier en wordt getagd met een set metadata-informatie.
In deze tutorial leer je-
- Wat is Data Lake?
- Waarom Data Lake?
- Data Lake-architectuur
- Belangrijkste gegevens Lake Concepts
- Volwassenheidsfasen van Data Lake
- Aanbevolen procedures voor Data Lake-implementatie:
- Verschil tussen datameren en datawarehouse
- Voordelen en risico's van het gebruik van Data Lake:
Waarom Data Lake?
Het belangrijkste doel van het bouwen van een datameer is om datawetenschappers een ongeraffineerde weergave van data te bieden.
Redenen om Data Lake te gebruiken zijn:
- Met het ontstaan van opslagengines zoals Hadoop is het opslaan van ongelijksoortige informatie gemakkelijk geworden. Het is niet nodig om gegevens te modelleren tot een bedrijfsbreed schema met een Data Lake.
- Met de toename van datavolume, datakwaliteit en metadata neemt ook de kwaliteit van analyses toe.
- Data Lake biedt zakelijke flexibiliteit
- Machine Learning en Artificial Intelligence kunnen worden gebruikt om winstgevende voorspellingen te doen.
- Het biedt een concurrentievoordeel voor de uitvoerende organisatie.
- Er is geen gegevenssilostructuur. Data Lake geeft een 360 graden beeld van klanten en maakt analyses robuuster.
Data Lake-architectuur
De afbeelding toont de architectuur van een Business Data Lake. De lagere niveaus vertegenwoordigen gegevens die meestal in rust zijn, terwijl de bovenste niveaus realtime transactiegegevens weergeven. Deze gegevens stromen door het systeem met weinig of geen vertraging. Hieronder volgen belangrijke lagen in Data Lake Architecture:
- Opnamelaag : de lagen aan de linkerkant geven de gegevensbronnen weer. De gegevens kunnen in batches of in realtime in het datameer worden geladen
- Insights-laag: de niveaus aan de rechterkant vertegenwoordigen de onderzoekszijde waar inzichten uit het systeem worden gebruikt. SQL, NoSQL-query's of zelfs Excel kunnen worden gebruikt voor gegevensanalyse.
- HDFS is een kosteneffectieve oplossing voor zowel gestructureerde als ongestructureerde gegevens. Het is een landingszone voor alle gegevens die in het systeem zijn opgeslagen.
- Destillatielaag neemt gegevens van de opslagband en converteert deze naar gestructureerde gegevens voor eenvoudigere analyse.
- Verwerkingslaag voert analytische algoritmen uit en gebruikersvragen met variërende realtime, interactieve batches om gestructureerde gegevens te genereren voor eenvoudigere analyse.
- Unified operations-laag regelt systeembeheer en monitoring. Het omvat audits en vaardigheidsbeheer, gegevensbeheer, workflowbeheer.
Belangrijkste gegevens Lake Concepts
Hieronder volgen de belangrijkste Data Lake-concepten die men moet begrijpen om de Data Lake-architectuur volledig te begrijpen
Gegevensopname
Met gegevensopname kunnen connectoren gegevens uit verschillende gegevensbronnen ophalen en in het Data Lake laden.
Gegevensopname ondersteunt:
- Alle soorten gestructureerde, semi-gestructureerde en ongestructureerde gegevens.
- Meerdere opnames zoals batch, realtime, eenmalige belasting.
- Veel soorten gegevensbronnen zoals databases, webservers, e-mails, IoT en FTP.
Data opslag
Gegevensopslag moet schaalbaar zijn, kosteneffectieve opslag bieden en snelle toegang tot gegevensverkenning mogelijk maken. Het moet verschillende gegevensformaten ondersteunen.
Gegevensbeheer
Gegevensbeheer is een proces voor het beheren van de beschikbaarheid, bruikbaarheid, beveiliging en integriteit van gegevens die in een organisatie worden gebruikt.
Veiligheid
Beveiliging moet worden geïmplementeerd in elke laag van het datameer. Het begint met opslag, opgraving en consumptie. De basisbehoefte is om de toegang voor onbevoegde gebruikers te stoppen. Het zou verschillende tools moeten ondersteunen om toegang te krijgen tot gegevens met gemakkelijk te navigeren GUI en dashboards.
Authenticatie, boekhouding, autorisatie en gegevensbescherming zijn enkele belangrijke kenmerken van Data Lake-beveiliging.
Data kwaliteit:
Datakwaliteit is een essentieel onderdeel van de Data Lake-architectuur. Gegevens worden gebruikt om de bedrijfswaarde te bepalen. Het extraheren van inzichten uit gegevens van slechte kwaliteit leidt tot inzichten van slechte kwaliteit.
Gegevensdetectie
Gegevensdetectie is een andere belangrijke fase voordat u kunt beginnen met het voorbereiden van gegevens of analyses. In deze fase wordt de tagging-techniek gebruikt om het begrip van de gegevens uit te drukken, door de gegevens die zijn opgenomen in het Data Lake te organiseren en te interpreteren.
Gegevensaudits
Twee belangrijke taken voor gegevensaudit zijn het bijhouden van wijzigingen in de belangrijkste gegevensset.
- Bijhouden van wijzigingen in belangrijke gegevenssetelementen
- Legt vast hoe / wanneer / en wie er in deze elementen verandert.
Gegevensaudits helpen bij het evalueren van risico's en compliance.
Data Lineage
Dit onderdeel behandelt de oorsprong van de gegevens. Het behandelt voornamelijk waar het in de loop van de tijd naartoe gaat en wat ermee gebeurt. Het vereenvoudigt foutcorrecties in een data-analyseproces van oorsprong tot bestemming.
Gegevensonderzoek
Het is de beginfase van data-analyse. Het helpt om de juiste gegevensset te identificeren, is van vitaal belang voordat u met gegevensverkenning begint.
Alle gegeven componenten moeten samenwerken om een belangrijke rol te spelen bij het bouwen van Data Lake, gemakkelijk evolueren en de omgeving verkennen.
Volwassenheidsfasen van Data Lake
De definitie van Data Lake Maturity-fasen verschilt van leerboek tot ander. Hoewel de crux hetzelfde blijft. Na volwassenheid is de definitie van het stadium vanuit het standpunt van een leek.
Fase 1: gegevens op schaal verwerken en opnemen
Deze eerste fase van datavolwassenheid omvat het verbeteren van het vermogen om gegevens te transformeren en te analyseren. Hier moeten bedrijfseigenaren de tools vinden op basis van hun vaardigheden om meer gegevens te verkrijgen en analytische applicaties te bouwen.
Fase 2: het opbouwen van de analytische spier
Dit is een tweede fase waarin het vermogen om gegevens te transformeren en te analyseren wordt verbeterd. In deze fase gebruiken bedrijven de tool die het meest geschikt is voor hun vaardigheden. Ze beginnen meer data te verwerven en applicaties te bouwen. Hier worden de mogelijkheden van het enterprise datawarehouse en datameer samen gebruikt.
Fase 3: EDW en Data Lake werken samen
Deze stap houdt in dat zoveel mogelijk mensen gegevens en analyses in handen krijgen. In deze fase beginnen het datameer en het datawarehouse van de onderneming samen te werken. Beiden spelen hun rol in analytics
Fase 4: Enterprise-capaciteit in het meer
In deze volwassenheidsfase van het datameer worden enterprise-mogelijkheden toegevoegd aan het datameer. Overname van informatiebeheer, beheer van de levenscyclus van informatie en beheer van metagegevens. Er zijn echter maar weinig organisaties die dit volwassenheidsniveau kunnen bereiken, maar dit aantal zal in de toekomst toenemen.
Aanbevolen procedures voor Data Lake-implementatie:
- Architecturale componenten, hun interactie en geïdentificeerde producten moeten native datatypes ondersteunen
- Het ontwerp van Data Lake moet worden gestuurd door wat beschikbaar is in plaats van wat nodig is. Het schema en de gegevensvereiste worden pas gedefinieerd als er een zoekopdracht naar wordt uitgevoerd
- Het ontwerp moet worden geleid door wegwerpcomponenten die zijn geïntegreerd met de service-API.
- Gegevensdetectie, opname, opslag, beheer, kwaliteit, transformatie en visualisatie moeten onafhankelijk worden beheerd.
- De Data Lake-architectuur moet worden afgestemd op een specifieke branche. Het moet ervoor zorgen dat de capaciteiten die nodig zijn voor dat domein een inherent onderdeel zijn van het ontwerp
- Een snellere introductie van nieuw ontdekte databronnen is belangrijk
- Data Lake helpt aangepast beheer om maximale waarde te extraheren
- Het Data Lake moet bestaande technieken en methoden voor bedrijfsgegevensbeheer ondersteunen
Uitdagingen bij het bouwen van een datameer:
- In Data Lake is het datavolume hoger, dus het proces moet meer afhankelijk zijn van programmatisch beheer
- Het is moeilijk om te gaan met schaarse, onvolledige, vluchtige gegevens
- Een bredere reikwijdte van de dataset en bron heeft een grotere datagovernance en -ondersteuning nodig
Verschil tussen datameren en datawarehouse
Parameters | Data Lakes | Datawarehouse |
---|---|---|
Gegevens | Datameren slaan alles op. | Data Warehouse richt zich alleen op bedrijfsprocessen. |
Verwerken | Gegevens zijn grotendeels onbewerkt | Sterk verwerkte gegevens. |
Type gegevens | Het kan ongestructureerd, semi-gestructureerd en gestructureerd zijn. | Het is meestal in tabelvorm en structuur. |
Taak | Deel gegevensbeheer | Geoptimaliseerd voor het ophalen van gegevens |
Behendigheid | Zeer wendbaar, configureer en herconfigureer indien nodig. | In vergelijking met Data Lake is het minder wendbaar en heeft het een vaste configuratie. |
Gebruikers | Data Lake wordt vooral gebruikt door Data Scientist | Zakelijke professionals maken veel gebruik van datawarehouse |
Opslag | Datameren-ontwerp voor goedkope opslag. | Er wordt gebruik gemaakt van dure opslag die snelle responstijden oplevert |
Veiligheid | Biedt minder controle. | Biedt betere controle over de gegevens. |
Vervanging van EDW | Data lake kan de bron zijn voor EDW | Complementair aan EDW (geen vervanging) |
Schema | Schema bij lezen (geen voorgedefinieerde schema's) | Schema bij schrijven (voorgedefinieerde schema's) |
Gegevensverwerking | Helpt bij een snelle opname van nieuwe gegevens. | Tijdrovend om nieuwe inhoud te introduceren. |
Granulariteit van gegevens | Gegevens met een laag detail- of detailniveau. | Gegevens op samengevat of geaggregeerd detailniveau. |
Gereedschap | Kan open source / tools zoals Hadoop / Map Reduce gebruiken | Meestal commerciële tools. |
Voordelen en risico's van het gebruik van Data Lake:
Hier zijn enkele belangrijke voordelen bij het gebruik van een Data Lake:
- Helpt volledig bij productionisatie en geavanceerde analyse
- Biedt kosteneffectieve schaalbaarheid en flexibiliteit
- Biedt waarde uit een onbeperkt aantal gegevenstypen
- Verlaagt de eigendomskosten op de lange termijn
- Maakt economische opslag van bestanden mogelijk
- Snel aanpasbaar aan veranderingen
- Het belangrijkste voordeel van data lake is de centralisatie van verschillende contentbronnen
- Gebruikers van verschillende afdelingen kunnen over de hele wereld verspreid zijn en hebben flexibele toegang tot de gegevens
Risico bij het gebruik van Data Lake:
- Na enige tijd kan Data Lake aan relevantie en momentum verliezen
- Er is een groter risico verbonden bij het ontwerpen van Data Lake
- Ongestructureerde gegevens kunnen leiden tot Ungoverned Chao, onbruikbare gegevens, ongelijksoortige en complexe tools, bedrijfsbrede samenwerking, verenigd, consistent en algemeen
- Het verhoogt ook de opslag- en rekenkosten
- Er is geen manier om inzichten te krijgen van anderen die met de gegevens hebben gewerkt, omdat er geen rekening wordt gehouden met de afkomst van bevindingen door eerdere analisten
- Het grootste risico van datameren is beveiliging en toegangscontrole. Soms kunnen gegevens zonder enig overzicht in een meer worden geplaatst, omdat sommige gegevens mogelijk behoefte hebben aan privacy en regelgeving
Overzicht:
- Een Data Lake is een opslagplaats die grote hoeveelheden gestructureerde, semi-gestructureerde en ongestructureerde gegevens kan opslaan.
- Het belangrijkste doel van het bouwen van een datameer is om datawetenschappers een ongeraffineerde weergave van data te bieden.
- Unified operations-tier, Processing-tier, Destillation-tier en HDFS zijn belangrijke lagen van Data Lake Architecture
- Gegevensopname, gegevensopslag, gegevenskwaliteit, gegevensaudits, gegevensverkenning, gegevensontdekking zijn enkele belangrijke componenten van de Data Lake-architectuur
- Het ontwerp van Data Lake moet worden gestuurd door wat beschikbaar is in plaats van wat nodig is.
- Data Lake verlaagt de eigendomskosten op de lange termijn en maakt economische opslag van bestanden mogelijk
- Het grootste risico van datameren is beveiliging en toegangscontrole. Soms kunnen gegevens zonder enig overzicht in een meer worden geplaatst, omdat sommige gegevens mogelijk behoefte hebben aan privacy en regelgeving.