Wat is gegevensafstemming?
Gegevensafstemming (DR) wordt gedefinieerd als een proces van verificatie van gegevens tijdens gegevensmigratie. In dit proces worden doelgegevens vergeleken met brongegevens om ervoor te zorgen dat de migratiearchitectuur gegevens overdraagt. Gegevensvalidatie en afstemming (DVR) betekent een technologie die wiskundige modellen gebruikt om informatie te verwerken.
In deze tutorial leer je,
- Wat is gegevensafstemming?
- Waarom is gegevensafstemming belangrijk?
- Terminologie in verband met gegevensafstemming
- Geschiedenis van gegevensafstemming
- Gegevensafstemmingsproces
- Best practices voor het gebruik van gegevensafstemming
- Tools voor gegevensafstemming
Waarom is gegevensafstemming belangrijk?
In het datamigratieproces is het mogelijk dat er fouten worden gemaakt in de mapping- en transformatielogica. Problemen zoals runtime-storingen, zoals netwerkuitval of verbroken transacties, kunnen gegevens beschadigen.
Dit soort fouten kan ertoe leiden dat gegevens in een ongeldige staat achterblijven. Deze kunnen een reeks problemen veroorzaken, zoals:
- Ontbrekende records
- Ontbrekende waarden
- Onjuiste waarden
- Dubbele records
- Slecht opgemaakte waarden
- Verbroken relaties tussen tabellen of systemen
Hier zijn belangrijke redenen om het gegevensherconcilliatieproces te gebruiken:
- Het gebruik van Data Reconciliation helpt u bij het extraheren van nauwkeurige en betrouwbare informatie over de stand van het industriële proces uit onbewerkte meetgegevens.
- Het helpt u ook om een enkele consistente set gegevens te produceren die de meest waarschijnlijke procesoperatie vertegenwoordigt.
- Het leidt ook tot onnauwkeurig inzicht en problemen met de klantenservice.
- Afstemming van gegevens is ook belangrijk voor de integratie van enterprise-control.
Afgezien van bovenstaande zijn er veel voordelen / voordelen van gegevensafstemming.
Terminologie in verband met gegevensafstemming
Grove fout | Grove fouten in metingen. Het geeft alleen bias-fouten, instrumentstoringen of abnormale geluidspieken weer als u slechts een korte tijdgemiddelde periode gebruikt. |
Waarneembaarheid | Waarneembaarheidsanalyse kan u details geven over welke variabelen kunnen worden bepaald voor een bepaalde reeks beperkingen en een reeks metingen. |
Variantie | Variantie is een maat voor de variabiliteit van een sensor. |
Redundantie | Het helpt u te bepalen welke metingen moeten worden geschat op basis van andere variabelen door de beperkingsvergelijkingen te gebruiken. |
Geschiedenis van gegevensafstemming
Hier zijn essentiële herkenningspunten uit de geschiedenis van gegevensverzoening.
- DVR (Data validation and Reconciliation) begon in de vroege jaren zestig. Het was gericht op het sluiten van materiaalbalansen in de productie waar ruwe metingen beschikbaar waren voor alle variabelen.
- Eind jaren zestig werden alle niet-gemeten variabelen in aanmerking genomen in het gegevensafstemmingsproces.
- Quasi-steady-state dynamica voor filtering en parallelle parameterschatting in de tijd werden in 1977 geïntroduceerd door Stanley en Mah.
- Dynamic DVR is ontwikkeld als een niet-lineair optimalisatiemodel dat in 1992 door Liebman is uitgegeven
Gegevensafstemmingsproces
Typen methoden voor gegevensafstemming zijn:
Afstemming van stamgegevens
Afstemming van stamgegevens is een techniek om alleen de stamgegevens tussen bron en doel af te stemmen. Masterdata zijn meestal onveranderlijk of langzaam veranderend van aard, en er wordt geen aggregatiebewerking uitgevoerd op de dataset.
Enkele veel voorkomende voorbeelden van afstemming van stamgegevens zijn:
- Totaal aantal rijen
- Totale klant in bron en doel
- Totaal aantal items in bron en doel
- Totaal aantal rijen op basis van de gegeven voorwaarde
- Aantal actieve gebruikers
- Aantal inactieve gebruikers etc.
Nauwkeurigheid van activiteit
- U moet ervoor zorgen dat transacties geldig zijn en het doel correct zijn.
- Noodzaak om te controleren of de transacties correct zijn geautoriseerd.
Afstemming van transactiegegevens
Transactiegegevens vormen de basis van BI-rapporten. Daarom kan elke discrepantie in transactiegegevens een directe invloed hebben op de betrouwbaarheid van het rapport en het hele BI-systeem in het algemeen.
De afstemmingsmethode voor transactiegegevens wordt gebruikt in termen van het totale bedrag, waardoor eventuele mismatch wordt voorkomen die wordt veroorzaakt door het wijzigen van de granulariteit van kwalificerende dimensies.
Voorbeelden van maatregelen die worden gebruikt voor afstemming van transactiegegevens zijn:
- Som van totale inkomsten berekend op basis van bron en doel
- Som van het volledige verkochte item, berekend op basis van bron en doel, enz.
Geautomatiseerde gegevensafstemming:
In een groot datawarehouse-beheersysteem is het handig om het gegevensafstemmingsproces te automatiseren door dit als een integraal onderdeel van het laden van gegevens te maken. Hiermee kunt u afzonderlijke metadatatabellen voor het laden bijhouden. Bovendien houdt geautomatiseerde afstemming alle belanghebbenden op de hoogte van de validiteit van de rapporten.
Best practices voor het gebruik van gegevensafstemming
- Het gegevensafstemmingsproces moet gericht zijn op het corrigeren van meetfouten.
- Bruto fouten zouden nul moeten zijn om het gegevensafstemmingsproces efficiënt te maken.
- De standaardbenadering van gegevensafstemming is gebaseerd op eenvoudige recordtellingen om bij te houden of het beoogde aantal records is gemigreerd of niet.
- Datamigratie-oplossing biedt vergelijkbare afstemmingsmogelijkheden en gegevensprototypingfunctionaliteit die het testen van gegevensafstemming op het volledige volume mogelijk maakt.
Tools voor gegevensafstemming
1) OpenRefine
OpenRefine, dat eerder bekend was als Google Refine, is een handig framework voor database-afstemming. Hiermee kunt u rommelige gegevens opschonen en overbrengen.
Downloadlink: https://openrefine.org/
2) TIBCO Duidelijkheid
Deze tool voor gegevensafstemming biedt on-demand softwarediensten van het web in de vorm van Software-as-a-service. Hiermee kunnen gebruikers de gegevens valideren en gegevens opschonen. Het biedt complete functies voor het testen van afstemmingen. Wijd gebruikt in ETL-proces.
Downloadlink: https://clarity.cloud.tibco.com/landing/index.html
3) Winpure
Winpure is een betaalbare en nauwkeurige software voor het opschonen van gegevens. Hiermee kunt u een grote hoeveelheid gegevens opschonen, duplicaten verwijderen, corrigeren en standaardiseren om de uiteindelijke dataset te ontwerpen.
Downloadlink: https://winpure.com/
Overzicht
- Gegevensvalidatie en afstemming (DVR) is een technologie die wiskundige modellen gebruikt om informatie te verwerken.
- Het gebruik van gegevensafstemming helpt u bij het extraheren van nauwkeurige en betrouwbare informatie over de stand van het industriële proces uit onbewerkte meetgegevens.
- Gross Error, Observability, Variance, Redundancy zijn belangrijke termen die worden gebruikt in het gegevensafstemmingsproces
- Datavalidatie en verzoening begon in het begin van de jaren zestig.
- Drie soorten methoden voor gegevensafstemming zijn: 1) Afstemming van stamgegevens 2) Afstemming van transactiegegevens 3) Geautomatiseerde afstemming van gegevens
- Bruto fouten zouden nul moeten zijn om het gegevensafstemmingsproces efficiënt te maken.
- Enkele belangrijke tools voor gegevensafstemming zijn: 1) OpenRefine 2) TIBCO 3) Winpure
- Deze methode wordt veel gebruikt bij prestatie- en procesbewaking in de olieraffinage / nucleaire / chemische industrie