Voordat we ingaan op de introductie van Big Data, moet u dit eerst weten
Wat zijn gegevens?
De hoeveelheden, karakters of symbolen waarop bewerkingen worden uitgevoerd door een computer, die kunnen worden opgeslagen en verzonden in de vorm van elektrische signalen en kunnen worden geregistreerd op magnetische, optische of mechanische opnamemedia.
Laten we nu de introductie van Big Data leren
Wat is Big Data?
Big Data is een verzameling gegevens die enorm in volume is, maar exponentieel groeit met de tijd. Het zijn gegevens met zo'n grote omvang en complexiteit dat geen van de traditionele tools voor gegevensbeheer ze kan opslaan of efficiënt kan verwerken. Big data is ook een data, maar dan enorm groot.
In deze tutorial leer je,
- Wat zijn gegevens?
- Wat is Big Data?
- Voorbeelden van big data
- Soorten big data
- Kenmerken van big data
- Voordelen van big data-verwerking
Voorbeelden van big data
Hieronder volgen enkele voorbeelden van Big Data:
De New York Stock Exchange genereert ongeveer één terabyte aan nieuwe handelsgegevens per dag.
Sociale media
De statistiek laat zien dat elke dag 500 + terabytes aan nieuwe gegevens worden opgenomen in de databases van sociale mediasite Facebook . Deze gegevens worden voornamelijk gegenereerd in termen van foto- en video-uploads, berichtenuitwisseling, commentaar plaatsen enz.
Een enkele straalmotor kan 10 + terabytes aan gegevens genereren in 30 minuten vliegtijd. Met vele duizenden vluchten per dag bereikt het genereren van gegevens tot vele Petabytes.
Soorten big data
Hieronder volgen de soorten Big Data:
- Gestructureerd
- Ongestructureerd
- Semi-gestructureerd
Gestructureerd
Alle gegevens die kunnen worden opgeslagen, geopend en verwerkt in de vorm van een vast formaat, worden 'gestructureerde' gegevens genoemd. In de loop van de tijd heeft talent in de informatica meer succes geboekt bij het ontwikkelen van technieken om met dit soort gegevens te werken (waarvan het formaat van tevoren bekend is) en er ook waarde aan te ontlenen. Tegenwoordig voorzien we echter problemen wanneer een omvang van dergelijke gegevens enorm toeneemt, typische grootten worden in de ban van meerdere zettabytes.
Ken jij? 10 21 bytes gelijk aan 1 zettabyte of een miljard terabytes vormen een zettabyte .
Als je naar deze cijfers kijkt, kan je gemakkelijk begrijpen waarom de naam Big Data wordt gegeven en kun je je voorstellen welke uitdagingen er komen kijken bij de opslag en verwerking ervan.
Ken jij? Gegevens die zijn opgeslagen in een relationeel databasebeheersysteem zijn een voorbeeld van 'gestructureerde' gegevens.
Voorbeelden van gestructureerde gegevens
Een 'Medewerker'-tabel in een database is een voorbeeld van gestructureerde gegevens
Employee_ID | Naam werknemer | Geslacht | afdeling | Salaris_In_lacs |
---|---|---|---|---|
2365 | Rajesh Kulkarni | Mannetje | Financiën | 650000 |
3398 | Pratibha Joshi | Vrouw | beheerder | 650000 |
7465 | Shushil Roy | Mannetje | beheerder | 500000 |
7500 | Shubhojit Das | Mannetje | Financiën | 500000 |
7699 | Priya Gezond | Vrouw | Financiën | 550000 |
Ongestructureerd
Alle gegevens met een onbekende vorm of structuur worden geclassificeerd als ongestructureerde gegevens. Behalve dat de omvang enorm is, vormen niet-gestructureerde gegevens meerdere uitdagingen in termen van verwerking om er waarde uit te halen. Een typisch voorbeeld van ongestructureerde gegevens is een heterogene gegevensbron die een combinatie van eenvoudige tekstbestanden, afbeeldingen, video's enz. Bevat. Tegenwoordig beschikken organisaties over een schat aan gegevens, maar helaas weten ze niet hoe ze er waarde aan kunnen ontlenen. deze gegevens zijn in ruwe vorm of in ongestructureerde vorm.
Voorbeelden van niet-gestructureerde gegevens
De uitvoer die wordt geretourneerd door 'Google Zoeken'
Semi-gestructureerd
Halfgestructureerde gegevens kunnen beide vormen van gegevens bevatten. We kunnen semi-gestructureerde gegevens zien als een gestructureerde vorm, maar het is eigenlijk niet gedefinieerd met bijvoorbeeld een tabeldefinitie in relationele DBMS. Voorbeeld van semi-gestructureerde gegevens zijn gegevens die worden weergegeven in een XML-bestand.
Voorbeelden van semi-gestructureerde gegevens
Persoonlijke gegevens opgeslagen in een XML-bestand
Prashant Rao Male 35 Seema R. Female 41 Satish Mane Male 29 Subrato Roy Male 26 Jeremiah J. Male 35
Datagroei door de jaren heen
Houd er rekening mee dat gegevens van webapplicaties, die ongestructureerd zijn, bestaan uit logbestanden, transactiegeschiedenisbestanden enz. OLTP-systemen zijn gebouwd om te werken met gestructureerde gegevens waarin gegevens worden opgeslagen in relaties (tabellen).
Kenmerken van big data
Big data kunnen worden omschreven aan de hand van de volgende kenmerken:
- Volume
- Verscheidenheid
- Snelheid
- Variabiliteit
(i) Volume - De naam Big Data zelf is gerelateerd aan een omvang die enorm is. Omvang van gegevens speelt een zeer cruciale rol bij het bepalen van de waarde van gegevens. Ook of bepaalde gegevens daadwerkelijk als Big Data kunnen worden beschouwd of niet, is afhankelijk van de hoeveelheid gegevens. Daarom is 'Volume' een kenmerk waarmee rekening moet worden gehouden bij het omgaan met Big Data.
(ii) Verscheidenheid - Het volgende aspect van Big Data is de verscheidenheid .
Variatie verwijst naar heterogene bronnen en de aard van gegevens, zowel gestructureerd als ongestructureerd. Vroeger waren spreadsheets en databases de enige gegevensbronnen die door de meeste toepassingen werden overwogen. Tegenwoordig wordt in de analyse-applicaties ook rekening gehouden met gegevens in de vorm van e-mails, foto's, video's, monitoringapparatuur, pdf's, audio, enz. Deze verscheidenheid aan ongestructureerde gegevens stelt bepaalde problemen bij het opslaan, minen en analyseren van gegevens.
(iii) Snelheid - De term 'snelheid' verwijst naar de snelheid waarmee gegevens worden gegenereerd. Hoe snel de gegevens worden gegenereerd en verwerkt om aan de eisen te voldoen, bepaalt het werkelijke potentieel van de gegevens.
Big Data Velocity houdt zich bezig met de snelheid waarmee gegevens binnenkomen vanuit bronnen zoals bedrijfsprocessen, applicatielogboeken, netwerken en sociale mediasites, sensoren, mobiele apparaten, enz. De datastroom is enorm en continu.
(iv) Variabiliteit - Dit verwijst naar de inconsistentie die soms door de gegevens kan worden aangetoond, waardoor het proces van het effectief kunnen verwerken en beheren van de gegevens wordt belemmerd.
Voordelen van big data-verwerking
De mogelijkheid om Big Data te verwerken biedt meerdere voordelen, zoals:
- Bedrijven kunnen externe intelligentie gebruiken bij het nemen van beslissingen
Toegang tot sociale gegevens van zoekmachines en sites zoals Facebook en Twitter stellen organisaties in staat hun bedrijfsstrategieën te verfijnen.
- Verbeterde klantenservice
Traditionele klantfeedbacksystemen worden vervangen door nieuwe systemen die zijn ontworpen met Big Data-technologieën. In deze nieuwe systemen worden big data en natuurlijke taalverwerkingstechnologieën gebruikt om de reacties van consumenten te lezen en te evalueren.
- Vroegtijdige identificatie van risico's voor het product / de diensten, indien aanwezig
- Betere operationele efficiëntie
Big Data-technologieën kunnen worden gebruikt voor het creëren van een verzamelplaats of landingszone voor nieuwe gegevens voordat wordt bepaald welke gegevens naar het datawarehouse moeten worden verplaatst. Bovendien helpt een dergelijke integratie van Big Data-technologieën en datawarehouse een organisatie om zelden gebruikte gegevens te ontladen.
Overzicht
- Big Data-definitie: Big Data wordt gedefinieerd als gegevens die enorm groot zijn. Bigdata is een term die wordt gebruikt om een verzameling gegevens te beschrijven die enorm groot is en toch exponentieel groeit met de tijd.
- Voorbeelden van Big Data-analyse zijn onder meer aandelenbeurzen, sociale-mediasites, straalmotoren, enz.
- Big Data kan 1) gestructureerd zijn, 2) ongestructureerd, 3) semi-gestructureerd
- Volume, variëteit, snelheid en variabiliteit zijn enkele Big Data-kenmerken
- Verbeterde klantenservice, betere operationele efficiëntie, betere besluitvorming zijn enkele voordelen van Bigdata