Wat is R-software?
R is een programmeertaal en gratis software ontwikkeld door Ross Ihaka en Robert Gentleman in 1993. R beschikt over een uitgebreide catalogus van statistische en grafische methoden. Het omvat algoritmen voor machine learning, lineaire regressie, tijdreeksen, statistische gevolgtrekking om er maar een paar te noemen. De meeste R-bibliotheken zijn geschreven in R, maar voor zware computertaken hebben C-, C ++ - en Fortran-codes de voorkeur.
R wordt niet alleen toevertrouwd door academici, maar veel grote bedrijven gebruiken ook de programmeertaal R, waaronder Uber, Google, Airbnb, Facebook enzovoort.
Gegevensanalyse met R gebeurt in een reeks stappen; programmeren, transformeren, ontdekken, modelleren en communiceren van de resultaten
- Programma : R is een duidelijke en toegankelijke programmeertool
- Transform : R bestaat uit een verzameling bibliotheken die speciaal zijn ontworpen voor datawetenschap
- Ontdekken : onderzoek de gegevens, verfijn uw hypothese en analyseer ze
- Model : R biedt een breed scala aan tools om het juiste model voor uw gegevens vast te leggen
- Communiceer : integreer codes, grafieken en outputs in een rapport met R Markdown of bouw glanzende apps om met de wereld te delen
In deze inleidende tutorial leer je R
- Waar wordt R voor gebruikt?
- R door industrie
- R-pakket
- Communiceer met R
- Waarom R gebruiken?
- Moet je voor R kiezen?
- Is R moeilijk?
Waar wordt R voor gebruikt?
- Statistische gevolgtrekking
- Gegevensanalyse
- Algoritme voor machine learning
R door industrie
Als we het gebruik van R uitsplitsen naar de industrie, zien we dat academici op de eerste plaats komen. R is een taal om statistiek te doen. R is de eerste keuze in de zorg, gevolgd door overheid en advisering.
R-pakket
Het primaire gebruik van R is en zal altijd zijn, statistiek, visualisatie en machine learning. De onderstaande afbeelding laat zien welk R-pakket de meeste vragen heeft gekregen in Stack Overflow. In de top 10 hebben de meeste betrekking op de workflow van een datawetenschapper: datapreparatie en het communiceren van de resultaten.
Alle bibliotheken van R, bijna 12k, zijn opgeslagen in CRAN. CRAN is een gratis en open source. U kunt de talrijke bibliotheken downloaden en gebruiken om Machine Learning of tijdreeksanalyses uit te voeren.
Communiceer met R
R heeft meerdere manieren om werk te presenteren en te delen, hetzij via een prijsverlagingsdocument of een glanzende app. Alles kan worden gehost in Rpub, GitHub of de website van het bedrijf.
Hieronder ziet u een voorbeeld van een presentatie die wordt gehost op Rpub
Rstudio accepteert markdown om een document te schrijven. U kunt de documenten in verschillende formaten exporteren:
- Document :
- HTML
- PDF / latex
- Woord
- Presentatie
- HTML
- PDF beamer
Rstudio heeft een geweldige tool om eenvoudig een app te maken. Hieronder ziet u een voorbeeld van een app met de gegevens van de Wereldbank.
Waarom R gebruiken?
Datawetenschap bepaalt de manier waarop bedrijven hun bedrijf runnen. Zonder twijfel zal het wegblijven van kunstmatige intelligentie en machine ertoe leiden dat het bedrijf failliet gaat. De grote vraag is welke tool / taal moet je gebruiken?
Er zijn tal van tools beschikbaar op de markt om gegevensanalyses uit te voeren. Het leren van een nieuwe taal vergt enige tijdinvestering. De onderstaande afbeelding toont de leercurve in vergelijking met de zakelijke mogelijkheden die een taal biedt. De negatieve relatie houdt in dat er geen gratis lunch is. Als je het beste inzicht uit de gegevens wilt halen, moet je wat tijd besteden aan het leren van de juiste tool, namelijk R.
Linksboven in de grafiek ziet u Excel en PowerBI. Deze twee tools zijn eenvoudig te leren, maar bieden geen uitstekende zakelijke mogelijkheden, vooral niet op het gebied van modellering. In het midden zie je Python en SAS. SAS is een speciale tool om een statistische analyse voor bedrijven uit te voeren, maar het is niet gratis. SAS is een klik-en-draai-software. Python is echter een taal met een eentonige leercurve. Python is een fantastische tool om Machine Learning en AI in te zetten, maar mist communicatiefuncties. Met een identieke leercurve is R een goede afweging tussen implementatie en data-analyse.
Als het gaat om datavisualisatie (DataViz), had je waarschijnlijk al van Tableau gehoord. Tableau is zonder twijfel een geweldig hulpmiddel om patronen te ontdekken door middel van grafieken en diagrammen. Bovendien is het leren van Tableau niet tijdrovend. Een groot probleem met datavisualisatie is dat je misschien nooit een patroon vindt of gewoon veel nutteloze grafieken maakt. Tableau is een goede tool voor snelle visualisatie van de data of Business Intelligence. Als het gaat om statistieken en besluitvormingshulpmiddel, is R geschikter.
Stack Overflow is een grote community voor programmeertalen. Als u een coderingsprobleem heeft of een model moet begrijpen, is Stack Overflow hier om u te helpen. In de loop van het jaar is het percentage vraagweergaven sterk gestegen voor R in vergelijking met de andere talen. Deze trend is natuurlijk sterk gecorreleerd met de hoogconjunctuur van data science, maar het weerspiegelt de vraag naar R-taal voor data science.
In data science zijn er twee tools die met elkaar concurreren. R en Python zijn waarschijnlijk de programmeertaal die data science definieert.
Moet je voor R kiezen?
Datawetenschapper kan twee uitstekende tools gebruiken: R en Python. Je hebt misschien geen tijd om ze allebei te leren, vooral als je begint met het leren van data science. Leren van statistische modellering en algoritmeis veel belangrijker dan het leren van een programmeertaal. Een programmeertaal is een hulpmiddel om uw ontdekking te berekenen en te communiceren. De belangrijkste taak in datawetenschap is de manier waarop u met de gegevens omgaat: importeren, opschonen, voorbereiden, feature-engineering, feature-selectie. Dit zou je primaire focus moeten zijn. Als je R en Python tegelijkertijd probeert te leren zonder een solide achtergrond in statistieken, is dat gewoon stom. Datawetenschappers zijn geen programmeurs. Het is hun taak om de gegevens te begrijpen, te manipuleren en de beste aanpak bloot te leggen. Als u nadenkt over welke taal u moet leren, laten we dan eens kijken welke taal het meest geschikt voor u is.
De belangrijkste doelgroep voor data science zijn zakelijke professionals. Een grote implicatie in het bedrijf is communicatie. Er zijn veel manieren om te communiceren: rapport, webapp, dashboard. Je hebt een tool nodig die dit allemaal samen doet.
Is R moeilijk?
Jaren geleden was R een moeilijke taal om te beheersen. De taal was verwarrend en niet zo gestructureerd als de andere programmeertools. Om dit grote probleem op te lossen, heeft Hadley Wickham een verzameling pakketten ontwikkeld met de naam tidyverse. De regel van het spel is voor het beste veranderd. Datamanipulatie wordt triviaal en intuïtief. Het maken van een grafiek was niet zo moeilijk meer.
De beste algoritmen voor machine learning kunnen worden geïmplementeerd met R. Pakketten zoals Keras en TensorFlow maken het mogelijk om high-end machine learning-technieken te creëren. R heeft ook een pakket om Xgboost uit te voeren, een van de beste algoritmen voor Kaggle-competitie.
R kan communiceren met de andere taal. Het is mogelijk om Python, Java, C ++ aan te roepen in R. De wereld van big data is ook toegankelijk voor R. Je kunt R verbinden met verschillende databases zoals Spark of Hadoop.
Ten slotte is R geëvolueerd en heeft het parallellisatiebewerkingen mogelijk gemaakt om de berekening te versnellen. In feite werd R bekritiseerd omdat hij slechts één CPU tegelijk gebruikte. Met het parallelle pakket kunt u taken uitvoeren in verschillende kernen van de machine.
Overzicht
Kortom, R is een geweldig hulpmiddel om de gegevens te verkennen en te onderzoeken. Uitgebreide analyses zoals clustering, correlatie en datareductie worden gedaan met R. Dit is het meest cruciale onderdeel, zonder een goede feature engineering en model, zal de inzet van machine learning geen zinvolle resultaten opleveren.