Factor in R: categorische variabele & Continue variabelen

Wat is Factor in R?

Factor in R is een variabele die wordt gebruikt om de gegevens te categoriseren en op te slaan, met een beperkt aantal verschillende waarden. Het slaat de gegevens op als een vector van gehele getallen. Factor in R is ook bekend als een categorische variabele die zowel string- als integer-gegevenswaarden opslaat als niveaus. Factor wordt meestal gebruikt in statistische modellering en verkennende data-analyse met R.

In een dataset kunnen we twee soorten variabelen onderscheiden: categorisch en continu .

  • In beschrijvende statistieken voor categorische variabelen in R is de waarde beperkt en meestal gebaseerd op een bepaalde eindige groep. Een categorische variabele in R kan bijvoorbeeld landen, jaar, geslacht, beroep zijn.
  • Een continue variabele kan echter alle waarden aannemen, van integer tot decimaal. We kunnen bijvoorbeeld de opbrengst, prijs van een aandeel, enz ...

Categorische variabelen

Categorische variabelen in R worden opgeslagen in een factor. Laten we de onderstaande code bekijken om een ​​tekenvariabele om te zetten in een factorvariabele in R. Tekens worden niet ondersteund in het algoritme voor machine learning, en de enige manier is om een ​​tekenreeks om te zetten in een geheel getal.

Syntaxis

factor(x = character(), levels, labels = levels, ordered = is.ordered(x))

Argumenten:

  • x : een vector van categorische gegevens in R. Moet een tekenreeks of geheel getal zijn, geen decimaal.
  • Niveaus : een vector van mogelijke waarden genomen door x. Dit argument is optioneel. De standaardwaarde is de unieke lijst met items van de vector x.
  • Labels : Voeg een label toe aan de x categorische gegevens in R. 1 kan bijvoorbeeld het label 'man' nemen, terwijl 0 het label 'vrouw' kan zijn.
  • geordend : Bepaal of de niveaus moeten worden geordend in categorische gegevens in R.

Voorbeeld:

Laten we een dataframe voor factoren maken.

# Create gender vectorgender_vector <- c("Male", "Female", "Female", "Male", "Male")class(gender_vector)# Convert gender_vector to a factorfactor_gender_vector <-factor(gender_vector)class(factor_gender_vector)

Uitgang:

## [1] "character"## [1] "factor"

Het is belangrijk om een string om te zetten in factorvariabele in R wanneer we een Machine Learning-taak uitvoeren.

Een categorische variabele in R kan worden onderverdeeld in nominale categorische variabele en ordinale categorische variabele .

Nominale categorische variabele

Een categorische variabele heeft meerdere waarden, maar de volgorde doet er niet toe. Bijvoorbeeld mannelijk of vrouwelijk. Categorische variabelen in R hebben geen ordening.

# Create a color vectorcolor_vector <- c('blue', 'red', 'green', 'white', 'black', 'yellow')# Convert the vector to factorfactor_color <- factor(color_vector)factor_color

Uitgang:

## [1] blue red green white black yellow## Levels: black blue green red white yellow

Van de factor_color kunnen we geen enkele volgorde onderscheiden.

Ordinale categorische variabele

Ordinale categorische variabelen hebben een natuurlijke ordening. We kunnen de volgorde specificeren, van de laagste naar de hoogste met order = TRUE en van de hoogste naar laagste met order = FALSE.

Voorbeeld:

We kunnen de samenvatting gebruiken om de waarden voor elke factorvariabele in R te tellen.

# Create Ordinal categorical vectorday_vector <- c('evening', 'morning', 'afternoon', 'midday', 'midnight', 'evening')# Convert `day_vector` to a factor with ordered levelfactor_day <- factor(day_vector, order = TRUE, levels =c('morning', 'midday', 'afternoon', 'evening', 'midnight'))# Print the new variablefactor_day

Uitgang:

## [1] evening morning afternoon middaymidnight evening 

Voorbeeld:

## Levels: morning < midday < afternoon < evening < midnight# Append the line to above code# Count the number of occurence of each levelsummary(factor_day)

Uitgang:

## morning midday afternoon evening midnight## 1 1 1 2 1

R bestelde het niveau van 'ochtend' tot 'middernacht' zoals gespecificeerd in de niveaus tussen haakjes.

Continue variabelen

Doorlopende klassevariabelen zijn de standaardwaarde in R. Ze worden opgeslagen als numeriek of geheel getal. We kunnen het zien in de onderstaande dataset. mtcars is een ingebouwde dataset. Het verzamelt informatie over verschillende soorten auto's. We kunnen het importeren door mtcars te gebruiken en de klasse van de variabele mpg, mile per gallon, te controleren. Het retourneert een numerieke waarde, waarmee een continue variabele wordt aangegeven.

dataset <- mtcarsclass(dataset$mpg)

Uitvoer

## [1] "numeric"

Interessante artikelen...