Τι είναι ο παράγοντας στο R;
Ο παράγοντας στο R είναι μια μεταβλητή που χρησιμοποιείται για την κατηγοριοποίηση και την αποθήκευση των δεδομένων, με περιορισμένο αριθμό διαφορετικών τιμών. Αποθηκεύει τα δεδομένα ως διάνυσμα ακέραιων τιμών. Ο παράγοντας στο R είναι επίσης γνωστός ως μια κατηγορηματική μεταβλητή που αποθηκεύει τιμές συμβολοσειρών και ακέραιων δεδομένων ως επίπεδα. Το Factor χρησιμοποιείται κυρίως στη Στατιστική Μοντελοποίηση και στην διερευνητική ανάλυση δεδομένων με τον R.
Σε ένα σύνολο δεδομένων, μπορούμε να διακρίνουμε δύο τύπους μεταβλητών: κατηγορηματικές και συνεχείς .
- Σε περιγραφικά στατιστικά στοιχεία για κατηγορικές μεταβλητές στο R, η τιμή είναι περιορισμένη και συνήθως βασίζεται σε μια συγκεκριμένη πεπερασμένη ομάδα. Για παράδειγμα, μια κατηγορηματική μεταβλητή στο R μπορεί να είναι χώρες, έτος, φύλο, επάγγελμα.
- Ωστόσο, μια συνεχής μεταβλητή μπορεί να πάρει οποιεσδήποτε τιμές, από ακέραιο έως δεκαδικό. Για παράδειγμα, μπορούμε να έχουμε τα έσοδα, την τιμή μιας μετοχής κ.λπ.…
Κατηγορικές μεταβλητές
Οι μεταβλητές κατηγορίας στο R αποθηκεύονται σε έναν παράγοντα. Ας ελέγξουμε τον παρακάτω κώδικα για να μετατρέψουμε μια μεταβλητή χαρακτήρων σε μια μεταβλητή παράγοντα στο R. Οι χαρακτήρες δεν υποστηρίζονται στον αλγόριθμο μηχανικής μάθησης και ο μόνος τρόπος είναι να μετατρέψεις μια συμβολοσειρά σε ακέραιο.
Σύνταξη
factor(x = character(), levels, labels = levels, ordered = is.ordered(x))
Επιχειρήματα:
- x : Ένα διάνυσμα κατηγορηματικών δεδομένων στο R. Πρέπει να είναι συμβολοσειρά ή ακέραιος αριθμός, όχι δεκαδικός.
- Επίπεδα : Ένα διάνυσμα πιθανών τιμών που λαμβάνονται από το x. Αυτό το επιχείρημα είναι προαιρετικό. Η προεπιλεγμένη τιμή είναι η μοναδική λίστα στοιχείων του διανύσματος x.
- Ετικέτες : Προσθέστε μια ετικέτα στα x κατηγορηματικά δεδομένα στο R. Για παράδειγμα, 1 μπορεί να πάρει την ετικέτα «male» ενώ 0, η ετικέτα «θηλυκό».
- ταξινομημένο : Προσδιορίστε εάν τα επίπεδα πρέπει να ταξινομηθούν σε κατηγορηματικά δεδομένα στο R.
Παράδειγμα:
Ας δημιουργήσουμε ένα πλαίσιο δεδομένων παραγόντων.
# Create gender vectorgender_vector <- c("Male", "Female", "Female", "Male", "Male")class(gender_vector)# Convert gender_vector to a factorfactor_gender_vector <-factor(gender_vector)class(factor_gender_vector)
Παραγωγή:
## [1] "character"## [1] "factor"
Είναι σημαντικό να μετατρέψουμε μια συμβολοσειρά σε μεταβλητή παράγοντα στο R όταν εκτελούμε εργασία Machine Learning.
Μια κατηγορηματική μεταβλητή στο R μπορεί να χωριστεί σε ονομαστική κατηγορηματική μεταβλητή και ordinal κατηγοριακή μεταβλητή .
Ονομαστική κατηγορηματική μεταβλητή
Μια κατηγορηματική μεταβλητή έχει πολλές τιμές, αλλά η σειρά δεν έχει σημασία. Για παράδειγμα, αρσενικό ή θηλυκό. Οι κατηγορηματικές μεταβλητές στο R δεν έχουν σειρά.
# Create a color vectorcolor_vector <- c('blue', 'red', 'green', 'white', 'black', 'yellow')# Convert the vector to factorfactor_color <- factor(color_vector)factor_color
Παραγωγή:
## [1] blue red green white black yellow## Levels: black blue green red white yellow
Από το factor_color, δεν μπορούμε να πούμε καμία παραγγελία.
Κανονική μεταβλητή κατηγοριοποίησης
Οι κανονικές κατηγορηματικές μεταβλητές έχουν φυσική σειρά. Μπορούμε να καθορίσουμε την παραγγελία, από το χαμηλότερο στο υψηλότερο με παραγγελία = ΑΛΗΘΕΙΑ και το υψηλότερο έως χαμηλότερο με παραγγελία = ΛΑΘΟΣ.
Παράδειγμα:
Μπορούμε να χρησιμοποιήσουμε περίληψη για να μετρήσουμε τις τιμές για κάθε μεταβλητή παράγοντα στο R.
# Create Ordinal categorical vectorday_vector <- c('evening', 'morning', 'afternoon', 'midday', 'midnight', 'evening')# Convert `day_vector` to a factor with ordered levelfactor_day <- factor(day_vector, order = TRUE, levels =c('morning', 'midday', 'afternoon', 'evening', 'midnight'))# Print the new variablefactor_day
Παραγωγή:
## [1] evening morning afternoon middaymidnight evening
Παράδειγμα:
## Levels: morning < midday < afternoon < evening < midnight# Append the line to above code# Count the number of occurence of each levelsummary(factor_day)
Παραγωγή:
## morning midday afternoon evening midnight## 1 1 1 2 1
Ο R διέταξε το επίπεδο από «πρωί» έως «μεσάνυχτα» όπως καθορίζεται στην παρένθεση επιπέδων.
Συνεχείς μεταβλητές
Οι συνεχείς μεταβλητές κλάσης είναι η προεπιλεγμένη τιμή στο R. Αποθηκεύονται ως αριθμητικοί ή ακέραιοι. Μπορούμε να το δούμε από το σύνολο δεδομένων παρακάτω. Το mtcars είναι ένα ενσωματωμένο σύνολο δεδομένων. Συγκεντρώνει πληροφορίες για διαφορετικούς τύπους αυτοκινήτων. Μπορούμε να το εισαγάγουμε χρησιμοποιώντας mtcars και να ελέγξουμε την κατηγορία της μεταβλητής mpg, μίλι ανά γαλόνι. Επιστρέφει μια αριθμητική τιμή, δείχνοντας μια συνεχή μεταβλητή.
dataset <- mtcarsclass(dataset$mpg)
Παραγωγή
## [1] "numeric"