Τι είναι η γλώσσα προγραμματισμού R; Εισαγωγή & Βασικά στοιχεία του R

Πίνακας περιεχομένων:

Anonim

Τι είναι το λογισμικό R;

Το R είναι μια γλώσσα προγραμματισμού και ένα ελεύθερο λογισμικό που αναπτύχθηκε από τους Ross Ihaka και Robert Gentleman το 1993. Ο R διαθέτει έναν εκτενή κατάλογο στατιστικών και γραφικών μεθόδων. Περιλαμβάνει αλγόριθμους μηχανικής μάθησης, γραμμική παλινδρόμηση, χρονοσειρές, στατιστικά συμπεράσματα για να αναφέρουμε μερικά. Οι περισσότερες βιβλιοθήκες R είναι γραμμένες σε R, αλλά για βαριές υπολογιστικές εργασίες, προτιμώνται οι κωδικοί C, C ++ και Fortran.

Το R δεν εμπιστεύεται μόνο ακαδημαϊκούς, αλλά πολλές μεγάλες εταιρείες χρησιμοποιούν επίσης τη γλώσσα προγραμματισμού R, όπως Uber, Google, Airbnb, Facebook και ούτω καθεξής.

Η ανάλυση δεδομένων με το R γίνεται σε μια σειρά βημάτων. προγραμματισμός, μετατροπή, ανακάλυψη, μοντελοποίηση και επικοινωνία των αποτελεσμάτων

  • Πρόγραμμα : Το R είναι ένα σαφές και προσβάσιμο εργαλείο προγραμματισμού
  • Transform : R αποτελείται από μια συλλογή βιβλιοθηκών που έχουν σχεδιαστεί ειδικά για την επιστήμη των δεδομένων
  • Ανακαλύψτε : Διερευνήστε τα δεδομένα, βελτιώστε την υπόθεσή σας και αναλύστε τα
  • Μοντέλο : Το R παρέχει μια μεγάλη γκάμα εργαλείων για τη λήψη του σωστού μοντέλου για τα δεδομένα σας
  • Επικοινωνία : Ενσωμάτωση κωδικών, γραφημάτων και εξόδων σε μια αναφορά με το R Markdown ή δημιουργία εφαρμογών Shiny για κοινή χρήση με τον κόσμο

Σε αυτό το εισαγωγικό σεμινάριο θα μάθετε R

  • Σε τι χρησιμοποιείται το R;
  • R ανά Βιομηχανία
  • Πακέτο R
  • Επικοινωνήστε με τον R
  • Γιατί να χρησιμοποιήσετε το R;
  • Πρέπει να επιλέξετε R;
  • Είναι δύσκολο το R;

Σε τι χρησιμοποιείται το R;

  • Στατιστικά συμπεράσματα
  • Ανάλυση δεδομένων
  • Αλγόριθμος μηχανικής μάθησης

R ανά Βιομηχανία

Εάν διακόψουμε τη χρήση του R από τη βιομηχανία, βλέπουμε ότι οι ακαδημαϊκοί έρχονται πρώτοι. Το R είναι μια γλώσσα στατιστικής. Η R είναι η πρώτη επιλογή στον κλάδο της υγειονομικής περίθαλψης, ακολουθούμενη από την κυβέρνηση και τη διαβούλευση.

Πακέτο R

Οι κύριες χρήσεις του R είναι και θα είναι πάντα, στατιστική, οπτικοποίηση και μηχανική μάθηση. Η παρακάτω εικόνα δείχνει ποιο πακέτο R έλαβε τις περισσότερες ερωτήσεις στο Stack Overflow. Στα 10 κορυφαία, τα περισσότερα σχετίζονται με τη ροή εργασίας ενός επιστήμονα δεδομένων: προετοιμασία δεδομένων και ανακοίνωση των αποτελεσμάτων.

Όλες οι βιβλιοθήκες του R, σχεδόν 12k, αποθηκεύονται στο CRAN. Το CRAN είναι δωρεάν και ανοιχτού κώδικα. Μπορείτε να κατεβάσετε και να χρησιμοποιήσετε τις πολυάριθμες βιβλιοθήκες για να εκτελέσετε μηχανική εκμάθηση ή ανάλυση χρονοσειρών.

Επικοινωνήστε με τον R

Το R έχει πολλούς τρόπους για να παρουσιάσει και να μοιραστεί την εργασία, είτε μέσω ενός εγγράφου markdown είτε μιας λαμπερής εφαρμογής. Όλα μπορούν να φιλοξενηθούν σε Rpub, GitHub ή στον ιστότοπο της επιχείρησης.

Ακολουθεί ένα παράδειγμα παρουσίασης που φιλοξενείται στο Rpub

Ο Rstudio δέχεται markdown για να γράψει ένα έγγραφο. Μπορείτε να εξαγάγετε τα έγγραφα σε διαφορετικές μορφές:

  • Έγγραφο:
    • HTML
    • PDF / λατέξ
    • Λέξη
  • Παρουσίαση
    • HTML
    • Δοχείο PDF

Το Rstudio διαθέτει ένα εξαιρετικό εργαλείο για τη δημιουργία μιας εφαρμογής εύκολα. Ακολουθεί ένα παράδειγμα εφαρμογής με τα δεδομένα της Παγκόσμιας Τράπεζας.

Γιατί να χρησιμοποιήσετε το R;

Η επιστήμη των δεδομένων διαμορφώνει τον τρόπο με τον οποίο οι εταιρείες διευθύνουν τις επιχειρήσεις τους. Χωρίς αμφιβολία, η απομάκρυνση από την Τεχνητή Νοημοσύνη και τη Μηχανή θα οδηγήσει την εταιρεία σε αποτυχία. Το μεγάλο ερώτημα είναι ποιο εργαλείο / γλώσσα πρέπει να χρησιμοποιήσετε;

Υπάρχουν πολλά διαθέσιμα εργαλεία στην αγορά για την εκτέλεση ανάλυσης δεδομένων. Η εκμάθηση μιας νέας γλώσσας απαιτεί λίγο χρόνο. Η παρακάτω εικόνα απεικονίζει την καμπύλη μάθησης σε σύγκριση με την επιχειρηματική ικανότητα που προσφέρει μια γλώσσα. Η αρνητική σχέση σημαίνει ότι δεν υπάρχει δωρεάν γεύμα. Εάν θέλετε να δώσετε την καλύτερη εικόνα από τα δεδομένα, τότε πρέπει να αφιερώσετε λίγο χρόνο για να μάθετε το κατάλληλο εργαλείο, το οποίο είναι το R.

Επάνω αριστερά στο γράφημα, μπορείτε να δείτε το Excel και το PowerBI. Αυτά τα δύο εργαλεία είναι απλά στη μάθηση, αλλά δεν προσφέρουν εξαιρετική επιχειρηματική ικανότητα, ειδικά όσον αφορά τη μοντελοποίηση. Στη μέση, μπορείτε να δείτε Python και SAS. Το SAS είναι ένα ειδικό εργαλείο για τη διεξαγωγή στατιστικής ανάλυσης για τις επιχειρήσεις, αλλά δεν είναι δωρεάν. Το SAS είναι ένα λογισμικό κλικ και εκτέλεσης. Ωστόσο, η Python είναι μια γλώσσα με μονότονη καμπύλη μάθησης. Το Python είναι ένα φανταστικό εργαλείο για την ανάπτυξη μηχανικής μάθησης και τεχνητής νοημοσύνης, αλλά δεν διαθέτει δυνατότητες επικοινωνίας. Με την ίδια καμπύλη μάθησης, το R είναι μια καλή αντιστάθμιση μεταξύ της εφαρμογής και της ανάλυσης δεδομένων.

Όσον αφορά την οπτικοποίηση δεδομένων (DataViz), πιθανότατα θα έχετε ακούσει για το Tableau. Το Tableau είναι, χωρίς αμφιβολία, ένα εξαιρετικό εργαλείο για να ανακαλύψετε μοτίβα μέσω γραφημάτων και διαγραμμάτων. Εκτός αυτού, η εκμάθηση του Tableau δεν είναι χρονοβόρα. Ένα μεγάλο πρόβλημα με την οπτικοποίηση δεδομένων είναι ότι ίσως δεν καταλήξετε ποτέ να βρείτε μοτίβο ή απλά να δημιουργήσετε πολλά άχρηστα γραφήματα. Το Tableau είναι ένα καλό εργαλείο για γρήγορη οπτικοποίηση των δεδομένων ή Business Intelligence. Όσον αφορά τα στατιστικά και το εργαλείο λήψης αποφάσεων, το R είναι πιο κατάλληλο.

Το Stack Overflow είναι μια μεγάλη κοινότητα για γλώσσες προγραμματισμού. Εάν έχετε πρόβλημα κωδικοποίησης ή θέλετε να κατανοήσετε ένα μοντέλο, το Stack Overflow είναι εδώ για να σας βοηθήσει. Κατά τη διάρκεια του έτους, το ποσοστό των προβολών ερωτήσεων αυξήθηκε απότομα για το R σε σύγκριση με τις άλλες γλώσσες. Αυτή η τάση είναι φυσικά πολύ συσχετισμένη με την ακμάζουσα εποχή της επιστήμης δεδομένων, αλλά αντικατοπτρίζει τη ζήτηση της γλώσσας R για την επιστήμη των δεδομένων.

Στην επιστήμη των δεδομένων, υπάρχουν δύο εργαλεία που ανταγωνίζονται μεταξύ τους. Οι R και Python είναι πιθανώς η γλώσσα προγραμματισμού που καθορίζει την επιστήμη των δεδομένων.

Πρέπει να επιλέξετε R;

Ο επιστήμονας δεδομένων μπορεί να χρησιμοποιήσει δύο εξαιρετικά εργαλεία: R και Python. Μπορεί να μην έχετε χρόνο να τα μάθετε και τα δύο, ειδικά αν ξεκινήσετε να μαθαίνετε την επιστήμη των δεδομένων. Εκμάθηση στατιστικής μοντελοποίησης και αλγορίθμουείναι πολύ πιο σημαντικό από το να μάθεις μια γλώσσα προγραμματισμού. Η γλώσσα προγραμματισμού είναι ένα εργαλείο για τον υπολογισμό και την επικοινωνία της ανακάλυψής σας. Το πιο σημαντικό έργο στην επιστήμη δεδομένων είναι ο τρόπος με τον οποίο χειρίζεστε τα δεδομένα: εισαγωγή, καθαρή, προετοιμασία, μηχανική χαρακτηριστικών, επιλογή χαρακτηριστικών. Αυτή θα πρέπει να είναι η κύρια εστίασή σας. Εάν προσπαθείτε να μάθετε R και Python ταυτόχρονα χωρίς ένα σταθερό υπόβαθρο στα στατιστικά, είναι απλό ηλίθιο. Οι επιστήμονες δεδομένων δεν είναι προγραμματιστές. Η δουλειά τους είναι να κατανοήσουν τα δεδομένα, να τα χειριστούν και να αποκαλύψουν την καλύτερη προσέγγιση. Εάν σκέφτεστε ποια γλώσσα να μάθετε, ας δούμε ποια γλώσσα είναι η πιο κατάλληλη για εσάς.

Το βασικό κοινό για την επιστήμη των δεδομένων είναι επαγγελματίας. Στην επιχείρηση, μια μεγάλη επίπτωση είναι η επικοινωνία. Υπάρχουν πολλοί τρόποι επικοινωνίας: αναφορά, εφαρμογή ιστού, πίνακας ελέγχου. Χρειάζεστε ένα εργαλείο που να τα κάνει όλα αυτά μαζί.

Είναι δύσκολο το R;

Πριν από χρόνια, ο Ρ ήταν μια δύσκολη γλώσσα για να μάθει. Η γλώσσα ήταν συγκεχυμένη και όχι τόσο δομημένη όσο τα άλλα εργαλεία προγραμματισμού. Για να ξεπεράσει αυτό το μεγάλο ζήτημα, ο Hadley Wickham ανέπτυξε μια συλλογή πακέτων που ονομάζεται tidyverse Ο κανόνας του παιχνιδιού άλλαξε για το καλύτερο. Ο χειρισμός δεδομένων γίνεται ασήμαντος και διαισθητικός. Η δημιουργία γραφήματος δεν ήταν πλέον τόσο δύσκολη.

Οι καλύτεροι αλγόριθμοι για τη μηχανική μάθηση μπορούν να εφαρμοστούν με τα R. Πακέτα όπως το Keras και το TensorFlow επιτρέπουν τη δημιουργία τεχνικής μηχανικής μάθησης υψηλού επιπέδου. Το R διαθέτει επίσης ένα πακέτο για να εκτελέσει το Xgboost, έναν από τους καλύτερους αλγόριθμους για τον διαγωνισμό Kaggle.

Το R μπορεί να επικοινωνήσει με την άλλη γλώσσα. Μπορείτε να καλέσετε Python, Java, C ++ στο R. Ο κόσμος των μεγάλων δεδομένων είναι επίσης προσβάσιμος στο R. Μπορείτε να συνδέσετε το R με διαφορετικές βάσεις δεδομένων όπως το Spark ή το Hadoop.

Τέλος, το R έχει εξελιχθεί και επέτρεψε την παράλληλη λειτουργία να επιταχύνει τον υπολογισμό. Στην πραγματικότητα, ο R δέχθηκε κριτική για τη χρήση μόνο μιας CPU κάθε φορά. Το παράλληλο πακέτο σάς επιτρέπει να εκτελείτε εργασίες σε διαφορετικούς πυρήνες του μηχανήματος.

Περίληψη

Με λίγα λόγια, το R είναι ένα εξαιρετικό εργαλείο για την εξερεύνηση και διερεύνηση των δεδομένων. Η λεπτομερής ανάλυση όπως ομαδοποίηση, συσχέτιση και μείωση δεδομένων γίνεται με τον R. Αυτό είναι το πιο κρίσιμο μέρος, χωρίς καλή μηχανική και μοντέλο, η ανάπτυξη της μηχανικής μάθησης δεν θα δώσει ουσιαστικά αποτελέσματα.