Πως θα διαχειριστώ ένα set δεδομένων με τον καλύτερο δυνατό τρόπο.

Στο παρακάτω κείμενο αναφέρονται μερικά tips σχετικά με την ανάλυση δεδομένων

Καθάρισε τα δεδομένα σου

Το κομμάτι αυτό είναι ίσως και το πιο χρονοβόρο καθώς απαιτεί αρκετή υπομονή και καλή κατανόηση στο τι ερώτημα θέλω τελικά να απαντήσω. Ένα βασικό κομμάτι αφορά το missing data,δηλαδή τις ελλιπείς παρατηρήσεις και τον τρόπο που θα τις διαχειριστώ. Θέλει ιδιαίτερη σκέψη στο τι μέθοδο θα χρησιμοποιήσω, απλά θα τις διαγράψω ή θα χρησιμοποιήσω κάποια μέθοδο αντικατάστασης ; 

Ξεκίνα την ανάλυση από βασικά περιγραφικά μέτρα

Ο καλύτερος  τρόπος για να κατανοήσεις τις μεταβλητές που έχεις στα χέρια σου είναι να υπολογίσεις κάποια βασικά περιγραφικά μέτρα όπως η μέση τιμή, η διασπορά, η διάμεσος και να παραχθούν κατάλληλα plots όπως το πολύ πληροφοριακό box plot και ιστογράμματα.

Τρέξε μοντέλα που σχετίζονται με τα ερωτήματα ενδιαφέροντος

Το τι μοντέλο θα χρησιμοποιήσω εξαρτάται από το ερώτημα που θέλω να απαντήσω. Για παράδειγμα αν θες να προβλέψεις μία ποσοτική μεταβλητή το πρώτο πράγμα που μπορεί να σου έρθει στο μυαλό είναι ένα γραμμικό μοντέλο. Παρ' όλα αυτά  πάντα πρέπει να ελέγχεται κατά πόσο οι υποθέσεις του εκάστοτε μοντέλου πληρούνται και το λεγόμενο bias - variance trade off.

Σύγκρινε τα μοντέλα και επέλεξε το καλύτερο

Ακόμα και να επιλεχθεί ένα μοντέλο πχ το γραμμικό πρέπει να βρεθεί και μία λύση για το πόσες μεταβλητές πρέπει να χρησιμοποιήσουμε σε αυτό και σε αυτό το κομμάτι χρησιμοποιούνται αλγόριθμοι και μέτρα για να συγκρίνουμε το κάθε μοντέλο και να δούμε πιο είναι καλύτερο με βάση ένα ποιοτικό μέτρο όπως το adjusted R square.