Je ne suis pas « matheux » ! Que dois-je faire ?
Les mots immortels de Douglas Adams : ne paniquez pas. La plupart des personnes, y compris les « matheux », ont une très mauvaise intuition statistique. C’est pourquoi les paris, les jeux à gratter et les casinos rapportent bien à leurs opérateurs.
L’idée ici est d’avoir un accès rapide aux outils qui vous orientent vers une analyse plus avancée, ou qui confirment/démentent votre intuition sur certains nombres qui vous ont été communiqués.
Lorsque je traite un nouveau jeu de données, je me pose quelques questions générales :
- Les données semblent-elles bizarres d’une certaine manière ?
- Ces chiffres suivent-ils une règle “de bon sens” pour ce que j’attends d’y voir ?
- Y a-t-il quelque chose qui devrait exister mais n’est pas présent ?
- Y a-t’il quelque chose qui existe et ne devrait pas ?
Regardons quelques conseils pratiques.
Les données sont-elles naturelles, synthétiques ou simplement bizarres ?
Les données « naturelles » obéissent à des règles : par exemple, la plupart des points doivent se situer vers la moyenne, et peu aux extrêmes. Cela ressemble à une courbe en cloche . Si j’examine les ventes d’un site de e-commerce et que je sais que la commande moyenne est d’environ 4 articles, la courbe devrait présenter très peu de paniers autour de 1 article, un peu plus autour de 2, jusqu’à 4, puis une décroissance à 5, avec tendance vers « personne n’achète plus de 7 articles ».
Notez que je n’ai pas inclus les paniers vides, car si je les incluais (dans le cas des taux de conversion par exemple), la majorité des clients quittant simplement le site sans rien acheter, ma courbe en cloche présenterait une forte pointe à zéro, suivie d’une descente abrupte à partir de ce point.
Je charge donc simplement le CSV, examine la courbe Gaussienne pour la taille des paniers, et vois ce qui se passe.
Si je vois deux pointes sur mon graphique, alors soit quelque chose ne va pas, soit mon intuition sur le site était erronée. Dans les deux cas, c’est un fait intéressant à creuser.
Un autre exemple est la croissance (ou décroissance) : si je constate une croissance exponentielle des revenus, je devrais observer une croissance correspondante des ventes. Je lance donc l’analyse Régression et examine mes deux courbes.
C’est également ainsi que vous pouvez repérer des données qui ont été modifiées ou sont synthétiques : la courbe que vous devriez voir est présente, mais elle est un peu trop parfaite et correspond presque exactement aux prédictions. Rien dans la nature (humaine ou réelle) n’est aussi lisse. Cela devrait chatouiller votre intuition — vos oreilles, vos pouces, ou peu importe ce que vous utilisez comme métaphore.
Et il existe des données qui n’ont aucun sens. Les visualiser peut vous aider à expliquer en mots pourquoi elles sont bizarres. Peut-être existe-t-il une connexion évidente entre deux éléments des données qui ne se voit nulle part ? Lorsque nous avons travaillé sur des jeux de données de partage de vélos avec des amis, nous avions naturellement supposé qu’il y aurait une différence entre la semaine et le week-end. En fait il n’y en avait aucune, les chiffres étaient à peu près les mêmes. C’est étrange, donc nous avons dû creuser plus profondément.
Quelle visualisation devrais-je commencer par utiliser ?
Je ne connais pas vos données. Personne ne les connait, à part vous et votre équipe. C’est pourquoi la seule réponse valable ici est « cela dépend ». Toutefois, quelques éléments peuvent vous aider dans les premières étapes.
La colonne que j’examine est-elle indépendante de tout le reste ?
Est-ce que je regarde un chiffre en relation avec un autre ou seul ? Par exemple, si je veux réapprovisionner ma boutique de t-shirts, je pourrais examiner la taille des t-shirts déjà vendus. Ensuite, je regarde la courbe Gaussien et stocke principalement ce que l’acheteur moyen prend. Ceci est indépendant de tout le reste : j’ai toutes les informations dont j’ai besoin en examinant simplement les tailles déjà vendues. Mais si je regarde la croissance, je regarde mes ventes en relation avec le temps, donc il y a deux colonnes que je dois considérer.
La plupart des visualisations prennent 1 ou 2 colonnes en paramètre ; n’oubliez pas qu’il est assez rare pour un nombre d’avoir du sens sans contexte.
Ai-je une hypothèse à vérifier ?
L’objectif ici est-il de vérifier quelque chose que vous pensez être vrai ? Spécifiez-le. Vous avez l’intuition qu’il existe un rythme saisonnier à vos données ? Tracez-le avec la date comme valeur X. Vous pensez que deux choses sont fortement liées entre elles ? Représentez-les l’une par rapport à l’autre.
Rappelez-vous simplement que ce sont vos données. Cela devrait avoir du sens pour vous.
Et si vous explorez un jeu de données (le terme haut de gamme pour une longue liste de nombres), commencez peut-être par examiner la Covariance (covariance) pour voir si deux colonnes semblent fortement corrélées ou non. Ensuite, recherchez des motifs : peut-être y a-t-il deux pointes sur le graphique qui indiquent des anomalies dans une courbe autrement lisse ? Peut-être que presque toutes les données sont du bruit, et que le jeu de données est inutilisable tel quel, vous devez donc demander davantage de chiffres ?
Regarde-t-on un indicateur spécifique ?
Peut-être êtes-vous déjà sur une piste. Peut-être que le seul chiffre qui vous intéresse est le nombre de pandas roux nés ce mois-ci. D’accord, alors examinez ce chiffre en relation avec chaque autre colonne de votre jeu de données ! Seul, est-ce une courbe en cloche ? C’est un phénomène naturel, donc il devrait probablement ressembler à une gaussienne, avec beaucoup de mois “moyens” et peu d’exceptions. Qu’est-ce que cela signifie si elle ne suit pas une courbe en cloche ? Et si je regarde le nombre de naissances en relation avec la température ce mois-ci ? Oh, cela ressemble à une autre courbe en cloche où la plupart des naissances surviennent autour de cette température ? Ou si je l’examine en relation avec la date, cela augmente-t-il, diminue-t-il ? Est-ce stable ? La espèce est-elle menacée d’extinction ?
Explorez simplement les relations entre votre « principal » intérêt et toutes les autres choses « potentiellement intéressantes » présentes.
Je m’amuse ! Je trouve des choses intéressantes ! Que faire à partir de là ?
Comme d’habitude, cela dépend…
Si votre analyse de données suffit à vous aider à prendre des décisions, prenez-les, puis revenez voir si les chiffres montrent le changement que vous souhaitiez.
Si votre analyse de données a éveillé votre curiosité et que vous devez creuser plus profondément, peut-être devriez-vous combiner plusieurs jeux de données pour vérifier ? Par exemple, vous avez découvert que la température suit un cycle saisonnier, mais qu’en est-il selon la latitude ? Ou la distance à l’océan ?
Si vous avez besoin d’outils mathématiques plus puissants, c’est un projet. Les statistiques ne sont pas du tout intuitives (contrairement à ce que la plupart des gens pensent — ha ! pris à mon propre piège !), et les formules mathématiques ne sont pas si difficiles, mais la méthodologie l’est. Si vous tentez d’avancer trop vite, cela tend à se transformer en erreurs de plus en plus importantes, donc tout est question de concentration, et de méthode rigoureuse, et il n’y a aucun substitut à la règle des 10 000 heures à cet égard. Mais je vous promets que les mathématiques ne sont pas super difficiles !