Les bases de la data science avec Python

157.54k views18872 WordsCopy TextShare

Docstring

NOUVEAU : Certifie tes compétences avec ton CPF et notre programme TOSA : https://bit.ly/4dRF2MQ Da...

Video Transcript:

la vidéo que vous êtes en train de regarder provient des formations gratuites de doc string pour cette formation sur la bibliothèque panda les utilisateurs abonnés à doctrine trouveront à la fin de la formation des exercices à réaliser pour vous entraîner donc si ça vous intéresse vous pouvez vous abonner à doc string point fr pour avoir accès à tout le contenu du site vous trouverez tous les liens dans la description également si vous souhaitez davantage de formations gratuites n'hésitez pas à vous abonner à la chaîne et à mettre un pouce bleus pour encourager la création de

nouveaux contenus dans les prochaines parties de cette formation on va apprendre les bases de la data sayan avec la bibliothèque panda la data sayan ce qu'on appelle en français sciences des données c'est un sujet très vaste qui nécessite des mois voire des années de formation pour en faire un peu près le tour vous allez également être confrontés à des notions de mathématiques quelque peu avancé lors de l'analyse de ces données cependant il y a énormément de choses que vous pouvez faire avec des fonctions mathématiques de base comme les sommes ou les moyennes et la bibliothèque

panda est très facile à prendre en main dans les prochaines parties on va donc s'intéresser aux bases de la data signs avec cette bibliothèque on va déjà voir comment installer jupiter l'ap qui va nous permettre de créer des notebook jupiter dans lesquels on peut facilement récupérées et analyser des données c'est notre bout qu'ils vont nous permettre d'afficher les données et les graphiques avec lesquels on travaille ça permet également de garder une trace de toutes les opérations que l'on va effectuer pour partir des données brutes est arrivé à une conclusion on va ensuite voir les bases

de la bibliothèque panda et comment on peut l'utiliser pour récupérer les données de différents types de fichiers comme les fichiers csv ou encore les fichiers excel on va voir comment sélectionner des zones et comment en ajouter en supprimer est également comment filtrer les données selon certaines conditions on verra ensuite comment afficher des graphiques avec la bibliothèque matt blocs libres à partir des analyses effectuées avec panda et pour finir ça sera à vous de jouer à partir d'un vrai jeu de données qui provient de netflix et avec lequel on va travailler pour entre autres récupérer la

liste de tous les réalisateurs présents sur la plateforme ou encore les pays qui produisent le plus de films vous allez voir avec cette formation qu'il est possible avec seulement les connaissances de base de panda et quelques fonctions mathématiques de niveau collège qu'on peut déjà analyser et traiter énormément de données avec python avant d'aller plus loin dans la formation on va parler un peu de ce qu'est tout simplement la science des données donc qu'on appelle science des données en français mais que vous retrouverez bien plus souvent sous le terme anglais de data signs donc c'est la

même chose alors qu'est ce que le data c'est ainsi qu'est ce que la science des données on pourrait dire que c'est en fait la rencontre entre deux éléments entrent d'abord ce qu'on appelle le big data et ensuite l'analyse de ces données donc le big data qu'est ce que c'est c'est tout simplement un terme qui signifie que depuis une dizaine une vingtaine d'années depuis en fait la démocratisation du numérique qu'on a en fait énormément de donner à notre disposition que l'on n'avait pas avant de penser à tout ce que vous faites en ligne actuellement que ce

soit pour lire des articles de journaux pour lire des livres à faire des achats toutes ces choses là avant on les faisait et on n'avait pas en fait de moyen de savoir ce que vous faisiez maintenant avec tout ce qu'on fait en ligne pour le meilleur ou pour le pire on récolte énormément de données que l'on peut ensuite donc traitées et analysées pour en tirer des conclusions donc c'est vraiment en fait ça la data series mc analyser des données pour en tirer des conclusions et c'est pour ça que c'est très intéressant c'est un très grand

pouvoir mais c'est aussi très dangereux puisque forcément les données elles mêmes elles ne veulent rien dire les données ça va être par exemple des dates des nombres des chaînes de caractères donc des données tout seul ça ne veut rien dire et en fait c'est juste vous qui allez récupérer ses données et qui allait les faire parler et forcément il peut y avoir des billets en fonction de la personne qui analyse les données est également en fonction des données que vous avez de base si vous utilisez des données de base qui ne sont pas complètes et

bien vous pouvez en tirer des conclusions qui ne sont pas forcément vrai alors il a encore le domaine de la vérité dans la data sayan est assez abstrait puisqu'il n'y a pas de vérité il n'ya juste une vérité en fonction de la personne qui va analyser ces données donc vous voyez vraiment la responsabilité que peut avoir quelqu'un qui travaille dans ce domaine alors bien sûr il ya beaucoup de choses qui permettent d'enlever ces biais mais il faut être conscient que en fait c'est pas les données qui parle c'est vous qui allez faire parler ces données

pour en tirer des conclusions il faut savoir aussi que ça peut devenir rapidement très complexe on peut avoir des notions de mathématiques et de statistique avancée mais il ne faut pas non plus en avoir peur il ya beaucoup de gens qui se limitent en se disant qu'ils sont mauvais en maths et que ils ne vont pas pouvoir faire deux dates assaillants ne faut pas avoir peur on peut déjà en fait faire énormément de choses avec des outils très basiques comme des moyennes ou des pourcentages si vous voulez faire la moyenne ou la somme d'un tableau

et bien c'est des notions très simple à comprendre et qui peuvent déjà vous donner énormément d'informations donc on n'est pas obligé de faire des statistiques très avancé des courbes régressive et c'est pour tirer des conclusions avec des méthodes de base on peut déjà beaucoup faire parler les nombres l'objectif est également de la data sayan ça va être d'automatiser après ces processus c'est d'avoir en fait un script qui va pouvoir aller récupérer les données les données elles elles vont être mises à jour et le but si donc pas d'avoir quelqu'un qui à chaque fois va faire

les statistiques à la main mais c'est d'avoir plutôt donc des algorithmes qui à terme vont permettre à partir des données récoltées par exemple sur votre site web sur une plate forme quelconque de tirer des conclusions qui vont évoluer dans le temps donc pour que ce soit un peu plus parlant je vais vous donner quelques exemples sur deux sites bien connus déjà sur doc string donc mon site sur lequel vous pouvez apprendre python et on verra également quelques exemples pour netflix donc sur doc string j'ai plein de données qui sont disponibles à partir de ma base

de données et qui me permettrait de répondre à certaines questions par exemple d'où viennent les nouveaux utilisateurs et ce qu'ils viennent de youtube et ce qu'ils viennent de facebook et ce qu'ils viennent de certaines publicités ciblées ou de chose du genre donc ça c'est des informations que je peux récupérer à partir de ma base de données est là comme vous le voyez il ne s'agit pas de statistiques avancées il s'agit juste en fait de savoir par exemple que j'ai 150 personnes qui viennent de youtube que j'en ai 50 qui viennent de facebook et que donc

youtube est une meilleure source de nouveaux utilisateurs et après je peux en tirer les conclusions que je souhaite pour par exemple si je faisais de la publicité en mettre plus sur youtube ou sur facebook ensuite quels sont les vidéos les plus regardées donc je peux avoir des statistiques pour savoir quelle vidéo sur le site sont le plus regardé et ainsi là encore potentiellement renforcer ses vidéos ou m'assurer qu'elles ne contiennent pas d'erreur quelle est la journée avec le plus de connexions dans la semaine là aussi pour prévoir au niveau du serveur les pics de connexion

et pouvoir y répondre pour que le site web soit toujours le plus rapide possible est également combien d'utilisateurs se sont connectés dans les 30 derniers jours puisque actuellement je sais combien d'utilisateurs g sur doc string mais ça ne veut pas dire grand chose en soi si j'ai 5000 utilisateurs mais qu'il n'y en a que 5 qui se sont connectés sur les 30 derniers jours vous êtes d'accord que ce n'est pas la même chose que d'avoir 5000 utilisateurs ils sont connectés tous les jours donc voilà le genre de questions que je pourrais me poser et auxquelles

les données pourraient m'apporter des réponses si on regarde maintenant sur netflix avec un autre jeu de données du coup on pourrait avoir envie de savoir quel est le pays avec la plus forte croissance en nombre d'utilisateurs donc là on pourrait tracer un graphique avec le nombre d'utilisateurs par pays et avec les courbes voir quel est le pays qui a la plus grande croissance donc là encore rien de bien compliqué c'est juste une moyenne et en suit une courbe que l'on peut analyser si ça monte et ça descend et on en tire des conclusions en moyenne

combien de temps les utilisateurs reste-t-il abonnés pour savoir à peu près combien de temps un utilisateur reste sur notre plateforme quels sont les genres de films les plus populaires donc là encore on pourrait à partir des données de connexion des utilisateurs savoir quel genre de film ils regardent et voir les gens qui sont les plus populaires dans toute la plateforme ou alors même par pays on pourrait également avoir envie de savoir dans quel pays les utilisateurs dépensent le plus donc leur encore des exemples où comme je vous dis il n'y a pas vraiment besoin de

faire des statistiques très avancé c'est vraiment juste récupérer les données de connexion les données par pays par genre de film regardez le nombre d'euros ou de dollars qui sont dépensés par personne et ensuite faire des moyennes additionner tout ça et éventuellement les afficher sur une durée donc entre par exemple 2015 et 2020 pour voir l'évolution de ces tendances donc voilà quelques exemples j'espère que ça vous permet de voir le type de question qu'on peut se poser est comment dans cette formation on va pouvoir y répondre donc dans les prochaines parties on va voir comment récupérer

les données à partir de différents fichiers comment les analyser comment faire du tri également pour filtrer les données qui ne sont pas valides et comment donc ensuite analyser tout ça pour répondre à ce genre de questions installez jeu terrab sur windows on va utiliser guide bâches et on va utiliser le pai launcher donc vous pouvez utiliser soit la commande python directement soit si vous avez plusieurs versions de python le punisher moi je vais utiliser donc le pitch est spécifié que je souhaite utiliser la version 3.92 python donc pays y espace tirait 3.9 et ensuite on

veut utiliser pipe pour installer le paquet de jupiter lab donc tirer m pipe installed jupiter lab en un seul mot comme ceci donc là on fait ce qu'on dit c'est qu'on va utiliser le module pipe avec la version 3.92 python et on va utiliser la commande installe pour installer jupiter là donc je valide avec entrée on va attendre que l'installation se termine il ya beaucoup de choses à installer donc ne vous en faites pas ça va prendre un petit peu de temps donc une fois que s'est installée on va juste pour être sûr redémarrer guide

beh c'est une bonne idée pour que tout soit bien pris en compte donc je relance quitte bâches et on va ensuite pouvoir lancer jupiter lab en passant par le même paille launcher donc on va utiliser paix y tirer à trois points 9 tirs m et cette fois ci on va indiquer directement le nom du module donc jupiter lab et ça va nous permettre de lancer jupiter lab à l'intérieur du dossier dans lequel on se trouve donc ça c'est bien important là je suis dans le dossier utilisateur donc ça va a lancé jupiter lab dans ce

dossier vous allez voir qu'on va retrouver la structure de dossiers de mon dossier utilisateur dans jupiter lab une fois qu'il sera correctement lancé donc là effectivement vous voyez on est dans ce dossier si je laisse mon curseur sur le dossier on voit que je suis bien dans ces deux points slash users thibault et on a tous les dossiers ici donc si vous voulez lancer jupiter là dans un autre dossier eh bien il faudra naviguer à l'intérieur de ce dossier est lancé cette commande donc pays y tirer à trois points 9-11 jupiter lab dans un autre

dossier une fois que vous avez donc correctement installé jupiter lab on va installer une autre bibliothèque que l'on va utiliser dans la suite de la formation cette bibliothèque c'est la bibliothèque panda donc avec un s comme ceci donc on va réutiliser paix y tirer trois points 9 avec thierry aime pipe cette fois ci pour installer panda donc n'oubliez pas le s à la fin tout en minuscules et je valide avec entrée pour lancer l'installation donc on attend que ça se termine et on va pouvoir ensuite relancé notre jupiter lab pour vérifier qu'on a bien accès

à cette bibliothèque donc l'installation s'est correctement déroulée je vais créer un dossier déjà qui va contenir tous les fichiers de cette formation donc on va créer un dossier avec mk dire je vais l'appeler tout simplement data size et je vais naviguer à l'intérieur de ce dossier à l'intérieur de ce dossier on va lancer donc jupiter lab avec paix y tirer à trois points 9 tiers m jupiter lab donc là encore on passe par le pilote shirt pour lancer ce module et ça devrait nous ouvrir automatiquement un navigateur internet voilà sinon vous pouvez vous rendre à

l'adresse qui est indiqué ici dans votre terminal guide bâche qu'on va attendre que sa charge et une fois que ses charges et on va créer un notebook donc là si je mets mon curseur on voit que je suis bien dans le dossier data sayan ce pour créer un autre bouc on clique en dessous de notebook ici sur python 3 ça va nous créer un autre bouc vous pouvez le renommé bien entendu donc là je pourrai renommer sa est la plaie installations panda ce n'est pas obligatoire là c'est juste pour avoir quelque chose d'un peu plus

clair et ici on va juste faire un test donc on va importer la librairie panda en faisant in polt panda ce avec un s là encore je valide avec shift entrée on attend que ça se termine et là normalement si vous avez bien installé la bibliothèque panda vous devriez avoir l'import qui est correctement effectuée donc c'est le cas ici j'ai bien accès à cette bibliothèque et si je la fiche donc juste en mettant panda et en faisant chiffres d'entrées on a bien la bibliothèque panda qui est à l'intérieur de python 3.962 packages ici donc ça

fonctionne parfaitement et on va pouvoir donc par la suite utiliser cette bibliothèque à l'intérieur de nos notebook dans jupiter lab donc à chaque fois vous lanciez jupiter lab dans le bon dossier en utilisant le pylône chat avec votre version de python et en utilisant donc le module jupiter lab en minuscule sans espaces dans cette formation on va utiliser jupiter lab qui est une version de jupiter notebook un peu plus avancée qui va nous permettre donc de créer des notebook jupiter et d'écrire noscript dans cette formation on veut utiliser la version 3.92 python donc je vais

utiliser python 3.9 et je vais utiliser pipe pour installer jupiter lab donc on va faire tirer m pipe donc ça ça me permet de spécifier avec le tir m que je souhaite utiliser le module pipe avec python 3.9 donc python 3 points 9-1 pipe installed et on va installer jupiter lab en un seul mot sentirait donc tout coller je valide avec entrée et j'attends que l'installation se déroule donc vous voyez que c'est assez rapide je vais ensuite créer un dossier à l'intérieur de mon dossier utilisateur donc là je me trouve directement dans mon dossier your

soul seebach alors je vais créer avec mk dire un dossier que je vais appeler data sayan sais je vais rentrer à l'intérieur de ce dossier avec la commande céder donc je suis bien à l'intérieur de mon dossier et on va pouvoir lancer maintenant notre jupiter notebook avec la commande jupiter tirait lab donc là dans ce cas si on met un tiret on appuyez sur entrée pour valider et ça va ouvrir un onglet dans votre navigateur internet donc une fois que le serveur est lancée normalement il vous a automatiquement ouvert un navigateur si ce n'est pas

le cas vous avez l'adresse à laquelle vous pouvez accéder à votre notebook donc avec cette adresse ici qui vous indiquent local rose 2.888 8 et le lab et le token donc vous pouvez copier cette url - il a automatiquement ou vers l'onglet pour moi à l'intérieur de chrome et je suis bien donc dans mon notebook jupiter donc pour l'instant on n'a rien donc là on se trouve dans notre dossier data sayan ce donc là si je met le curseur sur le dossier vous voyez qu'on a le chemin qui est affiché donc faites bien attention ouvrait

bien votre jupiter là bas à l'intérieur du dossier de votre projet donc là on a navigué à l'intérieur du dossier data science et ensuite on a lancé la commande jupiter tiré là bas à l'intérieur de ce dossier donc là si je crée des éléments par exemple ici si je crée un nouveau notebook il sera créé à l'intérieur de ce dossier data science donc lorsqu'on va faire c'est créer un nouveau notebook je vais cliquez ici après notebook sur python 3 et ça crée un autre bouc qui s'appelle untitled point ip y end donc hype high tone

notebook et maintenant il faut qu'on installe les librairies panda qui est la librairie qu'on va utiliser pour faire du traitement de données alors pour installer cette bibliothèque panda on va passer par une façon un petit peu détournée on va utiliser le module 6 et on va utiliser cette syntaxe ici qui va aller chercher l'exécutable qui est utilisé par notre notebook jupiter donc on pourrait passer par pitons 3.9 puisque c'est l'exécutable qu'on a utilisées mais cette façon de faire va vous assurer en fait que vous utilisez bien le bon exécutable qui va être utilisé par jupiter

notebook donc par votre notebook ici donc on importe le module 6 on met le point d'exclamation les accolades six points exécutable donc ça ça va être l'exécutable deux pythons et ensuite on utilise thierrée m pipe in store pour installer le module panda avec pipe donc je valide en faisant shift entrées et là ça va lancer l'installation de panda donc on attend que ça se termine moi dans mon cas je l'avais déjà installés donc vous voyez que ça me dit et redit satisfied et j'ai bien panda qui a été installé avec python 3 points 9 donc

si je veut importer le module pour vérifier que ça fonctionne je peux faire in poland has je valide là encore avec chiffres entrez et vous voyez que la notre rapport s'est bien effectuée sans erreur donc voilà pour l'installation de jupiter lab qui nous permet de créer des notebook jupiter et l'installation de la librairie panda que l'on va utiliser dans la suite de cette formation dans cette partie on va voir comment lire un fichier csv avec la bibliothèque panda donc panda c'est la bibliothèque qui va nous permettre de réaliser toutes les opérations que l'on souhaite sur

nos fichiers csv ou sur d'autres types de fichiers comme des fichiers excel ou encore des fichiers jacen donc avec cette session vous retrouverez deux fichiers sources data point csv et netflix titled princesse vais donc télécharger les et mettez les dans votre dossier et si on double cliquer dessus vous allez voir donc ce que contiennent ces deux fichiers le fichier data qui contient en fait tout simplement des personnes avec le prix qu'ils ont payé pour une formation donc ce sont des données de tests ne sont pas des vraies personnes ni des vrais adresse e-mail et tous

ca a été généré aléatoirement avec un site qui s'appelle mocquard ou donc c'est un site très pratique si vous souhaitez générer des données aléatoires pour vous entraîner donc ça c'est le premier dataset que l'on va utiliser pour découvrir la bibliothèque panda et ensuite vous avez un fichier csv qui est netflix titles point csv qui contient lui cette fois ci des vraies données qui proviennent de netflix donc tous les films les séries télé etc de netflix avec leur durée les acteurs etc et c'est donc plein de choses importantes qu'on va pouvoir utiliser dans cette formation donc

ce qu'on va faire c'est déjà créé un jupiter notebook donc pour ça sur le launcher ici vous cliquez sur python 3 en dessous de notebook sinon vous pouvez cliquer sur le plus donc si vous n'avez pas de launcher d'ouvert vous cliquez sur le plus pour ouvrir un launcher et vous créez un notebook en cliquant ici sur python 3 il va renommer notre notebook en faisant un clic droit et en cliquant sur oui name notebook donc on va l'appeler 01 lecture fichiers je leur donne ici en cliquant sur oui name et je vais également changé l'interface

en allant dans settings ici je vais me mettre en mode sombres pour ne pas vous cramer la rétine donc maintenant qu'on a notre jupiter notebook qui a été créé je vais également grossir un petit peu l'affichage de mon navigateur pour que vous y voyez quelque chose et je vais que l'ap s'est donc cette partie ici en cliquant sur le dossier donc on va commencer par importer la librairie panda donc on fait une porte panda et on importe généralement en tant que pays dit alors je le prononce al anglaise vous vous doutez pourquoi je vous laisse

le prononcé en français et vous comprendrez donc in polt panda azpi dit et avec donc qui dit ici on va pouvoir utiliser diverses fonctions qui vont nous permettre de lire des fichiers que ce soit des fichiers csv ou encore des fichiers excel directement on a plusieurs formats de fichiers qui sont supportés donc pour exécuter cette cellule je fais shift entrer ça va exécuter la cellule quand vous voyez la petite * ici ça veut dire que l'import est toujours en cours donc la cellule est en train d'être exécuté et une fois qu'on a le numéro ici

qui s'affiche ça veut dire que la cellule a été correctement exécuté et ensuite je vais pouvoir écrire d'autres lignes de code dans d'autres cellules ici vous pouvez également changer pour mettre du marc d'armes à la place du code donc si je change ici cette cellule pour mettre du markstein vous pourrez par exemple mettre des annotations donc par exemple ici on pourrait mettre lecture d'un fichier csv je valide là encore avec shift entrées et on peut bien entendu déplacer ces cellules en les prenant et en les déplaçant donc là voilà j'ai une cellule avec du marc

da et ensuite une cellule avec du code je vais aller dans cette deuxième cellule ici pour maintenant récupérer les données de mon fichier dat appoint csv donc le fichier qui se trouvent ici qui est dans le même dossier que mon notebook jupiter donc % veut utiliser pi 10 points reid tiré du bas csv vous avez plusieurs fonctions comme ça on a ride csv on est également reid excel ou encore bridgestone qui vont vous permettre de lire différents types de fichiers donc nous on va lire un fichier csv on va mettre le chemin vers le fichier

on peut mettre un chemin relatifs donc dans notre cas on va mettre data csv puisque le fichier csv se trouve dans le même dossier donc ça c'est vraiment parce qu'il est ici que je peux utiliser ce chemin relatif sinon vous pouvez mettre le chemin complet vers ce fichier csv donc si vous revenez dans les fichiers ici vous pouvez faire un clic droit et faire copie pâte et ça va vous copier automatiquement le chemin de ce fichier donc le chemin relatifs dans ce cas-ci à partir de mon notebook jupiter on va récupérer tout ce que nous

retourne cette fonction dans une variable qu'on appelle généralement des fdf pourquoi pour data frime donc data frime comme ceux ci c'est en fait le type de l'objet que l'on va récupérer en utilisant cette fonction donc je fais chiffres d'entrées pour exécuter cette cellule et ensuite on va pouvoir afficher df donc je fais tout simplement df je ne suis pas obligé de faire un print si j'ai juste ça dans ma cellule donc on peut faire print et ça marchera de la même façon mais si vous avez juste un élément que vous souhaitez afficher vous pouvez juste

mettre le nom de la variable faire chiffres d'entrée et ça va afficher ce que contient cette variable donc ça ne va pas tout afficher puisque vous voyez qui si on a pas mal de choses on a 1000 ranger et dix colonnes donc c'est en fait ce que contient notre data 7 si on va avoir notre data 7 en cliquant sur datta csv on voit ici qu'on a toutes les colonnes et les 1000 ranger qui constitue notre data 7 donc en fait ce qu'on a fait ici c'est tout simplement récupérer ce dataset donc ce fichier csv

dans une variable que l'on va pouvoir par la suite manipuler avec la bibliothèque panda donc voilà comment lire un fichier tout simplement avec ses fonctions comme je vous dis rien à plusieurs donc louis ii csv pour les fichiers csv les fichiers csv ce sont des fichiers qui sont séparées par des virgules en fait c'est ce que signifie cette extension csv ça signifie comme a separate and value ce donc en fait c'est des valeurs séparées par des virgules tout simplement et on pourrait donc très bien lire un fichier excel avec la fonction reid excellent si on

avait un fichier excel donc voilà comment lire des données avec panda et vous avez maintenant votre notebook jupiter qui va conserver ces informations donc je peux le faire mais je peux faire ça ici pour sauvegarder mes changements et si j'ouvre de nouveau mon fichier en double cliquant dessus vous voyez que l'on retrouve tout ce que l'on avait écrit à l'intérieur de notre fichier si jamais vous fermez votre jupiter l'a donc si on retourne dans notre terminal qu'on arrête jupiter lab et qu'on leur lance il faudra réguler ces lignes de code pour ça vous pouvez aller

dans le règne ici et cliquez sur run olsen donc ça ça va en fait relancer tout simplement toutes les cellules de votre notebook jupiter donc si je fais reine rols elle vous voyez que là tout est relancé et on a les numéros qui sont mis à jour puisque maintenant ce n'est plus la première deuxième et troisième exécution mais la 4ème 5ème et 6ème exécution et on peut continuer bien sûr ici avec d'autres lignes de codes à l'intérieur de notre notebook dans cette partie on va voir comment récupérer des informations de base sur notre data frime

donc je vais créer un nouveau notebook jupiter donc ici dans mon lunch heures je vais cliquez sur python 3 et on va renommer ce notebook on va l'appeler 02 analyse donné et je clique sur l'unm pour renault mais ce notebook donc on va commencer par un portait notre librairie panda et lire les données à l'intérieur du fichier csv ton qu'on fait in power panda à speedy et on peut bien entendu mettre plusieurs lignes de code dans la même cellule donc si je fais tout simplement entrer je vais pouvoir taper plusieurs lignes à la suite donc

là on va refaire notre variable df puis 10.86 s vie et on va lire le fichier dat à pointe csv donc si je valide cette fois ci avec chiffres d'entrées j'ai bien maintenant dans la variable d f mon fichier csv qui est disponible donc ce qu'on va pouvoir faire déjà c'est récupéré seulement certaines parties de notre fichier là quand on fait des f vous voyez qu'il nous affiche les premières lignes donc on a les cinq premières lignes et les cinq dernières lignes et quelques informations comme par exemple le nombre de rangées et le nombre de

colonnes donc les ranger c'est tout ce qu'on a ici ont à chaque fois on a une rangée c'est vraiment comme un tableau excel et on a les colonnes ici avec heidi date first name last time etc la première méthode qu'on va voir c'est la méthode aide qui va en fait nous retourner à peu près la même chose sauf que ça va afficher uniquement les cinq premières entrées de la même façon on peut récupérer les cinq dernières entrées avec cette fois-ci tail donc df pointe elle est là vous allez voir qu'on a les cinq dernières entrées

uniquement donc ça c'est ce qu'ont fait généralement pour ne pas avoir trop d'éléments d'affiché quand on veut juste avoir un aperçu de notre data frime on peut utiliser aide et l ça peut être assez intéressant de regarder le début et la fin pour voir si ça se ressemble que ce soit au début du tableau ou à la fin de notre tableau donc là on voit que les données sont similaires que ce soit au début ou à la fin et aides et elles nous permettent de ne pas afficher trop d'informations si jamais on souhaite afficher un

peu plus d'informations que juste les cinq premiers ou les cinq derniers éléments on peut spécifier dans head ou dentelle le nombre d'éléments qu'on souhaite afficher donc si je mets 10 ici vous allez voir que j'ai dix éléments qui sont affichés au lieu des 5 par défaut si on veut savoir le nombre de rangées et de colonnes qui sont à l'intérieur de notre data frime on peut utiliser la tribu chef donc df princes cheicks dans ce cas ci ce n'est pas une méthode c'est vraiment un attribut donc il ne faut pas mettre de parenthèse je valide

avec shift entrées et là en fait ça va nous retourner dans un tube le nombre de rangées et le nombre de cols donc on retrouve en fait ce qu'on avait au tout début quand on avait juste affiché df si je reviens ici que je fais des f vous pouvez bien entendu dans un autre bouc jupiter revenir à un endroit de votre notebook pour modifier le code et si je refais chiffres d'entrées vous voyez que la le numéro correspond à la cellule que je suis en train d'exécuter donc là en fait on était à 1 et

maintenant on est à 7 puisque ici avec le shape j'étais assiste donc ça c'est juste un petit détail et vous voyez que j'ai donc exécuter cette cellule et on voit que quand on affiche df tout simplement on a cette information donc le nombre de rangées et de colonnes qui est affichée en bas donc là je vais juste enlevé l'edf je vais juste refaire voilà le weed 6s vie sans afficher des f si jamais vous voulez donc revenir sains et un peu plus clean avec les numéros comme on l'avait vu vous pouvez faire ' or le

ciel comme ça et ça va tout relancé en repartant donc 9 10 11 etc si vous voulez vraiment tout relancer et ne pas repartir un 9 10 11 etc vous pouvez relancer ce qu'on appelle le kernel en allant dans canal donc vous faites restart carnel donc le mieux c'est de faire l'historique arnel and clear or la route et vous pouvez également relancé le kernel et relancer toutes les cellules en un coup donc en cliquant sur cette option ici on clique sur restart et là vous voyez que ça va tout relancer donc tout le notebook au

complet en repartant de 1 donc petite précision pour revenir à quelque chose d'un peu plus clean si ça vous perturbe d'avoir des numéros différents ici donc là avec shape ça nous permet d'afficher très rapidement juste le nombre de rangées et le nombre de colonnes on peut également afficher les informations sur les colonnes et les rangées en utilisant la tribu colonnes ce donc là ça va nous afficher en fait l'index de nos colonnes donc on a un objet de type index avec le nom des colonnes on peut récupérer à chaque fois ces éléments quand vous avez

un objet comme ça qui est un petit peu différent en fait c'est un objet panda on peut le récupérer sous forme d'objets python donc des objets qu'on connaît un peu plus en utilisant la méthode tout liste donc je fais chiffres d'entrées et là en fait ça va me retourner cette fois ci colonne sous forme de liste donc c'est là encore une petite précision c'est juste au niveau de l'affichage voilà si on met juste colonnes on a cet objet qui peut être un petit peu perturbant mais en fait nous ce qui nous intéresse c'est juste le

nom des colonnes et on peut faire la même chose avec les index donc on va faire des f point index et dans ce cas-ci index ça va nous retourner le ce qu'on a ici en fait donc dans notre cas l'index c'est tout simplement un numéro donc 0 1 2 3 etc jusqu'à 1000 dans notre cas enfin 999 puisqu'on a mis leurs rangées et on commence à 0 donc ça c'est l'index et on peut bien entendu modifier cet index pour l'instant on a un index qui correspond à des nombres et c'est ce que nous retourne ici

cette information on a un run jean d'aix on commence à zéro on s'arrête à milan on a un step 2 1 si on souhaite modifier l'index on peut le faire par exemple on pourrait souhaiter changer l'index pour mettre l'adresse email à la place d'un numéro arbitraire comme on a actuellement et pour ce faire on peut utiliser cet index et on va spécifié le nom de la colonne qu'on souhaite utiliser donc dans notre cas on veut utiliser la colonne email si je fais ça je valide avec shift entrée vous voyez qu'on a modifié notre index donc

c'est la valeur qui est utilisé pour chaque rangée ici et on a bien l'email qui est utilisé maintenant pour notre index on remarque également qu'on a toujours mille ranger et on a cette fois ci neuf colonnes donc la colonne de l'e-mail a été enlevé et elle a été utilisée pour l'index donc on a plus de dix colonnes comme auparavant mais uniquement neuf dans ce cas ci vous remarquerez également que si je refais un print d'edf on a encore en index le numéro donc de zéro à 999 donc pourquoi tout simplement parce que quand on fait

une méthode comme ceux-ci cet index on ne va pas modifier directement notre variable df donc dans beaucoup de fonctions comme celles ci vous allez retrouver souvent un paramètre qui s'appelle in place qui va nous permettre de modifier directement l'objet alors on pourrait ne pas utiliser ce paramètre in place est tout simplement écrasé la variable que l'on avait donc on recrée une variable d f qui est égale à elle-même sur laquelle on a modifié l'index ça c'est une façon de faire et pour faire plus simple on peut spécifier donc ce paramètre une place égale à chew

et si je fais ça là ça va vraiment en fait modifier cette variable et si je re a fish df par la suite là vous voyez que cette fois ci des f a bien été modifié et qu'on a bien maintenant l'e-mail qui est utilisé pour l'index si maintenant j'affiche de nouveaux l'index en faisant des f point index vous voyez que cette fois ci on a une liste qui contient des objets donc de type i mais l'on voit ici le nom email on a toujours mille éléments dont qmi le ranger sauf que cette fois ci plutôt

que d'avoir des nombres et bien on a des adresses email donc des chaînes de caractères tout simplement donc voilà comment analyser les données que l'on a à l'intérieur de notre data frame pour afficher tout notre data from où certaines parties avec ed ou tail ça ressemble beaucoup donc à ce qu'on a à l'intérieur de notre fichier excel où notre fichier csv dans ce cas ci et ça nous permet d'analyser les données que l'on a donc d'avoir un aperçu de ce à quoi ressemble nos données est également le nombre d'éléments que l'on a avec le nombre

de rangées et le nombre de colonnes dans cette vidéo on va voir comment sélectionner différentes données à l'intérieur de notre data from donc là j'ai ouvert un nouveau notebook jupiter et j'ai récupéré mon fichier csv dans une variable d f donc la première chose qu'on va vouloir faire généralement c'est récupérer les informations d'une colonne en particulier si j'affiche mon data freine donc juste les cinq premières entrées avec la méthode est dit ici je pourrai par exemple vouloir afficher uniquement la colonne email pour ça on peut utiliser les crochets et indiquées dans une chaîne de caractères

le nom de la colonne qu'on souhaite récupérer sur cette colonne jeu peut réutiliser la méthode aide qui me permet de n'afficher que les cinq premiers éléments si je n'utilise pas cette méthode ça va ma fiche et là encore les cinq premiers et les cinq derniers éléments mais cet objet on peut très bien utiliser la méthode aide dessus pour ne récupérer que les cinq premières entrées on peut également récupéré une colonne en utilisant la tribu du nom de la colonne alors ça marche si on a une colonne qui n'a pas d' espaces dans le non si

vous avez des espaces il faudra passer par cette façon de faire mais dans le cas de lies mail par exemple on peut faire des f point email donc en fait la colonne sous forme d'attributs et ça va nous retourner exactement la même chose que ce qu'on avait avec les crochets donc une autre façon d'accéder aux données d'une colonne vous allez voir que là il ya quelque chose de très important à comprendre c'est la différence entre le data frame et les séries alors on ne va pas rentrer à fond dans le détail de nos mbaye et

tout ce qui se passe en arrière plan mais c'est quand même assez important de comprendre ces deux objets qui sont les deux types d'objets avec lesquels on travaille régulièrement avec panda donc si j'utilise la fonction time sur des f vous allez voir qu'on a ce qu'on appelle un data fring si par contre j'utilise la fonction de taille aps sur des f point email donc sur la colonne email de monde à ta frame cette fois ci j'ai un objet qui s'appelle series ici est donc en fait tout simplement pour résumer la chose data from c'est le

tableau complet donc avec des rangées et des colonnes et series c'est tout simplement une seule colonne à l'intérieur de notre data feront donc si je reviens dans mon fichier csv dans data point csv ici notre data frime donc df dans ce cas ci c'est vraiment tout ce qu'on a ici c'est à la fois déranger ici et des colonnes donc plusieurs colonnes avec la colonie des dates facetime et c est une série ça va tout simplement être un seul élément ici donc par exemple la colonne last name la colonne emails ou encore la colonne gender donc

en fait un data from si vous voulez c'est comme un agencement de plusieurs séries les unes avec les autres vous remarquez cependant quand on affiche une série donc comme on le fait ici avec des f point email qu'on a quand même un numéro qui est associé donc on a quand même un index à chaque fois 0 1 2 3 4 ici qui est associé à chaque adresse email donc même si on a en fait qu'une seule colonne on va quand même avoir à chaque fois un index qui va être associé aux éléments de cette colonne

donc pourquoi c'est important en fait cette distinction tout simplement parce que certaines opérations ne seront possibles que sur des séries et d'autres opérations que sur des dates afrique donc c'est important de bien savoir quel type d'objet vous avez si vous n'êtes pas sûr vous pouvez utiliser cette fonction taille pour afficher si vous êtes en présence d'un data frime ou d'une série et avec l'habitude vous verrez que comme je vous dit en fait certaines méthodes ne sont pas disponibles sur les séries mais sont disponibles sur les dates à fresnes ou alors également que certaines méthodes sont

disponibles sur les deux on l'a vu avec red head on peut l'utiliser sur une série ou sur un data frimer dans les deux cas ça fonctionne et ça ne nous affiche que les cinq premiers éléments du data frime ou de la série mais par la suite vous verrez qu'on a notamment des fonctions qui nous permettent d'analyser certaines choses qui ne seront pas disponibles sur un data frime mais qui seront disponibles sur une série donc voilà pour cette parenthèse n'hésitez pas à utiliser la fonction taille pour savoir avec quel type d'objet vous travaillez donc revenons maintenant

à la sélection de certaines données à l'intérieur de notre data frame donc df ici on peut également utiliser les crochets pour récupérer un intervalle donc si par exemple sur mon attaque fring ici je souhaite récupérer les éléments avec lundi 6 6 qui va de 10 à 20 je peux dans les crochets m 10 2.20 donc exactement comme un slice quand on fait une liste quand on a une liste en python on peut faire un slice comme ceci avec un premier et un deuxième élément est là vous voyez que je récupère uniquement les éléments qui vont

de 10 à 19 donc là c'est exclusif si on va jusqu'à 20 ça va s'arrêter à 19 donc là bien faire attention on n'utilise pas la colonne idée là on a une colonne idée qui est présente dans notre data frime mais ce n'est pas avec cette colonne que l'on va cibler les éléments vraiment avec l'index que l'on a ici donc 10 11 12 13 et c'est jusqu'à 19 puisque le vin est exclusif pour récupérer ces éléments on peut également utiliser loc donc on fait des f point locke et on peut remettre là avec des crochets

10,2 points et par exemple 13 dans ce cas ci alors il faut bien faire attention avec l'oc ici c'est décrocher qu'on utilise c'est un peu perturbant au début je sais on a envie de mettre des parenthèses mais non c'est bien décrocher qu'il faut mettre donc df points block et là encore on va cibler les éléments qui vont de 10 à 13 est la différence avec l'oc c'est que cette fois ci le xiii sera inclus donc ce n'est pas comme avec notre slice ici où le vin n'était pas inclus avec l'oc on va aller de 10

à 13 et le 13 est inclus il faut bien faire attention locke ici ça va nous permettre de cibler en fait l'index que l'on a dans notre data free dans ce cas si notre index c'est en fait une valeur numérique donc on peut récupérer ces différentes valeurs avec 10,2 points 13 mais si on a un index est différent par exemple si on utilise un email locke va nous permettre de récupérer une rangée à partir de l'e-mail donc dans ce cas ci ce serait avec une chaîne de caractères je vais vous montrer ça je vais faire

une variable que je vais appeler d'edf email et qui va être égale adf point cet index et on va utiliser donc la colonne email pour modifier l'index et utilisez-les email à la place des numéros ici donc si j'affiche df email et je vais utiliser aide vous voyez que cette fois ci on a bien l'e-mail qui est utilisé comme index donc maintenant ce que je peux faire sur des f email c'est utiliser locke avec là encore les crochets et cette fois ci allait cibler une adresse en particulier donc je vais copier cette adresse mail ici je

vais la mettre sous forme de chaînes de caractères dans les crochets de l'ocs ici je valide avec chiffres d'entrées et là vous voyez qu'on se retrouve avec un objet qui si vous avez bien suivi est un objet qui est un petit peu particulier puisque ce n'est plus un data frime mais bien un objet du type série donc si je fait hype de tout ça on a bien une série ici et donc qu'est ce qu'on a dans cette série et bien on a tout simplement le nom de la colonne cette fois ci donc vous voyez que

dans la série tout à l'heure on avait des nombres et cette fois ci on a le nom de la colonne donc quand avec l'oc on va chercher une entrée précise dans notre tableau donc une rangée précise dans ce cas ci on va avoir dans notre série le nom de la colonne et les valeurs qui sont associés donc là encore on a un objet de type série avec comme je vous disais un index et des valeurs si on veut récupérer uniquement les valeurs on peut utiliser value et là on se retrouve avec un oeil qui nous

permet de récupérer toutes les valeurs qui sont associés à cette adresse email là encore on pourrait utiliser tout liste pour transformer cet objet en objet python qui est une liste python tout simplement et là on retrouve toutes les valeurs qui sont associés à cet e-mail on peut bien entendu avec l'oc aller chercher plusieurs emails différent là on est allé en récupérer un seul mais tout comme tout à l'heure on allait récupérer différents informations en allant de 10 à 13 eh bien on pourrait sélectionner plusieurs adresses emails avec l'ocs donc je vais copier cette ligne sidf

email et je vais rajouter une adresse e-mail donc je vais juste réafficher df email pour voir ce que j'avais comme adresse donc on va aller en chercher une autre par exemple celle ci en plus donc je vais remettre mon point locle les crochets et cette fois ci on va passer une liste qui va contenir plusieurs éléments qu'on va passer une première adresse email et on va récupérer notre deuxième adresse e-mail qu'on avait précédemment et la mettre ici donc là on utilise locke de nouveau avec un premier crochet ici qui s'ouvre et qui se ferment et

qui va contenir une liste avec deux adresses email donc si j'exécute cette cellule avec chiffres d'entrées vous voyez qu'on se retrouve cette fois ci non plus avec un objet du type série mais avec un objet de type data free donc là encore vous voyez l'importance de bien comprendre le type d'objet que l'on a si vous n'êtes pas sûr là encore on fait un tight mais vous voyez avec l'affichage que en fait on a une indication quant on a un affichage qui ressemble à ce qu'on avait un petit peu plus au jeu ne l'est plus ici

voilà ce qu'on a fait ici donc si j'enlève le point value là vous voyez quand on a juste deux éléments comme ça en fait ça indique qu'on est en présence d'une série et quand on a un tableau comme ceci est bien ça nous indique qu'on est en présence d'un dataflux si vous n'êtes pas sûr là encore vous utilisez la fonction taille aps donc vous voyez que locke ce n'est pas forcément pour aller cibler des éléments qu'avec un nombre ça peut être en fait également des chaînes de caractères donc ça va dépendre en fait de ce

que vous utilisez com/index dans votre data frame est également locke ça nous permet de récupérer une seule donnée ou plusieurs données donc vous pouvez récupérer une seule rangée ou plusieurs rangées et avoir un objet de type série ou un objet de type data frime en fonction de ce que vous récupérez donc là on va cibler les deux rangées dans mon tableau qui correspondent à ces deux adresses email donc voilà comment récupérer des données précises à l'intérieur de notre data from que ce soit avec un run gysi comme ce qu'on avait au début ou avec des

chaînes de caractères quand on a une adresse email généralement on sait assez rare à moins qu'on ait vraiment envie de cibler quelque chose de très précis c'est assez rare qu'on ait besoin d'utiliser ses fonctions généralement ce qu'on va utiliser c'est plutôt des filtres pour aller filtré notre tableau selon certaines valeurs pour par exemple récupérer uniquement les entrées dans notre data frime qui ont une valeur donc mail est ici par exemple pour la colonne djendel et ça c'est ce qu'on va voir dans la prochaine partie avec les filtres vidéo on va voir comment filtrer les données

de notre data fric donc j'ai créé un nouveau jupiter notebook qui s'appelle donc 04 les filtres donc en fait vous allez voir que régulièrement on n'a pas vraiment besoin de cibler une rangée en particulier ce qui va nous intéresser par contre c'est de cibler différentes rangée de notre data frame en fonction des valeurs qui sont présentes dans certaines colonnes donc pour ça on peut utiliser ce qu'on appelle des filtres donc on va sélectionner par exemple la colonne gender qui correspond au genre de chaque personne de notre data frame donc si j'affiche df avec entre crochets

gender vous voyez qu'on a une série ici avec à chaque fois une valeur qui est soit mail soif email et on a certaines valeurs également qui sont indiqués comme nancy2 ici en fait que c'est des valeurs qui ne sont pas renseignés on verra dans une prochaine partie comment gérer ses valeurs donc pour l'instant on a juste récupérer ici la colonne qui correspond aux gens de chaque personne dans mon pote affrime je vais pouvoir faire des vérifications avec cette colonne avec un opérateur de comparaison comme le double égale qui va me permettre de vérifier si les

valeurs dans chacune des colonnes sont égales ou non à la chaîne de caractères mail dans ce cas ci est en fait si on fait ça vous allez voir que ça va nous retourner une série sauf que cette fois ci à la place des valeurs on va avoir un boulet un chou ou frôlé ce en fonction de si la condition est vérifiée ou non donc par exemple dans la première rangée ici on avait la valeur mail donc c'est égal à cette chaîne de caractères mail donc on a tout pour la deuxième on avait fait mal donc

on a false etc etc pour chacune des rangées donc vous allez me dire c'est bien sympa mais pour l'instant ça ne servent pas à grand chose puisque ici on récupère juste débouler un nous ce qu'on aimerait si récupérer les données de base donc les données de notre data frime au complet en fonction de la valeur qui est contenu dans cette colonne donc en fait ce qu'on va pouvoir faire c'est récupérer ce filtre et l'indiqué à l'intérieur des crochets de notre data free donc quand je dis ça en fait ce que je veux dire c'est que

on va faire notre data frime avec des crochets et à l'intérieur de ses crochets plutôt que de spécifier par exemple une colonne et bien on va spécifié notre filtre donc là je vais prendre tout ce que j'ai mis ici je vais le copier et je vais le coller à l'intérieur des crochets et là cette fois ci en fait on va filtrer autre date a frame avec cette condition donc je fais chiffres d'entrées pour exécuter et vous voyez que on se retrouve ici donc avec notre data frame mais on a plus que les rangées ici qui

ont le genre mail en valeur dans cette colonne donc toutes les rangées fumel où les ranger qui ne contenait pas les bonnes valeurs donc des valeurs lan comme on avait vu précédemment ne sont pas inclus et si on regarde ici on a beaucoup moins de ranger que précédemment on a toujours dit colonnes ça c'est normal mais au lieu d'avoir mélangé on en a plus que 438 et si à la place de mails je mets female vous voyez qu'on en a 493 et donc si vous faites un petit calcul 493 plus 438 ça ne fait pas

1000 et c'est normal puisqu'on avait certaines valeurs qui étaient non renseigné donc comme on avait vu au début des valeurs lan donc c'est normal qu'on n'est pas milan tout puisque on a certaines cases qui ne contenait ni female ni mail ok donc ça c'est un filtre tout simplement vous voyez c'est très simple ça fait un peu bizarre au début puisque en fait on a deux fois des officiers on a décroché un peu partout mais ce qu'il faut bien comprendre c'est qu'on a une condition ici qui est utilisé pour filtrer notre data free est bien sûr

cette condition pourra la mettre dans une variable avant je pourrais aussi faire une variable qui s'appellerait female filter et je pourrais utiliser cette variable ici si vous voulez avoir un code qui est un peu plus facile à lire et là on se retrouve avec le même résultat on peut faire plein d'opérations comme celle ci vous allez voir à quel point panda est très puissant pour faire ce genre de filtres je vous jure vous ne vous très jamais retourné dans excel une fois que vous aurez appris à maîtriser deux pandas donc ce qu'on pourrait vouloir faire

également ses filtré sur la liste des pays donc là on a différents pays qui sont possibles le canada united states on a la france également et là encore certaines valeurs qui ne sont pas renseignés alors vous allez voir que pour les filtres en fait il ya quelques petites particularités par exemple si on souhaite filtrer sur donc kantcho ici on va vouloir potentiellement filtré sur plusieurs valeurs dont qu'on pourrait penser qu'on peut utiliser la syntaxe deux pitons ce n'est pas forcément tout le temps le cas ici vous pourriez dire 10 f country inn et m un

tube par exemple avec différentes valeurs avec france et avec canada est en fait malheureusement on ne peut pas utiliser cet opérateur in qui en python nous permet de vérifier si une valeur se trouve à l'intérieur d'une liste ou d'un tube comme ici par contre ce qu'on va pouvoir faire dans ce cas ci c'est utilisé une méthode qui s'appelle is in et cette méthode on va pouvoir lui passer un tube ou une liste donc en fait ce qu'on fait ici c'est qu'on vérifie si la valeur de chacune des cellules ici et comprises dans la liste donc

dans le supplicié on pourrait mettre une liste et ça fonctionnerait de la même façon donc dans la liste où le supplie si france canada donc là si je fais ce genre d'opération vous allez voir qu'on se retrouve encore une fois avec un filtre avec tout aux foals en fonction des valeurs que l'on a dans notre data frame est donc ce filtre on va pouvoir l'utiliser pour filtrer notre tableau donc pour ça je vais le mettre ici par exemple dans une variable que je vais appeler country filter et on n'oublie pas le symbole d'égalité je mets

ça dans cette variable et ensuite je vais filtré monde à ta frime avec comme free filter et là vous voyez qu'on se retrouve avec un data freund qui contient tous les pays qui sont contenus dans france ou dans canada donc on n'a plus les pays comme états unis maroc où les valeurs qui n'étaient pas renseigné et on à 569 ranger ici ok donc vous voyez que il faut vraiment aller regarder la documentation si vous souhaitez savoir en fait comment faire certaines opérations ce n'est pas tout le temps exactement la même chose qu'avec python mais ici

c'est assez explicite quand même ''sinon comprend très facilement ce que ça veut dire également vous allez voir que parfois il y a quelques petites opérations à faire imaginez qu'on souhaite filtrer sur le prix donc price spade ici et bien le prix ici le problème c'est que ce n'est pas un nombre on a le symbole dollars ici donc en fait c'est une chaîne de caractères alors ce qu'on va pouvoir faire c'est modifier certaines valeurs de notre data flamme on y reviendra par la suite plus en détail mais pour l'instant pour vous montrer si on essayait de

faire un filtre en dix ans donc des f2 price spade plus grand que cinq donc on essaye de récupérer en fait toutes les valeurs de notre tableau qui comprennent un prix plus grand que cinq là on aura une erreur et quel est le type de l'erreur c'est une erreur que vous connaissez normalement en python qui est une erreur de type puisqu'on ne peut pas comparer des gènes de caractère avec des nombres donc là en fait ils essaient de comparer ces chaînes de caractères qui contiennent le symbole dollars et ils essaient de comparer sa au nombre

cinq et ils n'y arrivent pas et donc on a cette erreur alors on peut faire des modifications comme je vous disais là ça rentre un peu plus dans le détail je vais vous montrer le code qui nous permettraient de convertir ces données et ensuite de les filtrer donc ce que je fais ici c'est tout simplement une copie de mon dada frime avec la fonction copie donc je copie ça dans une variable que j'appelle des eft est et ensuite on va modifier la colonne private donc rappelez vous on peut accéder à une colonne en attributs comme

ceci sans les crochets mais ça revient au même que si je faisais ici les crochets avec une chaîne de caractères mais on peut très bien aussi donc utiliser la tribu qui est une autre façon de l'écrire est ce que je fais ici c'est que j'utilise la méthode up like sur cette colonne et j'applique une fonction lambda ici qui me permet de remplacer sur chaque élément de cette colonne le symbole dollars par une chaîne de caractères vide donc on va enlever ce symbole dollars et ça va nous permettre par la suite de convertir donc les données

que l'on a dans notre data frime en float pour sage utilise la méthode à ce type' et je dis que je veux donc convertir le type de mes données au format float ce qui va me permettre par la suite donc de comparer les valeurs dans cette colonne price payd avec le nombre décimal 5.0 à chaque fois que vous voyez que j'écrase ce que j'avais d'emploi et spade ici donc en fait des f3 spade égal à cette fonction sur laquelle on applique ensuite pareil price pas illégal la même chose mais à ce type' et ensuite on

peut faire cette vérification donc là j'exécute tout ça et vous voyez qu'on à 696 ranger qui sont au final dans notre data frime et si on regarde la colonne brisbane on a effectivement que des valeurs qui sont supérieures ou égales à 5.0 donc je ne rentre pas dans les détails comme je vous dis c'est un petit peu plus avancée mais ça vous permet de voir que en fait il y a moyen bien entendu de modifier les variables c'est comme avec python il faut toujours penser aux types d objets que l'on manipule forcément vous ne pouvez

pas comparer des chaînes de caractères avec dénombre donc il arrive dans certaines situations que l'on ait besoin de faire ce type d'opération donc voilà pour les filtres comme je disais c'est un sujet qui est quand même très puissant qui vous permet de faire certaines opérations très facilement comme on l'a vu au début qui peut devenir aussi très complexe rapidement si vous avez des cas un peu spécifique mais vous voyez que déjà avec des choses assez simples comme ce qu'on a vu ici au début avec les filtres on peut donc rapidement récupérer certaines informations aient filtré

notre data frame pour l'instant dans notre data frame on a pas mal de colonnes et toutes ces colonnes ne vont pas forcément nous servir à quelque chose par exemple le first name last name ou encore l'adresse email ou l'adresse ip ce ne sont pas des informations qui vont m'être utile et donc pour aller un peu plus vite pour avoir un tableau qui va être un peu plus rapide à analyser on va pouvoir enlever des colonnes de notre data free pour ça on peut utiliser la méthode drop donc df points drop et on va lui spécifier

la colonne que l'on souhaite enlever une pour en mettre plusieurs bien entendu et on va y revenir plus tard dans la vidéo pour l'instant je vais juste spécifier la colonne ip address il va falloir spécifier un axe puisqu'on peut supprimer des données sur les deux axes donc quand on parle dax en fait on va avoir la czéro ou la kz1 la kz1 save est relax des colin donc dans ce sens si avec par exemple la colonne email la colonne gender lippé adresse et c est là que ce 0 ça va être les rangées donc par

exemple si on souhaitait supprimer certaines ranger à l'intérieur de notre data free donc dans ce cas ci je vais supprimer sur la kz1 puisque ce que je veux supprimer la colonne ip address c'est une colonne donc on est sur la queue un ok donc je valide en faisant shift entrées et là vous voyez qu'on a correctement supprimer cette colonne de notre tableau si je re affiche par la suite monde a time vous voyez que la colonne est toujours présente donc rappelez-vous ça c'est tout simplement parce que je n'ai pas spécifié le paramètre une place égale

à chew donc là deux façons de faire on met une place égale à tous ou alors on écrase notre variable moi je préfère utiliser une place donc je refais cette opération chiffres d'entrée une deuxième fois et si j'aurais affiche df ici vous voyez que cette fois ci on a bien notre variable qui a été modifié donc ça c'est sûr la kz1 comme je le disais en fait on a supprimé une colonne mais on pourrait très bien supprimer également déranger pour que ce soit bien explicite je vais changer l'index et je vais utiliser pour index le

genre de chaque personne dans mon dataflux donc on va faire des f point cet index et on va spécifier la colonne djendel et là encore je vais faire ça ils placent donc on met une place égale choo s'il exécute ça et que je re affiche des f vous voyez que cette fois ci on a en index le genre de chaque personne dans mon tableau et on va pouvoir si on souhaite supprimer certaines ranger cette fois-ci de notre data frime avec une certaine valeur donc là par exemple on souhaiterait supprimer toutes les rangées qui ont le

genre mail dans notre tableau donc pour ça on peut refaire drop donc df pointe drop on va spécifié qu on souhaite supprimer les ranger qui contiennent mail ici et cette fois ci on va utiliser la kz 0 vous voyez que là que ça vraiment une importance et que ça va nous permettre de supprimer soit des colonnes soit dérangé dans ce cas ci on va supprimer donc toutes les rangées qui contiennent mail ici comme index on va le faire in place donc je ramais in place égale à chew je valide avec chiffres d'entrées et si j'aurais

affiche le head de monde et f on voit que cette fois ci on a plus que les ranger qui contiennent female ici comme index ok donc vous voyez que vraiment cette méthode drop elle permet de faire les opérations dans les deux sens en fonction de la kz donc la czéro pour les ranger et la kz1 pour les colonnes on peut bien entendu supprimer plusieurs colonnes d'un coup en spécifiant une liste donc si je refais df drop et que à l'intérieur des parenthèses je spécifie une liste je pourrais supprimer plusieurs colonnes comme ceci donc en faisant

par exemple false name ensuite last name et on va également supprimer par exemple l'adresse email dont on n'aura pas besoin je vais spécifié l'axé là-encore donc axis égal 1 puisque là on est sur les colonnes et on met une place égale à chew je valide et si j'affiche df de nouveau vous voyez qu'on a pu supprimer plusieurs colonnes d'un coup on va également pouvoir supprimer la colonne idée je vais vous montrer une autre façon de faire encore pour supprimer une colonne et c'est tout simplement avec l'instruction d'elle et on peut spécifier ici une colonne a

supprimé en utilisant les crochets donc df crochet idées pour spécifier donc la colonne idées et l'instruction dell va supprimer cette colonne hélas dans ce cas ci on n'a pas besoin de spécifier de in place ou quoi que ce soit ça va vraiment supprimer cet objet de notre variable df donc de notre data frame donc si j'exécute ce code on va supprimer cette colonne si je veux le vérifier je refais un print d'edf et là vous voyez qu'on a bien la colonne idée qui n'est plus présente dans notre data free donc voilà différentes façons de faire

soit avec drop drop il faut vraiment bien tenir compte de l' axe donc vraiment comprendre ce que l'on fait sur quels axes on 10 filet donnait bien comprendre donc notre index et nos colonnes vous voyez qu'on peut très bien modifier l'index là encore est que ce n'est pas forcément donc toujours un numéro que ça peut être aussi comme ici une chaîne de caractères et d'europe qui nous permet donc également de supprimer plusieurs colonnes d'un coup ce qui est assez courant en fait généralement quand on a un diaphragme c'est rare qu'on ait besoin d'utiliser toutes les

informations qui sont dans ce data frime donc très régulièrement en fait on va au début supprimer les informations qui ne nous intéresse pas pour avoir un data from plus petit qui va être plus rapide à manipuler vous l'avez probablement vu dans certaines colonnes de notre tableau on a parfois dérangé qui contiennent des valeurs qui sont manquantes donc ça arrive c'est très très courant dans des données qu'il y ait parfois des informations qui manquent et si l'information il va donc falloir les traiter alors pour voir déjà un petit aperçu de là où on a des informations

qui manquent on peut utiliser plusieurs méthodes la première méthode séisme normes et ça on peut l'appliquer sur le diaphragme au complet et ça va nous afficher dans chacune des rangées et des colonnes les endroits où on a parfois des données qui sont nuls donc par exemple sur la colonne taxi si vous voyez que pour la première rangée donc à la rangée 0 ici on à trous dans le tax et si j'affiche le data frame donc sans afficher le 10 nov vous voyez effectivement que pour cette première rangée on a une valeur et na n ici

qui est une valeur nulle donc qui signifie note number en fait et donc ça veut dire qu'on n'a pas de données pour la taxe de cette première rangée vous voyez par exemple pour le country donc le pays ici sur la rangée 996 on également cette valeur et nine donc si je re affiche le 10 nov comme ceci si j'arrive à bien écrire il normes vous allez voir que de la même façon pour cette rangée donc 996 pour le pays on a un trou ici qui est affiché vous avez également l' inverse c'est-à-dire note normes donc

ça ça va tout simplement être l' inverse de is normal ça va nous afficher falls quand on a une valeur qui ni nulle et chou quand on a une valeur qui n'est pas nul donc note normal ça veut dire pas nul donc c'est assez explicite et si vous vous souvenez de la partie sur les filtres ça devrait faire tilt puisque du coup on va pouvoir utiliser par exemple cette information comme un filtre pour filtrer sur une certaine colonnes les informations qu'ils ne contiennent pas de valeur donc si je reprends non data frame etc entre crochets

jeu mais cette fois-ci df par exemple sur la colonne taxes et que sur cette colonne taxes on utilise note naulleau et bien en fait on va utiliser donc ce filtre sur notre data from au complet donc je vais déjà vous montrer le filtre tout seul vous voyez que là du coup pour notre colonne taxes on va avoir fort le folk roots et donc débouler un qui vont dire si on a oui ou non une valeur nulle donc nous ce qu'on va vouloir faire ces filtres et pour n'afficher que les valeurs qui ne sont pas nulles

donc je remets tout ça à l'intérieur crochète dans des f1 l'utilisent en tant que filtrent et là vous voyez que du coup ça nous permet de filtrer notre tableau et si on regarde dans la colme taxi si on a à chaque fois des données donc on n'a plus les valeurs et n'a donc les valeurs nul qui était précédemment dans notre data free donc ça c'est une façon de filtrer notre data frime avec ce filtre donc avec notre sol ou avec is no l'on pourrait inverser le note nord et maîtrise dans la place et là on

récupère ray en fait toutes les rangées qui contiennent une valeur qui n'est pas renseigné ici pour la taxe ok donc ça c'est une des façons de faire ensuite on peut remplacer ses valeurs puisque là on fait juste récupérer avec un filtre les ranger qui contiennent ou non des valeurs nul est ce qu'on va vouloir faire généralement c'est remplacer ou enlever carrément ses valeurs de notre tableau donc ce qu'on peut faire pour ça c'est utiliser la méthode fils est né y ça va nous permettre de remplir certaines informations avec des valeurs alors on pourrait reprendre notre

colonne taxes ici et dire qu'on veut utiliser la méthode donc fils aîné et ensuite à cette méthode on peut lui passer différentes choses on peut lui passé déjà la valeur qu'on souhaite utiliser donc si on souhaite remplacer tous les endroits ici dans la colonne taxe où on a une valeur qui n'est pas renseigné par zéro il suffit de mettre zéro ici et si j'affiche la colonne vous voyez que par exemple pour les deux premières rangées on a remplacé la valeur nn par zéro tout simplement on pourrait également utiliser d'autres méthodes on a le paramètre méthode

qui nous permet de spécifier différentes façons de remplir ces données par exemple on peut utiliser des filtres qui va utiliser les valeurs autour pour remplir notre colonne donc là en fait ce qui va faire c'est qu'il va regarder autour des rangées il va voir que par exemple on a 20 à la rangée 2 et il va utiliser cette valeur pour remplir la rangée 0 et la ranger 1 alors ça c'est une façon de faire qui n'est pas forcément la meilleure puisque en fait on va modifier les données dans notre cas ici il s'agit de la

taxe et on n'a pas envie en fait de rajouter une taxe supplémentaire si on a une valeur qui est nul ici dans la taxe ça veut dire probablement qu'il n'y avait pas de taxe appliquée pour ce pays donc par exemple pour le canada où les united states donc si on utilise cette méthode ça veut dire qu'on va rajouter une taxe de 20% qui n'étaient pas là donc dans ce cas ci ce ne serait pas forcément la meilleure façon de faire ce qu'on va préférer faire plus tôt c'est enlever ces données donc enlever les données de

notre tableau ou alors faire comme on l'avait fait précédemment c'est à dire mettre une valeur nulle donc là c'est vraiment à vous de voir ce que vous préférez faire on peut considérer donc qu' on ne veut pas à ses rangées on peut considérer qu'on va mettre une taxe de 0 ou alors la méthode que je viens de vous montrer d'utiliser les valeurs environnantes donc moi ce que je vais faire ici c'est tout simplement choisir d'enlever ses rangées de notre tableau donc on a vu comment faire avec le filtre on peut aussi utiliser une autre méthode

qui est spécifique pour ce genre de choses donc puisque le filtre en fait ça permet de faire plein de choses mais on a une méthode qui s'appelle drop n' est qu' elle va nous permettre d'enlever automatiquement ses valeurs nul et on va lui spécifier dans le paramètre soap 7 les colonnes que l'on souhaite cibler donc si en fait on fait juste drop et nice avant d'enlever toutes les rangées qui contiennent une valeur qui est nul peu importe la colonne donc là en fait dans notre tableau on sera assuré que peu importe la colonne on n'aura

aucune valeur nulle dans le tableau rivaux veille qu'on enlevait énormément de ranger on en avait mille au départ et maintenant on en a plus que 5 188 ça c'est vraiment assez agressif si on veut on peut cibler donc une colonne précise ou plusieurs en mettant ses obsèques et à l'intérieur d'une liste on va mettre les colonnes que l'on souhaite cibler donc si je cible juste la colonne des taxes on a un peu plus de ranger donc 654 ici et vous voyez qu'on a plus de valeur nulle dans la colonne taxes donc ça ça agit vraiment

juste sur cette colonne dans la colonne taxe si on regarde par contre dans les autres colonnes donc par exemple le genre où le pays là on voit qu'on a encore des valeurs nul qui sont disponibles dans ces autres colonnes également cette méthode drop aînés est là le fameux paramètres in place puisque actuellement si je ne le met pas et que je re affiche monde à tassette vous allez voir qu'on a encore ses valeurs nul qui sont dans la colonne taxes donc si vous voulez vraiment appliquée ceci sur votre data frime il faut là encore utilisé

in place le maître à tous et ça va directement remplacer ces données en fait les enlever dans ce cas ci et si j'aurais affiche - data from là on a bien enlevé tout s'est rangé et on n'a plus que six cent cinquante quatre rangées à l'intérieur du data free donc voilà comment traiter ces valeurs manquantes comment les affiches et comment les repérer et comment les enlever si on le souhaite également comment les remplacer avec différentes méthodes donc là c'est vraiment à vous de voir c'est un choix que vous devez faire c'est là que vous voyez

les gens qui travaillent dans les data sayan ce sont des choix à faire et que ces choix peuvent avoir des grandes conséquences c'est pour ça que des fois on parle en fait des problèmes du traitement de données puisque dans ce cas si bon c'est juste une taxe mais imaginez qu'on travaille sur des données un peu plus sensibles par exemple des données de crime ou de choses du genre dans certains quartiers qu'on souhaite investiguer les endroits où il y a le plus de crimes qui se passe est bien là si on commence à remplacer les valeurs

qui ne sont pas remplies donc les valeurs nulle part des valeurs environnantes ça peut complètement faussé les résultats et avoir des conséquences assez importante donc fait très attention à ça soyez bien conscient de ce que vous pouvez faire avec vos données des fois il vaut mieux supprimer des données plutôt que les altérer et d'avoir une conclusion à partir des données qui n'est pas vraiment représentative des données qu'on avait au départ dans cette partie on va voir comment ajouter des colonnes à notre data free on va pouvoir faire énormément de choses on peut ajouter des colonnes

avec des valeurs par défaut mais ce qui est très intéressant c'est notamment de pouvoir faire des calculs entre différentes colonnes dans notre cas ce qu'on va vouloir faire ses calculs et le prix final puisque actuellement si j'affiche mon dada frame on a le prix que le client a payé on à la taxe il nous ce qu'on aimerait c'est avoir le prix final donc moins la taxe c'est à dire que par exemple pour 3 dollars 73 ici on va enlever 20 % et on va ajouter ce prix final dans une colonne donc on va pouvoir faire

comme ça des calculs entre différentes colonnes à l'intérieur de notre data frime donc la première chose que je vais faire c'est remplacer les valeurs ici qui sont nulle part des valeurs de zéro puisque si on a une valeur non renseigné ici on va considérer qu'il n'y a pas eu de taxes appliquées donc je vais remplacer ses valeurs grâce à la fonction fil n est donc je vais faire df point fil n ' y est on va faire ça sur la colonne de taxes donc on va faire avec les crochets la colonne taxe fils est né

et où on va mettre la valeur de zéro et on va indiquer une place égale tout comme ça ça va modifier directement notre data frime et si j'affiche mon dada frame on a bien maintenant une valeur de 0 à la place des valeurs nul on va ensuite devoir modifier notre colonne price paye d'ici puisque actuellement en fait si on affiche le type des données ce qu'on peut faire avec des f point d'étape ce on va voir dans l'affichage qui nous est retourné que la colonne price spade c'est un objet il nous ce qu'on aimerait c'est

avoir un nombre donc un float comme avec la taxe ici donc pour ça on peut utiliser quelque chose qu'on avait vu dans les parties précédentes donc ces lignes ici qui nous permettent de modifier une colonne grâce à la méthode apply dans ce cas ci on va modifier la colonne pour remplacer le symbole dollars par une chaîne de caractères vide et ensuite la méthode à ce type' pour modifier le type de la colonne private donc je fais tout ça et si je re affiche df cette fois ci on voit qu'on a bien maintenant un nombre à

l'intérieur de notre colonne et si je refais df point d'étape on va voir que notre colonne ici et maintenant de type float 64 donc on a bien de nombre d'employés spade et dans taxes on va pouvoir faire le calcul entre ces deux colonnes pour rajouter une colonne donc pour ajouter une colonne c'est très simple on peut faire tout simplement les crochets comme ceci si par exemple je souhaitais rajouter une colonne tests et m 1-0 dans toutes les rangées de cette colonne donc si je fais ça et que j'affiche le data flemme vous voyez qu'on a

une nouvelle colonne tests avec des valeurs de zéro donc là moi je vais supprimer cette colonne donc je vais faire d'elle d'edf test puisque je n'ai pas besoin donc c'était juste pour vous montrer si j'aurais affiche monde afrique on voit que cette colonne a bien disparu et donc tout ce qu'on va vouloir faire c'est multiplier les valeurs qui sont dans cette colonne par la taxe alors on va devoir faire quelques modifications puisque ici on a un nombre qui est vain et nous ce qu'on aimerait c'est multiplier le prix ici par non pas 20 % mais

dans ce cas ci ce serait 80 % puisque en fait nous ce qu'on veut dans notre colonne c'est le prix qui va rester donc on veut enlever 20 % de cette valeur ici donc ce qu'on va faire c'est déjà dire la colonne dans lequel on veut mettre tout ça donc je vais créer une colonne qui va s'appeler price toto et on va dire que cette colonne est égal à price spade donc lui en fait on va tout simplement faire des multiplications des opérations sur différentes colonnes et ça va appliquer ces opérations sur chaque rangée de

notre data free donc vous voyez c'est vraiment très facile à faire dans ce cas ci je vais multiplier donc on pourrait faire une multiplication comme ça sur des f de taxes si je fais ça pour l'instant vous allez voir que comme je vous disais le problème c'est que on n'a pas vraiment ce qu'on veut on ajuste multiplier l'un par l'eau donc là on fait 20 fois 9.24 ça nous donne 184 donc c'est pas exactement ça qu'on veut je vais supprimer la colonne que je viens de créer donc comme ceux ci et on va repartir sur

notre calcul donc là ce qu'il faut faire en fait c'est faire un pourcentage donc on va faire des f2 taxe / 100 et on va faire un - tout ça puisque nous ce qu'on veut c'est pas 20% mais 80 comme je disais si on a 20 % de taxe ça veut dire que dans notre poche il reste 80 % donc on fait un moins la taxe / 100 donc là par exemple 20 / sens ça va donner 0-2 et ont fait 1 - 0 point 2 ça va donner 0.8 et on va multiplier le prix

payé par dans ce cas-ci 086 on a 20 % ici si on a zéro on va multiplier par 1 - 0 donc en fait 1 - 0 ça va faire un et on va récupérer le prix d'origine ok donc là c'est vraiment juste un petit peu de maths revoyez cette partie si vous n'avez pas tout compris et regardez ce calcul bien tranquillement de votre côté si vous n'êtes pas très à l'aise avec les maths je vais exécuter cette cellule donc avec shift entrées et si j'affiche maintenant le data frame on voit que j'ai bien donc

quand on a une taxe de 0 la valeur d'origine et quand j'ai une taxe de 20% on a bien une valeur qui semble logique donc 3,73 80% de ça ça donne 2 984 donc vous voyez à quel point on peut très facilement multiplier et faire des opérations sur différentes colonnes et rajouter des valeurs dans notre tableau comme ça par la suite on pourra directement utiliser ces valeurs plutôt qu'à chaque fois avoir besoin de faire des calculs entre différentes colonnes donc là encore c'est un sujet très complexe de base c'est assez simple vous voyez on peut

juste rajouter une colonne avec des valeurs par défaut vous faire des calculs assez simple mais là encore quand je dis on peut faire des choses beaucoup plus avancé je vais vous montrer un exemple quelque chose d'assez courant imaginez qu'on souhaite créer une nouvelle colonne qui va contenir le code des pays donc plutôt que canada on va avoir par exemple ca plutôt que france on aurait fr donc là on fait ce qu'on va devoir faire c'est faire un mapping donc c'est à dire que on va indiquer à notre data from que l'on veut remplacer les valeurs

france par la valeur fr et on veut mettre tout ça à l'intérieur d'une nouvelle colonne donc pour ça on va pouvoir utiliser la méthode maths je vais déjà créé un dictionnaire qui va maps et les valeurs les unes avec les autres donc je vais créer un dictionnaire crise et dans ce dictionnaire on va dire quelles valeurs on veut remplacer par quoi on va dire par exemple united states donc là il faut bien que ce soit exactement comme ce qu'on a dans le tableau donc il faut bien mettre les majuscules et tout ça donc united states

on va le remplacer par hurun la france on va le remplacer par fr le canada a part ca et on a je crois le maroc voit la mort le morocco ici donc mort qu on va le remplacer par je crois m ah ça doit être un mât pour le maroc et donc on a notre dictionnaire on va utiliser ce dictionnaire pour faire un mapping et mettre tout ça dans une nouvelle colonne donc pour faire un mapping on utilise la méthode map donc je vais utiliser ça sur ma colonne country et on va faire un point

maps et on va lui passer notre dictionnaire et tout ça je vais le mettre dans une nouvelle colonne donc je vais faire des f et on va appeler çà comme tchoyi code et on va dire que c'est égal donc à notre colonne canci sur laquelle on a fait ce mapping donc pour remplacer les valeurs par d'autres valeurs j'exécute tout ça j'affiche non data frime et là on voit qu'on a bien donc une nouvelle colonne country code et on a bien canada qui a remplacé par ses agneaux night is cette part humaine et morocco par m

et si j'affiche un peu plus de données vous voyez que pour la france également ça a marché et pour les valeurs qu'ils sont nuls donc les n est ni s'il n'a tout simplement la valeur nulle par défaut ok donc vous voyez que vraiment on peut faire beaucoup de manipulations comme ça comme je dis ça peut devenir assez complexe rapidement faut explorer il faut aller voir la doc faut regarder plus de tutoriels si vous voulez voir d'autres façons de faire et bien sûr chercher sur internet quand nous vous ne trouvez pas il ya plein plein plein

de ressources qui existent pour vous dire comment faire certaines opérations que vous auriez envie de faire sur vos dates à free donc c'est beaucoup de recherches beaucoup de documentation n'hésitez pas à aller vers la documentation si vous allez voir dans l pis si vous avez la référence de panda donc panda référence ici vous pouvez aller voir cette aide elle est en anglais mais elle est quand même très bien fait et elle vous permettra d'explorer d'autres choses que vous pouvez faire sur les data frime dans cette partie on rentre vraiment dans les choses intéressantes dans le

coeur du sujet puisque on va voir comment analyser les données que l'on a dans notre data frime jusqu'à présent on a vu comment manipuler les données comment ajouter des colonnes supprimer des colonnes mais ce qui est très intéressant avec panda et dans la data signs c'est de faire parler ces données donc d'afficher les moyenne la somme de voir le nombre d'éléments qu'on a en fonction des valeurs par exemple dans notre cas pour les pays on veut savoir dans quel pays on va avoir le plus de clients donc ce genre d'informations qu'on va pouvoir récupérer très

facilement avec panda alors n'ayez pas peur vraiment vous allez voir qu'on va utiliser des choses très simples on va pas faire des statistiques très avancés çà va se résumer aux valeurs minimales maximale à des moyennes ou à la somme des valeurs donc vraiment des choses assez logique qui ne nécessitent pas des compétences avancées en mathématiques donc j'ai l'eau des mondes attaf remy si avec panda est la première méthode qu'on peut utiliser qui est une méthode un peu couteau suisse c'est la méthode describe donc sûrement data from je peux utiliser describe et savament afficher un tableau

comme ça avec différents éléments on va avoir le compte donc par exemple sur la colonne idées ici vous voyez qu'on a mis et sur les taxes sont à 654 donc le compte en fait ça ne va pas tenir compte des valeurs qui sont nuls donc dans la colonne taxes en fait on voit qu'on a uniquement 654 rangé dans lesquels on a des données donc là sur les colonnes qui nous sont affichés à savoir le idées et les taxes ça n'a pas vraiment d'intérêt mais bien sûr on peut aller cibler une colonne plus précisément donc moi

je vais par exemple allait cibler le price payd et là on a des informations un peu plus intéressante on voit qu'on a un 42000 donc ça veut dire que toutes les rangées contiennent des valeurs sinon on aurait un conte qui serait un peu différent par exemple si je reviens sur les taxes là on voit qu'on a un compte de 654 puisque là encore describe ne va nous afficher le compte que 2 qui contient des valeurs donc si je reviens sur le prospect là comme mon ami il comme on sait qu'on a mille rangé dans notre

data phryne ça veut dire que chaque rangée contient une valeur et sur ces 1000 valeur donc 6000 rangée que l'on a on a 528 valeurs qui sont uniques vous voyez que describe c'est un peu comme je vous dis un couteau suisse ça va dépendre en fait de si vous l'utilisez sur une colonne sur votre data from à chaque fois ça va vous donner un aperçu de certaines statistiques sur votre data fring ou sur vos colonnes donc c'est intéressant pour avoir un aperçu nous ce qu'on va vouloir avoir comme informations par exemple dans le cas du

prix qui a été payé c'est d'avoir une moyenne ou d'avoir la somme totale du prix qui a été payé si on veut savoir combien d'argent on a fait ce mois-ci il va falloir additionner toutes les sommes que chaque client nous a pays donc pour ça on peut utiliser les fonctions mine pour la moyenne et somme pour faire la somme donc je vais reprendre ma colonne price spade et on va faire le mine donc mine c'est la moyenne est là alors vous voyez que j'ai une erreur oui parce que je n'ai pas modifié alors je vais

refaire en fait le la petite modification que j'avais fait dans les parties précédentes donc celle-ci ici pour convertir cette colonne en nombre décimal puisque actuellement en fait dans mon dada frime j'ai une chaîne de caractères avec le dollar donc une fois que cette manipulation est fait on va pouvoir revenir sur notre price tijd et cette fois ci faire la moyenne donc je valide et là vous voyez qu'on a une moyenne de 6,46 donc c'est vraiment le prix moyen qui a été payé donc la moyenne dans ce cas ci c'est vraiment la somme de tout ce

qui a été payé divisé par le nombre de transactions si on veut afficher la somme on va faire des f2 price spade avec cette fois ci une autre méthode donc qui va être la méthode sommes tout simplement et si je la fiche là on à 6461 et c'est assez logique vous voyez puisque on a six points 46 dans la moyenne on a 1000 valeur et donc en fait comme je vous disais la moyenne c'est tout simplement la somme totale divisé par le nombre de valeurs donc 6461 / 1000 ça donne bien 6,46 1 9 3

ok donc c'est tout à fait logique et ça c'est deux méthodes qu'on utilise très souvent qu'ils sont très pratiques dans ce cas-ci pour le prix c'est assez logique vous voyez on a juste envie de savoir quelle est la totalité de l'argent qu'on a gagné ce mois ci on peut également utiliser les méthodes mines et max pour afficher tout simplement la valeur maximale et minimale d'une colonne donc si je vais afficher le prix maximal qui a été payé pour un article je peux faire point mines et ça va ma fiche et le prix minimal et je

peux faire la même chose avec point max pour afficher le prix maximal donc on a un prix minimum de 3 euros et un prix maximal de 10 euros une autre méthode qui est assez pratique c'est la méthode unique donc unique comme ceux ci qui nous permet d'afficher toutes les valeurs uniques à l'intérieur d'une colonne donc par exemple pour les pays si je souhaite afficher toutes les valeurs qui sont disponibles dans ma colonne je peux faire point unique je fais chiffres d'entrées pour exécuter et là on voit toutes les valeurs uniques qui sont dans notre colonne

donc on a canada united states morocco france et la valeur et nahed donc la valeur nulle ok donc ça c'est pratique puisque ça nous permet d'avoir un aperçu de toutes les valeurs qui sont possibles dans notre data frime si on affiche sa par exemple sur price paye là vous allez voir qu'on a beaucoup plus de valeur puisque on a eu un panel en fait de prix payé vous voyez qui est beaucoup plus important donc ça c'est toutes les valeurs qui sont actuellement dans mon dada frime pour le prix pays si vous voulez convertir tout ça

en liste puisque actuellement on a un on peut utiliser là encore le tout liste qu'on a vu dans des parties précédentes pour récupérer un objet python donc ça ne sert pas à grand chose mais c'est juste pour vous montrer si vous êtes un peu perturbé par cet affichage avec le heureux on peut très bien récupéré une liste python avec cette méthode donc unique c'est très pratique aussi là encore pour avoir un aperçu de toutes les valeurs disponibles pour une colonne à l'intérieur de notre data frime on a une autre méthode qui est également très utilisée

qui est value kent qui va nous permettre d'afficher le nombre d'éléments pour chaque valeur dans notre colonne donc par exemple pour le pays si je veux savoir combien de clients j'ai dans chaque pays je peux utiliser sur cette colonne value car ns donc attention il y à un ace à 40 et vous allez voir qu'on se retrouve avec une série ici avec d'un côté les pays donc france united tech canada morocco est le nombre de valeurs associées pour chaque pays donc on sait qu'on a quatre cent huit clients qui viennent de la france 333 des

états unis 161 du canada et 54 du maroc donc ça aussi c'est très pratique là encore sans avoir besoin comme je vous dis de faire des matches très compliqués c'est vraiment juste des informations que l'on souhaite récupérer sur notre dette à fresnes qui nous permettent dans le cas par exemple d'une campagne marketing de savoir qu'on a plutôt intérêt à cibler la france puisque c'est là qu'on a le plus de clients on pourrait également utiliser cette méthode sur le genre donc si on veut savoir combien de clients on a qui sont des hommes ou des femmes

ont peu fair value kent sur cette colonne et là on voit qu'on a 493 femmes et 430 tom si on veut avoir cette donnée en fait de façon normalisée puisque là en fait c'est pas forcément très explicite au niveau d'un pourcentage là on a 493 438 on voit que c'est proche de 50 50 si on veut avoir quelque chose qui ressemble plus à un pourcentage on peut utiliser le paramètres normaux live et le passé à chew et là vous allez voir en fait qu'on va récupérer une valeur qui va être comprise entre 0 et 1

donc là on voit qu'on à 52% de femmes et 47 % d'hommes dans certains cas ça peut être pratique d'avoir le normal à ce qui est à tout pour les pays vous voyez je pense pas que ce soit forcément mieux je préfère savoir une valeur absolue si vous voulez puisque la bon on a un pourcentage ça peut être intéressant mais moi je préfère avoir la valeur absolue je trouve ça plus parlant pour les pays par contre pour les genres vu qu'on a uniquement de valeurs ici eh bien on veut juste savoir quel pourcentage on a

deux chacun des gens dans notre date afrique et pour finir on a une méthode qui est très pratique qui fait un petit peu peur au début mais une fois que vous allez la prendre en main vous allez voir à quel point elle est vraiment excellente c'est la méthode group buy donc si j'utilise group buy par exemple sur la colonne country vous allez voir assez rapidement ce que je veux dire si vous faites juste ça en fait vous allez récupérer un objet qui s'appelle data from cloud by donc dans ce cas ci ça ne sert pas

à grand chose en l'état ce qui va être intéressant après c'est sûr ce data from groupe paille d'utiliser les fonctions qu'on a vu au dessus donc par exemple la méthode sommes ici qui va nous permettre d'afficher la somme pour différentes colonnes par pays donc pour le canada on voit que le prix payé ses 1017 pour la france 2619 et là on retrouve à peu près ce qu'on avait c'est en fait assez logique par rapport aux value 15 qu'on avait ici on voit que c'est en france qu'on a fait le plus gros chiffre d'affaires donc ça

en fait c'est la somme de tous les chiffres d'affaires groupe et par pays donc pour la france le canada le maroc et les etats unis si on voulait faire la moyenne on pourrait faire mieux ici pour afficher la moyenne et on voit que le pays où on paye le plus en moyenne c'est le maroc et le dernier c'est le canada donc c'est le pays où on paye où le prix moyen en fait est le moins important vous voyez par la même occasion qu'on n'a pas toutes les colonnes qui sont affichées ici donc bien entendu on

peut aller cibler une colonne particulière je vais vous montrer un autre exemple on va faire un groupe bail en groupant les données sur le genre et on veut savoir en fonction du genre qui a payé le plus donc je peux faire mine ici directement et ça va nous affiché ici price paye des taxes et idée donc là comme je vous dis on n'a pas toutes les colonnes si on veut aller cibler directement une colonne donc par exemple uniquement à la colonne price payd je peux mettre les crochets tout de suite après ici donc tout de

suite après mon groupe bail on met les crochets et on fait la moyenne sur cette colonne et si je la fiche on voit que donc on a presque la même chose en fait 6.42 et 6.46 pour les femmes et les hommes si je voulais faire la somme je peux mettre sommes ici et là ça va fonctionner exactement de la même façon vous voyez que toutes ces méthodes qu'on utilise on peut les utiliser à chaque fois sur les différents éléments que l'on récupère donc si je fais la somme on voit que les femmes ont payé en

totalité plus que les hommes dans ce cas ci on peut avec groupe bayer également donné une liste donc là c'est encore plus puissant vous allez voir c'est assez incroyable tout ce qu'on peut faire si vous pensez vraiment aux tableaux excel à quel point ce serait compliqué de faire toutes ces opérations à l'intérieur d'un tableau excel et à quel point une fois que vous maîtrisez si ses façons de faire ça devient très facile avec panda donc avec groupe bayer on peut passer plusieurs éléments aussi donc par exemple savoir au canada les femmes combien elles ont payé

en moyenne et les hommes combien ils ont payé donc vraiment ciblé avec deux colonnes donc on peut faire un groupe bail et à l'intérêt des parenthèses on va cette fois ci passer une liste et on va passer les colonnes donc les deux colonnes qu'on souhaite cibler donc le genre et le pays et si je fais la moyenne par exemple donc là encore on utilise les méthodes que l'on a vu plus haut je fais la moyenne et vous voyez que là j'ai un tableau à double entrée avec déjà les femmes et les hommes déjà le genre

et ensuite le pays et donc on voit par exemple que les femmes au canada ont payé en moyenne plus alors je regardais pas la bonne colonne je regardais le idée alors oui en fait c'est quand même ça donc les femmes en moyenne au canada payent plus que les hommes au canada et on voit par la même occasion que les gens qui payent le plus c'est les femmes au maroc qui ont une moyenne ici de sète qui est pas mal plus élevé est la moins élevée c'est ici les hommes au canada vous voyez à quel point

on peut vraiment avoir des données très rapidement très intéressantes sur lesquels on peut tirer des conclusions donc si vous savez qu'il faut cibler les femmes au maroc si vous voulez vendre à un prix un peu plus élevé mais vous voyez donc avec goodbye c'est très puissant on pourrait mettre une troisième colonne ici là ça deviendra peut être un peu dur à analyser et à tirer des conclusions de tout ça mais vous voyez à quel point on peut manipuler et extraire des informations très rapidement avec toutes ces méthodes donc il y en a plein d'autres qui

existe là encore c'est un sujet très vaste mais ça c'est vraiment des méthodes qui comme je vous le dise ne sont pas très complexe à comprendre et qui vous permettent déjà de récupérer beaucoup d'informations sur votre data frime pour en tirer éventuellement certaines conclusions pour pouvoir tracer des graphiques dans les prochaines parties on va devoir installer une bibliothèque supplémentaires qui s'appelle matt pelote libre donc pour ça on va dans un terminal utilisé dans mon cas python 3.9 et avec thiré m pipe on va installer matelote libre donc matt pelote libre comme ceci tout en minuscules

et on va appuyer sur entrée pour valider si vous êtes sur windows bien sûr il faudra utiliser une autre commande notamment en passant par exemple par le pas et launcher donc pays y tirer 3.9 si vous utilisez la version 3.92 python tir m pippin stoll et le nom du module lui reste le même donc matip le clip et si jamais vous souhaitez l'installer directement à l'intérieur d'un jupiter notebook en utilisant la version de python qui est installé dans votre environnement jupiter vous pouvez utiliser la même façon de faire qu'on avait fait précédemment dans cette formation

donc en passant par cette syntaxe avec le point d'exclamation les accolades et avec le module 6 donc pensez bien à l'importer au préalable et ensuite vous pouvez donc utiliser six points exécute aux bruins pour aller installer matelote libre avec l'exécutable qui est utilisé dans votre jupiter notebook donc voilà pour l'installation de maths blocs libres et dans les prochaines parties on va voir comment on peut utiliser cette bibliothèque pour tracer des graphiques à l'intérieur de nos notebook jupiter dans cette partie on va voir comment afficher des graphiques donc des courbes avec panda le gros avantage de

panda c'est qu'elle est en fait packagée avec également matt plaute libre et on va pouvoir utiliser mate le clip directement sur les éléments que l'on a dans notre data frime donc par exemple ici j'ai repris le code de la partie précédente où on a pas mal de données qui sont affichés et on va pouvoir utiliser ce qu'on a ici est utilisé mate le clip pour nous afficher un graphique plutôt que d'avoir des tableaux comme on les a actuellement par exemple j'aimerais bien affichée pour chaque jour dans le mois le prix total qui a été payé

par les gens dans mon dada fring donc pour ça je vais utiliser group buy et on va regrouper avec la colonne date on va s'intéresser au praj spade donc le prix qui a été payé et on va faire la somme de tout ça donc si j'affiche a actuellement on voit qu'on a pour chaque jour ici le prix total qui a été payée par tous les gens dans mon d'afrique donc on a le 1er mars de mars 3 mars etc et à chaque fois la valeur associée et s'en va vouloir l'affiché non pas comme ça sous

forme de tableau mais directement sur un graphique donc on peut utiliser la méthode pelote qui est une méthode de maths pilote libre et vous n'avez même pas besoin en fait d'importer matelote libre ou de créer un graphique avec mate le clip vous pouvez l'utiliser directement sur votre série ici donc là dans ce cas ci on a une série une série panda et on peut utiliser donc pelote pour afficher un graphique donc je valide avec chiffres d'entrées et là vous voyez qu'on a un graphique qui s'affiche avec une courbe et donc le prix moyen payé par

date alors pour l'instant ce n'est pas très gros vous pouvez grossir le graphique avec le paramètre figues size et ce paramètre on va lui passer une liste et ça va être en fait la largeur et la hauteur avec des unités en pousse donc là généralement ne m'étais pas des nombres trop gros en fait c'est pas les pics lcd pousse donc là par exemple 20 et 10 on va essayer avec ça et vous voyez qu'on a déjà quelque chose qui est assez imposant donc n'essayez pas de mettre des valeurs par exemple de 1920 1080 ça risquerait

de prendre pas mal de temps puisque ce ne sont pas des pixels et là vous voyez qu'on a un graphique un peu plus grands un peu plus visible où on voit le prix moyen et on voit que ses pairs le milieu du mois c'est là où on a les plus gros pic avec la valeur maximale ici qui est proche de 300 vers le t'es un gars donc les graphiques vous voyez directement avec la méthode pelote vous pouvez l'utiliser sur presque tout ce que vous avez ici tout ce qu'on a fait ici ou presque on peut

utiliser la méthode klotz alors ça ne va pas forcément être toujours intéressant si je le fais ici on avait juste les femmes et les hommes on avait juste deux éléments avec deux valeurs dans ce cas ci ça n'a pas vraiment d'intérêt donc on peut très bien utiliser un pilote à ce moment là mais ça n'a pas vraiment d'intérêt dans le cas des dates ici quand on est un groupe et par date on avait des données qui étaient assez intéressante et qui sont peut-être plus intéressante sous forme de graphique que sous forme de tableau pour l'instant

on a vu comment afficher une courbe avec la méthode pelote bien entendu il existe plein d'autres types de graphiques qui peuvent être plus intéressant dans certaines situations on avait vu par exemple avec le genre que quand on a juste deux valeurs comme ça afficher une courbe ce n'est pas très intéressant et dans ce cas ci ce qui serait plus intéressant ce serait d'avoir un graphique en camembert donc on appelle pie qui chante en anglais et on peut bien entendu faire ça là encore avec matt pilotes libres donc je vais copier cette ligne ici je vais

redescendre un petit peu et on va voir que donc avec group buy gender ici donc sur le braille speed et donc si je souhaite afficher ces deux données sous forme d'un graphique en camembert on peut utiliser pelote et cette fois ci on ne va pas mettre les parenthèses on va directement utilisé une méthode sûre ce pilote qui est la méthode paille donc paille qui signifie qui en fait le nom en anglais du graphique en camembert et si j'affiche ça juste comme ça vous voyez qu'on a une démarcation avec un peu plus de bleu que deux

oranges et là en fait actuellement on ne voit pas les labels puisqu'ils sont noirs alors si vous regardez vous les voyez peut-être je vais repasser en mode clair alors attention les yeux voilà et vous allez voir ici qu'on a bien les labels qui sont affichés donc female et mail est ici et je peux afficher la légende également en spécifiant legend égal à chew et là ça va afficher les couleurs avec la légende associés donc c'est un peu plus précis comme ça on voit un peu plus de quoi il s'agit on peut également grossir le graphique

là encore avec fixe eyes donc je vais le mettre par exemple avec deux valeurs de cette et ça permet de grossir un petit peu ce graphique donc dans ce cas si vous voyez que c'est un peu plus intéressant on voit très clairement comme ça avec un graphique en camembert que les femmes ont payé un peu plus que les hommes un autre type de graphique qui est assez intéressant c'est le graphique en barres donc qui va nous permettre d'afficher des barres de différentes tailles en fonction par exemple du pays nous ce qu'on avait tout à l'heure

c'était le pays et le prix moyen qui a été payé pour chaque pays donc ça ressemblait à ça ici on avait fait un groupe bail du country et la colonne prix payés ici on utilise la somme donc la somme du prix payé par pays et cette fois ci on peut utiliser donc la méthode barre sur le peloton et si j'affiche ça vous allez voir que on a donc un beau graphique avec des barres qui représente le prix payé pour chaque pays donc on voit bien que la france est le pays le plus important en terme

de d'affaires le maroc le moins important là encore on affiche quelques paramètres supplémentaires on a le legend égal à tchoyi ci qui nous permet d'afficher cet encart price spade et on a également la rotation puisque si je l'enlève vous allez voir qu'en fait les labels ici sont à 90 degrés donc ce n'est pas forcément très lisible donc on peut faire une rotation comme ça on pourrait mettre zéro est à voir comme ça les labels qui sont complètement flippé de l'autre côté ou alors 45 comme je l'avais mis pour avoir quelque chose voilà un peu de

biais donc vous voyez déjà qu'avec ça on peut représenter pas mal de données on a les courbes tout simple en utilisant pelote directement ensuite on a les graphiques en camembert donc pie qui chante en anglais avec pelote point paille et les graphique en barres comme ça avec pelote point bas donc là encore vous voyez c'est très facile d'utilisation pas besoin d'importer quoi que ce soit de plus vous faites juste rajouté le point pelote et les différents types de graphiques que vous souhaitez après vos calculs ici donc ça marche avec plein plein plein de choses avec

les moyennes avec les sommes avec le value car ns donc toutes les données que l'on a analysé dans les parties précédentes vous pouvez les afficher comme ça sous forme de graphiques j'espère que cette vidéo tu as plus si c'est le cas n'hésite pas à mettre 1 pouces bleus est apte abonnés à la chaîne et si tu as la moindre question tu peux bien entendu la pause et en commentaire