Aller au-dela de value_counts () : creer des tableaux de frequences visuellement attrayants avec juste 3 lignes de code (a l’aide de donnees OkCupid)

postado em: hinge fr review | 0

Aller au-dela de value_counts () : creer des tableaux de frequences visuellement attrayants avec juste 3 lignes de code (a l’aide de donnees OkCupid)

Quelques astuces simples mais utiles que vous ne connaissiez probablement pas

Correctement que le possible le plus facile de creer une table de frequences pour 1 objet Series dans la bibliotheque Python pandas consiste a appliquer la value_counts() methode, le resultat de cette operation parait plutot basique. Nous pouvons le rendre plus informatif en ajustant les parametres booleens en methode normalize , sort , ascending , et dropna , ou en regroupant nos valeurs (si elles paraissent numeriques) dans des bacs. Cependant, les alternatives ici paraissent assez limitees, donc Afin de ameliorer visuellement la table de frequences resultante, nous pouvons envisager plusieurs astuces https://besthookupwebsites.org/fr/hinge-review/ simples mais indispensables, telles que le chainage de methodes, la personnalisation du texte, l’ajout du % symbole a chaque valeur de frequence et l’utilisation une puissance de jolie- impression.

Dans Ce texte, nous allons experimenter un ensemble de donnees Kaggle contenant des informations sur l’age, le sexe, l’emplacement, l’education, etc., pour 60 000 utilisateurs de l’ application de rencontres OkCupid ??. Pour les besoins, cependant, nous n’utiliserons que des precisions sur les statuts des utilisateurs.

1. Enchainement des methodes

Pour commencer, creons un tableau de frequence de base pour les statuts des utilisateurs :

( Note : ci-apres, nous allons laisser la totalite des autres parametres une value_counts() methode avec defaut, cela signifie que nous ne considererons que les tableaux de frequences tries par ordre decroissant et en excluant les valeurs manquantes. Pour des besoins, se servir de ou non ces parametres ne peu importe.)

Sans connaitre le contexte, a partir du tableau ci-dessus, il peut ne pas etre net que des nombres constituent des pourcentages et non des frequences absolues. Ajoutons un titre au tableau en utilisant le formatage f-string :

Dans l’exemple ci-dessus, nous avons ajoute le % symbole au titre du tableau. Et si nous voulions plutot l’ajouter a chaque valeur de frequence ? Une solution de contournement consiste a creer une liste de valeurs de frequence avec le % symbole ajoute a chacune d’entre elles, puis a creer une serie a partir de cette liste. Afin d’effectuer la liste, nous pouvons utiliser la boucle for suivante :

Enfin, nous pouvons joliment imprimer le tableau des frequences. Pour ceci, nous allons utiliser la to_markdown() technique pandas qui necessite l’installation (souvent pas l’import) du module tabulate ( pip install tabulate ).

Important : pour afficher convenablement les resultats, la to_markdown() technique devra etre utilisee seulement a l’interieur en print() prends.

Jouons au milieu des parametres tablefmt et stralign . Le premier d’entre eux definit le format du tableau et pourra avoir l’une des valeurs suivantes : plain , simple , github , grid , fancy_grid , pipe , orgtbl , jira , presto , pretty , psql , rst , etc. Prenons un exemple, le format de tableau que nous avons vu plus bas s’appelle pipe , celui avec defaut concernant nos to_markdown() pandas methode. Curieux que pour le package tabulate lui-meme, le format de tableau avec defaut est simple . Quant au deuxieme parametre, stralign , il sert a remplacer l’alignement des precisions de chaine par defaut (qui est left ). Les options possibles ici sont right et center .

Attention : le floatfmt parametre ne fonctionne nullement en combinaison avec le format du tableau pretty .

Plats a emporter pratiques

Bien que chacune de la procedure nullement a pas ci-dessus ait necessite de multiples iterations et descriptions, nous trouverons ci-dessous des solutions de code finales Afin de 4 versions differentes de notre tableau des frequences Afin de profiles[‘status’] , l’article en % :

  • 2 tableaux simples avec/sans le % symbole,
  • 2 jolis tableaux imprimes avec/sans le % symbole et avec/sans en-tete de tableau.

Dans cet article, nous avons discute de divers approches simples mais puissantes pour ameliorer la disposition du tableau des frequences et la lisibilite globale. Ils ont tous la value_counts() technique des pandas comme element central, mais tous vont au-dela et aboutissent a des representations plus percutantes. De surcroit, chacune des solutions proposees, dans sa forme definitive, necessite au maximum 3 lignes de code.

J’espere que vous avez apprecie la lecture de mon article et que vous l’avez trouve utile. Merci d’avoir lu a tout un chacun, ainsi, bonne chance a ceux qui utilisent l’application de rencontres OkCupid ????

Vous pouvez tomber sur interessant aussi ces articles :

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *