Le couteau suisse du hippie aux pieds nus
Solutions pieds nus, sans baratin corporatif.

Statistiques de Texte — Mots, Caractères et N-grammes

Application hors ligne pour compter les mots, caractères et n-grammes, avec comptages uniques, ratios de fréquence et exportation CSV.

Vocabulaire pour les modules de traduction
Coller
Effacer
Développer
Réduire
(lent)
Une liste volumineuse peut ralentir le navigateur
Copier CSV
Télécharger CSV
Collez ici le texte dont les mots seront comptés
Mots
Caractères (avec espaces)
Caractères (sans espaces)
Mots uniques
2-grammes uniques
3-grammes uniques
Élément
Effectif
Ratio par rapport au premier
Ratio par rapport au total
Ratio par rapport au premier (sans espaces)
Ratio par rapport au total (sans espaces)
Mots les plus fréquents
N-grammes de 2 mots les plus fréquents
N-grammes de 3 mots les plus fréquents
Caractères les plus fréquents
N-grammes de 2 caractères les plus fréquents
N-grammes de 3 caractères les plus fréquents
Lancement des tests automatiques
Résumé des tests
réussi
échoué
Tous les tests ont réussi ; l'analyseur semble fonctionner correctement.
Certains tests ont échoué ; l'analyseur pourrait ne pas fonctionner comme prévu.
Service Worker indisponible

Instructions

Saisissez ou collez du texte dans le champ de saisie (utilisez Coller si disponible).

Consultez les statistiques principales : Mots, Caractères avec espaces, Caractères sans espaces, suivis de Mots uniques, 2-grammes uniques, 3-grammes uniques.

Examinez les tableaux de fréquence : Mots les plus fréquents, N-grammes de 2/3 mots les plus fréquents, Caractères les plus fréquents et N-grammes de caractères.

Utilisez Développer/Réduire pour alterner entre les 5 premiers éléments et la liste complète de chaque tableau.

Sélectionnez Copier CSV ou Télécharger CSV pour obtenir une exportation complète de n'importe quel tableau.

Explication détaillée

Principes méthodologiques

  • Exécution locale : Tout le traitement s'effectue dans le navigateur ; aucune donnée n'est transmise à l'extérieur.
  • Conformité Unicode : Les caractères sont traités comme des points de code, garantissant une prise en charge précise de toutes les écritures et emojis.
  • Tokenisation des mots : Les mots sont définis comme des séquences de lettres ou de chiffres, avec les apostrophes internes (' ou ') et les traits d'union (‐) conservés. Les tokens sont mis en minuscules pour regrouper les variantes (par exemple, « Le » et « le »).
  • N-grammes de caractères : Formés directement à partir des caractères, y compris la ponctuation et les espaces.
  • N-grammes de mots : Construits à partir des tokens de mots en minuscules, en ignorant les espaces et la ponctuation comme séparateurs.

Compteurs principaux

  • Mots : Nombre total de tokens de mots détectés.
  • Caractères avec espaces : Nombre total de points de code, y compris les espaces, les sauts de ligne, la ponctuation et les symboles.
  • Caractères sans espaces : Nombre de points de code moins les espaces.
  • Mots uniques : Nombre de mots distincts.
  • 2-grammes de mots uniques : Nombre de séquences consécutives distinctes de deux mots.
  • 3-grammes de mots uniques : Nombre de séquences consécutives distinctes de trois mots.

Tableaux et métriques

Chaque tableau présente les éléments classés par fréquence. En mode réduit, seuls les cinq plus fréquents sont affichés ; le mode développé révèle l'ensemble complet.

Colonnes :

  • Élément : Le caractère, mot ou n-gramme.
  • Effectif : Fréquence de l'élément dans le texte.
  • Ratio par rapport au premier : Proportion de la fréquence de l'élément par rapport à l'élément le plus fréquent du tableau.
  • Ratio par rapport au total : Proportion de la fréquence de l'élément par rapport au nombre total de tokens dans cette catégorie.
  • Ratio par rapport au premier (sans espaces) (tableaux de caractères uniquement) : Ratio par rapport au caractère non-espace le plus fréquent.
  • Ratio par rapport au total (sans espaces) (tableaux de caractères uniquement) : Proportion par rapport à l'ensemble des caractères non-espaces.

Exportation CSV

  • Contenu : Le fichier exporté contient toujours la liste complète des éléments, jamais limitée aux 5 premiers.
  • Format : CSV standard avec l'échappement et la mise entre guillemets appropriés des champs contenant des virgules, des guillemets ou des sauts de ligne.

Considérations de conception et limitations

  • Mise en minuscules : Garantit un comptage cohérent des variantes lexicales ne différant que par la casse. Les tableaux de caractères conservent les formes originales.
  • Limites des tokens : Les apostrophes et les traits d'union à l'intérieur des tokens sont conservés ; le reste de la ponctuation sert de délimiteur.
  • Ratios sans espaces : Réduisent l'effet de distorsion des caractères d'espacement dans les mesures de fréquence.
  • Sensibilité linguistique : La méthode est générale et ne tient pas compte des caractéristiques morphologiques ou syntaxiques propres à chaque langue. Les résultats restent valides mais peuvent ne pas correspondre à la segmentation linguistique dans tous les cas.

Confidentialité et portabilité

  • Entièrement autonome, ne nécessite aucune bibliothèque ni connexion externe.
  • Le texte saisi ne quitte jamais l'environnement de l'utilisateur.

Avertissement : Développer un tableau pour afficher tous les éléments peut être exigeant en termes de calcul si le texte d'entrée est très volumineux. Dans ce cas, le navigateur peut ralentir sensiblement, voire ne plus répondre. Pour les analyses de grande ampleur, il est recommandé d'utiliser la vue des 5 premiers pour une inspection rapide, et si les données complètes sont nécessaires, de privilégier l'exportation CSV.