Statistiques de Texte — Mots, Caractères et N-grammes
Application hors ligne pour compter les mots, caractères et n-grammes, avec comptages uniques, ratios de fréquence et exportation CSV.
Instructions
Saisissez ou collez du texte dans le champ de saisie (utilisez Coller si disponible).
Consultez les statistiques principales : Mots, Caractères avec espaces, Caractères sans espaces, suivis de Mots uniques, 2-grammes uniques, 3-grammes uniques.
Examinez les tableaux de fréquence : Mots les plus fréquents, N-grammes de 2/3 mots les plus fréquents, Caractères les plus fréquents et N-grammes de caractères.
Utilisez Développer/Réduire pour alterner entre les 5 premiers éléments et la liste complète de chaque tableau.
Sélectionnez Copier CSV ou Télécharger CSV pour obtenir une exportation complète de n'importe quel tableau.
Explication détaillée
Principes méthodologiques
- Exécution locale : Tout le traitement s'effectue dans le navigateur ; aucune donnée n'est transmise à l'extérieur.
- Conformité Unicode : Les caractères sont traités comme des points de code, garantissant une prise en charge précise de toutes les écritures et emojis.
- Tokenisation des mots : Les mots sont définis comme des séquences de lettres ou de chiffres, avec les apostrophes internes (' ou ') et les traits d'union (‐) conservés. Les tokens sont mis en minuscules pour regrouper les variantes (par exemple, « Le » et « le »).
- N-grammes de caractères : Formés directement à partir des caractères, y compris la ponctuation et les espaces.
- N-grammes de mots : Construits à partir des tokens de mots en minuscules, en ignorant les espaces et la ponctuation comme séparateurs.
Compteurs principaux
- Mots : Nombre total de tokens de mots détectés.
- Caractères avec espaces : Nombre total de points de code, y compris les espaces, les sauts de ligne, la ponctuation et les symboles.
- Caractères sans espaces : Nombre de points de code moins les espaces.
- Mots uniques : Nombre de mots distincts.
- 2-grammes de mots uniques : Nombre de séquences consécutives distinctes de deux mots.
- 3-grammes de mots uniques : Nombre de séquences consécutives distinctes de trois mots.
Tableaux et métriques
Chaque tableau présente les éléments classés par fréquence. En mode réduit, seuls les cinq plus fréquents sont affichés ; le mode développé révèle l'ensemble complet.
Colonnes :
- Élément : Le caractère, mot ou n-gramme.
- Effectif : Fréquence de l'élément dans le texte.
- Ratio par rapport au premier : Proportion de la fréquence de l'élément par rapport à l'élément le plus fréquent du tableau.
- Ratio par rapport au total : Proportion de la fréquence de l'élément par rapport au nombre total de tokens dans cette catégorie.
- Ratio par rapport au premier (sans espaces) (tableaux de caractères uniquement) : Ratio par rapport au caractère non-espace le plus fréquent.
- Ratio par rapport au total (sans espaces) (tableaux de caractères uniquement) : Proportion par rapport à l'ensemble des caractères non-espaces.
Exportation CSV
- Contenu : Le fichier exporté contient toujours la liste complète des éléments, jamais limitée aux 5 premiers.
- Format : CSV standard avec l'échappement et la mise entre guillemets appropriés des champs contenant des virgules, des guillemets ou des sauts de ligne.
Considérations de conception et limitations
- Mise en minuscules : Garantit un comptage cohérent des variantes lexicales ne différant que par la casse. Les tableaux de caractères conservent les formes originales.
- Limites des tokens : Les apostrophes et les traits d'union à l'intérieur des tokens sont conservés ; le reste de la ponctuation sert de délimiteur.
- Ratios sans espaces : Réduisent l'effet de distorsion des caractères d'espacement dans les mesures de fréquence.
- Sensibilité linguistique : La méthode est générale et ne tient pas compte des caractéristiques morphologiques ou syntaxiques propres à chaque langue. Les résultats restent valides mais peuvent ne pas correspondre à la segmentation linguistique dans tous les cas.
Confidentialité et portabilité
- Entièrement autonome, ne nécessite aucune bibliothèque ni connexion externe.
- Le texte saisi ne quitte jamais l'environnement de l'utilisateur.
Avertissement : Développer un tableau pour afficher tous les éléments peut être exigeant en termes de calcul si le texte d'entrée est très volumineux. Dans ce cas, le navigateur peut ralentir sensiblement, voire ne plus répondre. Pour les analyses de grande ampleur, il est recommandé d'utiliser la vue des 5 premiers pour une inspection rapide, et si les données complètes sont nécessaires, de privilégier l'exportation CSV.