Statistiques de Texte — Mots, Caractères et N-grammes

Application hors ligne pour compter les mots, caractères et n-grammes, avec comptages uniques, ratios de fréquence et exportation CSV.

Vocabulaire pour les modules de traduction

Coller

Effacer

Développer

Réduire

(lent)

Une liste volumineuse peut ralentir le navigateur

Copier CSV

Télécharger CSV

Collez ici le texte dont les mots seront comptés

Mots

Caractères (avec espaces)

Caractères (sans espaces)

Mots uniques

2-grammes uniques

3-grammes uniques

Élément

Effectif

Ratio par rapport au premier

Ratio par rapport au total

Ratio par rapport au premier (sans espaces)

Ratio par rapport au total (sans espaces)

Mots les plus fréquents

N-grammes de 2 mots les plus fréquents

N-grammes de 3 mots les plus fréquents

Caractères les plus fréquents

N-grammes de 2 caractères les plus fréquents

N-grammes de 3 caractères les plus fréquents

Lancement des tests automatiques

Résumé des tests

réussi

échoué

Tous les tests ont réussi ; l'analyseur semble fonctionner correctement.

Certains tests ont échoué ; l'analyseur pourrait ne pas fonctionner comme prévu.

Service Worker indisponible

Instructions

Saisissez ou collez du texte dans le champ de saisie (utilisez Coller si disponible).

Consultez les statistiques principales : Mots, Caractères avec espaces, Caractères sans espaces, suivis de Mots uniques, 2-grammes uniques, 3-grammes uniques.

Examinez les tableaux de fréquence : Mots les plus fréquents, N-grammes de 2/3 mots les plus fréquents, Caractères les plus fréquents et N-grammes de caractères.

Utilisez Développer/Réduire pour alterner entre les 5 premiers éléments et la liste complète de chaque tableau.

Sélectionnez Copier CSV ou Télécharger CSV pour obtenir une exportation complète de n'importe quel tableau.

Explication détaillée

Principes méthodologiques

Exécution locale : Tout le traitement s'effectue dans le navigateur ; aucune donnée n'est transmise à l'extérieur.
Conformité Unicode : Les caractères sont traités comme des points de code, garantissant une prise en charge précise de toutes les écritures et emojis.
Tokenisation des mots : Les mots sont définis comme des séquences de lettres ou de chiffres, avec les apostrophes internes (' ou ') et les traits d'union (‐) conservés. Les tokens sont mis en minuscules pour regrouper les variantes (par exemple, « Le » et « le »).
N-grammes de caractères : Formés directement à partir des caractères, y compris la ponctuation et les espaces.
N-grammes de mots : Construits à partir des tokens de mots en minuscules, en ignorant les espaces et la ponctuation comme séparateurs.

Compteurs principaux

Mots : Nombre total de tokens de mots détectés.
Caractères avec espaces : Nombre total de points de code, y compris les espaces, les sauts de ligne, la ponctuation et les symboles.
Caractères sans espaces : Nombre de points de code moins les espaces.
Mots uniques : Nombre de mots distincts.
2-grammes de mots uniques : Nombre de séquences consécutives distinctes de deux mots.
3-grammes de mots uniques : Nombre de séquences consécutives distinctes de trois mots.

Tableaux et métriques

Chaque tableau présente les éléments classés par fréquence. En mode réduit, seuls les cinq plus fréquents sont affichés ; le mode développé révèle l'ensemble complet.

Colonnes :

Élément : Le caractère, mot ou n-gramme.
Effectif : Fréquence de l'élément dans le texte.
Ratio par rapport au premier : Proportion de la fréquence de l'élément par rapport à l'élément le plus fréquent du tableau.
Ratio par rapport au total : Proportion de la fréquence de l'élément par rapport au nombre total de tokens dans cette catégorie.
Ratio par rapport au premier (sans espaces) (tableaux de caractères uniquement) : Ratio par rapport au caractère non-espace le plus fréquent.
Ratio par rapport au total (sans espaces) (tableaux de caractères uniquement) : Proportion par rapport à l'ensemble des caractères non-espaces.

Exportation CSV

Contenu : Le fichier exporté contient toujours la liste complète des éléments, jamais limitée aux 5 premiers.
Format : CSV standard avec l'échappement et la mise entre guillemets appropriés des champs contenant des virgules, des guillemets ou des sauts de ligne.

Considérations de conception et limitations

Mise en minuscules : Garantit un comptage cohérent des variantes lexicales ne différant que par la casse. Les tableaux de caractères conservent les formes originales.
Limites des tokens : Les apostrophes et les traits d'union à l'intérieur des tokens sont conservés ; le reste de la ponctuation sert de délimiteur.
Ratios sans espaces : Réduisent l'effet de distorsion des caractères d'espacement dans les mesures de fréquence.
Sensibilité linguistique : La méthode est générale et ne tient pas compte des caractéristiques morphologiques ou syntaxiques propres à chaque langue. Les résultats restent valides mais peuvent ne pas correspondre à la segmentation linguistique dans tous les cas.

Confidentialité et portabilité

Entièrement autonome, ne nécessite aucune bibliothèque ni connexion externe.
Le texte saisi ne quitte jamais l'environnement de l'utilisateur.

Avertissement : Développer un tableau pour afficher tous les éléments peut être exigeant en termes de calcul si le texte d'entrée est très volumineux. Dans ce cas, le navigateur peut ralentir sensiblement, voire ne plus répondre. Pour les analyses de grande ampleur, il est recommandé d'utiliser la vue des 5 premiers pour une inspection rapide, et si les données complètes sont nécessaires, de privilégier l'exportation CSV.