Estadísticas de Texto — Palabras, Caracteres y N-gramas
Aplicación offline para contar palabras, caracteres y n-gramas, con conteos únicos, ratios de frecuencia y exportación CSV.
Instrucciones
Inserta o pega texto en el campo de entrada (usa Pegar si está disponible).
Consulta las estadísticas principales: Palabras, Caracteres con espacios, Caracteres sin espacios, seguidos de Palabras únicas, 2-gramas únicos, 3-gramas únicos.
Examina las tablas de frecuencia: Palabras más frecuentes, N-gramas de 2/3 palabras más frecuentes, Caracteres más frecuentes y N-gramas de caracteres.
Usa Expandir/Contraer para alternar entre los 5 primeros elementos y la lista completa de cada tabla.
Selecciona Copiar CSV o Descargar CSV para obtener una exportación completa de cualquier tabla.
Explicación detallada
Principios metodológicos
- Ejecución local: Todo el procesamiento ocurre en el navegador; no se transmiten datos al exterior.
- Conformidad Unicode: Los caracteres se procesan como puntos de código, asegurando un manejo preciso de todos los scripts y emojis.
- Tokenización de palabras: Las palabras se definen como secuencias de letras o dígitos, con apóstrofos internos (' o ') y guiones (‐) preservados. Los tokens se convierten a minúsculas para consolidar variantes (por ejemplo, "El" y "el").
- N-gramas de caracteres: Se forman directamente a partir de los caracteres, incluyendo puntuación y espacios en blanco.
- N-gramas de palabras: Se construyen a partir de los tokens de palabras en minúsculas, ignorando espacios y puntuación como separadores.
Contadores principales
- Palabras: Número total de tokens de palabras detectados.
- Caracteres con espacios: Número total de puntos de código, incluyendo espacios, saltos de línea, puntuación y símbolos.
- Caracteres sin espacios: Número de puntos de código menos los espacios en blanco.
- Palabras únicas: Número de palabras distintas.
- 2-gramas de palabras únicos: Número de secuencias consecutivas distintas de dos palabras.
- 3-gramas de palabras únicos: Número de secuencias consecutivas distintas de tres palabras.
Tablas y métricas
Cada tabla presenta elementos ordenados por frecuencia. En modo contraído solo se muestran los cinco más frecuentes; el modo expandido revela el conjunto completo.
Columnas:
- Elemento: El carácter, palabra o n-grama.
- Conteo: Frecuencia del elemento en el texto.
- Ratio respecto al primero: Proporción de la frecuencia del elemento respecto al elemento más frecuente de la tabla.
- Ratio respecto al total: Proporción de la frecuencia del elemento respecto al número total de tokens en esa categoría.
- Ratio respecto al primero (sin espacios) (solo tablas de caracteres): Ratio respecto al carácter no-espacio más frecuente.
- Ratio respecto al total (sin espacios) (solo tablas de caracteres): Proporción respecto a todos los caracteres que no son espacios.
Exportación CSV
- Contenido: El archivo exportado siempre contiene la lista completa de elementos, nunca limitada a los 5 primeros.
- Formato: CSV estándar con el escapado y entrecomillado apropiado de campos que contienen comas, comillas o saltos de línea.
Consideraciones de diseño y limitaciones
- Minúsculas: Asegura un conteo consistente de variantes léxicas que solo difieren en mayúsculas. Las tablas de caracteres preservan las formas originales.
- Límites de tokens: Los apóstrofos y guiones dentro de tokens se conservan; el resto de la puntuación actúa como delimitador.
- Ratios sin espacios: Reducen el efecto distorsionante de los caracteres de espacio en las medidas de frecuencia.
- Sensibilidad al idioma: El método es general y no tiene en cuenta las características morfológicas o sintácticas específicas de todos los idiomas. Los resultados son válidos pero pueden no coincidir con la segmentación lingüística en todos los casos.
Privacidad y portabilidad
- Completamente autónoma, no requiere bibliotecas ni conexiones externas.
- El texto introducido nunca sale del entorno del usuario.
Advertencia: Expandir una tabla para mostrar todos los elementos puede ser computacionalmente intensivo si el texto de entrada es muy grande. En esos casos el navegador puede ralentizarse notablemente o incluso dejar de responder. Para análisis extensos es recomendable usar la vista de los 5 primeros para inspección rápida, y si se necesitan los datos completos, preferir la exportación CSV.