La navaja suiza del hippie descalzo
Soluciones descalzas, sin pamplinas corporativas.

Estadísticas de Texto — Palabras, Caracteres y N-gramas

Aplicación offline para contar palabras, caracteres y n-gramas, con conteos únicos, ratios de frecuencia y exportación CSV.

Vocabulario para complementos de traducción
Pegar
Limpiar
Expandir
Contraer
(lento)
Una lista grande puede ralentizar el navegador
Copiar CSV
Descargar CSV
Pega aquí el texto cuyas palabras se contarán
Palabras
Caracteres (con espacios)
Caracteres (sin espacios)
Palabras únicas
2-gramas únicos
3-gramas únicos
Elemento
Conteo
Ratio respecto al primero
Ratio respecto al total
Ratio respecto al primero (sin espacios)
Ratio respecto al total (sin espacios)
Palabras más frecuentes
N-gramas de 2 palabras más frecuentes
N-gramas de 3 palabras más frecuentes
Caracteres más frecuentes
N-gramas de 2 caracteres más frecuentes
N-gramas de 3 caracteres más frecuentes
Iniciando pruebas automáticas
Resumen de pruebas
aprobada
fallida
Todas las pruebas aprobadas; el analizador parece funcionar correctamente.
Algunas pruebas fallaron; el analizador podría no estar funcionando como se esperaba.
Service Worker no disponible

Instrucciones

Inserta o pega texto en el campo de entrada (usa Pegar si está disponible).

Consulta las estadísticas principales: Palabras, Caracteres con espacios, Caracteres sin espacios, seguidos de Palabras únicas, 2-gramas únicos, 3-gramas únicos.

Examina las tablas de frecuencia: Palabras más frecuentes, N-gramas de 2/3 palabras más frecuentes, Caracteres más frecuentes y N-gramas de caracteres.

Usa Expandir/Contraer para alternar entre los 5 primeros elementos y la lista completa de cada tabla.

Selecciona Copiar CSV o Descargar CSV para obtener una exportación completa de cualquier tabla.

Explicación detallada

Principios metodológicos

  • Ejecución local: Todo el procesamiento ocurre en el navegador; no se transmiten datos al exterior.
  • Conformidad Unicode: Los caracteres se procesan como puntos de código, asegurando un manejo preciso de todos los scripts y emojis.
  • Tokenización de palabras: Las palabras se definen como secuencias de letras o dígitos, con apóstrofos internos (' o ') y guiones (‐) preservados. Los tokens se convierten a minúsculas para consolidar variantes (por ejemplo, "El" y "el").
  • N-gramas de caracteres: Se forman directamente a partir de los caracteres, incluyendo puntuación y espacios en blanco.
  • N-gramas de palabras: Se construyen a partir de los tokens de palabras en minúsculas, ignorando espacios y puntuación como separadores.

Contadores principales

  • Palabras: Número total de tokens de palabras detectados.
  • Caracteres con espacios: Número total de puntos de código, incluyendo espacios, saltos de línea, puntuación y símbolos.
  • Caracteres sin espacios: Número de puntos de código menos los espacios en blanco.
  • Palabras únicas: Número de palabras distintas.
  • 2-gramas de palabras únicos: Número de secuencias consecutivas distintas de dos palabras.
  • 3-gramas de palabras únicos: Número de secuencias consecutivas distintas de tres palabras.

Tablas y métricas

Cada tabla presenta elementos ordenados por frecuencia. En modo contraído solo se muestran los cinco más frecuentes; el modo expandido revela el conjunto completo.

Columnas:

  • Elemento: El carácter, palabra o n-grama.
  • Conteo: Frecuencia del elemento en el texto.
  • Ratio respecto al primero: Proporción de la frecuencia del elemento respecto al elemento más frecuente de la tabla.
  • Ratio respecto al total: Proporción de la frecuencia del elemento respecto al número total de tokens en esa categoría.
  • Ratio respecto al primero (sin espacios) (solo tablas de caracteres): Ratio respecto al carácter no-espacio más frecuente.
  • Ratio respecto al total (sin espacios) (solo tablas de caracteres): Proporción respecto a todos los caracteres que no son espacios.

Exportación CSV

  • Contenido: El archivo exportado siempre contiene la lista completa de elementos, nunca limitada a los 5 primeros.
  • Formato: CSV estándar con el escapado y entrecomillado apropiado de campos que contienen comas, comillas o saltos de línea.

Consideraciones de diseño y limitaciones

  • Minúsculas: Asegura un conteo consistente de variantes léxicas que solo difieren en mayúsculas. Las tablas de caracteres preservan las formas originales.
  • Límites de tokens: Los apóstrofos y guiones dentro de tokens se conservan; el resto de la puntuación actúa como delimitador.
  • Ratios sin espacios: Reducen el efecto distorsionante de los caracteres de espacio en las medidas de frecuencia.
  • Sensibilidad al idioma: El método es general y no tiene en cuenta las características morfológicas o sintácticas específicas de todos los idiomas. Los resultados son válidos pero pueden no coincidir con la segmentación lingüística en todos los casos.

Privacidad y portabilidad

  • Completamente autónoma, no requiere bibliotecas ni conexiones externas.
  • El texto introducido nunca sale del entorno del usuario.

Advertencia: Expandir una tabla para mostrar todos los elementos puede ser computacionalmente intensivo si el texto de entrada es muy grande. En esos casos el navegador puede ralentizarse notablemente o incluso dejar de responder. Para análisis extensos es recomendable usar la vista de los 5 primeros para inspección rápida, y si se necesitan los datos completos, preferir la exportación CSV.