INVESTIGATING TYPE-TOKEN REGRESSION AND ITS POTENTIAL FOR AUTOMATED TEXT DISCRIMINATION

Autores/as

  • Pascual Cantos Gómez

Palabras clave:

Lingüística del corpus, regresión de tipos (formas) y tokens (palabras), tipología de textos, clasificación automática de textos

Resumen

La motivación del presente artículo nace de la intuición de que la sola utilización de la densidad léxica de muestras textuales pertenecientes a diferentes idiomas, autores, dominios lingüísticos, etc. Puede ser potencialmente válida para discriminar textos de forma automática. Con el fin de encontrar un índice de densidad léxica válido y fiable, hemos revisado y clarificado la relación matemática entre tipos (formas) y tokens (palabras), puro construir modelos de regresión adecuados que nos permitan distinguir tipos de textos. Por añadidura, hemos hecho uso de modelos estadísticos multivariantes (análisis de conglomerados y análisis discriminante) con el fin de complementar y optimizar el modelo matemático de regresión para la densidad léxica (la fórmula TYT).

Biografía del autor/a

Pascual Cantos Gómez

Departaniento de Filología Inglesa Universidad de Murcia

Descargas

Número

Sección

Artículos