Análisis Léxico no Determinista: Etiquetación Eficiente del Lenguaje Natural

Jorge Graña Gil
Miguel Angel Alonso Pardo
Alberto valderruten Vidal

TR16, Departamento de Computación, Facultade de Informática, Universidade da Coruña, 1994.


Resumen

El análisis léxico constituye el primer paso en el procesamiento de las lenguas naturales, entendido como el etiquetado de clases de palabras, así como la detección y posible eliminación de ambiguedades en la determinación de dichas clases. En el tratamiento de los lenguajes de programación dicha fase suele tener un tratamiento práctico tatalmente independiente de las fases de análisis sintáctico y semántico. Sin embargo, en el caso de las lenguas naturales esta parte del proceso general de análisis tiene especial importancia en el tratamiento subsiguiente. Es por ello necesario asegurar un tratamiento eficiente del mismo.

En este contexto, el trabajo descrito pretende dar un tratamiento práctico al problema de la etiquetación de lenguas naturales, tanto en lo que se refiere a la velocidad de tratamiento como a su dominio de aplicación. Para ello, los autores han partido de la base representada por la experiencia acumulada durante años en el tratamiento de este mismo problema, a nivel de los lenguajes formales de programación. En concreto, la técnica propuesta representa un sustancial distanciamiento de las aplicadas tradicionalmente en el etiquetamiento de textos, fundamentadas en el uso de bases de datos, para orientarse hacia métodos basados en el uso de autómatas de diseño específico que incorporan mecanismos operacionales para el tratamiento del conocimiento linguistico disponible acerca de la estructura morfológica de las palabras. En este sentido los autores justifican la elección del nuevo formalismo, al tiempo que presentan los primeros resultados prácticos obtenidos.

Palabras clave: Análisis léxico, Autómatas Finitos, Etiquetado.


Jorge Graña Gil / grana@dc.fi.udc.es
Miguel Angel Alonso Pardo / alonso@dc.fi.udc.es
Alberto valderruten Vidal / valderruten@dc.fi.udc.es