Aprendizaje en la resolución automática de las ambigüedades léxicas del lenguaje natural

Javier Andrade Garda
Jorge Graña Gil
Teresa Romero Quintáns

to appear in Novática, 133, tema monográfico Lengua y Tecnologías de la Información, May-June 1998.

Resumen

La primera etapa en el tratamiento del lenguaje natural (análisis léxico) proporciona a las palabras unas etiquetas, o descripciones, que contienen toda la información necesaria para caracterizarlas en el conjunto del léxico de la lengua. Sin embargo, a cada palabra aislada, fuera de contexto, pueden corresponderle varias etiquetas, lo que complica el análisis sintáctico de los textos (segunda etapa). Surge, por tanto, la necesidad de resolver las ambigüedades en el proceso de etiquetación.

Aquí se presenta el módulo que, integrado en el proyecto GALENA (Generador de Analizadores de LEnguajes NAturales), elimina de forma estadística las ambigüedades presentadas por las palabras. El objetivo de este trabajo es priorizar las etiquetas en cada palabra a través de la asignación de la que en cada caso sea más probable, en base a estadísticas contextuales. Para ello, se ha optado por realizar un aprendizaje basado en el análisis estadístico de textos del mismo estilo literario que el que va a tratarse, y la posterior aplicación de ese aprendizaje al texto en cuestión. El desambiguador propuesto permite seleccionar el tipo de información léxica que se desea considerar para desambiguar, y ofrece funcionalidades complementarias para el tratamiento de las matrices de aprendizaje.

Palabras clave: Ambigüedad Léxica, Desambiguación Estadística, Fase de Aprendizaje, Matriz de Aprendizaje, Fase Operacional.


Javier Andrade Garda / andrade@dc.fi.udc.es
Jorge Graña Gil / grana@dc.fi.udc.es
Teresa Romero Quintáns / romero@dc.fi.udc.es