Next: 5.3.1 El comportamiento determinista
Up: 5 El análisis léxico
Previous: A.1.2 Un ejemplo sencillo
En los lenguajes naturales existen ambigüedades a todos los niveles:
léxico, sintáctico y semántico. En este capítulo nos
interesa ver el modo en que se pueden tratar las ambigüedades del
nivel léxico. Algunos autores proponen utilizar un enfoque de
ventana deslizante, generalmente de tamaño reducido (sobre tres
palabras), empleando técnica estadísticas como las cadenas de
Markov o los autómatas probabilísticos para determinar el componente léxico
más probable que se corresponde con una palabra dada. Este enfoque
tiene varios inconvenientes serios:
- Es preciso disponer de información estadística actualizada
acerca de las probabilidades de aparición conjunta de un conjunto de
categorías de palabras
. Es necesario disponer de un texto amplio ya
etiquetado para poder entrenar al modelo. De la bondad del
conjunto de entrenamiento dependerá en buena medida la corrección
de los resultados obtenidos.
- Se está tratando de incorporar a nivel léxico información
correspondiente a nivel sintáctico y semántico. Esto
provoca una confusión entre las tareas realizadas en cada uno de
dichos niveles. Además, debido a la imposibilidad de aplicar
modelos matemáticos complejos a conjuntos grandes de palabras, se
están realizando suposiciones sobre ventanas muy pequeñas que no
abarcan, en la mayoría de los casos, estructuras sintácticas
completas, por lo que la posibilidad de error es grande.
- La carga computacional asociada es muy elevada, lo que disminuye
el rendimiento. Para mantener un rendimiento aceptable se precisa
ejecutar el programa en máquinas muy potentes.
- Muchas veces estos modelos trabajan en conjunción con bases de
datos, lo que degrada todavía más el rendimiento,
ignorando además el
conocimiento disponible acerca de la formación de las palabras a
nivel léxico.
El enfoque que hemos adoptado ha sido el de ampliar las
capacidades del reconocedor generado por Flex, incorporándole un
comportamiento no determinista.
Miguel A. Alonso Pardo
Thu Nov 20 16:47:01 CET 1997