Martes 27.10.2009

Os ordenadores tamén poderán ler en galego

13.10.2009 Investigadores da UDC e da Uvigo colaboran neste singular proxecto

S.U. . SANTIAGO

Funcións como as procuras en internet simplificaríanse cun software que lle permitise ó ordenador entende ro que queremos FOTO: KIKO DELGADO
Funcións como as procuras en internet simplificaríanse cun software que lle permitise ó ordenador entende ro que queremos
FOTO: KIKO DELGADO
Varios investigadores do Grupo COLE (Compiladores e Linguaxes), da Escola Superior de Enxeñaría Informática da Universidade de Vigo, dirixido polo catedrático Manuel Vilares Ferro, levan xa varios anos inmersos na investigación da recuperación de información.

Tanto é así, que Juan Otero Pombo, un dos investigadores, presentou recentemente a súa tese de doutoramento sobre este tema, baixo o título Análisis léxico robusto, na cal aborda o desenvolvemento e a avaliación de técnicas de corrección ortográfica e a súa aplicación en contornos de recuperación de información nos que os erros ortográficos están presentes. Trataríase de desenvolver un sistema que permita identificar correctamente as palabras con erros ortográficos que un usuario introduce nunha busca, por exemplo en Google ou na base de datos dunha biblioteca.

Tal como se recolle na tese de Juan Otero Pombo, hoxe en día hai unha "frenética e constante evolución da informática" que deu lugar ó que se coñece como Sociedade da Información. Na súa investigación, Otero Pombo, que estivo seis anos recabando datos, asegura que actualmente xéranse e publícanse numerosos datos en formato electrónico, que deben ser procesados e estruturados para facilitar o acceso rápido e eficaz. Porén, "a maior parte dos contidos atópase con escaso ou, simplemente, sen ningún tipo de estrutura". É aquí onde entran os sistemas de recuperación de información, que permiten localizar aqueles documentos dunha colección que satisfan os requirimentos dun usuario.

Polo tanto, tal como defende Otero Pombo, faise necesario contar con mecanismos eficaces que, desde o punto de vista computacional, permitan que as persoas poidan comunicarse directamente coas máquinas en linguaxe humana, e que estas sexan capaces de extraer coñecemento a través da linguaxe natural.

Por iso xorde o Procesamento da Linguaxe Natural (PLN), subdisciplina da Intelixencia Artificial que persegue a representación e comprensión automática da linguaxe humana por medio da realización dunha análise léxica (recoñece unidades mínimas da linguaxe), sintáctica (recoñece unidades gramaticais formadas por varias unidades léxicas), semántica (captura o significado dunha frase) e pragmática (engádelle información ó significado da frase en función do contexto). Así e todo, na busca de información, como actividade humana que é, sucede frecuentemente a "introdución de erros ortográficos ou de dixitación na consulta, o cal complica a tarefa de recuperación".

Por todo isto, o obxectivo é desenvolver e avaliar a tecnoloxía de base necesaria para o PLN, sobre todo no ámbito da análise léxica e da corrección ortográfica e a etiquetación. Así, tras estas investigacións, Juan Otero Pombo aportou coa súa tese un novo método de corrección ortográfica "máis eficiente e menos custoso que os que se viñeron aplicando ata o momento, xa que reduce ó mínimo posible a exploración do dicionario en busca da corrección máis adecuada en cada momento". Esta técnica integrouse despois no etiquetador morfosintáctico MrTagoo, desenvolvido polo grupo COLE da Universidade de Vigo e o LyS (Lengua y Sociedad de la Información) da Universidade da Coruña, que permite asignar automaticamente unha categoría léxica (substantivo, verbo, ...) a cada palabra dun texto en español ou galego.

O resultado desta integración permite solucionar os tres problemas comúns no proceso de consultas nun sistema computacional de recuperación de información: a ambigüidade segmental (cando a identificación dos termos que forman unha consulta non resultan triviais), a ambigüidade morfosintáctica (cando as palabras poden xogar distintos papeis segundo a frase na que aparezan) e a corrección ortográfica contextual (elixe entre as alternativas de corrección a que mellor encaixa coa consulta). O resultado dos experimentos, realizados nunha contorna de recuperación de información con consultas degradadas, poñen de manifesto que "o emprego de técnicas de corrección ortográfica ten un impacto moi positivo sobre os sistemas de recuperación de información", fronte a outras propostas realizadas con anterioridade.

No proxecto quíxose dotar dun PNL a lingua galega, e para iso naceu o proxecto Victoria, con equipos franceses e españois, nos cales se integraron Miguel Ángel Molinero (investigador do grupo LyS da Universidade da Coruña) e Elena Sánchez Trigo (investigadora do grupo COLE da Universidade de Vigo). Nunha primeira fase, os investigadores de Victoria concentráronse nos recursos necesarios para construír analizadores sintácticos para español e galego.

Actualmente, o proxecto xa construíu varios recursos que serán liberados baixo licenza LGPL-LR (Lesser General Public License for Linguistic Resources), entre os cales destacan regras de configuración idiomáticas e un léxico con información morfolóxica para a lingua galega.

Ante calquera dúbida, problema ou comentario
nas páxinas de Galicia Hoxe envíe un
e-mail a info@galicia-hoxe.com.
Titularidade e política de privacidade

© 2009 www.galicia-hoxe.com
Tódolos dereitos reservados. Prohibida a
reproducción total ou parcial do contido sen a
expresa autorización do propietario.