DUVI - Campus Ourense
Martes, 13 de Maio do 2008

Segundo as investigacións do grupo Compiladores e Linguaxe, Cole, dirixido por Manuel Vilares

O procesamento da linguaxe natural mellora a eficacia e flexibilidade dos buscadores

Cole lidera a Rede de Procesamento da Linguaxe e Recuperación de Información


Image Mellorar as ferramentas de recuperación de información para que os buscadores como Google funcionen con eficacia e flexibilidade grazas ao procesamento da linguaxe natural é o principal obxectivo no que o grupo Compiladores e Linguaxe, Cole, vén traballando dende hai 15 anos. Neste tempo, levou a cabo trinta proxectos oficiais en convocatoria competitiva tanto nacional como internacional, así como outros tantos contratos con empresas e institucións. Ademais, un amplo abano de traballos científicos, con centos de artigos publicados nos foros internacionais máis prestixiosos, avalan o seu traballo.
O grupo Cole pertence e lidera dende a súa creación a Rede Galega de Procesamento da Linguaxe e Recuperación de Información, financiada pola Xunta de Galicia, formada por sete grupos de investigación das tres universidades galegas, dous deles da de Vigo: Cole e o de Gramática Cognitiva e Funcional. Trátase dunha rede multidisciplinar que reúne o traballo dun conxunto de informáticos, que afondan no desenvolvemento de arquitecturas, e lingüistas que formalizan o problema para a recuperación de información en dicionarios, xestión documental, e categorización de documentos aplicado a busquedas rápidas en Internet.

Image
Os investigadores do grupo Cole
Marta Casanova | Ourense
Mellorar as ferramentas de recuperación de información para que os buscadores como Google funcionen con eficacia e flexibilidade grazas ao procesamento da linguaxe natural é o principal obxectivo no que o grupo Compiladores e Linguaxe, Cole, vén traballando dende hai 15 anos. Neste tempo, levou a cabo unha trintena de proxectos oficiais en convocatoria competitiva tanto de carácter nacional como internacional, así como outros tantos contratos con empresas e institucións. Ademais, un amplo abano de traballos científicos, con centos de artigos publicados nos foros internacionais máis prestixiosos, avalan o seu traballo.
O matemático e profesor do Departamento de Informática, Manuel Vilares, foi o fundador na Coruña do grupo que agora lidera. “Estiven traballando varios anos no proxecto europeo Eureka, no Instituto Nacional de Informática e Automática, INRIA, de Francia, e cando volvín a España, busquei unha saída ao que fixera durante tanto tempo”, explicou. Así, en 1992, na Universidade da Coruña naceu o primeiro grupo de Compiladores e Linguaxe, dedicado ao procesamento da linguaxe natural. Despois, cando en 2002 se trasladou a Ourense, formou outro grupo, ao que agora pertencen 12 persoas, “pero alí tamén seguiron traballando no que eu comezara polo que, aínda que formalmente estamos separados, na práctica traballamos xuntos” puntualizou.

Un proceso complicado

O procesamento da linguaxe natural ten varias vías de investigación nas que traballan conxuntamente os membros do grupo, dez informáticos e dous lingüistas. En primeiro lugar, cómpre realizar unha análise do léxico, para establecer a función de cada palabra, “é un traballo que nunca remata, porque ademais cada unha pode ter múltiples significados” explicou Manuel Vilares. Despois é necesario analizar a sintaxe ou a gramática, “a linguaxe da comunicación humana ten máis de 20.000 regras, mentres que a dun ordenador está sobre as 200, polo que tivemos que desenvolver algoritmos novos e eficaces, que teñan en conta as ambigüidades e o contexto, por exemplo”. Como último paso abordouse a semántica, a parte máis nova e na que se está a traballar como unha achega á intelixencia artificial e á extracción do coñecemento por parte de máquinas.
E todo isto, xerando tecnoloxía propia tanto en castelán como en galego, xa que o grupo leva traballando en galego dende o ano 93, dentro dun convenio coa Xunta de Galicia para a realización dun organizador lexical, “o que supón un problema bastante grande porque aínda que se parece ao español, ten cousas na súa estrutura que o complican enormemente”, comentou.

A aplicación no acceso á información

A última parte do proceso, que nunca remata, é a súa aplicación, encamiñada á mellora no acceso á información, un mercado recente, de futuro e en crecente expansión. “Todo o mundo coñece os buscadores como Google e os problemas que xeran as buscas neste tipo de ferramentas, que devolven un número inxente de resultados” explicou o director do grupo Cole. O problema é que traballan a nivel léxico, recuperando palabras soas de xeito indiscriminado por culpa das fallas de precisión. A solución “é enfocar a busca polo lado do significado, que o buscador entenda o que queres con flexibilidade e eficacia, indexando as palabras por conceptos xerais, non por significado concretos” engadiu. Así, por exemplo, “traballamos coa Asociación de Enfermidades Neuromusculares, onde os propios profesionais, ante doenzas raras, necesitan ter un acceso á información flexible e rápido, con ferramentas sinxelas” explicou, “para que se alguén define un síntoma como cor amarelenta, por exemplo e, noutro lugar, apareza alaranxada, o buscador saiba que é parecido, cousa que ata o de agora non ocorría porque en teoría son conceptos diferentes” engadiu.

A Rede Galega PLIR

O grupo Cole pertence e lidera dende a súa creación a Rede Galega de Procesamento da Linguaxe e Recuperación de Información, financiada pola Xunta de Galicia, formada por sete grupos de investigación das tres universidades galegas, dous deles da de Vigo: Cole e o de Gramática Cognitiva e Funcional, da Facultade de Filoloxía e Tradución. Trátase dunha rede multidisciplinar que reúne o traballo dun conxunto de informáticos, que afondan no desenvolvemento de arquitecturas, e lingüistas que formalizan o problema para a recuperación de información en dicionarios, xestión documental, e categorización de documentos aplicado a busquedas rápidas en Internet.
A finalidade desta entidade é unificar esforzos á hora de traballar xuntos en proxectos concretos que implican coordinación, e a través do seu Consello Científico, fixar obxectivos comúns, compatibles e individuais. Ademais, a Rede tamén se encarga da dirección de teses e da organización de actividades tanto enfocadas á vertente académica, como poden ser ciclos de conferencias, como ao mercado.
“O ano pasado comezamos a realizar unhas xornadas para darnos a coñecer nas empresas, porque moitas delas non sabían que existían estes servizos en Galicia, e presentarlles solucións” explicou Vilares, que engadiu que “expoñendo o que facemos tamén queremos crear lazos, tanto entre grupos de investigación, como coas empresas”.
Nesta segunda edición das xornadas, que terán lugar a finais de curso, as empresas invitadas pasarán de ser as xeradoras de tecnoloxía ás que a consumen, “que teñen en común o estar en posesión de grandes arquivos, como é o caso dos xornais”, e máis dunha ducia delas xa teñen confirmada a súa presenza.
Dende a rede, tamén se promove a formación dos seus membros e as estadías noutros centros xa que, segundo Manuel Vilares, “así vén aquí xente para aprender cousas que non saben facer noutros lugares e nós imos fóra a aprender o que non sabemos facer. O saber está por todas partes” concluíu.
Seg. >

DUVI. Diario da Universidade de Vigo. 2007-2008 | Redacción