Segundo as investigacións do grupo Compiladores e Linguaxe, Cole, dirixido por Manuel Vilares

Mellorar as ferramentas de recuperación de información para que os buscadores como
Google
funcionen con eficacia e flexibilidade grazas ao procesamento da
linguaxe natural é o principal obxectivo no que o grupo Compiladores e
Linguaxe, Cole, vén traballando dende hai 15 anos. Neste tempo, levou a
cabo trinta proxectos oficiais en convocatoria competitiva tanto
nacional como internacional, así como outros tantos contratos con
empresas e institucións. Ademais, un amplo abano de traballos
científicos, con centos de artigos publicados nos foros internacionais
máis prestixiosos, avalan o seu traballo.
O grupo Cole pertence e lidera dende a súa creación a Rede Galega de
Procesamento da Linguaxe e Recuperación de Información, financiada pola
Xunta de Galicia, formada por sete grupos de investigación das tres
universidades galegas, dous deles da de Vigo: Cole e o de Gramática
Cognitiva e Funcional. Trátase dunha rede multidisciplinar que reúne o
traballo dun conxunto de informáticos, que afondan no desenvolvemento
de arquitecturas, e lingüistas que formalizan o problema para a
recuperación de información en dicionarios, xestión documental, e
categorización de documentos aplicado a busquedas rápidas en Internet.

Os investigadores do grupo Cole
Marta Casanova | Ourense
Mellorar as ferramentas de recuperación de información para que os buscadores como
Google
funcionen con eficacia e flexibilidade grazas ao procesamento da
linguaxe natural é o principal obxectivo no que o grupo Compiladores e
Linguaxe, Cole, vén traballando dende hai 15 anos. Neste tempo, levou a
cabo unha trintena de proxectos oficiais en convocatoria competitiva
tanto de carácter nacional como internacional, así como outros tantos
contratos con empresas e institucións. Ademais, un amplo abano de
traballos científicos, con centos de artigos publicados nos foros
internacionais máis prestixiosos, avalan o seu traballo.
O matemático e profesor do Departamento de Informática, Manuel Vilares,
foi o fundador na Coruña do grupo que agora lidera. “Estiven
traballando varios anos no proxecto europeo Eureka, no Instituto
Nacional de Informática e Automática, INRIA, de Francia, e cando volvín
a España, busquei unha saída ao que fixera durante tanto tempo”,
explicou. Así, en 1992, na Universidade da Coruña naceu o primeiro
grupo de Compiladores e Linguaxe, dedicado ao procesamento da linguaxe
natural. Despois, cando en 2002 se trasladou a Ourense, formou outro
grupo, ao que agora pertencen 12 persoas, “pero alí tamén seguiron
traballando no que eu comezara polo que, aínda que formalmente estamos
separados, na práctica traballamos xuntos” puntualizou.
Un proceso complicado
O procesamento da linguaxe natural ten varias vías de investigación nas
que traballan conxuntamente os membros do grupo, dez informáticos e
dous lingüistas. En primeiro lugar, cómpre realizar unha análise do
léxico, para establecer a función de cada palabra, “é un traballo que
nunca remata, porque ademais cada unha pode ter múltiples significados”
explicou Manuel Vilares. Despois é necesario analizar a sintaxe ou a
gramática, “a linguaxe da comunicación humana ten máis de 20.000
regras, mentres que a dun ordenador está sobre as 200, polo que tivemos
que desenvolver algoritmos novos e eficaces, que teñan en conta as
ambigüidades e o contexto, por exemplo”. Como último paso abordouse a
semántica, a parte máis nova e na que se está a traballar como unha
achega á intelixencia artificial e á extracción do coñecemento por
parte de máquinas.
E todo isto, xerando tecnoloxía propia tanto en castelán como en
galego, xa que o grupo leva traballando en galego dende o ano 93,
dentro dun convenio coa Xunta de Galicia para a realización dun
organizador lexical, “o que supón un problema bastante grande porque
aínda que se parece ao español, ten cousas na súa estrutura que o
complican enormemente”, comentou.
A aplicación no acceso á información
A última parte do proceso, que nunca remata, é a súa aplicación,
encamiñada á mellora no acceso á información, un mercado recente, de
futuro e en crecente expansión. “Todo o mundo coñece os buscadores como
Google
e os problemas que xeran as buscas neste tipo de ferramentas, que
devolven un número inxente de resultados” explicou o director do grupo
Cole. O problema é que traballan a nivel léxico, recuperando palabras
soas de xeito indiscriminado por culpa das fallas de precisión. A
solución “é enfocar a busca polo lado do significado, que o buscador
entenda o que queres con flexibilidade e eficacia, indexando as
palabras por conceptos xerais, non por significado concretos” engadiu.
Así, por exemplo, “traballamos coa Asociación de Enfermidades
Neuromusculares, onde os propios profesionais, ante doenzas raras,
necesitan ter un acceso á información flexible e rápido, con
ferramentas sinxelas” explicou, “para que se alguén define un síntoma
como cor amarelenta, por exemplo e, noutro lugar, apareza alaranxada, o
buscador saiba que é parecido, cousa que ata o de agora non ocorría
porque en teoría son conceptos diferentes” engadiu.
A Rede Galega PLIR
O grupo Cole pertence e lidera dende a súa creación a Rede Galega de
Procesamento da Linguaxe e Recuperación de Información, financiada pola
Xunta de Galicia, formada por sete grupos de investigación das tres
universidades galegas, dous deles da de Vigo: Cole e o de Gramática
Cognitiva e Funcional, da Facultade de Filoloxía e Tradución. Trátase
dunha rede multidisciplinar que reúne o traballo dun conxunto de
informáticos, que afondan no desenvolvemento de arquitecturas, e
lingüistas que formalizan o problema para a recuperación de información
en dicionarios, xestión documental, e categorización de documentos
aplicado a busquedas rápidas en Internet.
A finalidade desta entidade é unificar esforzos á hora de traballar
xuntos en proxectos concretos que implican coordinación, e a través do
seu Consello Científico, fixar obxectivos comúns, compatibles e
individuais. Ademais, a Rede tamén se encarga da dirección de teses e
da organización de actividades tanto enfocadas á vertente académica,
como poden ser ciclos de conferencias, como ao mercado.
“O ano pasado comezamos a realizar unhas xornadas para darnos a coñecer
nas empresas, porque moitas delas non sabían que existían estes
servizos en Galicia, e presentarlles solucións” explicou Vilares, que
engadiu que “expoñendo o que facemos tamén queremos crear lazos, tanto
entre grupos de investigación, como coas empresas”.
Nesta segunda edición das xornadas, que terán lugar a finais de curso,
as empresas invitadas pasarán de ser as xeradoras de tecnoloxía ás que
a consumen, “que teñen en común o estar en posesión de grandes
arquivos, como é o caso dos xornais”, e máis dunha ducia delas xa teñen
confirmada a súa presenza.
Dende a rede, tamén se promove a formación dos seus membros e as
estadías noutros centros xa que, segundo Manuel Vilares, “así vén aquí
xente para aprender cousas que non saben facer noutros lugares e nós
imos fóra a aprender o que non sabemos facer. O saber está por todas
partes” concluíu.