[21/05/2006] Un programa informático elaborado ó abeiro do Plan Galego de I+d+i facilita o acceso á información dos textos lexislativos
El
producto se dirige a todos los agentes que intervienen en la Sociedad
de la Información: particulares, empresas, profesionales,
Administración y organismos intermedios ABC Galicia
Telémaco
es una empresa que se fundó en el año 1995 y que tiene su sede en el
Centro de Teleservicios de Galicia, un edificio de oficinas situado en
el Parque Tecnológico de Galicia, en San Cibrao das Viñas (Orense). La
compañía está sacando adelante un proyecto de investigación llamado
"Geneia", que consiste en emplear las más novedosas técnicas de
inteligencia artificial para la generación, extracción y estructuración
de información legislativa.
Para eso, trabajan en la integración de una serie de herramientas
informáticas que les permitan no sólo recuperar un texto determinado
sino también identificar regiones relevantes dentro de ese texto donde
se concentran los aspectos de interés para el usuario. Finalmente,
sobre estas regiones, el sistema aplica técnicas de procesamiento del
lenguaje, básicamente a nivel léxico, para identificar los elementos
fundamentales con el uso de patrones de extracción.
El producto está destinado a todos los agentes que colaboran en la
Sociedad de la Información: particulares, empresas, profesionales del
derechoy de la gestión de empresas, la Administración y los organismos
intermedios. Desde Telémaco aseguran que este sistema les hará más
accesible la información legislativa.
El proyecto de investigación cuenta con el apoyo del Plan Galego de
I+D+i de la consellería de Innovación e Industria, a través del
programa da Sociedade da Información. La principal fuente de
información de los documentos legislativos es la propia Administración.
Desde Telémaco reconocen que el acceso a esta información, al igual que
ocurre con cualquier tipo de documento almacenado en una base de datos,
no es un trabajo complejo. "Lo que hoy en día no se oferta es el acceso
a las partes o regiones del documento, a aquellos párrafos o frases que
contienen la información que buscamos", explica Nuria Sotelo,
investigadora principal del proyecto. La finalidad de la investigación
es, precisamente, lograr una metodología de tratamiento de la
información "que permita realizar una difusión selectiva de los textos
con técnicas distintas al envío de documentos completos, lo que
significaría un nuevo modelo de divulgación de los documentos
legislativos". El estudio contempla una serie de objetivos. or una
parte, está el de abordar la modelización de la estructura lógica de
los documentos legislativos, es decir, definir una tipología genérica
de las clases de documentos a los que se pretende dar cobertura,
determinar sus componentes -que tipos de contenidos tratan y que
elementos son relevantes para cada uno de ellos- y averiguar de qué
forma se organizan y estructurarn entre sí. Otra finalidad del proyecto
es la de identificar los términos relevantes presentes en estos
documentos y su clasificación automática en índices estructurados.
Según explica Nuria Sotelo, "lo que se pretende es definir una serie
de procesos automáticos que se aplicarán a los documentos legislativos
que se vayan recogiendo para identificar los aspectos esenciales de los
mismos, organizarlos de forma adecuada y clasificar esos documentos".
Con esto, conseguirán que los futuros accesos a estos textos se hagan
utilizando esa información estructurada de alto nivel, sin necesidad de
trabajar directamente sobre la totalidad del texto.
Con la utilización de este sistema informático, el usuario podrá
acceder a toda la base documental de la legislación formulando
consultas adecuadas a sus necesidades. Estas consultas contemplarán
aspectos como su ámbito geográfico, el tipo de actividad que realizan y
otras características que describan sus intereses en cuanto al acceso a
documentos legislativos. La investigadora explica que estas consultas y
los perfiles de usuarios "se lanzarán contra las estructuras de datos
creadas a partir del análisis lingüístico del texto para obtener los
documentos que sean potencialmente relevantes".
El sistema permitirá al usuario acceder a una selección de textos
adaptada a lo que precise en ese momento concreto, "evitándole tener
que enfrentarse a una cantidad de información legislativa imposible de
gestionar", matiza. "De hecho uno de los propósitos del procesamiento
lingüístico previo es precisamente simplificar y agilizar el acceso a
esta información mediante la estructuración de estos contenidos y la
creación de los índices adecuados", cuenta.
Para lleva a cabo este proyecto de investigación, Telémaco cuenta
con la colaboración externa del grupo CoLe-Compiladores e Linguaxes, un
equipo fundado en el año 1994 e integrado, en la actualidad, por seis
miembros del Departamento de Computación de la Universidad de la Coruña
y por otros nueve miembros de los departamentos de Informática y de
Traducción Lingüística de la Universidad de Vigo.
Este grupo de trabajo promueve tareas de investigación y desarrollo
en el campo del procesamiento del lenguaje natural y de la lingüística
computacional. Nuria Sotelo explica que la contribución de CoLe al
trabajo de investigación será la de aportar su experiencia en el
desarrollo de herramientas de análisis lingüístico y en la integración
de este tipo de tecnologías a sistemas de recuperación y extracción de
información.
Concretamente se responsabilizarán del asesoramiento, coordinación y
formación en las tareas relacionadas directamente con el procesamiento
de textos legislativos en el lenguaje natural, desde la evaluación de
herramientas hasta el diseño de los procesos y del software a
desarrollar para lograr los objetivos del estudio. Telémaco confía en
lograr los primeros resultados del estudio a lo largo del presente año.
La empresa, creada en 1995, dedica su actividad a la gestión
documental, teledocumentación, informática y formación. En la
actualidad cuenta con un cuadro de cinco empleados y su facturación
anual ronda los 180.000 €.
|