[21/05/2006]
Un programa informático elaborado ó abeiro do Plan Galego de I+d+i facilita o acceso á información dos textos lexislativos

El producto se dirige a todos los agentes que intervienen en la Sociedad de la Información: particulares, empresas, profesionales, Administración y organismos intermedios
ABC Galicia

Telémaco es una empresa que se fundó en el año 1995 y que tiene su sede en el Centro de Teleservicios de Galicia, un edificio de oficinas situado en el Parque Tecnológico de Galicia, en San Cibrao das Viñas (Orense). La compañía está sacando adelante un proyecto de investigación llamado "Geneia", que consiste en emplear las más novedosas técnicas de inteligencia artificial para la generación, extracción y estructuración de información legislativa.

Para eso, trabajan en la integración de una serie de herramientas informáticas que les permitan no sólo recuperar un texto determinado sino también identificar regiones relevantes dentro de ese texto donde se concentran los aspectos de interés para el usuario. Finalmente, sobre estas regiones, el sistema aplica técnicas de procesamiento del lenguaje, básicamente a nivel léxico, para identificar los elementos fundamentales con el uso de patrones de extracción.

El producto está destinado a todos los agentes que colaboran en la Sociedad de la Información: particulares, empresas, profesionales del derechoy de la gestión de empresas, la Administración y los organismos intermedios. Desde Telémaco aseguran que este sistema les hará más accesible la información legislativa.

El proyecto de investigación cuenta con el apoyo del Plan Galego de I+D+i de la consellería de Innovación e Industria, a través del programa da Sociedade da Información. La principal fuente de información de los documentos legislativos es la propia Administración. Desde Telémaco reconocen que el acceso a esta información, al igual que ocurre con cualquier tipo de documento almacenado en una base de datos, no es un trabajo complejo. "Lo que hoy en día no se oferta es el acceso a las partes o regiones del documento, a aquellos párrafos o frases que contienen la información que buscamos", explica Nuria Sotelo, investigadora principal del proyecto. La finalidad de la investigación es, precisamente, lograr una metodología de tratamiento de la información "que permita realizar una difusión selectiva de los textos con técnicas distintas al envío de documentos completos, lo que significaría un nuevo modelo de divulgación de los documentos legislativos". El estudio contempla una serie de objetivos. or una parte, está el de abordar la modelización de la estructura lógica de los documentos legislativos, es decir, definir una tipología genérica de las clases de documentos a los que se pretende dar cobertura, determinar sus componentes  -que tipos de contenidos tratan y que elementos son relevantes para cada uno de ellos- y averiguar de qué forma se organizan y estructurarn entre sí. Otra finalidad del proyecto es la de identificar los términos relevantes presentes en estos documentos y su clasificación automática en índices estructurados.

Según explica Nuria Sotelo, "lo que se pretende es definir una serie de procesos automáticos que se aplicarán a los documentos legislativos que se vayan recogiendo para identificar los aspectos esenciales de los mismos, organizarlos de forma adecuada y clasificar esos documentos". Con esto, conseguirán que los futuros accesos a estos textos se hagan utilizando esa información estructurada de alto nivel, sin necesidad de trabajar directamente sobre la totalidad del texto.

Con la utilización de este sistema informático, el usuario podrá acceder a toda la base documental de la legislación formulando consultas adecuadas a sus necesidades. Estas consultas contemplarán aspectos como su ámbito geográfico, el tipo de actividad que realizan y otras características que describan sus intereses en cuanto al acceso a documentos legislativos. La investigadora explica que estas consultas y los perfiles de usuarios "se lanzarán contra las estructuras de datos creadas a partir del análisis lingüístico del texto para obtener los documentos que sean potencialmente relevantes".

El sistema permitirá al usuario acceder a una selección de textos adaptada a lo que precise en ese momento concreto, "evitándole tener que enfrentarse a una cantidad de información legislativa imposible de gestionar", matiza. "De hecho uno de los propósitos del procesamiento lingüístico previo es precisamente simplificar y agilizar el acceso a esta información mediante la estructuración de estos contenidos y la creación de los índices adecuados", cuenta.

Para lleva a cabo este proyecto de investigación, Telémaco cuenta con la colaboración externa del grupo CoLe-Compiladores e Linguaxes, un equipo fundado en el año 1994 e integrado, en la actualidad, por seis miembros del Departamento de Computación de la Universidad de la Coruña y por otros nueve miembros de los departamentos de Informática y de Traducción Lingüística de la Universidad de Vigo.

Este grupo de trabajo promueve tareas de investigación y desarrollo en el campo del procesamiento del lenguaje natural y de la lingüística computacional. Nuria Sotelo explica que la contribución de CoLe al trabajo de investigación será la de aportar su experiencia en el desarrollo de herramientas de análisis lingüístico y en la integración de este tipo de tecnologías a sistemas de recuperación y extracción de información.

Concretamente se responsabilizarán del asesoramiento, coordinación y formación en las tareas relacionadas directamente con el procesamiento de textos legislativos en el lenguaje natural, desde la evaluación de herramientas hasta el diseño de los procesos y del software a desarrollar para lograr los objetivos del estudio. Telémaco confía en lograr los primeros resultados del estudio a lo largo del presente año.

La empresa, creada en 1995, dedica su actividad a la gestión documental, teledocumentación, informática y formación. En la actualidad cuenta con un cuadro de cinco empleados y su facturación anual ronda los 180.000 €.