- O traballo recolle unha investigación sobre o Corpus de Referencia do Galego Actual, un recurso que permite obter datos de diversa índole relacionados co emprego da lingua e desenvolver ferramentas de análise do galego
- O autor da tese de doutoramento, Mario Barcala, vén de presentar o seu traballo na Universidade da Coruña
- A Secretaría Xeral de Política Lingüística presentou o pasado mes de xullo unha nova versión deste corpus de textos, dispoñible en internet, dentro da súa aposta por potenciar o galego a través dos últimos recursos tecnolóxicos
Santiago de Compostela, 14 de febreiro de 2010.- O Corpus de Referencia do Galego Actual (CORGA),
unha ferramenta baseada nas últimas tecnoloxías, está a permitir levar
a cabo análises máis avanzadas da lingua galega. O investigador Mario
Barcala vén de presentar na Universidade da Coruña unha tese de
doutoramento que afonda neste proxecto do Centro Ramón Piñeiro para a
Investigación en Humanidades, un corpus de documentos en formato
electrónico no que están representados os diferentes tipos de textos
(xornalísticos, divulgativos, literarios etc.) da lingua galega actual,
desde 1975 ata a actualidade e que acada os 25 millóns de formas.
Os sistemas e recursos relacionados con este proxecto do Centro Ramón Piñeiro están dirixidos principalmente aos investigadores da lingua galega actual nos diferentes ámbitos, fornecéndoos con ferramentas que lles permitan, por unha banda, obter datos de diversa índole relacionados co emprego da lingua e, pola outra, desenvolver ferramentas de análise do galego cada vez máis avanzadas.
Novos recursos tecnolóxicos para avanzar na investigación lingüística
Na primeira parte da tese de doutoramento –codirixida polos profesores
Manuel Vilares e Jorge Graña, das universidades de Vigo e da Coruña,
respectivamente–, Mario Barcala define unha metodoloxía xenérica para
construír corpus lingüísticos estruturados que pode ser aplicada a
diversos proxectos, ao tempo que explica como se puxo en práctica no
CORGA. Esta metodoloxía apóiase nas tecnoloxías e estándares máis
actuais, utiliza ferramentas sinxelas e promove a documentación, o que
garante que os recursos desenvolvidos con ela sexan de calidade e
evolucionen axeitadamente.
Na segunda parte, trátase a problemática de construír sistemas de
recuperación de información que consulten corpus estruturados de
grandes dimensións. Concretamente, defínense os requirimentos destes
sistemas, analízanse as diferentes tecnoloxías que poden ser empregadas
para a súa construción, poñendo de relevo as vantaxes e limitacións de
cada unha, e, finalmente, descríbese a arquitectura do sistema de
buscas utilizado no
CORGA.
Potenciar o galego a través das novas tecnoloxías
O pasado mes de xullo, a Secretaría Xeral de Política Lingüística
presentou unha nova versión do CORGA que inclúe novas ferramentas para
desenvolver unha análise da lingua galega moito máis sofisticada. Esta
aposta polas novas tecnoloxías conforma unha liña de actuación
prioritaria do departamento que dirixe Anxo Lorenzo que ten como
obxectivo fornecer produtos e servizos electrónicos para avanzar na
investigación da lingua galega.