0 Gardados para despois

Minaría de opinións: Un proxecto galego que lles aprende a 'ler' ás máquinas

Marcos Pérez PenaMarcos Pérez Pena


O pasado ano botou a andar o proxecto Telepares, no que participan tres grupo de investigación das universidades de Vigo, Compostela e A Coruña. Telepares traballa no que se coñece como minería de opinións, unha técnica que busca determinar automaticamente se nun texto se opina ou non e se a opinión é positiva ou negativa. En concreto, o proxecto galego centra os seus esforzos en desenvolver ferramentas que analicen de xeito automático microtextos coma os que se empregan en twitter e outras redes sociais.

O grupo detrás de Telepares non só suma os esforzos das tres universidade galegas, senón que tamén é multidisciplinar, integrando investigadores das áreas de Lingüística, Tradución, Ciencias da Computación e Intelixencia Artificial. Á fronte desta iniciativa está o profesor vigués Manuel Vilares, do Grupo de Compiladores e Linguaxes, que sinala que o obxectivo final é desenvolver un sistema efectivo de análise de opinións en español e galego para as redes sociais. “Para iso é preciso mellorar o rendemento das técnicas actuais de análise sobre texto estándar, deseñar mecanismos de adaptación a microtextos daqueles modelos e métodos de análise que son máis efectivos”, di. Falamos con el.

"Poderemos transmitir non só coñecementos, senón tamén intencións analizables pola máquina. Esta estar en condicións de reaccionar ao estímulo da nosa mensaxe, o que significa que poderá responder mediante unha acción, mesmo de carácter físico"

Primeiro de nada, para os non iniciados: que é a minaría de opinións?

Trátase de extraer, do xeito semellante a como facemos os humanos, o sentimento das nosas verbas. De feito, tamén se denomina a este dominio de traballo análise do sentimento. Tecnicamente, o que se pretende é asociar un significado, unha semántica, á mensaxe recibida dende un interlocutor. Máis en concreto, para interpretar unha frase non abonda con recoñecer as verbas, nin sequera con ligalas correctamente en frases... hai que entender o que esa frase di, o que expresa realmente, o que pretende transmitir. É por tanto necesario construír unha representación do seu sentido, para poder almacenala e interpretala por un sistema se fose preciso. Unha vez cumprido ese obxectivo as posibilidades son infinitas porque teremos sentado as bases dunha interacción real cun sistema informático. Poderemos transmitir non só coñecementos, senón tamén intencións analizables pola máquina. Esta estará en condicións de reaccionar ao estímulo da nosa mensaxe, o que significa que poderá responder mediante unha acción, mesmo de carácter físico. 

Como levan as máquinas a interpretación, por exemplo, da retranca e doutros mecanismos -entendo que complexos- de expresión?

Mal, de feito a maioría de traballos neste senso céntranse en simples técnicas de puntuación positiva/negativa do senso das verbas. Por exemplo, se nunha frase aparecesen as verbas "bo" e "xenial", o sistema deduciría un actitude positiva do interlocutor fronte ao concepto que manexa nese intre. Se logo incluíra unha verba "mal", restariamos algún punto e así poderíamos deducir o senso final. Obviamente, este tipo de estratexias non poden manexar a retranca de xeito fiable. Esa é xustamente a razón pola que as nosas ferramentas van máis aló, estudando a estrutura lingüística profunda da mensaxe.

"A linguaxe humana está moi lonxe de parecerse aos sinxelos e case que triviais linguaxes de programación, tamén denominados artificiais, nos que estamos obrigados a implementar os nosos algoritmos actualmente"

Se ben a idea é simple, a posta en marcha resulta extremadamente complexa. A linguaxe humana, tamén coñecida como linguaxe natural, está moi lonxe de parecerse aos sinxelos e case que triviais linguaxes de programación, tamén denominados artificiais, nos que estamos obrigados a implementar os nosos algoritmos actualmente. Abonda con pensar nas argucias lingüísticas que todos manexamos na nosa vida diaria e que nos parecen tan simples, cando non o son en realidade. Como analizar unha metáfora? Como diferenciar unha ironía ou un segundo sentido? Como detectar unha grosería, unha ameaza, un xesto amable ou unha delicada insinuación? Como reaccionar a unha ambigüidade? Como resolver unha, aparentemente, trivial anáfora? ... e tantos outros que deixamos no tinteiro.

"O camiño non é outro que o de intentar aprender coma un neno o fai cando comeza a falar. Basicamente temos que dotar o sistema dunha capacidade de análise léxica, sintáctica e semántica"

Como se mellora a ferramenta? Como aprende?

O camiño para se enfrontar a estes desafíos non é outro que o de intentar aprender coma un neno o fai cando comeza a falar. Basicamente temos que dotar o sistema dunha capacidade de análise léxica, sintáctica e semántica. O primeiro resulta relativamente sinxelo, pero só porque xa nos leva aos límites tanto do noso coñecemento da linguaxe coma dos recursos computacionais e algorítmicos coñecidos. A sintaxe e a semántica son xa outra dimensión, a cada unha mais complexa. No primeiro caso hai que botar man do coñecemento lingüístico, o que aconsella integrar a persoal experto nestas problemáticas nos equipos, que decote son interdisciplinares, coma no noso caso. Aínda así, a cantidade de información e de estruturas da lingua a dixerir é tal que resulta inevitable recorrer á estatística e á Intelixencia Artificial. Algo tan aparentemente doado como esbozar unha gramática que modelize as nosas frases mais básicas pode implicar o deseño de decenas de miles de regras, e iso só para representar unha pequena parte da nosa linguaxe.

"A idea é simular o proceso de aprendizaxe humano para xerar unha estrutura conceptual que permita almacenar a información e usala cando proceda, ben en resposta a unha consulta ben como reacción á propia mensaxe"

Dependendo do nivel de recoñecemento do léxico e da sintaxe, podemos pensar entón en analizar realmente o sentimento das mensaxes, o que pasa primeiro por unha fase de aprendizaxe e adquisición do coñecemento. Trátase aquí non só de explorar todas as posibles relacións entre as estruturas lingüísticas implicadas a partir da propia mensaxe, senón tamén de buscar outras que poden ser engadidas a partir de bases de datos resultado de anteriores análises. Grosso modo, a idea é simular o proceso de aprendizaxe humano para xerar unha estrutura conceptual que permita almacenar a información e usala cando proceda, ben en resposta a unha consulta ben como reacción á propia mensaxe. 

Cada día lévanse a cabo millóns de conversas nas redes sociais. Pódese dicir hoxe en día que a opinión/información publicada en medios de comunicación (de masas ou persoais) é só a punta do iceberg das opinións publicadas na rede?

Sen dúbida. E iso que resulta evidente que non reflectimos todo o que facemos nas redes, aínda que o fluxo de información actual é inabarcable dende unha perspectiva puramente humana.

"É evidente que unha comunidade como a inglesa, moito máis numerosa que a galega é quen de producir máis material para este fin. No que se refire o castelán, o problema é de salto tecnolóxico e apoio á I+D, algo notoriamente mellorable no ámbito hispano"

Comentades que este tipo de ferramentas están máis avanzadas en inglés, e menos en castelán ou galego. En que fase estamos nestas dúas linguas?

Tecnoloxicamente os grupos que conforman este proxecto están recoñecidos internacionalmente coma punteiros, desenvolven de continuo novos algoritmos dende hai case que vinte anos en todos os niveis de análise da linguaxe e a miúdo son seguidos, por utilizar unha expresión amable, por outros con bastante menos prestixio e bastante máis apoio institucional no noso país. O problema é a xeración de recursos para o adestramento das ferramentas informáticas. É evidente que unha comunidade como a inglesa, moito máis numerosa que a galega é quen de producir máis material para este fin. No que se refire o castelán, o problema é de salto tecnolóxico e apoio á I+D, algo notoriamente mellorable no ámbito hispano. Tanto é así que parte dos nosos esforzas están agora orientados á predición do rendemento en algoritmos de aprendizaxe automática, coa fin de reducir a nosa debilidade a este nivel.

Cal é a actividade e obxectivos de Telepares?

O desenvolvemento de técnicas de minaría de opinións no ámbito dos microtextos (twitter e similares), onde ás dificultades xa comentadas hai que engadir a pouca lonxitude das mensaxes e o uso de expresións exóticas coma os emoticonos. Todo iso complica enormemente a análise e require de ferramentas desenvolvidas especificamente con ese fin.

"Unha aplicación clara son as enquisas electorais, onde podo dicir con certo orgullo que as nosas estimacións non caeron nos erros das facilitadas polas empresas especializadas"

Que aplicacións prácticas está tendo xa a análise de sentimento? Cales pode chegar a ter?

Úsase en tres niveis fundamentais: administración pública, empresas e servizos de intelixencia. No primeiro e segundo caso trátase de captar a opinión dos cidadáns ou clientes en relación a un servizo ou produto. Unha aplicación clara son as enquisas electorais, onde podo dicir con certo orgullo que as nosas estimacións non caeron nos erros das facilitadas polas empresas especializadas. No que se refire aos servizos de intelixencia, podemos deixar voar a imaxinación, pero como consello os usuarios das redes deberían ser coidadosos co que reflicten nos seus perfís e intervencións. Como xa dixen, estamos a abrir a porta non só dunha verdadeira interacción cos sistemas informáticos senón que tamén da posibilidade real de construír contornas con capacidade autónoma de aprendizaxe e resposta a estímulos verbais externos. Dende logo o camiño é longo, pero o neno xa deu os primeiros pasos.

Coa túa achega fas posible que sigamos publicando novas coma esta.