Traballan na análise de sentimento para extraer das mensaxes a percepción dos autores sobre determinados temas

A
aparición das redes sociais, como Facebook ou Twitter, provocaron un
aumento dos fluxos de información e opinións na contorna dixital. Moreas
de datos e percepcións que sen filtrar, analizar e procesar non son de
utilidade para administracións e empresas. Nese contexto naceron
plataformas informáticas multilingües que procesan os microtextos dos
usuarios nas redes de comunicación social e tratan de explotar o seu
potencial para coñecer o punto de vista dunha ampla base de consumidores
sobre unha gran variedade de temas, como unha especie de enquisa de
satisfacción global. Pero as ferramentas creadas ata o momento son
limitadas, especialmente para linguas como o español e o galego, xa que
os principais proxectos se desenvolven en países de fala inglesa. Para
tentar cubrir este baleiro xurdiu en 2015 o proxecto Telepares no que
participan tres grupos de investigación das tres universidades galegas.
M. Del Río | Vigo
A aparición das redes sociais, como Facebook ou Twitter, provocaron un
aumento dos fluxos de información e opinións na contorna dixital. Moreas
de datos e percepcións que sen filtrar, analizar e procesar non son de
utilidade para administracións e empresas. Nese contexto naceron
plataformas informáticas multilingües que procesan os microtextos dos
usuarios nas redes de comunicación social e tratan de explotar o seu
potencial para coñecer o punto de vista dunha ampla base de consumidores
sobre unha gran variedade de temas, como unha especie de enquisa de
satisfacción global. Pero as ferramentas creadas ata o momento son
limitadas, especialmente para linguas como o español e o galego, xa que
os principais proxectos se desenvolven en países de fala inglesa. Para
tentar cubrir este baleiro xurdiu en 2015 o proxecto Telepares no que
participan tres grupos de investigación das tres universidades galegas. Á
fronte desta iniciativa está o profesor vigués Manuel Vilares, do Grupo
de Compiladores e Linguaxes, que explica que o que se coñece como
análise de sentimento ou minería de opinións “é unha recente área de
investigación” centrada en determinar automaticamente se nun texto se
opina ou non e se a opinión é positiva ou negativa sobre un tema,
produto ou persoa. Sobre as limitacións destas ferramentas, lembra que
son consecuencia “dun procesado superficial que non ten en conta as
relacións sintácticas entre palabras nin os seus roles semánticos nas
oracións, o cal resta capacidade de comprensión nuns textos, xa de seu
exiguos”.
Neste proxecto os científicos galegos traballan nunha mellora do soporte
lingüístico integrado no tratamento de microtextos en español e galego,
linguas para as que recentes informes europeos poñen de manifesto un
importante déficit, cunha especial incidencia na carencia de recursos
sintácticos. Por este motivo o equipo de traballo está formado por
expertos cunha ampla experiencia no desenvolvemento de tecnoloxía propia
dos ámbitos do Procesamento da Linguaxe Natural (PLN), da Tradución, da
Recuperación de Información (RI) e na Procura (automática) de Respostas
(PR). O obxectivo final é desenvolver un sistema efectivo de análise de
opinións en español e galego para as redes sociais baseadas en
microtextos e, como subliña Vilares, “para iso é preciso mellorar o
rendemento das técnicas actuais de análise sobre texto estándar,
deseñar mecanismos de adaptación a microtextos daqueles modelos e
métodos de análise que son máis efectivos”.
Tres grupos das tres universidades
Para optimizar o traballo deste grupo apostouse por unha composición
multidisciplinar, combinando coñecementos en lingüística computacional,
tradución, recuperación de información e adquisición do coñecemento.
Así, están implicados o Grupo de Compiladores e Linguaxes da
Universidade de Vigo, con seis membros das áreas de Ciencias da
Computación e Intelixencia Artificial e Tradución, entres eles os
catedráticos Manuel Vilares e Elena Sánchez Trigo; o Grupo de Sintaxe do
Español de Santiago de Compostela, con dous membros; e o Grupo de
Linguaxe e Sociedade de Coruña, con seis membros das áreas de
Lingüística Xeral e de Ciencias da Computación e Intelixencia
Artificial.
O proxecto arrancou en 2015 e como indica Vilares “puxéronse ao día as
contornas de análise lingüística baseadas en dependencias sintácticas
(non proxectivas)”. Esta tarefa requiriu tanto o deseño dos analizadores
como dos algoritmos de avaliación semántica das estruturas de
representación do coñecemento así xeradas, así como dos módulos de
detección idiomática e análise léxico. “Estas tecnoloxías están baseadas
en boa parte en algoritmos de adquisición do coñecemento cuxo
adestramento e posta en marcha son en extremo custosos”, puntualiza,
polo que o equipo deseñou unha ferramenta de predición do rendemento
para este tipo de contornas, que permite tanto unha parametrización
acelerada dos procesos de aprendizaxe como a súa avaliación temperá”.
Iso permite un aforro notable tanto de recursos como de tempo dedicado
aos tests de comparación de eficacia entre diferentes configuracións.
Máis aló das palabras
Vilares explica que se ben as ferramentas e tecnoloxías básicas xa foran
desenvolvidas, publicadas e rexistradas polos mesmos investigadores que
agora participan no proxecto, agora trátase de afondar “no problema da
comprensión da linguaxe, que é en extremo complexo”. Os docentes
explican que foi necesario xerar bases de datos léxicas e sintácticas co
fin de utilizalas tanto no adestramento das ferramentas informáticas
xeradas como na súa avaliación posterior. Pero o tipo de textos que se
empregan nas redes sociais, de pouca extensión, con abreviaturas e
emoticonos condicionou o seu traballo, como recoñece Vilares, xa que
“dado que estamos falando dunha modalidade do linguaxe como os tweets
moi específica e caracterizada pola súa incomplitude gramatical, todas
as ferramentas e recursos comentados requiriron un tratamento
específico máis aló dos textos habitualmente usados nas bases
documentais tradicionais”.
Aplicacións da minería de opinión
A minería de opinión ten múltiples aplicacións. Por unha banda
permitiría, por exemplo, obter resultados similares aos dunha enquisa de
opinión ou satisfacción, pero sen necesidade de realizar entrevistas
personalizadas. Pero este é tan só un dos campos potencias destas
ferramentas e Vilares destaca outros tamén de alto de impacto. Pódese
empregar para asociar un "comportamento humano" a un dispositivo
electrónico (lease robot). Por exemplo, “se o que unha persoa di é
interpretable de forma positiva, a resposta do dispositivo pode
programarse positiva, pero se se analizase como ameazante, a resposta
podería ser moi diferente”, explica. Outra aplicación é o campo da
intelixencia estratéxica para, por exemplo, compilar opinións
considerables como "ameazas potenciais" para a sociedade, como no
referente á loita antiterrorista ou á industria da defensa.
No tocante ás redes sociais pódese preguntar pola opinión dos usuarios
sobre un produto, servizo, etc. ou ben buscar onde estes usuarios falan
dese produto/servizo por iniciativa propia, e analizar así as súas
mensaxes. Dado o tipo de ferramentas das que se trata xorden dúbidas
sobre o dereito á privacidade dos usuarios das redes sociais. Neste
sentido, Vilares destaca que “a orixe de todo este tipo de tecnoloxías
son as axencias de intelixencia, como a CIA” e recoñece que se empregan
non só con fins comerciais e sociolóxicos, senón que tamén “obviamente”
no ámbito da intelixencia estratéxica. No primeiro dos casos, o ámbito
privado, “trabállase sobre documentos de acceso libre, polo que non
existen problemas legais”. No aire queda o caso da intelixencia
estratéxica, alleo ao campo de estudo destes investigadores....