Por Tomás Dávalos, Agencia Informativa Conacyt.
Aguascalientes, Aguascalientes.- Un grupo de científicos mexicanos, adscritos al Centro de Investigación e Innovación en Tecnologías de la Información y Comunicación (Infotec), desarrolló una herramienta informática para conocer las emociones de los usuarios de redes sociales a partir del análisis de sus publicaciones.
Conocido como Servicio Web de Análisis de Polaridad (SWAP), la herramienta trabaja con un algoritmo capaz de identificar al instante cuando un tuit —mensaje de texto emitido en la red social Twitter— tiene una carga emotiva positiva, negativa o neutra.
“Actualmente se desarrollan algoritmos que de manera automática pueden predecir la polaridad emotiva de un comentario. Se dice fácil, pero es un problema de mucha actualidad; Google recientemente lanzó una app de procesamiento del lenguaje natural que hace esta tarea, lo que nos confirmó que este es un tema de actualidad”, explicó Elio Villaseñor García, profesor investigador del Centro de Investigación e Innovación en Tecnologías de la Información y Comunicación (Infotec).
El equipo, conformado por tres investigadores de Cátedras Conacyt: Eric Sadit Téllez Ávila, Mario Graff Moreno y Sabino Miranda Jiménez, así como dos del Centro de Investigación en Geografía y Geomática (Centrogeo): Daniela Moctezuma Ochoa y Óscar Sánchez Siordia, ha comparado la herramienta SWAP con la aplicación de Google y han observado una mayor efectividad, no solo con relación a dicha app, sino también con otros productos de empresas tecnológicas que realizan ejercicios similares.
“El Inegi (Instituto Nacional de Estadística y Geografía), como se sabe, es el instituto encargado de generar estadísticas del país en distintos ámbitos, ellos se acercaron con nosotros para decirnos que habían recolectado más de 80 millones de tuits a nivel nacional y habían hecho un ejercicio de etiquetado de una muestra de esos tuits”, señaló Elio Villaseñor.
Infotec creó un algoritmo capaz de identificar de manera inmediata cuándo un tuit debe ser clasificado como positivo, negativo, neutro o sin una carga emotiva.
“Hicimos un concurso para ver quién desarrollaba el método que mejor clasificaba los tuits, fue interesante porque cada uno de nosotros tiene un área de especialidad distinta, al final, los mejores clasificadores se pudieron ensamblar y generar un algoritmo que tenía una precisión bastante buena si lo comparamos con los métodos que se reportan en las publicaciones científicas, y bueno, al final ese fue el que terminó usando el Inegi para clasificar los 80 millones de tuits”, afirmó, haciendo referencia al estudio estado de ánimo de los tuiteros en México que publicó Inegi el año pasado.
Ese mismo algoritmo se utilizará en la herramienta de análisis que están por lanzar al mercado, la cual podrá ser utilizada por agencias de publicidad para analizar el impacto de las campañas propagandísticas de sus clientes en las redes sociales; asimismo, los gobiernos podrán monitorear la aceptación de diversas políticas públicas o servicios, y también podrá ser utilizada para medir el pulso de las campañas políticas en las redes sociales, entre otras acciones.
“Se pueden analizar todos los tuits que se descarguen sobre cierto tema, por ejemplo, mediante un hashtag, el servicio te los devuelve con la etiqueta positivo, negativo o neutro, efectivamente no es una estadística representativa de la población en su conjunto; sin embargo, sí es representativa de una población muy importante, que es de los jóvenes entre 18 y 40 años, y cada vez va a ser más representativa esa población”, manifestó.
¿Qué dice el idioma digital?
Sabino Miranda Jiménez, investigador de Cátedras Conacyt, mencionó que el análisis de sentimientos ha sido un hot topic por la necesidad del gobierno y de la iniciativa privada de extraer la información vertida en las redes sociales y aprovechar las opiniones que realizan los internautas.
“Nos enfocamos solamente en lo que es Twitter y clasificar los mensajes como positivo o negativo, entonces lo que se hace es crear un modelo, que se llama espacio vectorial, donde tienen muchos componentes estos vectores, y se puede usar un marco de trabajo matemático, entonces se usan vectores y podemos utilizar cuestiones de álgebra lineal para poder mapear muchos mensajes”, explicó.
Detalló que el texto del tuit se somete a un preprocesamiento, en el cual se consideran los URL, emoticones, hashtags y códigos específicos de Twitter, los cuales se agrupan. Asimismo, se lleva a cabo un proceso llamado streaming, el cual consiste en cortar los sufijos de las palabras, por ejemplo: en niños queda ‘niñ’ y ‘os’ se elimina, de esta forma niño, niña, niños y niñas, estas cuatros expresiones se reducen a una sola: ‘niñ’, pues con ello, en teoría, resulta más fácil encontrar parecidos y agruparlos.
“Eso es parte del procesamiento, se trata de estructurar ese mensaje a nivel de los humanos, de manera que pueda entenderlo un modelo matemático para hacer los cálculos y clasificar ese mensaje”, apuntó.
A su vez, Eric Sadit Téllez, investigador de Cátedras Conacyt, puntualizó que para el análisis de sentimientos también se requiere un clasificador, cuya función consiste en decidir a qué clase pertenece un mensaje por medio de patrones, para ello se utiliza una máquina de soporte vectorial que lleva a cabo este proceso de etiquetamiento utilizando hiperplanos.
“Intentamos resolver los problemas que vamos viendo, por ejemplo, los que escriben en Twitter tienen muchísimos errores ortográficos, variantes que son inducidas, expresiones; tratamos de entender ese lenguaje que no es un español estándar, estamos experimentando técnicas semánticas e ‘iqgramas’ (sic) para resolver esos problemas, y queremos además que sea una técnica que se pueda aplicar a cualquier idioma”, concluyó.
Análisis de datos
Óscar Sánchez Siordia, profesor investigador de Centrogeo, comentó que se ha vuelto necesario el análisis de las redes sociales por la gran cantidad de información que se registra en estas: en el mundo se generan 278 mil tuits cada minuto, se suben tres mil 600 fotos en Instagram cada segundo y en Facebook se dan 41.8 millones de likes. La información digital al 2014 se calculaba en 4.4 millones de zettabytes y se pronosticaba que dicha cifra se duplicaría cada 1.2 años, 70 por ciento de esa información la generaron los propios internautas y 90 por ciento se generó en los últimos dos años.
“El 59 por ciento de los mexicanos mayores a seis años ya tiene acceso a Internet, entre 13 y 34 años de edad el grueso de ellos, de nivel socioeconómico alto, medio y medio-bajo, con mayor penetración en el norte del país, en el sur casi no. El principal uso del Internet son las redes sociales, la más utilizada es Facebook, luego siguen Whatsapp, YouTube y Twitter; 90 por ciento de las personas tiene al menos una red social, tienen cinco en promedio. Los teléfonos celulares son los más utilizados para acceder a Internet”, precisó.
Para concluir, Sánchez Siordia destacó que en la actualidad es más fácil y económico poder almacenar información, por lo cual ahora lo que adquiere importancia es poder extraer información útil de ese cúmulo de datos, ya con las técnicas tradicionales no se puede analizar cualquier información, pues se requiere de estadística, matemáticas y de la interpretación de resultados.