#PersonalBeat – Raquel García: Ciencia, números y emociones

¿Qué caras hay detrás del proyecto de Social Coin? ¿Cuáles son sus responsabilidades en él? ¿Sus historias, inquietudes…? Para nosotros todo gira en torno a las personas y creemos que, para que conozcas Citibeats de verdad, es imprescindible mostrarte quién hay detrás de todo esto. Por ello hoy abrimos la serie #PersonalBeat en la que cada miembro del equipo (y algunos más) te van a contar de dónde vienen, qué papel desempeñan o cuáles son las últimas novedades en su campo.

 

Citibeats es una plataforma que analiza grandes cantidades de datos.
Estamos a menos de 24h del día internacional de la mujer.

¿No encuentras relación alguna? ¡Pues no es otra que Raquel García! Ella es nuestra Data Scientist y pronto sabrás más de su visión y experiencia como científica, en una colaboración con FutureFunded.

 

“Gracias al Data Science hemos podido crear Citibeats, que permite categorizar y sintetizar cualquier texto con el fin de comprender las preocupaciones de los ciudadanos”

 

P: Hola Raquel, ¿puedes contarme un poco sobre tí y tu papel en Social Coin y Citibeats?

R: Mi nombre es Raquel García Blanco, nací en Ceuta, estudié Matemáticas en Granada y el doctorado en Matemática Aplicada en Barcelona. Visto así parece que sólo viajo rodeada de números, pero no, también tengo otras aficiones: jugar voleibol, practicar acroyoga… aunque sin duda los números son una parte central en mi vida.  Actualmente tengo la suerte de trabajar con ellos en Social Coin, como Data Scientist.

 

P: ¿Y qué es un Data Scientist, a qué se dedica exactamente?

R: Básicamente podemos decir que es una persona que analiza datos con el fin de extraer información útil de ellos.

Por ejemplo, gracias al data science hemos podido crear Citibeats, que permite categorizar o clasificar datos procedentes de cualquier fuente de texto (emails, Twitter, Facebook, blogs, etc.) con el fin de comprender las preocupaciones principales de los ciudadanos en una ciudad acerca de un tema, también conocido como sentiment analysis.

Estos datos hay que procesarlos mediante algoritmos matemáticos de clasificación, análisis de sentimiento o taxonomía, entre otros algoritmos de Inteligencia Artificial. Y es aquí donde yo tengo que analizar datos (proceso también conocido como Data Mining) que genera nuestra tecnología Sophia, así como estudiar maneras de optimizarla, elegir qué gráficas utilizamos para mostrar de forma eficiente los datos o realizar análisis de sentimiento basándonos en herramientas de analítica de texto y lenguaje o Natural Language Processing (NLP).

De esta manera, hemos podido conocer la opinión de los ciudadanos de Barcelona sobre el transporte público o programas educativos como STEM y también hemos conocido lo que opinan los ciudadanos de Sant Cugat sobre el plan de innovación de la ciudad.

 

P: Parece algo difícil entender a las personas basándose tan solo en datos. ¿Cómo se cuantifican las emociones, las opiniones, el sentimiento?

R: Básicamente hay dos maneras de cuantificar los sentimientos descritos en un texto: usar algoritmos de Machine Learning o algoritmos que analicen el léxico.

La primera opción recoge texto, lo analiza y lo etiqueta (por ejemplo: “Me da pánico viajar en avión” es un mensaje con connotación negativa). Una vez que tengamos un conjunto de datos etiquetados, elegimos un algoritmo (regresión lineal, árbol de decisión, etc), lo entrenamos -aquí es donde uso la “magia” del Machine Learning– y generamos un modelo. Este modelo nos permitirá clasificar un nuevo texto basándose en las características de los textos recogidos inicialmente.

La segunda opción pasa por construir una lista (lexicon) de manera que cada palabra tiene un valor numérico que expresa la connotación de esa palabra en un lenguaje. Por ejemplo, la palabra ‘bueno’ podría tener un valor de 0.4 mientras que ‘malo’ podría tenerlo de -0.3. De esta manera, el sentimiento de cada texto se calculará ponderando las palabras que componen el texto. Afortunadamente, existen algoritmos que además del componente léxico de un texto tienen en cuenta más sutilezas, como las mayúsculas y minúsculas, los signos de puntuación e incluso si se han usado emojis.

 

P: ¿Y cuál es mejor, cuál utilizas para desarrollar Citibeats?

R: Ambos tienen ventajas y desventajas. No es sencillo etiquetar texto pero tampoco lo es construir una lista de palabras con un valor asociado. Por ejemplo, analizar sólo el léxico hace que se pierdan matices humanos: el sarcasmo o las palabras con doble sentido son difícilmente cuantificables, por otro lado la generación del modelo de machine learning depende exclusivamente del tipo de datos usados. En mi opinión el uso de uno u otro se basará en el problema concreto que queramos abordar. El valor está en saber cuándo corresponde una u otra opción.

 

P: Este debe ser un campo poco explorado y probablemente lo será en los próximos años. ¿Qué nuevos retos observas en torno al sentiment analysis?

R: Uno de los retos claves en mi opinión es el cambio de idioma. Normalmente las listas de palabras o lexicon se generan en inglés, pero ¿qué ocurre si quiero analizar un texto en castellano? ¿Debo generar un nuevo lexicon, o traducir el texto de español a inglés y usar el mismo lexicon? Ambas opciones podrían ser válidas, pero surgen problemas ¿son realmente precisas?, ¿cuál lo es más?

Otro desafío es la construcción del lexicon o etiquetado de texto. Normalmente se usan herramientas diseñadas conjuntamente por científicos y psicólogos para analizar el contenido del texto objetivamente, pero esto requiere tiempo y un equipo multidisciplinar y amplio de personas realizando el análisis. Es lento y costoso.

Por último, podemos añadir el tiempo de computación. Pensemos en una plataforma que muestre el sentimiento asociado a un texto en tiempo real: ¿tiene sentido que el usuario espere 30 o 40 minutos mientras el algoritmo calcula el sentimiento del texto? Para llegar a un real-time verdadero hay que mejorar los algoritmos y su tiempo de computación.

 

P: ¿Puedes, para terminar, contarnos cómo estáis trabajando en Citibeats para superarlos?

R: En este momento, Citibeats está intentando aumentar la precisión del análisis del sentimiento usando las emociones (felicidad, enfado, emoción, susto, indiferencia, …) de un texto combinadas con el uso de algoritmos de Machine Learning. Pensamos que de esta manera es posible aumentar la precisión del algoritmo.


 

¿Habías pensado alguna vez en analizar de manera científica la emoción que se muestra en un texto? Si analizáramos tus textos, ¿qué emoción, qué sentimientos serían los más recurrentes?

¿Para qué utilizarías tú una plataforma como Citibeats? Si quieres conocer sus infinitas posibilidades y  qué estamos haciendo nosotros con ella, puedes mirar algunos casos de #CitibeatsInAction.