Ciencia de Datos Para el Análisis de Sentimientos en Twitter Elio Atenógenes Villaseñor García
Laboratorio Big Data (LaBD) Laboratorio de Analítica Computacional de Grandes Cúmulos de Información
Objetivos LaBD Diseñar métodos analíticos capaces de obtener información valiosa y útil a partir del procesamiento de grandes datos. Realizar investigación aplicada de alto impacto científico y social. Formar recursos humanos altamente especializados en Ciencia de Datos. Generar servicios de alto valor agregado que incorporen el conocimiento y las capacidades analíticas desarrolladas.
Grupo de Investigación y Áreas del Conocimiento Recuperación de Información Búsquedas por similitud. Procesamiento de lenguaje natural Categorización de texto Análisis de sentimientos Perfilado de usuarios Análisis de imágenes Videovigilancia inteligente y percepción remota Aprendizaje Computacional Clasificación, Regresión y agrupamiento Visualización de información Análisis topológico de datos Dra. Natalia García Colín Dra. Daniela A. Moctezuma Ochoa Dr. Mario Graff Guerrero Dr. Sabino Miranda Jiménez Dr. Oscar S. Siordia Dr. Eric Sadit Téllez Avila C. Dr. Elio Villaseñor García
Infraestructura del LaBD Capacidad Computacional: 272 núcleos CPU. 3 TB de Memoria RAM. 30 TB de almacenamiento. 17,920 cores de GPU 5 Workstation de alto rendimiento. Facilidades de un Centro de Datos Tier III.
Logros alcanzados Pioneros en al generación de estadística experimental del bienestar subjetivo utilizando tecnología de Big Data para INEGI. Estimación diaria de la positividad de los tuiteros en México considerando más de 2 millones de tuits al día. Participación en competencias internacionales de análisis de sentimientos y perfilado de usuarios.
Objetivo Generar indicadores experimentales, nuevos o que complementen los generados por métodos tradicionales, utilizando técnicas de Big Data para la extracción, almacenamiento, procesamiento, análisis y visualización de los datos.
Sentiment Analysis Crowdsourcing Tuits Etiquetados Tuits Descargados
Sentiment Analysis Entrenamiento Validación Normalización Limpieza Tuits etiquetados (40,136)
Sentiment Analysis Tuits etiquetados Tuits “limpios” Limpieza Limpieza entropía Limpieza contradicciones y repeticiones Tuits etiquetados (40,136) Tuits “limpios” (19,163) Limpieza (contradicciones y repeticiones) (entropía)
Normalización (Sabinización) Sentiment Analysis Tuits Limpios Normalización (Sabinización) Polaridad Emoticons (tag de polaridad) +1 -1 Q-Gramas (q=4) romp romper perder perd amigs amig Filtrado (sin stop words) verbos sustantivos adjetivos hashtags adverbios interjecciones Codificación (símbolos diacríticos) cana caña perdón perdon amig@s Corrección de palabras (diccionario, estadística y heurística) rojo rojooooooo ja jajajajajaja Lematizado (FreeLing) rompí llegó llegar subió subir Tuits Normalizados
Sentiment Analysis Tuits Entrenamiento Tuits “normalizados” Árboles de decisión SVM Algoritmos genéticos Clasificador Bayesiano SVM + Palabras con Carga Emotiva Tuits Entrenamiento (17’163) Tuits “normalizados” (19’163) Tuits Validación (2’000)
Sentiment Analysis ≈ 50% de acierto Tuits Entrenamiento (17’163) Tuits “normalizados” (19’163) Árboles de decisión SVM Algoritmos genéticos Clasificador Bayesiano SVM + Palabras con Carga Emotiva Tuits Validación (2’000)
Sentiment Analysis Tuits Entrenamiento Tuits “normalizados” Saddinger LDA + Elio Weight Graffeticos Tuits Entrenamiento (17’163) Tuits “normalizados” (19’163) Tuits Validación (2’000)
Sentiment Analysis ≈ 70% de acierto Tuits Entrenamiento (17’163) Tuits “normalizados” (19’163) Saddinger LDA + Elio Weight Graffeticos Tuits Validación (2’000)
Ensamble basado en precisión Sentiment Analysis Saddinger LDA + Elio Weight Graffeticos Ensamble basado en precisión Positivo Negativo
Sentiment Analysis Clasificador Normalización Tuits no calificados (ensamble) Normalización (Sabinización) Tuits no calificados (60’000’000) 60 millones de tuits etiquetados
Estadística Experimental - INEGI
Positividad de México
Competencias internacionales (Análisis de sentimientos) SemEval SemEval
Gracias por su atención Laboratorio de Análitica Computacional de Grandes Cúmulos de Información (BigData) http://www.infotec.mx http://ingeotec.mx