La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Ciencia de Datos Para el Análisis de Sentimientos en Twitter

Presentaciones similares


Presentación del tema: "Ciencia de Datos Para el Análisis de Sentimientos en Twitter"— Transcripción de la presentación:

1 Ciencia de Datos Para el Análisis de Sentimientos en Twitter
Elio Atenógenes Villaseñor García

2 Laboratorio Big Data (LaBD)
Laboratorio de Analítica Computacional de Grandes Cúmulos de Información

3 Objetivos LaBD Diseñar métodos analíticos capaces de obtener información valiosa y útil a partir del procesamiento de grandes datos. Realizar investigación aplicada de alto impacto científico y social. Formar recursos humanos altamente especializados en Ciencia de Datos. Generar servicios de alto valor agregado que incorporen el conocimiento y las capacidades analíticas desarrolladas.

4

5 Grupo de Investigación y Áreas del Conocimiento
Recuperación de Información Búsquedas por similitud. Procesamiento de lenguaje natural Categorización de texto Análisis de sentimientos Perfilado de usuarios Análisis de imágenes Videovigilancia inteligente y percepción remota Aprendizaje Computacional Clasificación, Regresión y agrupamiento Visualización de información Análisis topológico de datos Dra. Natalia García Colín Dra. Daniela A. Moctezuma Ochoa Dr. Mario Graff Guerrero Dr. Sabino Miranda Jiménez Dr. Oscar S. Siordia Dr. Eric Sadit Téllez Avila C. Dr. Elio Villaseñor García

6 Infraestructura del LaBD
Capacidad Computacional: 272 núcleos CPU. 3 TB de Memoria RAM. 30 TB de almacenamiento. 17,920 cores de GPU 5 Workstation de alto rendimiento. Facilidades de un Centro de Datos Tier III.

7 Logros alcanzados Pioneros en al generación de estadística experimental del bienestar subjetivo utilizando tecnología de Big Data para INEGI. Estimación diaria de la positividad de los tuiteros en México considerando más de 2 millones de tuits al día. Participación en competencias internacionales de análisis de sentimientos y perfilado de usuarios.

8 Objetivo Generar indicadores experimentales, nuevos o que complementen los generados por métodos tradicionales, utilizando técnicas de Big Data para la extracción, almacenamiento, procesamiento, análisis y visualización de los datos.

9 Sentiment Analysis Crowdsourcing Tuits Etiquetados Tuits Descargados

10 Sentiment Analysis Entrenamiento Validación Normalización Limpieza
Tuits etiquetados (40,136)

11 Sentiment Analysis Tuits etiquetados Tuits “limpios” Limpieza Limpieza
entropía Limpieza contradicciones y repeticiones Tuits etiquetados (40,136) Tuits “limpios” (19,163) Limpieza (contradicciones y repeticiones) (entropía)

12 Normalización (Sabinización)
Sentiment Analysis Tuits Limpios Normalización (Sabinización) Polaridad Emoticons (tag de polaridad) +1 -1 Q-Gramas (q=4) romp romper perder perd amigs amig Filtrado (sin stop words) verbos sustantivos adjetivos hashtags adverbios interjecciones Codificación (símbolos diacríticos) cana caña perdón perdon Corrección de palabras (diccionario, estadística y heurística) rojo rojooooooo ja jajajajajaja Lematizado (FreeLing) rompí llegó llegar subió subir Tuits Normalizados

13 Sentiment Analysis Tuits Entrenamiento Tuits “normalizados”
Árboles de decisión SVM Algoritmos genéticos Clasificador Bayesiano SVM + Palabras con Carga Emotiva Tuits Entrenamiento (17’163) Tuits “normalizados” (19’163) Tuits Validación (2’000)

14 Sentiment Analysis ≈ 50% de acierto Tuits Entrenamiento
(17’163) Tuits “normalizados” (19’163) Árboles de decisión SVM Algoritmos genéticos Clasificador Bayesiano SVM + Palabras con Carga Emotiva Tuits Validación (2’000)

15 Sentiment Analysis Tuits Entrenamiento Tuits “normalizados”
Saddinger LDA + Elio Weight Graffeticos Tuits Entrenamiento (17’163) Tuits “normalizados” (19’163) Tuits Validación (2’000)

16 Sentiment Analysis ≈ 70% de acierto Tuits Entrenamiento
(17’163) Tuits “normalizados” (19’163) Saddinger LDA + Elio Weight Graffeticos Tuits Validación (2’000)

17 Ensamble basado en precisión
Sentiment Analysis Saddinger LDA + Elio Weight Graffeticos Ensamble basado en precisión Positivo Negativo

18 Sentiment Analysis Clasificador Normalización Tuits no calificados
(ensamble) Normalización (Sabinización) Tuits no calificados (60’000’000) 60 millones de tuits etiquetados

19 Estadística Experimental - INEGI

20 Positividad de México

21 Competencias internacionales (Análisis de sentimientos)
SemEval SemEval

22 Gracias por su atención
Laboratorio de Análitica Computacional de Grandes Cúmulos de Información (BigData)


Descargar ppt "Ciencia de Datos Para el Análisis de Sentimientos en Twitter"

Presentaciones similares


Anuncios Google