Ciencia de Datos Para el Análisis de Sentimientos en Twitter

Slides:



Advertisements
Presentaciones similares
Jesús Santisteban Fernández Miguel Ángel Díaz Corchero Jornadas Técnicas RedIris 2015 Santa Cruz de Tenerife Experiencias del Uso de Infraestructuras Cloud.
Advertisements

CIENCIA La ciencia estudia la vida y su origen a través de la observación, medición y la evaluación de los datos obtenidos. Trata de explicar el por qué.
INVESTIGACION CIENTIFICA EN CONTADURIA PUBLICA TECNICAS DE ESTUDIO CONTADURIA PUBLICA UNIVERSIDAD SALESIANA DE BOLIVIA Dr. Abel CORDERO CALDERON.
MÁSTER MNTI: “ Tecnologías inteligentes y del conocimiento con aplicaciones en medicina”
PROYECTO DEL CAMPO DE LA CIENCIA Y LA TECNOLOGIA.
La mercadotecnia tal y como la conocemos no es la misma que conocíamos hace algunos años y tampoco será la misma en un futuro próximo. Desde la llegada.
DIAZ BOGADO, DIEGO /2016 FERNANDEZ, RODOLFO /2016 PAZ, FRANCISCO /2016 ZAPATA, FLORENCIA /2016 TALLER DE UTILITARIOS.
Identificación de Criterios sobre Tiempos de Entrega Cierre de Ticket Envío de encuesta Usuario Recibe Encuesta Usuario Califica Encuesta Análisis Estadístico.
Calidad de la educación en Nicaragua
INVESTIGACIÓN DE OPERACIONES
Roberto Bilbao Santiago de Compostela, 18 noviembre 2016
Universidad American College. Objetivos Introducción a la Informática Tema: Introducción a la Informática 1.Explicar los conceptos fundamentales relacionados.
CATEGORIAS CIENTIFICAS
“Introducción a la Geoinformación”
UNIVERSIDAD DEL PAPALOAPAN División de Estudios de Posgrado
DEPARTAMENTO DE ELÉCTRICA Y ELECTRÓNICA
LOS CONCEPTOS DE LA UNIDAD
Bibliteca Central. Derecho ile.cl Taller de acceso a la información Conceptos y procesos de la investigación documental/bibliográfica.
El Monitoreo de una iniciativa compleja
Mg. José Agustín Sierra Matos Semestre II.
El uso de conocimientos técnicos y las Tic para la innovación.
SISTEMAS INTELIGENTES
7ª Jornada sobre la Biblioteca Digital Universitaria JBDU2009 "La  biblioteca universitaria en la web" 5 y 6 de noviembre de 2009 Biblioteca Central de.
MAPAS MENTALES.
Institutional Cooperation
Olive Ripening Phase Estimation based on Neural Networks
SIG para la Agricultura de Precisión
Dr. Javier F. García Ing. Daniel Pérez Villa Miami 2016
Dr. Javier F. García Ing. Daniel Pérez Villa Miami 2016
Comunicación Efectiva
DEFENSA DEL TRABAJO DE TITULACIÓN
INTELIGENCIA ARTIFICIAL
IDENTIFICACION DE PROYECTOS
PROVEEDOR DATA WAREHOUSE TERADATA
Integrantes: Jenny Alexandra Fierro Martinez
Integrantes: Jenny Alexandra Fierro Martinez
TECNOLOGIA.
¿Qué es el virus informática
DEPARTAMENTO DE ELECTRICA Y ELECTRÓNICA
Evolución de la comunicación en mi trabajo.
APLICACIÓN DE NUEVAS TECNOLOGÍAS EN LA CONSERVACIÓN Y ANÁLISIS DEL PATRIMONIO CULTURAL Herramientas para la Investigación.
Metodología de la Investigación I I JÓVENES INVESTIGADORES E INNOVADORES
TIPOS DE EMPRENDIMIENTO Laura Arismendy Eliana Pérez Alejandro….
Taller de acceso a la información
Tecnologías de la Información y Comunicaciones
GESTIÓN DE LA CALIDAD EN LABORATORIOS DE ENSAYO TRAINING 2018.
Taller de acceso a la información Conceptos y procesos de la investigación documental/bibliográfica Dr. Neder Hugo ROJAS SALDAÑA.
 La minería de datos o exploración de datos (es la etapa de análisis de "Knowledge Discovery in Databases" o KDD) es un campo de la estadística y las.
UNA CONTRIBUCIÓN A LA GESTIÓN DE LA INFORMACIÓN DE CIENCIA, TECNOLOGÍA E INNOVACIÓN Universidad de las Ciencias Informáticas Centro de Gobierno Electrónico.
Escuela Preparatoria Oficial No. 272
22/11/2018 Sistema inteligente de tipo TLD (Track, Learn and Detect) para plataforma móvil de última generación: Implementación  y comparativa de su rendimiento.
UNIVERSIDAD DE LAS FUERZAS ARMADAS-ESPE
Tecnologías de la Información y Comunicaciones (AEQ-1064)
Christian Vargas García
Ciencia de datos, big data y redes sociales
Impulso para soluciones innovadoras con Big Data, Ciencia de Datos e inteligencia artificial en los Poderes Judiciales de Iberoamérica E- Justicia.
Semana 1 Elementos, características y aplicación del método científico 02/03/2019.
FUNCIONES ESENCIALES DE LA SALUD PÚBLICA FUNCIONES ESENCIALES DE LA SALUD PÚBLICA Promoción de la salud Desarrollo de recursos humanos y capacitación en.
Metodología de la Investigación Dra. María Irma Marabotto
Areli Morán Espino Licenciatura en Matemáticas
aplicados a la Recuperación de Información
Curso de Metodología de la Investigación Dra. María Irma Marabotto
CAMINO A LA VERDAD.  EL MÉTODO CIENTÍFICO TRAERÁ COMO CONSECUENCIA OBLIGADA LA GENERACIÓN DE RESULTADOS OBJETIVOS, DE UNA VERDAD ABSOLUTA  ESTE MÉTODO.
“DE LA ACADEMIA AL CIUDADANO”.
Almacenamiento de la información. Etapas fundamentales de la memoria : Almacenamiento Codificación Recuperación.
Ingeniería en telemática
COLEGIO MODERNO TEPEYAC
Instituciones Universidad Politécnica de Tlaxcala
Objetivos (Regresar…..).
TIPOS DE ALGORITMO DE APRENDIZAJE Aprendizaje Supervisado Aprendizaje no Supervisado Aprendizaje por Refuerzo.
Transcripción de la presentación:

Ciencia de Datos Para el Análisis de Sentimientos en Twitter Elio Atenógenes Villaseñor García

Laboratorio Big Data (LaBD) Laboratorio de Analítica Computacional de Grandes Cúmulos de Información

Objetivos LaBD Diseñar métodos analíticos capaces de obtener información valiosa y útil a partir del procesamiento de grandes datos. Realizar investigación aplicada de alto impacto científico y social. Formar recursos humanos altamente especializados en Ciencia de Datos. Generar servicios de alto valor agregado que incorporen el conocimiento y las capacidades analíticas desarrolladas.

Grupo de Investigación y Áreas del Conocimiento Recuperación de Información Búsquedas por similitud. Procesamiento de lenguaje natural Categorización de texto Análisis de sentimientos Perfilado de usuarios Análisis de imágenes Videovigilancia inteligente y percepción remota Aprendizaje Computacional Clasificación, Regresión y agrupamiento Visualización de información Análisis topológico de datos Dra. Natalia García Colín Dra. Daniela A. Moctezuma Ochoa Dr. Mario Graff Guerrero Dr. Sabino Miranda Jiménez Dr. Oscar S. Siordia Dr. Eric Sadit Téllez Avila C. Dr. Elio Villaseñor García

Infraestructura del LaBD Capacidad Computacional: 272 núcleos CPU. 3 TB de Memoria RAM. 30 TB de almacenamiento. 17,920 cores de GPU 5 Workstation de alto rendimiento. Facilidades de un Centro de Datos Tier III.

Logros alcanzados Pioneros en al generación de estadística experimental del bienestar subjetivo utilizando tecnología de Big Data para INEGI. Estimación diaria de la positividad de los tuiteros en México considerando más de 2 millones de tuits al día. Participación en competencias internacionales de análisis de sentimientos y perfilado de usuarios.

Objetivo Generar indicadores experimentales, nuevos o que complementen los generados por métodos tradicionales, utilizando técnicas de Big Data para la extracción, almacenamiento, procesamiento, análisis y visualización de los datos.

Sentiment Analysis Crowdsourcing Tuits Etiquetados Tuits Descargados

Sentiment Analysis Entrenamiento Validación Normalización Limpieza Tuits etiquetados (40,136)

Sentiment Analysis Tuits etiquetados Tuits “limpios” Limpieza Limpieza entropía Limpieza contradicciones y repeticiones Tuits etiquetados (40,136) Tuits “limpios” (19,163) Limpieza (contradicciones y repeticiones) (entropía)

Normalización (Sabinización) Sentiment Analysis Tuits Limpios Normalización (Sabinización) Polaridad Emoticons (tag de polaridad) +1 -1 Q-Gramas (q=4) romp romper perder perd amigs amig Filtrado (sin stop words) verbos sustantivos adjetivos hashtags adverbios interjecciones Codificación (símbolos diacríticos) cana caña perdón perdon amig@s Corrección de palabras (diccionario, estadística y heurística) rojo rojooooooo ja jajajajajaja Lematizado (FreeLing) rompí llegó llegar subió subir Tuits Normalizados

Sentiment Analysis Tuits Entrenamiento Tuits “normalizados” Árboles de decisión SVM Algoritmos genéticos Clasificador Bayesiano SVM + Palabras con Carga Emotiva Tuits Entrenamiento (17’163) Tuits “normalizados” (19’163) Tuits Validación (2’000)

Sentiment Analysis ≈ 50% de acierto Tuits Entrenamiento (17’163) Tuits “normalizados” (19’163) Árboles de decisión SVM Algoritmos genéticos Clasificador Bayesiano SVM + Palabras con Carga Emotiva Tuits Validación (2’000)

Sentiment Analysis Tuits Entrenamiento Tuits “normalizados” Saddinger LDA + Elio Weight Graffeticos Tuits Entrenamiento (17’163) Tuits “normalizados” (19’163) Tuits Validación (2’000)

Sentiment Analysis ≈ 70% de acierto Tuits Entrenamiento (17’163) Tuits “normalizados” (19’163) Saddinger LDA + Elio Weight Graffeticos Tuits Validación (2’000)

Ensamble basado en precisión Sentiment Analysis Saddinger LDA + Elio Weight Graffeticos Ensamble basado en precisión Positivo Negativo

Sentiment Analysis Clasificador Normalización Tuits no calificados (ensamble) Normalización (Sabinización) Tuits no calificados (60’000’000) 60 millones de tuits etiquetados

Estadística Experimental - INEGI

Positividad de México

Competencias internacionales (Análisis de sentimientos) SemEval SemEval

Gracias por su atención Laboratorio de Análitica Computacional de Grandes Cúmulos de Información (BigData) http://www.infotec.mx http://ingeotec.mx