Descargar la presentación
La descarga está en progreso. Por favor, espere
1
Generation of Experimental Statistics from Social Networks (Twitter) using Big Data Technologies
2
Institutional Cooperation
National International
3
Emerging and Evolution of new information sources …
SE LA ECHA JML
4
Big Data
5
Set of Technologies { JSON }
6
(Jun 2014) International Seminar on Big Data INEGI - INFOTEC
(Feb 2015) Seminar Infotec-CentroGeo-Inegi. (Oct. 2010) Statistics Day. “Today Trends on Applied Statistics”, by John Brocklebank, SAS (Jul2015) Visualization Tool “Animotuitero” (Oct. 2013) Meeting with Seligman in Monterrey (Aug 2014) Pioanálisis starts (Febrero 2015) Visit to UPenn (Nov. 2012) HLG_BAS “IDENTIFYING KEY PRIORITIES FOR 2013 AND BEYOND” Big Data y Open Data. (2010) UNECE-CES. HLG-BAS = HLG on Modernisation of Statistical Production and Services (Feb 2014) Start of the Collection of Tweets (Hydra) (Nov. 2014) Pioanálisis ends (Jun 2015) First set of 60M classified Tweets by INFOTEC 2009 2010 2011 2012 2013 2014 2015 (Dec 2014) “Data Revolution” Collaboration “INGEOTEC” (Dec 2013) Upenn visits INEGI Big Data Tools Experiments at INEI (Aug 2011) ISI Dublin session on Social Network Analysis (Oct 2014) UNSD Global Working Group on Big Data for Official Statistics (Apr 2015) Tool “Rain of Tweets” (Jun) GIVAS = Global Pulse (Aug 2013) BigData –Conacyt INEGI Found. (Jul 2014) Maps for SECTUR
7
Tweets Collection
8
Recordemos… qué les platicamos en diciembre 2014 …
Tweets Collection Infrastructure SQL and NoSQL
9
Polygon for the collection of tweets
10
150 Millions of Tweets, August 2015
11
70+ Millions of Tweets August 2015
12
Technological Benefits
Experience Skills and Methodologies New Ways to Process Information Assessment on HW and SW Requirements Dedicated Internal Infrastructure 150 M Tweets database Se adquirió experiencia práctica en nuevas técnicas de recolección, integración, procesamiento, análisis y visualización de datos Fortalecimiento de los procesos de generación de información estadística, mediante el establecimiento de nuevas técnicas de recolección, integración, procesamiento, análisis y visualización de información, proveniente de nuevas fuentes de datos electrónicos (como sistemas en Internet, dispositivos inteligentes, etc.) Identificación a un alto nivel de abstracción del proceso, los procedimiento, las habilidades, los roles y el flujo de trabajo que serían necesarios para poder desarrollar las capacidades institucionales Identificación de los requerimientos de Hardware y Software para soportar las técnicas y metodologías de Big Data y generar arquitecturas tecnológicas solidas para un ambiente de producción
13
Mobility
14
Stratification
15
Tweets behavior on a Long-Weekend
SE LA ECHA ABT
16
Use of Twitter Data for Tourism Studies
SE LA ECHA ABT
17
SE LA ECHA ABT
18
DF Domestic Mobility Estado de México To Mexico City From Mexico City
19
Generation of Tweets During the Day
20
Frequency of Tweet Generation in the country
# Tuits 882,007 Twitter Users 43’079,312 Geo-Refenced Tweets August 2014
21
Geo-referenced Tweets in the Municipalities
22
Tweeter Users Mobility
4’469,550 displacements 347,157 Tweeter users
23
Use of the Mexican Roads Network
121 millions of geo-referenced tweets January 2015 70 millions of geo-referenced tweets October 2014
24
Average Tweets on Banks and Bars in a Week
25
Next studies on mobility…
“Feria Nacional de San Marcos” Tourists Internal tourism in all the country Mobility in our Borderlines Urban-Rural Systems
26
Subjective Wellness
27
Project Objective Generation of experimental indicators, new or complementary to traditional methods using data science technologies for the extraction, storage, processing and visualization of big data. Nota: El tema de Big Data es tan nuevo para la generación de la Estadística Oficial, que no existe un modelo único, en varios Organismos Internacionales y Oficinas Nacionales de Estadística se están llevando a cabo proyectos piloto como el de INEGI, para tener la oportunidad de adquirir experiencia práctica en el tema.
28
Y en la parte de visualización:
Collaboration Dr. Gerardo Leyva Dr. Elio Villaseñor Dr. Oscar S. Siordia Dr. Alfredo Bustos Dr. Sabino Miranda Dra. Daniela Moctezuma Mtro. Abel Coronado Dr. Eric Tellez Support from: Dr. Juan Muñoz López Dr. Mario Graff Ing. Silvia Fraustro Y en la parte de visualización: Ing. Ricardo Olvera Lic. Marco Ibarra
29
Expected benefits New indicators obtained from Big Data Sources
Correlation of results with traditional methodologies information Scientific production Fortalecimiento de los procesos de generación de información estadística, mediante el establecimiento de nuevas técnicas de recolección, integración, procesamiento, análisis y visualización de información, proveniente de nuevas fuentes de datos electrónicos (como sistemas en Internet, dispositivos inteligentes, etc.) Identificación a un alto nivel de abstracción del proceso, los procedimiento, las habilidades, los roles y el flujo de trabajo que serían necesarios para poder desarrollar las capacidades institucionales Identificación de los requerimientos de Hardware y Software para soportar las técnicas y metodologías de Big Data y generar arquitecturas tecnológicas solidas para un ambiente de producción
30
Process Inception Knowledge gattering… Supervised Learning Method
Humans put qualifications on a training set The system uses similarities to qualify other tweets Knowledge gattering… Desarrolló (5000+ students)
31
Knowledge Set of tagged tweets from PioAnálisis (Tweet Analysis)
5000+ volunteers tagged tweets different tagged tweets (each tweet have been revised 9 times on average) El análisis de sentimiento lo realizamos de 14 meses completos y los primeros 15 días de Mayo. Suma un total de 62 millones de Tuits en México
32
Automatized Analysis and Qualification
With the manually tagged set of tweets we built a training set to teach the system to recognize and use similarities to qualify other tweets INGEOTEC collaboration En esta etapa de conceptualización se realiza un análisis de los datos adquiridos de la web con el objetivo de inspeccionar, limpiar y transformar los datos en información para que le sean útiles al proyecto para el que se van a usar, por ejemplo es diferente el preprocesamiento de tuits para movilidad y turismo que para análisis del sentimiento.
33
Training Validation Normalization Cleaning Tagged Tweets (40,136)
34
Contradictions and repetitions
Cleaning process Cleaning Contradictions and repetitions entropy Tagged Tweets (40,136) Cleaned Tweets (19,163) Cleaning
35
Depurar el Conjunto etiquetado
(limpieza) Tuits etiquetados (40’000) Tuits “limpios” (19,163) Limpieza (contradicciones y repeticiones) (entropía) Limpieza (contradicciones y repeticiones) (entropía)
36
Information Pre-Processing
(normalization) Word correction (dictionary, statistics and heuristics) rojo rojooooooo ja jajajajajaja Lematizing (FreeLing) romper rompí llegó llegar subió subir Coding (diacritic symbols) cana caña perdón perdon amigs Filtering (Suppressing of stop words) verbs nouns adjectives hashtags adverbs interjections Polarity of Emoticons (tag of polarity) +1 -1 Q-Grams (q=4) romp romper perder perd amigs amig
37
Training with algorithms from the state of the art
≈ 50% of accuracy Tweets Training (17’163) Normalized Tweets (19’163) Decision Trees Support Vector Machines Genetic Algorithms Bayesian + Emotive Charge Words Validation of Tweets (2’000)
38
Development of new Classification Algorithms
≈ 70% of accuracy Saddinger Linear Discrimination Analysis + Elio Weight Graffeticos Tweets Training (17’163) Normalized Tweets (19’163) Validation of Tweets (2’000)
39
Classification Algorithms Assembly to Improve Accuracy
Saddinger LDA + Elio Weight Graffeticos Accuracy Based Assembly ≈ 80% of accuracy Positive Negative
40
Automatic classification of other tweets
Classification of 60 millions of tweets with the Assembly Classification (assembly) Normalization (Sabinization) Not qualified tweets (60’000’000) 60 millions of classified tweets
41
On line demo: www.ingeotec.mx
Aquí faltaría agregar un vídeo del fin de semana fatídico en Guadalajara.
42
Visualization
43
INEGI, INFOTEC, Centro-GEO, CIDE and CIMAT
High Level Meeting INEGI, INFOTEC, Centro-GEO, CIDE and CIMAT
44
Results: Collaboration INEGI, INFOTEC, Centro-GEO, CIDE y CIMAT
Collaboration lines: Common research , Seminars, Internships, academic programs, Spaces exchange y Micro data access,
45
New Projects
46
Social Networks monitoring for INEGI
Goal: Publication, following and monitoring of social networks Evaluation of new tools: Semantic Web Builder developed by INFOTEC Living Lab workshop: Dissemination staff Implementing on internal environment
47
Mental Health of Teenagers (Data2X)
Objective: “Generation of information about mental health on teenager women in Mexico from Tweeter messages” INEGI-Data2X agreement (Data2X is a ONG supported by UN)
48
Mental Health of Teenagers (Data2X)
49
Statistics on Security
Use of the tweets database to get information about: Collection of dues in urban areas Information about natural disasters
50
Thank you!!
Presentaciones similares
© 2025 SlidePlayer.es Inc.
All rights reserved.