Generation of Experimental Statistics from Social Networks (Twitter) using Big Data Technologies
Institutional Cooperation National International
Emerging and Evolution of new information sources … SE LA ECHA JML
Big Data
Set of Technologies { JSON }
(Jun 2014) International Seminar on Big Data INEGI - INFOTEC (Feb 2015) Seminar Infotec-CentroGeo-Inegi. (Oct. 2010) Statistics Day. “Today Trends on Applied Statistics”, by John Brocklebank, SAS (Jul2015) Visualization Tool “Animotuitero” (Oct. 2013) Meeting with Seligman in Monterrey (Aug 2014) Pioanálisis starts (Febrero 2015) Visit to UPenn (Nov. 2012) HLG_BAS “IDENTIFYING KEY PRIORITIES FOR 2013 AND BEYOND” Big Data y Open Data. (2010) UNECE-CES. HLG-BAS = HLG on Modernisation of Statistical Production and Services (Feb 2014) Start of the Collection of Tweets (Hydra) (Nov. 2014) Pioanálisis ends (Jun 2015) First set of 60M classified Tweets by INFOTEC 2009 2010 2011 2012 2013 2014 2015 (Dec 2014) “Data Revolution” Collaboration ..“INGEOTEC” (Dec 2013) Upenn visits INEGI Big Data Tools Experiments at INEI (Aug 2011) ISI Dublin session on Social Network Analysis (Oct 2014) UNSD Global Working Group on Big Data for Official Statistics (Apr 2015) Tool “Rain of Tweets” (Jun) GIVAS = Global Pulse (Aug 2013) BigData –Conacyt INEGI Found. (Jul 2014) Maps for SECTUR
Tweets Collection
Recordemos… qué les platicamos en diciembre 2014 … Tweets Collection Infrastructure SQL and NoSQL
Polygon for the collection of tweets
150 Millions of Tweets, August 2015
70+ Millions of Tweets August 2015
Technological Benefits Experience Skills and Methodologies New Ways to Process Information Assessment on HW and SW Requirements Dedicated Internal Infrastructure 150 M Tweets database Se adquirió experiencia práctica en nuevas técnicas de recolección, integración, procesamiento, análisis y visualización de datos Fortalecimiento de los procesos de generación de información estadística, mediante el establecimiento de nuevas técnicas de recolección, integración, procesamiento, análisis y visualización de información, proveniente de nuevas fuentes de datos electrónicos (como sistemas en Internet, dispositivos inteligentes, etc.) Identificación a un alto nivel de abstracción del proceso, los procedimiento, las habilidades, los roles y el flujo de trabajo que serían necesarios para poder desarrollar las capacidades institucionales Identificación de los requerimientos de Hardware y Software para soportar las técnicas y metodologías de Big Data y generar arquitecturas tecnológicas solidas para un ambiente de producción
Mobility
Stratification www.inegi.org.mx/est/contenidos/Proyectos/estratificador/
Tweets behavior on a Long-Weekend SE LA ECHA ABT
Use of Twitter Data for Tourism Studies SE LA ECHA ABT
SE LA ECHA ABT
DF Domestic Mobility Estado de México To Mexico City From Mexico City
Generation of Tweets During the Day
Frequency of Tweet Generation in the country # Tuits 882,007 Twitter Users 43’079,312 Geo-Refenced Tweets August 2014
Geo-referenced Tweets in the Municipalities
Tweeter Users Mobility 4’469,550 displacements 347,157 Tweeter users
Use of the Mexican Roads Network 121 millions of geo-referenced tweets January 2015 70 millions of geo-referenced tweets October 2014
Average Tweets on Banks and Bars in a Week
Next studies on mobility… “Feria Nacional de San Marcos” Tourists Internal tourism in all the country Mobility in our Borderlines Urban-Rural Systems
Subjective Wellness
Project Objective Generation of experimental indicators, new or complementary to traditional methods using data science technologies for the extraction, storage, processing and visualization of big data. Nota: El tema de Big Data es tan nuevo para la generación de la Estadística Oficial, que no existe un modelo único, en varios Organismos Internacionales y Oficinas Nacionales de Estadística se están llevando a cabo proyectos piloto como el de INEGI, para tener la oportunidad de adquirir experiencia práctica en el tema.
Y en la parte de visualización: Collaboration Dr. Gerardo Leyva gerardo.leyva@inegi.org.mx Dr. Elio Villaseñor elio.villaseñor@infotec.com.mx Dr. Oscar S. Siordia osanchez@centrogeo.edu.mx Dr. Alfredo Bustos alfredo.bustos@inegi.org.mx Dr. Sabino Miranda sabino.miranda@infotec.com.mx Dra. Daniela Moctezuma dmoctezuma@centrogeo.edu.mx Mtro. Abel Coronado abel.coronado@inegi.org.mx Dr. Eric Tellez eric.tellez@infotec.com.mx Support from: Dr. Juan Muñoz López Juan.munoz@inegi.org.mx Dr. Mario Graff mario.graff@infotec.com.mx Ing. Silvia Fraustro Silvia.fraustro@inegi.org.mx Y en la parte de visualización: Ing. Ricardo Olvera Ricardo.olvera@inegi.org.mx Lic. Marco Ibarra Marco.ibarra@inegi.org.mx
Expected benefits New indicators obtained from Big Data Sources Correlation of results with traditional methodologies information Scientific production Fortalecimiento de los procesos de generación de información estadística, mediante el establecimiento de nuevas técnicas de recolección, integración, procesamiento, análisis y visualización de información, proveniente de nuevas fuentes de datos electrónicos (como sistemas en Internet, dispositivos inteligentes, etc.) Identificación a un alto nivel de abstracción del proceso, los procedimiento, las habilidades, los roles y el flujo de trabajo que serían necesarios para poder desarrollar las capacidades institucionales Identificación de los requerimientos de Hardware y Software para soportar las técnicas y metodologías de Big Data y generar arquitecturas tecnológicas solidas para un ambiente de producción
Process Inception Knowledge gattering… Supervised Learning Method Humans put qualifications on a training set The system uses similarities to qualify other tweets Knowledge gattering… http://cienciadedatos.inegi.org.mx/pioanalisis Desarrolló (5000+ students)
Knowledge Set of tagged tweets from PioAnálisis (Tweet Analysis) 5000+ volunteers 374 000 tagged tweets 40 000 different tagged tweets (each tweet have been revised 9 times on average) El análisis de sentimiento lo realizamos de 14 meses completos y los primeros 15 días de Mayo. Suma un total de 62 millones de Tuits en México
Automatized Analysis and Qualification With the manually tagged set of tweets we built a training set to teach the system to recognize and use similarities to qualify other tweets INGEOTEC collaboration En esta etapa de conceptualización se realiza un análisis de los datos adquiridos de la web con el objetivo de inspeccionar, limpiar y transformar los datos en información para que le sean útiles al proyecto para el que se van a usar, por ejemplo es diferente el preprocesamiento de tuits para movilidad y turismo que para análisis del sentimiento.
Training Validation Normalization Cleaning Tagged Tweets (40,136)
Contradictions and repetitions Cleaning process Cleaning Contradictions and repetitions entropy Tagged Tweets (40,136) Cleaned Tweets (19,163) Cleaning
Depurar el Conjunto etiquetado (limpieza) Tuits etiquetados (40’000) Tuits “limpios” (19,163) Limpieza (contradicciones y repeticiones) (entropía) Limpieza (contradicciones y repeticiones) (entropía)
Information Pre-Processing (normalization) Word correction (dictionary, statistics and heuristics) rojo rojooooooo ja jajajajajaja Lematizing (FreeLing) romper rompí llegó llegar subió subir Coding (diacritic symbols) cana caña perdón perdon amig@s amigs Filtering (Suppressing of stop words) verbs nouns adjectives hashtags adverbs interjections Polarity of Emoticons (tag of polarity) +1 -1 Q-Grams (q=4) romp romper perder perd amigs amig
Training with algorithms from the state of the art ≈ 50% of accuracy Tweets Training (17’163) Normalized Tweets (19’163) Decision Trees Support Vector Machines Genetic Algorithms Bayesian + Emotive Charge Words Validation of Tweets (2’000)
Development of new Classification Algorithms ≈ 70% of accuracy Saddinger Linear Discrimination Analysis + Elio Weight Graffeticos Tweets Training (17’163) Normalized Tweets (19’163) Validation of Tweets (2’000)
Classification Algorithms Assembly to Improve Accuracy Saddinger LDA + Elio Weight Graffeticos Accuracy Based Assembly ≈ 80% of accuracy Positive Negative
Automatic classification of other tweets Classification of 60 millions of tweets with the Assembly Classification (assembly) Normalization (Sabinization) Not qualified tweets (60’000’000) 60 millions of classified tweets
On line demo: www.ingeotec.mx Aquí faltaría agregar un vídeo del fin de semana fatídico en Guadalajara.
Visualization http://cienciadedatos.inegi.org.mx/animotuitero/index.html
INEGI, INFOTEC, Centro-GEO, CIDE and CIMAT High Level Meeting INEGI, INFOTEC, Centro-GEO, CIDE and CIMAT
Results: Collaboration INEGI, INFOTEC, Centro-GEO, CIDE y CIMAT Collaboration lines: Common research , Seminars, Internships, academic programs, Spaces exchange y Micro data access,
New Projects
Social Networks monitoring for INEGI Goal: Publication, following and monitoring of social networks Evaluation of new tools: Semantic Web Builder developed by INFOTEC Living Lab workshop: Dissemination staff Implementing on internal environment
Mental Health of Teenagers (Data2X) Objective: “Generation of information about mental health on teenager women in Mexico from Tweeter messages” INEGI-Data2X agreement (Data2X is a ONG supported by UN)
Mental Health of Teenagers (Data2X)
Statistics on Security Use of the tweets database to get information about: Collection of dues in urban areas Information about natural disasters
Thank you!!