Institutional Cooperation

Slides:



Advertisements
Presentaciones similares
ALC # 16 Hoy es viernes el 4 de octubre Copy the words below in two minutes. 1.Artístico 2.Atlético 3.Inteligente 4.Tímido 5.Sociable 6.Generoso 7.Organizado.
Advertisements

Please sit in your birthday month area. abril,, mayo julio enero,, agosto dici febrero, nov,. oct marzo, junio, sept.
ESTRATEGIAS PARA EL MANEJO DE CLASE Y LA CREACIÓN DE AMBIENTES DE APRENDIZAJE MCDISL UNIDAD I.
SOCIEDAD PARA EL DESARROLLO REGIONAL DE CANTABRIA (SODERCAN) Knowledge Management tools Knowledge management tools.
TELEFÓNICA Research (I+D ) © 2008 Telefónica Investigación y Desarrollo, S.A. Unipersonal ICT 2008 – Collective Intelligence Networking Nov. 26, 2008 ©
South American Workshop on Product Stewardship Bogotá, 2008 Bogotá, 2008 Programa de Cuidado Responsable del Medio Ambiente Cámara de la industria Química.
Futuro de las Redes Sociales Tapachula, Chiapas Septiembre 2011 Dr. Ubaldo Quevedo University of Wisconsin-Parkside.
Hoy es lunes, el 9 de febrero. ESPONJA: ¿Qué significa? 1. Hay que estudiar para las pruebas. 2. Yo siempre preparo mi tarea, pero mis amigos solo preparan.
Haz ahora ¿Cuál clase es tu favorita? ¿En general cómo son tus maestros?
Organización de los Estados Americanos Organização dos Estados Americanos Organisation des États Américains Organization of American States FIRST INTER-AMERICAN.
Esp 35/9/13 Hoy es el cinco de septiembre. Objective Students will be able to create a presentation in Spanish about a cultural aspect of one Spanish.
1 PROJECT MANAGEMENT SYSTEM Agencia de Cooperación Internacional de Chile (AGCI) Depto. Cooperación Horizontal – Depto. Planificación y Control de Gestión.
Objectives To learn some different techniques to help you memorise your ‘Healthy Living’ Written Controlled Assessment. To practise these techniques and.
¿Cómo son tus asignaturas? A* Aburrido/a Divertido/a dificil fácil importante útil Bueno /a interesante.
©2008 The McGraw-Hill Companies, Inc. All rights reserved. Digital Electronics Principles & Applications Seventh Edition Chapter 2 Numbers We Use in Digital.
Projecte Qualitat i Millora Contínua Quality Management Program in Catalonia Josep Camps Pere Canyadell Network’s Coordinator.
Mónica López Castro Director, Quality of Basic and Secondary Education Proposal for Coordinating the Fourth Phase of PRIE - Colombia Guayaquil, November.
Calentamiento Lunes, el 28 de septiembre Using your vocabulary words on Page 15, answer the following questions: 1. ¿Qué día es hoy? 2. ¿Cuál es la fecha?
Bellwork Arrange the following time statements in order from morning until night. Son las cuatro menos quince de la tarde. Son las once menos diez de la.
Learning Target: I will be able to determine the Difference between different ecosystems around the world.
Departamento de Desarrollo Social y Empleo Organización de los Estados Americanos Inter-American Cooperation Network for Social Protection Transfer of.
Welcome, Students! English Course Teacher: Berenice González.
Preparación/ Review Hoy es miércoles el 30 de septiembre de 2015 Today is Wednesday, September 30, 2015 Write in Spanish: Today we are having our oral.
Instituto Tecnológico de Costa Rica Luthiers de la Tecnología Costa Rica Fab Lab Yuen Law Wan Milton Villegas-Lemus.
Review. REVIEW from ALL classes! Greet us! Your name Your age Your birthday Your telephone number Where you are from How many brothers you have –Tengo.
Repaso del capítulo What will be on our quiz? Vocab and conjugation tables form verbs on front page of the packet Comparisons of equality Tan Tanto(s),
Escribir *You can get creative. You can write in the first person which means you are the character, you can use the third person which means you are talking.
Ing. V. Asencios T.. Diseño de Plantas de Procesamiento para un Higiene Optimo y Seguridad Alimentaria  Introducción  Distribución y flujo en planta.
WATER SECURITY FOR SUSTAINABILITY TOGETHER WE MAKE WATER A GLOBAL PRIORITY.
Ciencia de Datos Para el Análisis de Sentimientos en Twitter
Heidi Ullrich, Senior Director for At-Large
Description Sentences
PARENT ACCESS SUPPORT SYSTEM PORTAL Acedimiento para padres
ESPAÑA EN Laura Flores Dirección TIC
Composición # 2.
Área temática Descentralización Acción Desarrollo Regional El Programa EUROsociAL Ciudad de México 30 de abril 2015 Ruggero Tabossi.
Task Force on Disability Measurement SCA - ECLAC
Digitalisation and Safety for Tourism
Introduction & Agenda Introduction to Microchip Device Blocksets Introduction to MATLAB Plug-In in MPLAB®IDE Creating a SIMULINK model with Microchip.
First Grade Dual High Frequency Words
  Dissemination July-October 2016.
Neutron Radiography. Outline Introduction Radiography principle Instrumentation Conclusions.
*YOU HAVE 5 MINUTES* Objective: Vocab/Ideas: Vámonos:
Hoy es lunes 9 octubre 2017.
Vamonos (Written)Answer the following two questions in two COMPLETE sentences in Spanish What color is your shirt? What is your favorite color (color.
UNCITRAL United Nations Commission on International Trade Law REGIONAL CONFERENCE ON ENHANCING INTEGRITY IN PUBLIC PROCUREMENT The role of new technologies.
2018/9/21. La abstracción de la Red Un Campus de usuarios Víctor Jiménez Ramos Chief Engineer.
SISTEMAS METEOROLOGICOS MARIA JORDAN FISICA. Parents have the right to know that their child will be safe at school, both physically and emotionally.
WHAT IS THE BLOCKCHAIN? The Blockchain is a distributed ledger, or a decentralized data base in which digital transactions are recorded. This data base,
Digitalisation and Safety for Tourism
Spanish-Months of the Year
Take Care of Corsicana.
SMART MOBILITY Bernardo Baranda Sepulveda
Las Validaciones 2016& & 2017 EITI Validations
Futuribles de l’observació socioeconòmica
Terms related to human resources 1.Training 2.Staff selection 3.Induction 4.Vacant 5.Employment contract 6.Occupational health 7.Labor welfare 8.Payroll.
Términos 1.Capacitación 2.Selección 3.Inducción 4.Vacante 5.Contrato Laboral 6.Salud Ocupacional 7.Bienestar laboral 8.Nomina 9.Servicio al cliente 10.Reclutamiento.
Bibliotecas: Un LLamado a la Acción
Preparacion Hoy es jueves el 3 de diciembre
Spanish-Months of the Year
What We’re Learning Next Week
Spanish-Months of the Year
Department of Economic and Social Development SEDI
Description Sentences
Hola Unidad 3.
Spanish-Months of the Year
How to write my report. Checklist – what I need to include Cover page Contents page – with sections Introduction - aims of project - background information.
Identify each activity in Spanish:
¿Y DESPÚES DEL ACCESO? LA IMPORTANCIA DEL CAPITAL SOCIAL Y EL USO DE INTERNET PARA EL DESARROLLO HUMANO Roxana Barrantes, Aileen Agüero & Diego Aguilar.
F. Barrio-Parra, M. Izquierdo-Díaz, D. Bolonio, Y. Sánchez-Palencia,
Transcripción de la presentación:

Generation of Experimental Statistics from Social Networks (Twitter) using Big Data Technologies

Institutional Cooperation National International

Emerging and Evolution of new information sources … SE LA ECHA JML

Big Data

Set of Technologies { JSON }

(Jun 2014) International Seminar on Big Data INEGI - INFOTEC (Feb 2015) Seminar Infotec-CentroGeo-Inegi. (Oct. 2010) Statistics Day. “Today Trends on Applied Statistics”, by John Brocklebank, SAS (Jul2015) Visualization Tool “Animotuitero” (Oct. 2013) Meeting with Seligman in Monterrey (Aug 2014) Pioanálisis starts (Febrero 2015) Visit to UPenn (Nov. 2012) HLG_BAS “IDENTIFYING KEY PRIORITIES FOR 2013 AND BEYOND” Big Data y Open Data. (2010) UNECE-CES. HLG-BAS = HLG on Modernisation of Statistical Production and Services (Feb 2014) Start of the Collection of Tweets (Hydra) (Nov. 2014) Pioanálisis ends (Jun 2015) First set of 60M classified Tweets by INFOTEC 2009 2010 2011 2012 2013 2014 2015 (Dec 2014) “Data Revolution” Collaboration ..“INGEOTEC” (Dec 2013) Upenn visits INEGI Big Data Tools Experiments at INEI (Aug 2011) ISI Dublin session on Social Network Analysis (Oct 2014) UNSD Global Working Group on Big Data for Official Statistics (Apr 2015) Tool “Rain of Tweets” (Jun) GIVAS = Global Pulse (Aug 2013) BigData –Conacyt INEGI Found. (Jul 2014) Maps for SECTUR

Tweets Collection

Recordemos… qué les platicamos en diciembre 2014 … Tweets Collection Infrastructure SQL and NoSQL

Polygon for the collection of tweets

150 Millions of Tweets, August 2015

70+ Millions of Tweets August 2015

Technological Benefits Experience Skills and Methodologies New Ways to Process Information Assessment on HW and SW Requirements Dedicated Internal Infrastructure 150 M Tweets database Se adquirió experiencia práctica en nuevas técnicas de recolección, integración, procesamiento, análisis y visualización de datos Fortalecimiento de los procesos de generación de información estadística, mediante el establecimiento de nuevas técnicas de recolección, integración, procesamiento, análisis y visualización de información, proveniente de nuevas fuentes de datos electrónicos (como sistemas en Internet, dispositivos inteligentes, etc.) Identificación a un alto nivel de abstracción del proceso, los procedimiento, las habilidades, los roles y el flujo de trabajo que serían necesarios para poder desarrollar las capacidades institucionales Identificación de los requerimientos de Hardware y Software para soportar las técnicas y metodologías de Big Data y generar arquitecturas tecnológicas solidas para un ambiente de producción

Mobility

Stratification www.inegi.org.mx/est/contenidos/Proyectos/estratificador/

Tweets behavior on a Long-Weekend SE LA ECHA ABT

Use of Twitter Data for Tourism Studies SE LA ECHA ABT

SE LA ECHA ABT

DF Domestic Mobility Estado de México To Mexico City From Mexico City

Generation of Tweets During the Day

Frequency of Tweet Generation in the country # Tuits 882,007 Twitter Users 43’079,312 Geo-Refenced Tweets August 2014

Geo-referenced Tweets in the Municipalities

Tweeter Users Mobility 4’469,550 displacements 347,157 Tweeter users

Use of the Mexican Roads Network 121 millions of geo-referenced tweets January 2015 70 millions of geo-referenced tweets October 2014

Average Tweets on Banks and Bars in a Week

Next studies on mobility… “Feria Nacional de San Marcos” Tourists Internal tourism in all the country Mobility in our Borderlines Urban-Rural Systems

Subjective Wellness

Project Objective Generation of experimental indicators, new or complementary to traditional methods using data science technologies for the extraction, storage, processing and visualization of big data. Nota: El tema de Big Data es tan nuevo para la generación de la Estadística Oficial, que no existe un modelo único, en varios Organismos Internacionales y Oficinas Nacionales de Estadística se están llevando a cabo proyectos piloto como el de INEGI, para tener la oportunidad de adquirir experiencia práctica en el tema.

Y en la parte de visualización: Collaboration Dr. Gerardo Leyva gerardo.leyva@inegi.org.mx Dr. Elio Villaseñor elio.villaseñor@infotec.com.mx Dr. Oscar S. Siordia osanchez@centrogeo.edu.mx Dr. Alfredo Bustos alfredo.bustos@inegi.org.mx Dr. Sabino Miranda sabino.miranda@infotec.com.mx Dra. Daniela Moctezuma dmoctezuma@centrogeo.edu.mx Mtro. Abel Coronado abel.coronado@inegi.org.mx Dr. Eric Tellez eric.tellez@infotec.com.mx Support from: Dr. Juan Muñoz López Juan.munoz@inegi.org.mx Dr. Mario Graff mario.graff@infotec.com.mx Ing. Silvia Fraustro Silvia.fraustro@inegi.org.mx Y en la parte de visualización: Ing. Ricardo Olvera Ricardo.olvera@inegi.org.mx Lic. Marco Ibarra Marco.ibarra@inegi.org.mx

Expected benefits New indicators obtained from Big Data Sources Correlation of results with traditional methodologies information Scientific production Fortalecimiento de los procesos de generación de información estadística, mediante el establecimiento de nuevas técnicas de recolección, integración, procesamiento, análisis y visualización de información, proveniente de nuevas fuentes de datos electrónicos (como sistemas en Internet, dispositivos inteligentes, etc.) Identificación a un alto nivel de abstracción del proceso, los procedimiento, las habilidades, los roles y el flujo de trabajo que serían necesarios para poder desarrollar las capacidades institucionales Identificación de los requerimientos de Hardware y Software para soportar las técnicas y metodologías de Big Data y generar arquitecturas tecnológicas solidas para un ambiente de producción

Process Inception Knowledge gattering… Supervised Learning Method Humans put qualifications on a training set The system uses similarities to qualify other tweets Knowledge gattering… http://cienciadedatos.inegi.org.mx/pioanalisis Desarrolló (5000+ students)

Knowledge Set of tagged tweets from PioAnálisis (Tweet Analysis) 5000+ volunteers 374 000 tagged tweets 40 000 different tagged tweets (each tweet have been revised 9 times on average) El análisis de sentimiento lo realizamos de 14 meses completos y los primeros 15 días de Mayo. Suma un total de 62 millones de Tuits en México

Automatized Analysis and Qualification With the manually tagged set of tweets we built a training set to teach the system to recognize and use similarities to qualify other tweets INGEOTEC collaboration En esta etapa de conceptualización se realiza un análisis de los datos adquiridos de la web con el objetivo de inspeccionar, limpiar y transformar los datos en información para que le sean útiles al proyecto para el que se van a usar, por ejemplo es diferente el preprocesamiento de tuits para movilidad y turismo que para análisis del sentimiento.

Training Validation Normalization Cleaning Tagged Tweets (40,136)

Contradictions and repetitions Cleaning process Cleaning Contradictions and repetitions entropy Tagged Tweets (40,136) Cleaned Tweets (19,163) Cleaning

Depurar el Conjunto etiquetado (limpieza) Tuits etiquetados (40’000) Tuits “limpios” (19,163) Limpieza (contradicciones y repeticiones) (entropía) Limpieza (contradicciones y repeticiones) (entropía)

Information Pre-Processing (normalization) Word correction (dictionary, statistics and heuristics) rojo rojooooooo ja jajajajajaja Lematizing (FreeLing) romper rompí llegó llegar subió subir Coding (diacritic symbols) cana caña perdón perdon amig@s amigs Filtering (Suppressing of stop words) verbs nouns adjectives hashtags adverbs interjections Polarity of Emoticons (tag of polarity) +1 -1 Q-Grams (q=4) romp romper perder perd amigs amig

Training with algorithms from the state of the art ≈ 50% of accuracy Tweets Training (17’163) Normalized Tweets (19’163) Decision Trees Support Vector Machines Genetic Algorithms Bayesian + Emotive Charge Words Validation of Tweets (2’000)

Development of new Classification Algorithms ≈ 70% of accuracy Saddinger Linear Discrimination Analysis + Elio Weight Graffeticos Tweets Training (17’163) Normalized Tweets (19’163) Validation of Tweets (2’000)

Classification Algorithms Assembly to Improve Accuracy Saddinger LDA + Elio Weight Graffeticos Accuracy Based Assembly ≈ 80% of accuracy Positive Negative

Automatic classification of other tweets Classification of 60 millions of tweets with the Assembly Classification (assembly) Normalization (Sabinization) Not qualified tweets (60’000’000) 60 millions of classified tweets

On line demo: www.ingeotec.mx Aquí faltaría agregar un vídeo del fin de semana fatídico en Guadalajara.

Visualization http://cienciadedatos.inegi.org.mx/animotuitero/index.html

INEGI, INFOTEC, Centro-GEO, CIDE and CIMAT High Level Meeting INEGI, INFOTEC, Centro-GEO, CIDE and CIMAT

Results: Collaboration INEGI, INFOTEC, Centro-GEO, CIDE y CIMAT   Collaboration lines: Common research , Seminars, Internships, academic programs, Spaces exchange y Micro data access,

New Projects

Social Networks monitoring for INEGI Goal: Publication, following and monitoring of social networks Evaluation of new tools: Semantic Web Builder developed by INFOTEC Living Lab workshop: Dissemination staff Implementing on internal environment

Mental Health of Teenagers (Data2X) Objective: “Generation of information about mental health on teenager women in Mexico from Tweeter messages” INEGI-Data2X agreement (Data2X is a ONG supported by UN)

Mental Health of Teenagers (Data2X)

Statistics on Security Use of the tweets database to get information about: Collection of dues in urban areas Information about natural disasters

Thank you!!