La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Autor: Alex Ariel Arias Ríos Director: Ing. Blanca Elvira Oviedo Msc.

Presentaciones similares


Presentación del tema: "Autor: Alex Ariel Arias Ríos Director: Ing. Blanca Elvira Oviedo Msc."— Transcripción de la presentación:

1 Autor: Alex Ariel Arias Ríos Director: Ing. Blanca Elvira Oviedo Msc.
APLICACIÓN DE TÉCNICAS DE MINERÍA DE DATOS PARA BÚSQUEDA DE RELACIONES ENTRE VARIABLES QUE RESPONDEN A SERIES DE TIEMPO, CASO DE ESTUDIO CONTAMINACIÓN ATMOSFÉRICA LOCALIDAD DE PUENTE ARANDA Autor: Alex Ariel Arias Ríos Director: Ing. Blanca Elvira Oviedo Msc. Buenos días, Mi nombre es alex arias y les quiero presentar el Trabajo de Grado Aplicación Aplicación Práctica 1

2 Contextualización y Problemática Solución propuesta Objetivos TG
Agenda Contextualización y Problemática Solución propuesta Objetivos TG Desarrollo y Contribuciones Conclusiones Trabajos futuros Demo La agenda que tendremos en esta presentación sera 2

3 Contextualización y Problemática

4 Contexto Puente Aranda: Localidad ubicada al occidente de Bogotá.
Tiene aproximadamente habitantes. Se caracteriza por ser el centro de actividades industriales en Bogotá. Ranking de las ciudades más contaminadas de Colombia [1]. Instituto de Hidrología, Meteorología y Estudios Ambientales Según el IDEAM (Instituto de Hidrología, Meteorología y Estudios Ambientales) [23], Bogotá es una de las ciudades que se encuentra en el ranking de los ambientes más contaminados en Colombia, debido a su alto desarrollo industrial, alta población, cantidad de carros, entre otros. Por tal motivo, la capital cuenta con un sistema de monitoreo ambiental continuo con transmisión de datos cuyo nombre es Red de Monitoreo de Calidad del Aire (RMCAB), perteneciente a la Secretaría Distrital de Ambiente (SDA), 4

5 Red de Monitoreo de Calidad del Aire Bogotá (RMCAB)
Contexto Red de Monitoreo de Calidad del Aire Bogotá (RMCAB) Base de datos de Registros Históricos Ozono troposférico ( 𝑂 3 ) Material Particulado ( 𝑃𝑀 10 ) Dióxido de Nitrógeno ( 𝑁𝑂 2 ) Oxidos de Nitrógeno ( 𝑁𝑂 𝑋 ) Partículas Suspendidas Totales (PST) Dióxido de Azufre ( 𝑆𝑂 2 ) Concentraciones de los contaminantes La RMCAB cuenta con 15 estaciones de medición distribuidas estratégicamente en Bogotá. Dentro de ellas se encuentra la estación de PA, Cada estación cuenta con equipos especializados donde se almacena info en una BD por localidad de la concentración de algunos contaminantes aéreos, variables climatológicas y temporales. Entre ellos la concentracuib de los contaminantes O3, PM10 y NO2 (DIOXIDO DE NITROGENO), la temperatura, velocidad del viento, radiación solar, precipitación y la fecha junto con la hora del dia en la que se capturaron dichos valores. Por lo que se ha investigado que estos contaminantes y las variables climatológicas responden a series de tiempo. Lo que quiere decir que la dinámica de la atmosfera responde a la hora del dia y los trimestres del año,. Temperatura Velocidad de los Vientos Radiación Solar Precipitación Presión atmosférica Humedad Relativa Fecha y hora del día Variables climatológicas Y temporales 5

6 Contextualización y Problemática
Perspectiva Ambiental Perspectiva Tecnológica Contextualización y Problemática 6

7 Problemática – Perspectiva Ambiental
Estadísticas en Latinoamérica En Latinoamérica, cada año más de personas mueren a consecuencia de la contaminación aérea por falta de conocimiento o prevención. En Colombia cerca de personas mueren al año por la contaminación del aire, se afirma que el alto costo de la contaminación no solo deja pérdidas humanas sino también económicas. [5] Estudios realizados en diferentes partes del mundo demuestran que la exposición a mediano, corto o largo plazo a contaminantes como PM10 y O3 afectan la salud en ámbito cardiovascular y respiratorio, aumentando así la mortalidad prematura[5][6][7]. . Hay estudios que reflejan que cerca de personas mueren al año por la contaminación del aire, según el Ministerio de Ambiente, se afirma que el alto costo de la contaminación no solo deja pérdidas humanas sino también económicas ya que se pierden anualmente cerca de 1.5 billones de pesos por cuenta de las ausencias laborales por enfermedades del sistema respiratorio y por los gastos hospitalarios que se corran [52]. 7

8 Contextualización y Problemática
Perspectiva Ambiental Perspectiva Tecnológica Contextualización y Problemática 8

9 Problemática – Perspectiva Tecnológica
En la actualidad la RMCAB genera reportes e informes diarios del estado de contaminación en cada estación. Sin embargo estos reportes se muestran de forma numérica y no se sabe si es peligroso o no este reporte y como prevenirlo. Se han utilizado técnicas estadísticas (S.D) enfocadas en ST que son de tipo confirmatorio, requieren de un experto para su posterior análisis e implementación. Actualmente no hay ningún SI que genere pronóstico y alertas tempranas a la comunidad en Bogotá. Mostrando las unidades de cada contaminante y la mayoría de personas que no entienden de contaminación no pueden comprender en que momento son desfavorables para la salud. 9

10 Solución propuesta 10

11 Solución propuesta Modelos de MD Contaminantes PM10 O3 Pronóstico
Temperatura Velocidad de los Vientos Radiación Solar hora del día Mes NOX NO2 Modelos de MD Contaminantes PM10 O3 Pronóstico Alertas acerca del estado Variables de entrada SI de Alertas tempranas App técnicas de md con el fin de generar modelos que permitan dar un pronóstico o una información temprana de episodios extremos de contaminación con el fin de proveer una herramienta que para la tomar decisiones rápidas para las instituciones encargadas. No e 11

12 Modalidad que abarca Investigativa Aplicativa 12
Investigativa-> Explorar la utilización de técnicas de MD para encontrar relaciones entre variables climatológicas y los contaminantes PM10 y O3 que responden a ST y donde los valores no son independientes sino dependen de la hora anterior. MD , ST, CA ->voy a combinar st con mineria de datos y corresponde a calidad del aire. Aplicativa -> Crear un SI que genere alertas tempranas a eventos extremos de contaminación usando modelos de MD. Generar un producto 12

13 Objetivo General Objetivos Específicos Objetivos TG

14 Objetivo General Encontrar y aplicar técnicas de minería de datos, que permitan hacer relaciones entre variables atmosféricas y variables contaminantes (ozono y material Particulado) para la localidad de Puente Aranda con el fin de definir los valores asociados a eventos extremos de contaminación y desarrollar un prototipo de Sistema de Información de alertas tempranas de contaminación atmosférica a partir de las relaciones encontradas.

15 Objetivos específicos por fases metodológicas
Objetivos TG Objetivos específicos por fases metodológicas Fase 1 - 2 Entender los datos y el problema Determinar la información de calidad del aire pertinente para este proyecto, de acuerdo con los datos suministrados por la SDA. Fase 3 Preparar los datos Establecer una vista minable, enfocándose en los rezagos en el tiempo que este acentuando la relación entre una variable y otra. Metodología CRISP DM Fase 4 Modelar Determinar los modelos apropiados de minería de datos para buscar la relación entre las variables atmosféricas y los contaminantes. Es una metodología estándar de uso libre Cross Industry Standard Process for Data Mining Validar los resultados que provea el entrenamiento de los modelos de minería de datos con los resultados esperados y seleccionar los modelos de minería con más precisión. Fase 5 Evaluar Fase 6 Desarrollo Crear un prototipo de Sistema de Información que se integre con los resultados de los modelos de minería de datos seleccionada. 15

16 Metodología CRISP DM Fase 1 de entender el problema
Plan del proyecto Fase 2 entender los datos Resultados de correlaciones entre los atributos de la BD. Resultados de las auto-correlaciones entre los contaminantes Listado de los atributos mas influyentes de la BD. Fase 3 Preparar los datos Listado de las técnicas de minería seleccionadas Vista Minable de cada técnica

17 Fase 4 Modelar Fase 5 Evaluar Fase 6 Desarrollo Metodología CRISP DM
Modelos generados y aprobados Fase 5 Evaluar Listado de los modelos seleccionados Creación de la base de conocimiento Fase 6 Desarrollo SI Alertas tempranas

18 Fase 1 Entender el problema
Fase 2 Entender los datos Fase 3 Preparar los datos Fase 4 Modelar Fase 5 Validación Fase 6 Desarrollo Contexto (Background) : Definir los stakeholders Investigar los recursos disponibles Identificar la situación actual Investigación de trabajos relacionados. Recopilación de información acerca de la calidad del aire. Recopilación de información acerca de los conceptos básicos de MD. Definir y planear la solución a los riesgos del proyecto Contexto (Background): ¿Qué sucede si los datos son de escasa calidad o cobertura? 18

19 Fase 2 Entender los datos
Fase 1 Entender el problema Fase 2 Entender los datos Fase 3 Preparar los datos Fase 4 Modelar Fase 5 Validación Fase 6 Desarrollo Recopilación de la base de datos con los registros históricos Descripción de los datos pertenecientes a los RH Exploración de los datos Control de calidad de los datos ¿Qué atributos (columnas) de la base de datos parecen más prometedores?  ¿Qué atributos no parecen relevantes y se pueden excluir?  ¿Existen datos suficientes para obtener conclusiones generales o realizar predicciones precisas?  ¿Dispone de atributos suficientes para su método de modelado?  ¿Está fusionando varios orígenes de datos? En caso afirmativo, ¿existen áreas que puedan plantear problemas al fusionar?  ¿Ha considerado cómo se gestionan los valores perdidos en cada origen de datos? 19

20 Descripción de los datos
Fase 1 Entender el problema Fase 2 Entender los datos Fase 3 Preparar los datos Fase 4 Modelar Fase 5 Validación Fase 6 Desarrollo Descripción de los datos Nombre del Atributo Tipo de variable Tipo de Medición y/o formato Fecha & Hora Datos Temporales dd/mm/aaaa h:mm Ozono Continua Partes por billón (Ppb) PM10 Microgramos por metro cubico (µg/m3) Velviento Metros por segundo (m/s) Temperatura Grados celsius (°C) Lluvia Milímetros (mm) NO2 NOX Partes por billón R_S Global Watts por metro cuadrado ( 𝑤 𝑚 2 ) Los datos deben estar en el nivel de granularidad requerido por el algoritmo de minería. 20

21 Valores de cada atributo
Fase 1 Entender el problema Fase 2 Entender los datos Fase 3 Preparar los datos Fase 4 Modelar Fase 5 Validación Fase 6 Desarrollo Valores de cada atributo Atributos de la base de datos Valores ejemplo Ozono – ppb PM10 223 – 224 µg/m3 Velocidad de los vientos 1.2 – 1.3 m/s Temperatura 12.2 – 12.3 ºc Radiación solar global Precipitación 0 – 0,1 mm NOX NO2 12.12 – ppb Fecha&Hora 01/01/ :00 Por columna los valores Se explica que hay valores continuos que son muy cercanos y que al app técnicas de MD ESTO PODRIA SER UN PROBLEMA 21

22 Exploración de los datos
Fase 1 Entender el problema Fase 2 Entender los datos Fase 3 Preparar los datos Fase 4 Modelar Fase 5 Validación Fase 6 Desarrollo Exploración de los datos Velocidad de los Vientos RadiaciónSG Velocidad de los Vientos Temperatura Ozono 𝑃𝑀 10 Temperatura variables dependientes fueron los contaminantes 𝑂 3 y 𝑃𝑀 10 ya que el objetivo era encontrar cuales variables eran influyentes en las concentraciones de dichos contaminantes con rezagos horarios. RadiaciónSG NOX y NO2 Correlaciones con rezagos de 1 y 2 horas 22

23 Verificar la calidad de los datos
Fase 1 Entender el problema Fase 2 Entender los datos Fase 3 Preparar los datos Fase 4 Modelar Fase 5 Validación Fase 6 Desarrollo Verificar la calidad de los datos Atributo % Campos no validos % Valores únicos Ozono 10% 1% PM10 6% 0% Vel vientos 2% Temperatura Lluvia 4% R_S Global NO2 NOX RMCAB TIENE control de calidad de DATOS Hay datos faltantes y datos con banderas que era necesario investigar cual era cada bandera. Para saber si el dato era valido o no. Exportación de la BD a Weka Identificación de los campos con banderas Consulta a expertos para combatir los campos con ese tipo de valores. CON ESTO SE CUMPLIO EL OBJETIVO 1…………………….CON UN CHECK Objetivo 1 Cumplido 23

24 Fase preparación de los datos
El propósito fundamental de la preparación de los datos es la manipulación y transformación de los datos sin refinar para que la información contenida en el conjunto de datos pueda ser descubierta o estar accesible de forma más fácil 24

25 Fase 3 Preparar los datos
Fase 1 Entender el problema Fase 2 Entender los datos Fase 3 Preparar los datos Fase 4 Modelar Fase 5 Validación Fase 6 Desarrollo Actividades Integración de la base de datos Limpieza de datos Recopilación y selección de las técnicas de MD Definir conjunto de preparación Creación de variables derivadas Creación del formato de los datos para cada técnica de MD Eliminación del mayor número posible de datos erróneos o inconsistentes e irrelevantes y presentación de los datos de una manera apropiada para la minería. 25

26 Criterios de selección de las técnicas de MD usadas
Fase 1 Entender el problema Fase 2 Entender los datos Fase 3 Preparar los datos Fase 4 Modelar Fase 5 Validación Fase 6 Desarrollo Criterios de selección de las técnicas de MD usadas Tipo de información obtenida Cuál técnica contribuye a cumplir el objetivo Investigar cuales técnicas no han sido trabajadas comúnmente Las técnicas son de fácil representación Forma de validar los resultados Cubren las tareas de minería. Si los campos se podían categorizar y numerizar 26

27 Fase 3 Preparar los datos
Fase 1 Entender el problema Fase 2 Entender los datos Fase 3 Preparar los datos Fase 4 Modelar Fase 5 Validación Fase 6 Desarrollo Técnicas de minería seleccionadas Reglas de Asociación (Descriptiva) Agrupamiento (Descriptiva) Clasificación por Arboles de decisión (Predictiva)

28 Fase 3 Preparar los datos
Fase 1 Entender el problema Fase 2 Entender los datos Fase 3 Preparar los datos Fase 4 Modelar Fase 5 Validación Fase 6 Desarrollo Creación de las variables derivadas ClasificacionHora (madrugada, mañana, mediodía, tarde y noche) PromRadiacionSG (mayor a promedio , menor a promedio, promedio) Hora Pico (si o no) Fin de semana (si o no) Trimestres del año (4) La combinación de los valores de dos o mas campos con el fin de facilitar el entrenamiento de las técnicas. 28

29 Fase 3 Preparar los datos
Fase 1 Entender el problema Fase 2 Entender los datos Fase 3 Preparar los datos Fase 4 Modelar Fase 5 Validación Fase 6 Desarrollo Formato de los datos para las técnicas de CA y RA Variables Ozono, PM10 y NO2 - Índice de la Agencia de protección Ambiental. (Bueno, Moderado y Desfavorable). Velocidad de los vientos - Escala Beaufort (suave, ventolina, leve, regular y fuerte) Lluvia - Escala de precipitación Temperatura - índice de Missenard (Frio, menos tibio y tibio) Radiación solar y NOX (Categorías de la funcionalidad de Analysis Services) ClasificacionHora Trimestres del Año La combinación de los valores de dos o mas campos con el fin de facilitar el entrenamiento de las técnicas. 29

30 Vista Minable para reglas de asociación y clasificación

31 Fase 3 Preparar los datos
Fase 1 Entender el problema Fase 2 Entender los datos Fase 3 Preparar los datos Fase 4 Modelar Fase 5 Validación Fase 6 Desarrollo Formato de los datos para la técnica de Agrupamiento Normalización lineal Uniforme ( 0 y 1) v’ = (v - min)/ (max – min). Discretización de los atributos continuos. 31

32 Vista Minable para Agrupamiento
Objetivo 2 cumplido

33 Fase Modelar Selección de los atributos de entrada de la VM
Configuración de parámetros* Ejecución de los algoritmos de cada técnica* La mayoría de analistas de datos suelen generar varios modelos y comparar los resultados antes de aplicarlos o integrarlos. Configuración de parámetros incluye las notas que ha tomado sobre los parámetros que producen los mejores resultados.  Los modelos reales producidos.  Descripciones de resultados de modelos, incluyendo problemas de datos y rendimiento que hayan ocurrido durante la ejecución del modelo y exploración de los resultados. La mayoría de técnicas de modelado tienen diferentes parámetros o configuraciones que se pueden ajustar para controlar el proceso de modelado. Por ejemplo, los árboles de decisión se pueden controlar ajustando la profundidad del árbol, divisiones y otros ajustes. Normalmente, la mayoría de usuarios genera un modelo utilizando las opciones por defecto y refina los parámetros en subsiguientes sesiones. 33

34 Selección de los atributos de entrada
Fase 1 Entender el problema Fase 2 Entender los datos Fase 3 Preparar los datos Fase 4 Modelar Fase 5 Validación Fase 6 Desarrollo Selección de los atributos de entrada Función del método de selección de características Función del método red de dependencias Consultas con expertos en calidad del aire.

35 Método de selección de características
Fase 1 Entender el problema Fase 2 Entender los datos Fase 3 Preparar los datos Fase 4 Modelar Fase 5 Validación Fase 6 Desarrollo Método de selección de características Variable Objetivo : PM10 Variable Objetivo : Ozono

36 Modelos generados Objetivo 3 cumplido Fase 1 Entender el problema
Fase 2 Entender los datos Fase 3 Preparar los datos Fase 4 Modelar Fase 5 Validación Fase 6 Desarrollo Modelos generados Objetivo 3 cumplido

37 Fase de Evaluación Evaluación de cada modelo
Seleccionar los modelos apropiados para implementar la aplicación Analizar los resultados de los patrones generados Creación de la base de conocimiento

38 Evaluación de los modelos
Fase 1 Entender el problema Fase 2 Entender los datos Fase 3 Preparar los datos Fase 4 Modelar Fase 5 Validación Fase 6 Desarrollo Evaluación de los modelos Se dividió el total de registros, en el conjunto de prueba y entrenamiento para conocer la precisión del modelo.(80%) Los registros históricos del 2013 como segundo conjunto de prueba. Analizar los resultados generados (comunes) con la experta en calidad del aire. Se compararon algunos patrones generados por las técnicas con hipótesis de trabajos relacionados con calidad del aire validados previamente. Se identificaron los patrones comunes extraídos de los modelos creados. Reafirmas la validez de los patrones.

39 Selección de los modelos apropiados
Fase 1 Entender el problema Fase 2 Entender los datos Fase 3 Preparar los datos Fase 4 Modelar Fase 5 Validación Fase 6 Desarrollo Selección de los modelos apropiados Pruebas de rendimiento Criterio de evaluación calificado en una escala de 1 a 10 teniendo en cuenta que 1 es la puntuación más baja y 10 la más alta. Algunos de los criterios de evaluación s.on sugeridos por IBM y Microsoft y los otros son definidos gracias a la recopilación de los trabajos de minería de datos resueltos… Resultados presentados con claridad y facilidad -> Personas externas al problema que entendieran de una forma fácil e interpretaran los resultados de forma correcta. Descubrimiento de patrones -> Cual de los modelos encontró mas relaciones-…. Explorando los modelos. Facilidad de Aplicar en los prototipos-> se probo de acuerdo a la funcionalidad que se quería del prototipo. Confiabilidad y precisión->Para calificar los modelos por este criterio fue necesario revisar los gráficos de precisión, la matriz de confusión de los modelos de clasificación y las métricas probabilísticas de mejora de los modelos de reglas de asociación. Se compararon los modelos buscando los más precisos por cada conjunto de datos correspondiente a los contaminantes. Escabilidad->Para comparar los modelos en rendimiento con base en la escalabilidad y precisión fue necesario seleccionar una muestra de los registros históricos del año 1998 (que no se aplicaron como conjunto de entrenamiento) y dividir el conjunto en 3 partes: una con tamaño pequeño (5000 registros), medio (15000 registros) y grande (30000 registros). Estos conjuntos se aplicaron a cada modelo de minería, observando los tiempos de respuesta 39

40 Visualización de los patrones encontrados
Vista detallada Vista gráfica Visualización de los patrones encontrados

41 Visualización detallada

42 Vista previa modelo CAO3
Fase 1 Entender el problema Fase 2 Entender los datos Fase 3 Preparar los datos Fase 4 Modelar Fase 5 Validación Fase 6 Desarrollo Vista previa modelo CAO3

43 Vista previa modelo CAO3
Fase 1 Entender el problema Fase 2 Entender los datos Fase 3 Preparar los datos Fase 4 Modelar Fase 5 Validación Fase 6 Desarrollo Vista previa modelo CAO3

44 Modelo CAPM10 Fase 1 Entender el problema Fase 2 Entender los datos
Fase 3 Preparar los datos Fase 4 Modelar Fase 5 Validación Fase 6 Desarrollo Modelo CAPM10

45 Resultados del conjunto de pruebas
Fase 1 Entender el problema Fase 2 Entender los datos Fase 3 Preparar los datos Fase 4 Modelar Fase 5 Validación Fase 6 Desarrollo Resultados del conjunto de pruebas Objetivo 4 cumplido

46 Fase de desarrollo Definir los requerimientos de la aplicación
Crear el prototipo de alertas tempranas Realizar pruebas funcionales, de usabilidad y de aceptación

47 Arquitectura MVC Objetivo 5 cumplido Fase 1 Entender el problema
Fase 2 Entender los datos Fase 3 Preparar los datos Fase 4 Modelar Fase 5 Validación Fase 6 Desarrollo Arquitectura MVC Objetivo 5 cumplido

48 Conclusiones TG

49 Conclusiones El objetivo general y los objetivos específicos se cumplieron a cabalidad y esto se ve reflejado en el desarrollo de cada fase metodológica. Se observó que se pueden encontrar relaciones entre variables que responden a series de tiempo utilizando técnicas descriptivas y predictivas de minería de datos. En el impacto económico hace que ofrecer un modelo de minería de datos que implica menos costo de operación que otros sea de utilidad para cualquier entidad que tome medidas políticas. En el impacto tecnológico se basa en el uso de técnicas de Minería de Datos con series de tiempo como una alternativa viable para encontrar relaciones entre variables y pronosticar comportamientos de las mismas. El impacto ambiental se enfoca en la prevención y cuidado del medio ambiente por medio del SI. SE APROBARON TANTOS MODELOS Y SE ENCONTRO QUE LOS MODELOS DE CA SE PODIAN REPRESENTAR EN UN SI 49

50 Trabajos futuros

51 Trabajos futuros Analizar y si es el caso incluir como atributos de entrada tanto al modelo de minería como al prototipo la humedad relativa. Replicar los modelos a todas las estaciones de medición de la RMCAB. Conectar los modelos creados con la base de datos de la RMCAB que guarda los datos en tiempo real.

52 Prototipo


Descargar ppt "Autor: Alex Ariel Arias Ríos Director: Ing. Blanca Elvira Oviedo Msc."

Presentaciones similares


Anuncios Google