Exploración y preparación de datos

Slides:



Advertisements
Presentaciones similares
Profesor: Noé Becerra Rodríguez 26 de septiembre 2013
Advertisements

UNIVERSIDAD NACIONAL DE EDUCACIÓN Alma Máter del Magisterio Nacional
Curso: Seminario de estadística Aplicada a la investigación Educacional UNIVERSIDAD NACIONAL DE EDUCACIÓN ENRIQUE GUZMÁN Y VALLE Alma Máter del Magisterio.
MEDIDAS DE TENDENCIA CENTRAL
Conocimiento, Uso y Evaluación de Medicamentos Genéricos
SATISFACCIÓN DE CLIENTES Comparativa Convocatorias Finalizadas en 2011.
Junio 2008 Índice de Paz Ciudadana Junio 2008Adimark-GfKPaz Ciudadana 1 Índice Paz Ciudadana – Adimark Santiago, 10 de septiembre de 2008 Conferencia de.
COMPARATIVA CONVOCATORIAS FINALIZADAS EN Bilbao, Satisfacción de Clientes OBJETO Y ALCANCE Convocatorias finalizadas en 2012.
Curso de Bioestadística Parte 14 Análisis de datos binarios pareados
INFONAVIT tu derecho a vivir mejor tu derecho a vivir mejor 1 INFONAVIT, tu derecho a vivir mejor Comisión Nacional Mixta de Desarrolladores y Constructores.
Comisión Mixta Agosto Ejercicio crediticio Al 27 de Agosto de 2006 Crédito 99.5% POA incluyendo la parte proporcional para Crédito Económico, Cofinavit.
Comisión Mixta Junio Ejercicio crediticio Al 25 de Junio de 2006 Crédito 103% POA incluyendo la parte proporcional de la bolsa reservada para crédito.
SIMULACIÓN DE MONTECARLO
Objetivos de Investigación
Cuestiones y problemas
Cuestiones y problemas
Epidemiología clínica
ESTADÍSTICA DESCRIPTIVA.
Agrupación de datos cuantitativos definiciones básicas y otras explicaciones.
Relaciones y diferencias entre minería de datos y estadística
Árboles de decisión Tema 9 Parte teórica Minería de datos
Razonamiento basado en memoria
DISEÑO DE EXPERIMENTOS
MuestraMétodo a prueba Nominal Ejercicio 1. ¿Es exacto el método?
MEDIDAS DE TENDENCIA CENTRAL
1-1 Capítulo dos Descripción de los datos: distribuciones de frecuencias y representaciones gráficas OBJETIVOS Al terminar este capítulo podrá: UNO Organizar.
Descripción de los datos: medidas de ubicación
Distribución de Probabilidad de una variable discreta
Medidas de Posición Central:
Ejemplo Grafico.
Ejemplo A continuación aparecen las tasas de retorno de dos fondos de inversión durante los últimos 10 años. 1. ¿Cuál es más riesgoso? 2. ¿En cuál invertiría.
Unidad de competencia II Estadística descriptiva:
Feria de la Innovación Elaboración de Planes de Actividades Bi- / Multilaterales 8:00-8:30 - procedimientos 8:30-10:00 - trabajo de grupos - Priorización.
Objetivos: Al terminar este capítulo podrá:
72 54 Los Números
Estadística Administrativa I
DEPARTAMENTO ADMINISTRATIVO NACIONAL DE ESTADISTICA5 Libertad y Orden DEPARTAMENTO ADMINISTRATIVO NACIONAL DE ESTADISTICA CENSO GENERAL 2005 REPÚBLICA.
Grupo de Sequía del Servicio Meteorológico Nacional
Universidad de CALIDAD, HUELVA ENCUESTAS DE SATISFACCIÓN Curso Universidad de Huelva ENCUESTAS DE SATISFACCIÓN Curso Universidad de.
Dr. Fernando Galassi - Lic. Gisela Forlin
PRINCIPALES MEDIDAS EN ESTADÍSTICA Y EPIDEMIOLOGÍA
LA INVESTIGACION DE MERCADO Carlos A. Palomino Pareja.
CENTRO EDUCATIVO ANAHUAC, A.C. PRÁCTICA DE CONTABILIDAD # 6 PRÁCTICA DE CONTABILIDAD # 6 EMPRESA: LA IMPERIAL EMPRESA: LA IMPERIAL.
PRÁCTICA # 6 PRÁCTICA # 6 COMERCIAL MINERA COMERCIAL MINERA.
Matemática Básica (C.C.)
¡Primero mira fijo a la bruja!
MEDIDAS DE DISPERSIÓN.
Angela María Serna López Johana Elena Cortés Karina Mustiola Calleja
LLC 4º año de registro. Leucemia Linfoide Crónica Comenzó su registro el 1/09/2008. Por medio del laboratorio de citometría de flujo. Ante la no realización.
LA PRUEBA CHI-CUADRADO
La Multiplicación (I).
1. Datos prensa. Fuente: ACEM
El Coeficiente de Contingencia:
JORNADA 1 DEL 24 DE MARZO AL 30 DE MARZO EQUIPO 01 VS EQUIPO 02 EQUIPO 03 VS EQUIPO 06 EQUIPO 05 VS EQUIPO 10 EQUIPO 07 DESCANSA EQUIPO 08 VS EQUIPO 13.
By: Nicholas, Rayna, Nathaniel, Calvin
Los números. Del 0 al 100.
Índice Estadística Aplicada Unidad II: Probabilidades
Ps. Walter Iván Abanto Vélez.  Es el proceso de aplicar una prueba a una muestra representativa de personas que la responden con el propósito de establecer.
ESTADÍSTICA UNIDIMENSIONAL
uno cero dos seis siete nueve Los Números DIEZ cinco ocho tres
Los Numeros.
Tabla de Resumen y Gráfica de Barras
Presidente ZABERT, Ignacio Secretario BENITEZ, Sergio Disertantes ZABERT, Ignacio Región Patagonia “Exposición a ceniza volcánica en la población de Bariloche:
Estadística Administrativa I
Econometría I: Profesor: Msc. Carlos Antonio Narváez Silva
Indicaciones: 1.- Tener en cuenta que esta estrategia, solo funciona asociando las cuentas los días lunes. 2.- Los cálculos son aproximados con un margen.
Herramienta FRAX Expositor: Boris Inturias.
Mt. Martín Moreyra Navarrete.
2.- Organización de los Datos
Tabla de Distribución de Frecuencias
Transcripción de la presentación:

Exploración y preparación de datos Tema 6 Dr. Francisco J. Mata

Objetivos Presentar la importancia de la exploración de los datos Discutir la necesidad de preparar los datos Dr. Francisco J. Mata

Explorar Obtener estadísticas básicas Distribuciones Valores extremos Valores perdidos Distribuciones Histogramas Comparar valores con descripciones ¿Aparecen todos los códigos para una variable categórica? ¿Distribución de valores es esperada para variables categóricas? ¿Valores mínimos y máximos para una variable son razonables? Relaciones entre variables Dr. Francisco J. Mata

Explorar Haga lista de asuntos sorprendentes o que no estén claros Pregunte al proveedor de los datos Dr. Francisco J. Mata

Explorar Observar Número de registros (observaciones) Número de variables (columnas) Dr. Francisco J. Mata

Ver la tabla de datos es otra buena forma de iniciar la exploración Dr. Francisco J. Mata

Explorar una variable Penetración de producto Dr. Francisco J. Mata

Explorar relaciones Ingreso por hogar 1999 Ingreso por familia 1999 Dr. Francisco J. Mata

Ejemplo Archivo de datos de censo sobre adultos de los Estados Unidos Dr. Francisco J. Mata

Estadísticas descriptivas para variables continuas Variable Label Mean Std Dev Range x1 age 38.582 13.640 73.000 x5 education-num 10.081 2.573 15.000 x11 capital-gain 1077.650 7385.290 99999.000 x12 capital-loss 87.304 402.960 4356.000 x13 hour-per-week 40.437 12.347 98.000 Dr. Francisco J. Mata

Age Minería de datos Dr. Francisco J. Mata

Education-number Minería de datos Dr. Francisco J. Mata

Gain Minería de datos Dr. Francisco J. Mata

Loss Minería de datos Dr. Francisco J. Mata

Hours Minería de datos Dr. Francisco J. Mata

Estadísticas Descriptivas para Variables Discretas Workclass Cumulative Cumulative x2 Frequency Percent Frequency Percent Federal-gov 960 3.12 960 3.12 Local-gov 2093 6.81 3053 9.94 Never-worked 7 0.02 3060 9.96 Private 22696 73.87 25756 83.83 Self-emp-inc 1116 3.63 26872 87.46 Self-emp-not-inc 2541 8.27 29413 95.73 State-gov 1298 4.22 30711 99.95 Without-pay 14 0.05 30725 100.00   Frequency Missing = 1836    Chi-Square 107220.7383 DF 7 Pr > ChiSq <.0001 Dr. Francisco J. Mata

Estadísticas Descriptivas para Variables Discretas Education   Cumulative Cumulative x4 Frequency Percent Frequency Percent 10th 933 2.87 933 2.87 11th 1175 3.61 2108 6.47 12th 433 1.33 2541 7.80 1st-4th 168 0.52 2709 8.32 5th-6th 333 1.02 3042 9.34 7th-8th 646 1.98 3688 11.33 9th 514 1.58 4202 12.91 Assoc-acdm 1067 3.28 5269 16.18 Assoc-voc 1382 4.24 6651 20.43 Bachelors 5355 16.45 12006 36.87 Doctorate 413 1.27 12419 38.14 HS-grad 10501 32.25 22920 70.39 Masters 1723 5.29 24643 75.68 Preschool 51 0.16 24694 75.84 Prof-school 576 1.77 25270 77.61 Some-college 7291 22.39 32561 100.00 Chi-Square 66643.3355 DF 15 Pr > ChiSq <.0001 Dr. Francisco J. Mata

education*education-num Dr. Francisco J. Mata

education*education-num Dr. Francisco J. Mata

Estadísticas Descriptivas para Variables Discretas Race   Cumulative Cumulative x9 Frequency Percent Frequency Percent Amer-Indian-Eskimo 311 0.96 311 0.96 Asian-Pac-Islander 1039 3.19 1350 4.15 Black 3124 9.59 4474 13.74 Other 271 0.83 4745 14.57 White 27816 85.43 32561 100.00 Chi-Square 87941.8892 DF 4 Pr > ChiSq <.0001 Dr. Francisco J. Mata

Estadísticas Descriptivas para Variables Discretas Sex   Cumulative Cumulative x10 Frequency Percent Frequency Percent Female 10771 33.08 10771 33.08 Male 21790 66.92 32561 100.00 Chi-Square 3728.9506 DF 1 Pr > ChiSq <.0001 Dr. Francisco J. Mata

Estadísticas Descriptivas para Variables Discretas Native-country Cumulative Cumulative x14 Frequency Percent Frequency Percent Cambodia 19 0.06 19 0.06 Canada 121 0.38 140 0.44 China 75 0.23 215 0.67 Columbia 59 0.18 274 0.86 Cuba 95 0.30 369 1.15 Dominican-Republic 70 0.22 439 1.37 Ecuador 28 0.09 467 1.46 El-Salvador 106 0.33 573 1.79 England 90 0.28 663 2.07 France 29 0.09 692 2.16 Germany 137 0.43 829 2.59 Greece 29 0.09 858 2.68 Guatemala 64 0.20 922 2.88 Haiti 44 0.14 966 3.02 Holand-Netherlands 1 0.00 967 3.02 Honduras 13 0.04 980 3.06 Dr. Francisco J. Mata

Estadísticas Descriptivas para Variables Discretas Native-country   Cumulative Cumulative x14 Frequency Percent Frequency Percent Hong 20 0.06 1000 3.13 Hungary 13 0.04 1013 3.17 India 100 0.31 1113 3.48 Iran 43 0.13 1156 3.61 Ireland 24 0.08 1180 3.69 Italy 73 0.23 1253 3.92 Jamaica 81 0.25 1334 4.17 Japan 62 0.19 1396 4.37 Laos 18 0.06 1414 4.42 Mexico 643 2.01 2057 6.43 Nicaragua 34 0.11 2091 6.54 Outlying-US(Guam-USVI-etc) 14 0.04 2105 6.58 Peru 31 0.10 2136 6.68 Philippines 198 0.62 2334 7.30 Poland 60 0.19 2394 7.49 Portugal 37 0.12 2431 7.60 Puerto-Rico 114 0.36 2545 7.96 Scotland 12 0.04 2557 8.00 Dr. Francisco J. Mata

Estadísticas Descriptivas para Variables Discretas Native-country   Cumulative Cumulative x14 Frequency Percent Frequency Percent Scotland 12 0.04 2557 8.00 South 80 0.25 2637 8.25 Taiwan 51 0.16 2688 8.41 Thailand 18 0.06 2706 8.46 Trinadad&Tobago 19 0.06 2725 8.52 United-States 29170 91.22 31895 99.74 Vietnam 67 0.21 31962 99.95 Yugoslavia 16 0.05 31978 100.00 Frequency Missing = 583 Chi-Square 1059744.4599 DF 40 Pr > ChiSq <.0001 Dr. Francisco J. Mata

Preparación de datos Datos pueden ser Incompletos: valores para una variable perdidos Ruidosos: contienen errores o valores extremos Inconsistentes: esquemas de codificación diferentes Dr. Francisco J. Mata

Preparación de datos Actividades Limpieza de datos Integración de datos Transformación de datos Reducción de datos Dr. Francisco J. Mata

Limpieza de datos Dar valores a datos perdidos Suavizar el ruido en los datos identificando valores extremos Corregir inconsistencias Dr. Francisco J. Mata

Valores perdidos Valores para una variable no fueron registrados Dr. Francisco J. Mata

Valores perdidos Opciones Eliminar registros con valores perdidos: puede sesgar la muestra Reemplazar valores perdidos por un valor especial -999.99: modelos no pueden distinguir este valor de uno perdido Utilizar la media, mediana o moda: puede cambiar la distribución de los datos Generar un valor aleatoriamente: puede ser difícil conocer la distribución de los valores particularmente si existe un patrón en los valores perdidos Dr. Francisco J. Mata

Valores perdidos Opciones Predecir el valor utilizando árboles de decisión o redes neuronales Particionar los registros y construir varios modelos: posible cuando se puede conocer la causa de la falta de registro de los datos Utilizar procedimientos que puedan manipular datos perdidos Dr. Francisco J. Mata

Suavizar el ruido en los datos identificando valores extremos Utilizar las distribuciones de valores para identificar valores extremos Utilizar técnicas automáticas de detección de grupos (“clustering”) Utilizar métodos de regresión Dr. Francisco J. Mata

Distribuciones para identificar valores extremos Valor extremo Minería de datos Dr. Francisco J. Mata

Técnicas automáticas para detectar grupos Dr. Francisco J. Mata

Métodos de regresión Dr. Francisco J. Mata

Corregir inconsistencias Inconsistencias pueden existir debido a la forma en que fueron registrados lo datos Corrección Errores de entrada de datos pueden ser corregidos buscando los registros originales Uso de dependencias funcionales Dr. Francisco J. Mata

Integración de datos Combinación de datos de múltiples fuentes para crear nuevos registros Problemas Identificación de entidades Claves para hacer uniones Redundancia Valores que pueden ser derivados de otras variables o atributos Algunas redundancias se pueden detectar mediante análisis de correlación o tablas de contingencia Duplicación de registros o tuples Detección y corrección de conflictos en valores de datos Pesos en kilos y libras Dr. Francisco J. Mata

education*education-num Dr. Francisco J. Mata

education*education-num Dr. Francisco J. Mata

Transformación de datos Datos son transformados o consolidados en formas apropiadas para minería de datos Métodos Discretización Generalización Normalización Construcción de atributos o variables Dr. Francisco J. Mata

Discretización Tomar un valor continúo y representarlo en valores discretos Ejemplo: transformar edad en Joven Edad medio Adulto mayor Dr. Francisco J. Mata

Generalización Tomar un valor más detallado y generalizarlo de acuerdo con una jerarquía País 15 valores Provincia o estado 365 valores Ciudad 3,567 valores Calle 674,339 valores Dr. Francisco J. Mata

Normalización Valores de una variable o atributo se convierten para que caigan en un intervalo pequeño -1.0 a 1.0 0.0 a 1.0 o tengan cierta media y desviación estándard Dr. Francisco J. Mata

Normalización Métodos Normalización min-max Normalización “z-score” Dr. Francisco J. Mata

Normalización Normalización min-max v´ = ((v – minA) / (maxA-minA)) (new_maxA-new_minA) + new_minA Ejemplo: Mínimo y máximo para ingreso es $12,000 y $98,000, respectivamente Se quiere transformar ingreso al intervalo [0.0,1.0] El valor 73,600 se convierte en ((73,600-12,000) / (98,000-12,000)) (1.0-0) + 0 = 0.716 Dr. Francisco J. Mata

Normalización Normalización “z-score” v´ = (v – media_A) / dev_est_A Ejemplo: Media y desviación estándar para ingreso es $54,000 y $16,000, respectivamente El valor 73,600 se convierte en (73,600-54,000) / 16,000 = 1.225 Dr. Francisco J. Mata

Construcción de atributos Nuevos atributos son construidos a partir de atributos existentes Ejemplo: venta = cantidad * precio Dr. Francisco J. Mata

Reducción de datos Obtener una representación reducida del conjunto de datos que es mucho más pequeña en volumen pero mantiene la integridad de los datos originales Dr. Francisco J. Mata

Reducción de datos Técnicas Muestreo Agregación Reducción de dimensión Dr. Francisco J. Mata

Reducción de datos Muestreo Seleccionar un subconjunto de registros o tuples pequeño pero representativo de la población Existen técnicas estadísticas para seleccionar muestras representativas Dr. Francisco J. Mata

Reducción de datos Agregación Sumarizar información usualmente sobre períodos de tiempo Ejemplo: sumar las ventas por trimestre para obtener ventas anuales Asociado con cubos OLAP Dr. Francisco J. Mata

Reducción de datos Reducción de dimensión Eliminar atributos o variables irrelevantes o redundantes o reducir el número de estos mediante rotación de ejes Técnicas “Decision tree induction” Análisis de componentes principales Dr. Francisco J. Mata

Análisis de componentes principales Medir tres especies X1 (S1), X2 (S2) y X3 (S3) en diferentes puntos espaciales Tomado de http://ordination.okstate.edu/ PCA.htm Dr. Francisco J. Mata

Análisis de componentes principales Se estandarizan los datos: se resta la media y divide por desviación estándar Dr. Francisco J. Mata

Análisis de componentes principales Se rotan los ejes ortogonal- mente de acuerdo con los valores principales Valor Varianza principal explicada 1 1.8907 63% 2 0.9951 33% 3 0.1142 4% Total 3.0063 100% Dr. Francisco J. Mata

Análisis de componentes principales Representación del 96 % de varianza en dos dimensiones Dr. Francisco J. Mata

Análisis de componentes principales Factores de carga Especie PCA1 PCA2 PCA3 X1-S1 0.9688 0.0664 -0.2387 X2-S2 0.9701 0.0408 0.2391 X3-S3 -0.1045  0.9945 0.0061 Dr. Francisco J. Mata

Análisis de componentes principales Curvas hipotéticas de respuesta de las especies al gradiente ambiental Dr. Francisco J. Mata