La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Dr. Francisco J. Mata1 Exploración y preparación de datos Tema 6.

Presentaciones similares


Presentación del tema: "Dr. Francisco J. Mata1 Exploración y preparación de datos Tema 6."— Transcripción de la presentación:

1 Dr. Francisco J. Mata1 Exploración y preparación de datos Tema 6

2 Dr. Francisco J. Mata2 Objetivos Presentar la importancia de la exploración de los datos Discutir la necesidad de preparar los datos

3 Dr. Francisco J. Mata3 Explorar Obtener estadísticas básicas Valores extremos Valores perdidos Distribuciones Histogramas Comparar valores con descripciones ¿Aparecen todos los códigos para una variable categórica? ¿Distribución de valores es esperada para variables categóricas? ¿Valores mínimos y máximos para una variable son razonables? Relaciones entre variables

4 Dr. Francisco J. Mata4 Explorar Haga lista de asuntos sorprendentes o que no estén claros Pregunte al proveedor de los datos

5 Explorar Observar Número de registros (observaciones) Número de variables (columnas) Dr. Francisco J. Mata5

6 6 Ver la tabla de datos es otra buena forma de iniciar la exploración

7 Dr. Francisco J. Mata7 Explorar una variable Penetración de producto

8 Dr. Francisco J. Mata8 Explorar relaciones Ingreso por hogar 1999 Ingreso por familia 1999

9 Dr. Francisco J. Mata9 Ejemplo Archivo de datos de censo sobre adultos de los Estados Unidos

10 Dr. Francisco J. Mata10 Estadísticas descriptivas para variables continuas Variable Label Mean Std Dev Range x1 age x5 education-num x11 capital-gain x12 capital-loss x13 hour-per-week

11 Minería de datos Dr. Francisco J. Mata 11 Age

12 Minería de datos Dr. Francisco J. Mata 12 Education-number

13 Minería de datos Dr. Francisco J. Mata 13 Gain

14 Minería de datos Dr. Francisco J. Mata 14 Loss

15 Minería de datos Dr. Francisco J. Mata 15 Hours

16 Dr. Francisco J. Mata16 Estadísticas Descriptivas para Variables Discretas Workclass Cumulative Cumulative x2 Frequency Percent Frequency Percent Federal-gov Local-gov Never-worked Private Self-emp-inc Self-emp-not-inc State-gov Without-pay Frequency Missing = 1836 Chi-Square DF 7 Pr > ChiSq <.0001

17 Dr. Francisco J. Mata 17 Estadísticas Descriptivas para Variables Discretas Education Cumulative Cumulative x4 Frequency Percent Frequency Percent 10th th th st-4th th-6th th-8th th Assoc-acdm Assoc-voc Bachelors Doctorate HS-grad Masters Preschool Prof-school Some-college Chi-Square DF 15 Pr > ChiSq <.0001

18 Dr. Francisco J. Mata18 education*education-num

19 Dr. Francisco J. Mata19 education*education-num

20 Dr. Francisco J. Mata20 Estadísticas Descriptivas para Variables Discretas Race Cumulative Cumulative x9 Frequency Percent Frequency Percent Amer-Indian-Eskimo Asian-Pac-Islander Black Other White Chi-Square DF 4 Pr > ChiSq <.0001

21 Dr. Francisco J. Mata21 Estadísticas Descriptivas para Variables Discretas Sex Cumulative Cumulative x10 Frequency Percent Frequency Percent Female Male Chi-Square DF 1 Pr > ChiSq <.0001

22 Dr. Francisco J. Mata22 Estadísticas Descriptivas para Variables Discretas Native-country Cumulative Cumulative x14 Frequency Percent Frequency Percent Cambodia Canada China Columbia Cuba Dominican-Republic Ecuador El-Salvador England France Germany Greece Guatemala Haiti Holand-Netherlands Honduras

23 Dr. Francisco J. Mata 23 Estadísticas Descriptivas para Variables Discretas Native-country Cumulative Cumulative x14 Frequency Percent Frequency Percent Hong Hungary India Iran Ireland Italy Jamaica Japan Laos Mexico Nicaragua Outlying-US(Guam-USVI-etc) Peru Philippines Poland Portugal Puerto-Rico Scotland

24 Dr. Francisco J. Mata24 Estadísticas Descriptivas para Variables Discretas Native-country Cumulative Cumulative x14 Frequency Percent Frequency Percent Scotland South Taiwan Thailand Trinadad&Tobago United-States Vietnam Yugoslavia Frequency Missing = 583 Chi-Square DF 40 Pr > ChiSq <.0001

25 Dr. Francisco J. Mata25 Preparación de datos Datos pueden ser Incompletos: valores para una variable perdidos Ruidosos: contienen errores o valores extremos Inconsistentes: esquemas de codificación diferentes

26 Dr. Francisco J. Mata26 Preparación de datos Actividades Limpieza de datos Integración de datos Transformación de datos Reducción de datos

27 Dr. Francisco J. Mata27 Limpieza de datos Dar valores a datos perdidos Suavizar el ruido en los datos identificando valores extremos Corregir inconsistencias

28 Dr. Francisco J. Mata28 Valores perdidos Valores para una variable no fueron registrados

29 Dr. Francisco J. Mata29 Valores perdidos Opciones Eliminar registros con valores perdidos: puede sesgar la muestra Reemplazar valores perdidos por un valor especial : modelos no pueden distinguir este valor de uno perdido Utilizar la media, mediana o moda: puede cambiar la distribución de los datos Generar un valor aleatoriamente: puede ser difícil conocer la distribución de los valores particularmente si existe un patrón en los valores perdidos

30 Dr. Francisco J. Mata30 Valores perdidos Opciones Predecir el valor utilizando árboles de decisión o redes neuronales Particionar los registros y construir varios modelos: posible cuando se puede conocer la causa de la falta de registro de los datos Utilizar procedimientos que puedan manipular datos perdidos

31 Dr. Francisco J. Mata31 Suavizar el ruido en los datos identificando valores extremos Utilizar las distribuciones de valores para identificar valores extremos Utilizar técnicas automáticas de detección de grupos (clustering) Utilizar métodos de regresión

32 Minería de datos Dr. Francisco J. Mata 32 Distribuciones para identificar valores extremos Valor extremo

33 Dr. Francisco J. Mata33 Técnicas automáticas para detectar grupos

34 Dr. Francisco J. Mata34 Métodos de regresión

35 Dr. Francisco J. Mata35 Corregir inconsistencias Inconsistencias pueden existir debido a la forma en que fueron registrados lo datos Corrección Errores de entrada de datos pueden ser corregidos buscando los registros originales Uso de dependencias funcionales

36 Dr. Francisco J. Mata36 Integración de datos Combinación de datos de múltiples fuentes para crear nuevos registros Problemas Identificación de entidades Claves para hacer uniones Redundancia Valores que pueden ser derivados de otras variables o atributos Algunas redundancias se pueden detectar mediante análisis de correlación o tablas de contingencia Duplicación de registros o tuples Detección y corrección de conflictos en valores de datos Pesos en kilos y libras

37 Dr. Francisco J. Mata37 education*education-num

38 Dr. Francisco J. Mata38 education*education-num

39 Dr. Francisco J. Mata39 Transformación de datos Datos son transformados o consolidados en formas apropiadas para minería de datos Métodos Discretización Generalización Normalización Construcción de atributos o variables

40 Dr. Francisco J. Mata40 Discretización Tomar un valor continúo y representarlo en valores discretos Ejemplo: transformar edad en Joven Edad medio Adulto mayor

41 Dr. Francisco J. Mata 41 Generalización Tomar un valor más detallado y generalizarlo de acuerdo con una jerarquía País Provincia o estado Ciudad Calle 674,339 valores 3,567 valores 365 valores 15 valores

42 Dr. Francisco J. Mata42 Normalización Valores de una variable o atributo se convierten para que caigan en un intervalo pequeño -1.0 a a 1.0 o tengan cierta media y desviación estándard

43 Dr. Francisco J. Mata43 Normalización Métodos Normalización min-max Normalización z-score

44 Dr. Francisco J. Mata44 Normalización Normalización min-max v´ = ((v – min A ) / (max A -min A )) (new_max A - new_min A ) + new_min A Ejemplo: Mínimo y máximo para ingreso es $12,000 y $98,000, respectivamente Se quiere transformar ingreso al intervalo [0.0,1.0] El valor 73,600 se convierte en ((73,600-12,000) / (98,000-12,000)) (1.0-0) + 0 = 0.716

45 Dr. Francisco J. Mata45 Normalización Normalización z-score v´ = (v – media_A) / dev_est_A Ejemplo: Media y desviación estándar para ingreso es $54,000 y $16,000, respectivamente El valor 73,600 se convierte en (73,600-54,000) / 16,000 = 1.225

46 Dr. Francisco J. Mata46 Construcción de atributos Nuevos atributos son construidos a partir de atributos existentes Ejemplo: venta = cantidad * precio

47 Dr. Francisco J. Mata47 Reducción de datos Obtener una representación reducida del conjunto de datos que es mucho más pequeña en volumen pero mantiene la integridad de los datos originales

48 Dr. Francisco J. Mata48 Reducción de datos Técnicas Muestreo Agregación Reducción de dimensión

49 Dr. Francisco J. Mata49 Reducción de datos Muestreo Seleccionar un subconjunto de registros o tuples pequeño pero representativo de la población Existen técnicas estadísticas para seleccionar muestras representativas

50 Dr. Francisco J. Mata50 Reducción de datos Agregación Sumarizar información usualmente sobre períodos de tiempo Ejemplo: sumar las ventas por trimestre para obtener ventas anuales Asociado con cubos OLAP

51 Dr. Francisco J. Mata51 Reducción de datos Reducción de dimensión Eliminar atributos o variables irrelevantes o redundantes o reducir el número de estos mediante rotación de ejes Técnicas Decision tree induction Análisis de componentes principales

52 Dr. Francisco J. Mata52 Análisis de componentes principales Medir tres especies X1 (S1), X2 (S2) y X3 (S3) en diferentes puntos espaciales Tomado de PCA.htm

53 Dr. Francisco J. Mata53 Análisis de componentes principales Se estandarizan los datos: se resta la media y divide por desviación estándar

54 Dr. Francisco J. Mata54 Análisis de componentes principales Se rotan los ejes ortogonal- mente de acuerdo con los valores principales Valor Varianza principal explicada % % % Total %

55 Dr. Francisco J. Mata 55 Análisis de componentes principales Representación del 96 % de varianza en dos dimensiones

56 Dr. Francisco J. Mata56 Análisis de componentes principales Factores de carga EspeciePCA1PCA2PCA3 X1-S X2-S X3-S

57 Dr. Francisco J. Mata57 Análisis de componentes principales Curvas hipotéticas de respuesta de las especies al gradiente ambiental


Descargar ppt "Dr. Francisco J. Mata1 Exploración y preparación de datos Tema 6."

Presentaciones similares


Anuncios Google