La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Exploración y preparación de datos

Presentaciones similares


Presentación del tema: "Exploración y preparación de datos"— Transcripción de la presentación:

1 Exploración y preparación de datos
Tema 6 Dr. Francisco J. Mata

2 Objetivos Presentar la importancia de la exploración de los datos
Discutir la necesidad de preparar los datos Dr. Francisco J. Mata

3 Explorar Obtener estadísticas básicas Distribuciones
Valores extremos Valores perdidos Distribuciones Histogramas Comparar valores con descripciones ¿Aparecen todos los códigos para una variable categórica? ¿Distribución de valores es esperada para variables categóricas? ¿Valores mínimos y máximos para una variable son razonables? Relaciones entre variables Dr. Francisco J. Mata

4 Explorar Haga lista de asuntos sorprendentes o que no estén claros
Pregunte al proveedor de los datos Dr. Francisco J. Mata

5 Explorar Observar Número de registros (observaciones)
Número de variables (columnas) Dr. Francisco J. Mata

6 Ver la tabla de datos es otra buena forma de iniciar la exploración
Dr. Francisco J. Mata

7 Explorar una variable Penetración de producto Dr. Francisco J. Mata

8 Explorar relaciones Ingreso por hogar 1999 Ingreso por familia 1999
Dr. Francisco J. Mata

9 Ejemplo Archivo de datos de censo sobre adultos de los Estados Unidos
Dr. Francisco J. Mata

10 Estadísticas descriptivas para variables continuas
Variable Label Mean Std Dev Range x age x education-num x capital-gain x capital-loss x hour-per-week Dr. Francisco J. Mata

11 Age Minería de datos Dr. Francisco J. Mata

12 Education-number Minería de datos Dr. Francisco J. Mata

13 Gain Minería de datos Dr. Francisco J. Mata

14 Loss Minería de datos Dr. Francisco J. Mata

15 Hours Minería de datos Dr. Francisco J. Mata

16 Estadísticas Descriptivas para Variables Discretas
Workclass Cumulative Cumulative x Frequency Percent Frequency Percent Federal-gov Local-gov Never-worked Private Self-emp-inc Self-emp-not-inc State-gov Without-pay Frequency Missing = 1836    Chi-Square DF Pr > ChiSq <.0001 Dr. Francisco J. Mata

17 Estadísticas Descriptivas para Variables Discretas
Education   Cumulative Cumulative x Frequency Percent Frequency Percent 10th 11th 12th 1st-4th 5th-6th 7th-8th 9th Assoc-acdm Assoc-voc Bachelors Doctorate HS-grad Masters Preschool Prof-school Some-college Chi-Square DF Pr > ChiSq <.0001 Dr. Francisco J. Mata

18 education*education-num
Dr. Francisco J. Mata

19 education*education-num
Dr. Francisco J. Mata

20 Estadísticas Descriptivas para Variables Discretas
Race Cumulative Cumulative x Frequency Percent Frequency Percent Amer-Indian-Eskimo Asian-Pac-Islander Black Other White Chi-Square DF Pr > ChiSq <.0001 Dr. Francisco J. Mata

21 Estadísticas Descriptivas para Variables Discretas
Sex Cumulative Cumulative x Frequency Percent Frequency Percent Female Male Chi-Square DF Pr > ChiSq <.0001 Dr. Francisco J. Mata

22 Estadísticas Descriptivas para Variables Discretas
Native-country Cumulative Cumulative x Frequency Percent Frequency Percent Cambodia Canada China Columbia Cuba Dominican-Republic Ecuador El-Salvador England France Germany Greece Guatemala Haiti Holand-Netherlands Honduras Dr. Francisco J. Mata

23 Estadísticas Descriptivas para Variables Discretas
Native-country   Cumulative Cumulative x Frequency Percent Frequency Percent Hong Hungary India Iran Ireland Italy Jamaica Japan Laos Mexico Nicaragua Outlying-US(Guam-USVI-etc) Peru Philippines Poland Portugal Puerto-Rico Scotland Dr. Francisco J. Mata

24 Estadísticas Descriptivas para Variables Discretas
Native-country Cumulative Cumulative x Frequency Percent Frequency Percent Scotland South Taiwan Thailand Trinadad&Tobago United-States Vietnam Yugoslavia Frequency Missing = 583 Chi-Square DF Pr > ChiSq <.0001 Dr. Francisco J. Mata

25 Preparación de datos Datos pueden ser
Incompletos: valores para una variable perdidos Ruidosos: contienen errores o valores extremos Inconsistentes: esquemas de codificación diferentes Dr. Francisco J. Mata

26 Preparación de datos Actividades Limpieza de datos
Integración de datos Transformación de datos Reducción de datos Dr. Francisco J. Mata

27 Limpieza de datos Dar valores a datos perdidos
Suavizar el ruido en los datos identificando valores extremos Corregir inconsistencias Dr. Francisco J. Mata

28 Valores perdidos Valores para una variable no fueron registrados
Dr. Francisco J. Mata

29 Valores perdidos Opciones
Eliminar registros con valores perdidos: puede sesgar la muestra Reemplazar valores perdidos por un valor especial : modelos no pueden distinguir este valor de uno perdido Utilizar la media, mediana o moda: puede cambiar la distribución de los datos Generar un valor aleatoriamente: puede ser difícil conocer la distribución de los valores particularmente si existe un patrón en los valores perdidos Dr. Francisco J. Mata

30 Valores perdidos Opciones
Predecir el valor utilizando árboles de decisión o redes neuronales Particionar los registros y construir varios modelos: posible cuando se puede conocer la causa de la falta de registro de los datos Utilizar procedimientos que puedan manipular datos perdidos Dr. Francisco J. Mata

31 Suavizar el ruido en los datos identificando valores extremos
Utilizar las distribuciones de valores para identificar valores extremos Utilizar técnicas automáticas de detección de grupos (“clustering”) Utilizar métodos de regresión Dr. Francisco J. Mata

32 Distribuciones para identificar valores extremos
Valor extremo Minería de datos Dr. Francisco J. Mata

33 Técnicas automáticas para detectar grupos
Dr. Francisco J. Mata

34 Métodos de regresión Dr. Francisco J. Mata

35 Corregir inconsistencias
Inconsistencias pueden existir debido a la forma en que fueron registrados lo datos Corrección Errores de entrada de datos pueden ser corregidos buscando los registros originales Uso de dependencias funcionales Dr. Francisco J. Mata

36 Integración de datos Combinación de datos de múltiples fuentes para crear nuevos registros Problemas Identificación de entidades Claves para hacer uniones Redundancia Valores que pueden ser derivados de otras variables o atributos Algunas redundancias se pueden detectar mediante análisis de correlación o tablas de contingencia Duplicación de registros o tuples Detección y corrección de conflictos en valores de datos Pesos en kilos y libras Dr. Francisco J. Mata

37 education*education-num
Dr. Francisco J. Mata

38 education*education-num
Dr. Francisco J. Mata

39 Transformación de datos
Datos son transformados o consolidados en formas apropiadas para minería de datos Métodos Discretización Generalización Normalización Construcción de atributos o variables Dr. Francisco J. Mata

40 Discretización Tomar un valor continúo y representarlo en valores discretos Ejemplo: transformar edad en Joven Edad medio Adulto mayor Dr. Francisco J. Mata

41 Generalización Tomar un valor más detallado y generalizarlo de acuerdo con una jerarquía País 15 valores Provincia o estado 365 valores Ciudad 3,567 valores Calle 674,339 valores Dr. Francisco J. Mata

42 Normalización Valores de una variable o atributo se convierten para que caigan en un intervalo pequeño -1.0 a 1.0 0.0 a 1.0 o tengan cierta media y desviación estándard Dr. Francisco J. Mata

43 Normalización Métodos Normalización min-max Normalización “z-score”
Dr. Francisco J. Mata

44 Normalización Normalización min-max
v´ = ((v – minA) / (maxA-minA)) (new_maxA-new_minA) + new_minA Ejemplo: Mínimo y máximo para ingreso es $12,000 y $98,000, respectivamente Se quiere transformar ingreso al intervalo [0.0,1.0] El valor 73,600 se convierte en ((73,600-12,000) / (98,000-12,000)) (1.0-0) + 0 = 0.716 Dr. Francisco J. Mata

45 Normalización Normalización “z-score” v´ = (v – media_A) / dev_est_A
Ejemplo: Media y desviación estándar para ingreso es $54,000 y $16,000, respectivamente El valor 73,600 se convierte en (73,600-54,000) / 16,000 = 1.225 Dr. Francisco J. Mata

46 Construcción de atributos
Nuevos atributos son construidos a partir de atributos existentes Ejemplo: venta = cantidad * precio Dr. Francisco J. Mata

47 Reducción de datos Obtener una representación reducida del conjunto de datos que es mucho más pequeña en volumen pero mantiene la integridad de los datos originales Dr. Francisco J. Mata

48 Reducción de datos Técnicas Muestreo Agregación Reducción de dimensión
Dr. Francisco J. Mata

49 Reducción de datos Muestreo
Seleccionar un subconjunto de registros o tuples pequeño pero representativo de la población Existen técnicas estadísticas para seleccionar muestras representativas Dr. Francisco J. Mata

50 Reducción de datos Agregación
Sumarizar información usualmente sobre períodos de tiempo Ejemplo: sumar las ventas por trimestre para obtener ventas anuales Asociado con cubos OLAP Dr. Francisco J. Mata

51 Reducción de datos Reducción de dimensión
Eliminar atributos o variables irrelevantes o redundantes o reducir el número de estos mediante rotación de ejes Técnicas “Decision tree induction” Análisis de componentes principales Dr. Francisco J. Mata

52 Análisis de componentes principales
Medir tres especies X1 (S1), X2 (S2) y X3 (S3) en diferentes puntos espaciales Tomado de PCA.htm Dr. Francisco J. Mata

53 Análisis de componentes principales
Se estandarizan los datos: se resta la media y divide por desviación estándar Dr. Francisco J. Mata

54 Análisis de componentes principales
Se rotan los ejes ortogonal- mente de acuerdo con los valores principales Valor Varianza principal explicada % % % Total % Dr. Francisco J. Mata

55 Análisis de componentes principales
Representación del 96 % de varianza en dos dimensiones Dr. Francisco J. Mata

56 Análisis de componentes principales
Factores de carga Especie PCA1 PCA2 PCA3 X1-S1 0.9688 0.0664 X2-S2 0.9701 0.0408 0.2391 X3-S3   0.9945 0.0061 Dr. Francisco J. Mata

57 Análisis de componentes principales
Curvas hipotéticas de respuesta de las especies al gradiente ambiental Dr. Francisco J. Mata


Descargar ppt "Exploración y preparación de datos"

Presentaciones similares


Anuncios Google