Descargar la presentación
La descarga está en progreso. Por favor, espere
1
Exploración y preparación de datos
Tema 6 Dr. Francisco J. Mata
2
Objetivos Presentar la importancia de la exploración de los datos
Discutir la necesidad de preparar los datos Dr. Francisco J. Mata
3
Explorar Obtener estadísticas básicas Distribuciones
Valores extremos Valores perdidos Distribuciones Histogramas Comparar valores con descripciones ¿Aparecen todos los códigos para una variable categórica? ¿Distribución de valores es esperada para variables categóricas? ¿Valores mínimos y máximos para una variable son razonables? Relaciones entre variables Dr. Francisco J. Mata
4
Explorar Haga lista de asuntos sorprendentes o que no estén claros
Pregunte al proveedor de los datos Dr. Francisco J. Mata
5
Explorar Observar Número de registros (observaciones)
Número de variables (columnas) Dr. Francisco J. Mata
6
Ver la tabla de datos es otra buena forma de iniciar la exploración
Dr. Francisco J. Mata
7
Explorar una variable Penetración de producto Dr. Francisco J. Mata
8
Explorar relaciones Ingreso por hogar 1999 Ingreso por familia 1999
Dr. Francisco J. Mata
9
Ejemplo Archivo de datos de censo sobre adultos de los Estados Unidos
Dr. Francisco J. Mata
10
Estadísticas descriptivas para variables continuas
Variable Label Mean Std Dev Range x age x education-num x capital-gain x capital-loss x hour-per-week Dr. Francisco J. Mata
11
Age Minería de datos Dr. Francisco J. Mata
12
Education-number Minería de datos Dr. Francisco J. Mata
13
Gain Minería de datos Dr. Francisco J. Mata
14
Loss Minería de datos Dr. Francisco J. Mata
15
Hours Minería de datos Dr. Francisco J. Mata
16
Estadísticas Descriptivas para Variables Discretas
Workclass Cumulative Cumulative x Frequency Percent Frequency Percent Federal-gov Local-gov Never-worked Private Self-emp-inc Self-emp-not-inc State-gov Without-pay Frequency Missing = 1836 Chi-Square DF Pr > ChiSq <.0001 Dr. Francisco J. Mata
17
Estadísticas Descriptivas para Variables Discretas
Education Cumulative Cumulative x Frequency Percent Frequency Percent 10th 11th 12th 1st-4th 5th-6th 7th-8th 9th Assoc-acdm Assoc-voc Bachelors Doctorate HS-grad Masters Preschool Prof-school Some-college Chi-Square DF Pr > ChiSq <.0001 Dr. Francisco J. Mata
18
education*education-num
Dr. Francisco J. Mata
19
education*education-num
Dr. Francisco J. Mata
20
Estadísticas Descriptivas para Variables Discretas
Race Cumulative Cumulative x Frequency Percent Frequency Percent Amer-Indian-Eskimo Asian-Pac-Islander Black Other White Chi-Square DF Pr > ChiSq <.0001 Dr. Francisco J. Mata
21
Estadísticas Descriptivas para Variables Discretas
Sex Cumulative Cumulative x Frequency Percent Frequency Percent Female Male Chi-Square DF Pr > ChiSq <.0001 Dr. Francisco J. Mata
22
Estadísticas Descriptivas para Variables Discretas
Native-country Cumulative Cumulative x Frequency Percent Frequency Percent Cambodia Canada China Columbia Cuba Dominican-Republic Ecuador El-Salvador England France Germany Greece Guatemala Haiti Holand-Netherlands Honduras Dr. Francisco J. Mata
23
Estadísticas Descriptivas para Variables Discretas
Native-country Cumulative Cumulative x Frequency Percent Frequency Percent Hong Hungary India Iran Ireland Italy Jamaica Japan Laos Mexico Nicaragua Outlying-US(Guam-USVI-etc) Peru Philippines Poland Portugal Puerto-Rico Scotland Dr. Francisco J. Mata
24
Estadísticas Descriptivas para Variables Discretas
Native-country Cumulative Cumulative x Frequency Percent Frequency Percent Scotland South Taiwan Thailand Trinadad&Tobago United-States Vietnam Yugoslavia Frequency Missing = 583 Chi-Square DF Pr > ChiSq <.0001 Dr. Francisco J. Mata
25
Preparación de datos Datos pueden ser
Incompletos: valores para una variable perdidos Ruidosos: contienen errores o valores extremos Inconsistentes: esquemas de codificación diferentes Dr. Francisco J. Mata
26
Preparación de datos Actividades Limpieza de datos
Integración de datos Transformación de datos Reducción de datos Dr. Francisco J. Mata
27
Limpieza de datos Dar valores a datos perdidos
Suavizar el ruido en los datos identificando valores extremos Corregir inconsistencias Dr. Francisco J. Mata
28
Valores perdidos Valores para una variable no fueron registrados
Dr. Francisco J. Mata
29
Valores perdidos Opciones
Eliminar registros con valores perdidos: puede sesgar la muestra Reemplazar valores perdidos por un valor especial : modelos no pueden distinguir este valor de uno perdido Utilizar la media, mediana o moda: puede cambiar la distribución de los datos Generar un valor aleatoriamente: puede ser difícil conocer la distribución de los valores particularmente si existe un patrón en los valores perdidos Dr. Francisco J. Mata
30
Valores perdidos Opciones
Predecir el valor utilizando árboles de decisión o redes neuronales Particionar los registros y construir varios modelos: posible cuando se puede conocer la causa de la falta de registro de los datos Utilizar procedimientos que puedan manipular datos perdidos Dr. Francisco J. Mata
31
Suavizar el ruido en los datos identificando valores extremos
Utilizar las distribuciones de valores para identificar valores extremos Utilizar técnicas automáticas de detección de grupos (“clustering”) Utilizar métodos de regresión Dr. Francisco J. Mata
32
Distribuciones para identificar valores extremos
Valor extremo Minería de datos Dr. Francisco J. Mata
33
Técnicas automáticas para detectar grupos
Dr. Francisco J. Mata
34
Métodos de regresión Dr. Francisco J. Mata
35
Corregir inconsistencias
Inconsistencias pueden existir debido a la forma en que fueron registrados lo datos Corrección Errores de entrada de datos pueden ser corregidos buscando los registros originales Uso de dependencias funcionales Dr. Francisco J. Mata
36
Integración de datos Combinación de datos de múltiples fuentes para crear nuevos registros Problemas Identificación de entidades Claves para hacer uniones Redundancia Valores que pueden ser derivados de otras variables o atributos Algunas redundancias se pueden detectar mediante análisis de correlación o tablas de contingencia Duplicación de registros o tuples Detección y corrección de conflictos en valores de datos Pesos en kilos y libras Dr. Francisco J. Mata
37
education*education-num
Dr. Francisco J. Mata
38
education*education-num
Dr. Francisco J. Mata
39
Transformación de datos
Datos son transformados o consolidados en formas apropiadas para minería de datos Métodos Discretización Generalización Normalización Construcción de atributos o variables Dr. Francisco J. Mata
40
Discretización Tomar un valor continúo y representarlo en valores discretos Ejemplo: transformar edad en Joven Edad medio Adulto mayor Dr. Francisco J. Mata
41
Generalización Tomar un valor más detallado y generalizarlo de acuerdo con una jerarquía País 15 valores Provincia o estado 365 valores Ciudad 3,567 valores Calle 674,339 valores Dr. Francisco J. Mata
42
Normalización Valores de una variable o atributo se convierten para que caigan en un intervalo pequeño -1.0 a 1.0 0.0 a 1.0 o tengan cierta media y desviación estándard Dr. Francisco J. Mata
43
Normalización Métodos Normalización min-max Normalización “z-score”
Dr. Francisco J. Mata
44
Normalización Normalización min-max
v´ = ((v – minA) / (maxA-minA)) (new_maxA-new_minA) + new_minA Ejemplo: Mínimo y máximo para ingreso es $12,000 y $98,000, respectivamente Se quiere transformar ingreso al intervalo [0.0,1.0] El valor 73,600 se convierte en ((73,600-12,000) / (98,000-12,000)) (1.0-0) + 0 = 0.716 Dr. Francisco J. Mata
45
Normalización Normalización “z-score” v´ = (v – media_A) / dev_est_A
Ejemplo: Media y desviación estándar para ingreso es $54,000 y $16,000, respectivamente El valor 73,600 se convierte en (73,600-54,000) / 16,000 = 1.225 Dr. Francisco J. Mata
46
Construcción de atributos
Nuevos atributos son construidos a partir de atributos existentes Ejemplo: venta = cantidad * precio Dr. Francisco J. Mata
47
Reducción de datos Obtener una representación reducida del conjunto de datos que es mucho más pequeña en volumen pero mantiene la integridad de los datos originales Dr. Francisco J. Mata
48
Reducción de datos Técnicas Muestreo Agregación Reducción de dimensión
Dr. Francisco J. Mata
49
Reducción de datos Muestreo
Seleccionar un subconjunto de registros o tuples pequeño pero representativo de la población Existen técnicas estadísticas para seleccionar muestras representativas Dr. Francisco J. Mata
50
Reducción de datos Agregación
Sumarizar información usualmente sobre períodos de tiempo Ejemplo: sumar las ventas por trimestre para obtener ventas anuales Asociado con cubos OLAP Dr. Francisco J. Mata
51
Reducción de datos Reducción de dimensión
Eliminar atributos o variables irrelevantes o redundantes o reducir el número de estos mediante rotación de ejes Técnicas “Decision tree induction” Análisis de componentes principales Dr. Francisco J. Mata
52
Análisis de componentes principales
Medir tres especies X1 (S1), X2 (S2) y X3 (S3) en diferentes puntos espaciales Tomado de PCA.htm Dr. Francisco J. Mata
53
Análisis de componentes principales
Se estandarizan los datos: se resta la media y divide por desviación estándar Dr. Francisco J. Mata
54
Análisis de componentes principales
Se rotan los ejes ortogonal- mente de acuerdo con los valores principales Valor Varianza principal explicada % % % Total % Dr. Francisco J. Mata
55
Análisis de componentes principales
Representación del 96 % de varianza en dos dimensiones Dr. Francisco J. Mata
56
Análisis de componentes principales
Factores de carga Especie PCA1 PCA2 PCA3 X1-S1 0.9688 0.0664 X2-S2 0.9701 0.0408 0.2391 X3-S3 0.9945 0.0061 Dr. Francisco J. Mata
57
Análisis de componentes principales
Curvas hipotéticas de respuesta de las especies al gradiente ambiental Dr. Francisco J. Mata
Presentaciones similares
© 2024 SlidePlayer.es Inc.
All rights reserved.