Exploración y preparación de datos

Exploración y preparación de datos
Tema 6 Dr. Francisco J. Mata

Objetivos Presentar la importancia de la exploración de los datos
Discutir la necesidad de preparar los datos Dr. Francisco J. Mata

Explorar Obtener estadísticas básicas Distribuciones
Valores extremos Valores perdidos Distribuciones Histogramas Comparar valores con descripciones ¿Aparecen todos los códigos para una variable categórica? ¿Distribución de valores es esperada para variables categóricas? ¿Valores mínimos y máximos para una variable son razonables? Relaciones entre variables Dr. Francisco J. Mata

Explorar Haga lista de asuntos sorprendentes o que no estén claros
Pregunte al proveedor de los datos Dr. Francisco J. Mata

Explorar Observar Número de registros (observaciones)
Número de variables (columnas) Dr. Francisco J. Mata

Ver la tabla de datos es otra buena forma de iniciar la exploración
Dr. Francisco J. Mata

Explorar una variable Penetración de producto Dr. Francisco J. Mata

Explorar relaciones Ingreso por hogar 1999 Ingreso por familia 1999

Ejemplo Archivo de datos de censo sobre adultos de los Estados Unidos

Estadísticas descriptivas para variables continuas
Variable Label Mean Std Dev Range x age x education-num x capital-gain x capital-loss x hour-per-week Dr. Francisco J. Mata

Age Minería de datos Dr. Francisco J. Mata

Education-number Minería de datos Dr. Francisco J. Mata

Gain Minería de datos Dr. Francisco J. Mata

Loss Minería de datos Dr. Francisco J. Mata

Hours Minería de datos Dr. Francisco J. Mata

Estadísticas Descriptivas para Variables Discretas
Workclass Cumulative Cumulative x Frequency Percent Frequency Percent Federal-gov Local-gov Never-worked Private Self-emp-inc Self-emp-not-inc State-gov Without-pay Frequency Missing = 1836 Chi-Square DF Pr > ChiSq <.0001 Dr. Francisco J. Mata

Education Cumulative Cumulative x Frequency Percent Frequency Percent 10th 11th 12th 1st-4th 5th-6th 7th-8th 9th Assoc-acdm Assoc-voc Bachelors Doctorate HS-grad Masters Preschool Prof-school Some-college Chi-Square DF Pr > ChiSq <.0001 Dr. Francisco J. Mata

education*education-num

Race Cumulative Cumulative x Frequency Percent Frequency Percent Amer-Indian-Eskimo Asian-Pac-Islander Black Other White Chi-Square DF Pr > ChiSq <.0001 Dr. Francisco J. Mata

Sex Cumulative Cumulative x Frequency Percent Frequency Percent Female Male Chi-Square DF Pr > ChiSq <.0001 Dr. Francisco J. Mata

Native-country Cumulative Cumulative x Frequency Percent Frequency Percent Cambodia Canada China Columbia Cuba Dominican-Republic Ecuador El-Salvador England France Germany Greece Guatemala Haiti Holand-Netherlands Honduras Dr. Francisco J. Mata

Native-country Cumulative Cumulative x Frequency Percent Frequency Percent Hong Hungary India Iran Ireland Italy Jamaica Japan Laos Mexico Nicaragua Outlying-US(Guam-USVI-etc) Peru Philippines Poland Portugal Puerto-Rico Scotland Dr. Francisco J. Mata

Native-country Cumulative Cumulative x Frequency Percent Frequency Percent Scotland South Taiwan Thailand Trinadad&Tobago United-States Vietnam Yugoslavia Frequency Missing = 583 Chi-Square DF Pr > ChiSq <.0001 Dr. Francisco J. Mata

Preparación de datos Datos pueden ser
Incompletos: valores para una variable perdidos Ruidosos: contienen errores o valores extremos Inconsistentes: esquemas de codificación diferentes Dr. Francisco J. Mata

Preparación de datos Actividades Limpieza de datos
Integración de datos Transformación de datos Reducción de datos Dr. Francisco J. Mata

Limpieza de datos Dar valores a datos perdidos
Suavizar el ruido en los datos identificando valores extremos Corregir inconsistencias Dr. Francisco J. Mata

Valores perdidos Valores para una variable no fueron registrados

Valores perdidos Opciones
Eliminar registros con valores perdidos: puede sesgar la muestra Reemplazar valores perdidos por un valor especial : modelos no pueden distinguir este valor de uno perdido Utilizar la media, mediana o moda: puede cambiar la distribución de los datos Generar un valor aleatoriamente: puede ser difícil conocer la distribución de los valores particularmente si existe un patrón en los valores perdidos Dr. Francisco J. Mata

Valores perdidos Opciones
Predecir el valor utilizando árboles de decisión o redes neuronales Particionar los registros y construir varios modelos: posible cuando se puede conocer la causa de la falta de registro de los datos Utilizar procedimientos que puedan manipular datos perdidos Dr. Francisco J. Mata

Suavizar el ruido en los datos identificando valores extremos
Utilizar las distribuciones de valores para identificar valores extremos Utilizar técnicas automáticas de detección de grupos (“clustering”) Utilizar métodos de regresión Dr. Francisco J. Mata

Distribuciones para identificar valores extremos
Valor extremo Minería de datos Dr. Francisco J. Mata

Técnicas automáticas para detectar grupos

Métodos de regresión Dr. Francisco J. Mata

Corregir inconsistencias
Inconsistencias pueden existir debido a la forma en que fueron registrados lo datos Corrección Errores de entrada de datos pueden ser corregidos buscando los registros originales Uso de dependencias funcionales Dr. Francisco J. Mata

Integración de datos Combinación de datos de múltiples fuentes para crear nuevos registros Problemas Identificación de entidades Claves para hacer uniones Redundancia Valores que pueden ser derivados de otras variables o atributos Algunas redundancias se pueden detectar mediante análisis de correlación o tablas de contingencia Duplicación de registros o tuples Detección y corrección de conflictos en valores de datos Pesos en kilos y libras Dr. Francisco J. Mata

education*education-num

Transformación de datos
Datos son transformados o consolidados en formas apropiadas para minería de datos Métodos Discretización Generalización Normalización Construcción de atributos o variables Dr. Francisco J. Mata

Discretización Tomar un valor continúo y representarlo en valores discretos Ejemplo: transformar edad en Joven Edad medio Adulto mayor Dr. Francisco J. Mata

Generalización Tomar un valor más detallado y generalizarlo de acuerdo con una jerarquía País 15 valores Provincia o estado 365 valores Ciudad 3,567 valores Calle 674,339 valores Dr. Francisco J. Mata

Normalización Valores de una variable o atributo se convierten para que caigan en un intervalo pequeño -1.0 a 1.0 0.0 a 1.0 o tengan cierta media y desviación estándard Dr. Francisco J. Mata

Normalización Métodos Normalización min-max Normalización “z-score”

Normalización Normalización min-max
v´ = ((v – minA) / (maxA-minA)) (new_maxA-new_minA) + new_minA Ejemplo: Mínimo y máximo para ingreso es $12,000 y $98,000, respectivamente Se quiere transformar ingreso al intervalo [0.0,1.0] El valor 73,600 se convierte en ((73,600-12,000) / (98,000-12,000)) (1.0-0) + 0 = 0.716 Dr. Francisco J. Mata

Normalización Normalización “z-score” v´ = (v – media_A) / dev_est_A
Ejemplo: Media y desviación estándar para ingreso es $54,000 y $16,000, respectivamente El valor 73,600 se convierte en (73,600-54,000) / 16,000 = 1.225 Dr. Francisco J. Mata

Construcción de atributos
Nuevos atributos son construidos a partir de atributos existentes Ejemplo: venta = cantidad * precio Dr. Francisco J. Mata

Reducción de datos Obtener una representación reducida del conjunto de datos que es mucho más pequeña en volumen pero mantiene la integridad de los datos originales Dr. Francisco J. Mata

Reducción de datos Técnicas Muestreo Agregación Reducción de dimensión

Reducción de datos Muestreo
Seleccionar un subconjunto de registros o tuples pequeño pero representativo de la población Existen técnicas estadísticas para seleccionar muestras representativas Dr. Francisco J. Mata

Reducción de datos Agregación
Sumarizar información usualmente sobre períodos de tiempo Ejemplo: sumar las ventas por trimestre para obtener ventas anuales Asociado con cubos OLAP Dr. Francisco J. Mata

Reducción de datos Reducción de dimensión
Eliminar atributos o variables irrelevantes o redundantes o reducir el número de estos mediante rotación de ejes Técnicas “Decision tree induction” Análisis de componentes principales Dr. Francisco J. Mata

Análisis de componentes principales
Medir tres especies X1 (S1), X2 (S2) y X3 (S3) en diferentes puntos espaciales Tomado de PCA.htm Dr. Francisco J. Mata

Se estandarizan los datos: se resta la media y divide por desviación estándar Dr. Francisco J. Mata

Se rotan los ejes ortogonal- mente de acuerdo con los valores principales Valor Varianza principal explicada % % % Total % Dr. Francisco J. Mata

Representación del 96 % de varianza en dos dimensiones Dr. Francisco J. Mata

Factores de carga Especie PCA1 PCA2 PCA3 X1-S1 0.9688 0.0664 X2-S2 0.9701 0.0408 0.2391 X3-S3 0.9945 0.0061 Dr. Francisco J. Mata

Curvas hipotéticas de respuesta de las especies al gradiente ambiental Dr. Francisco J. Mata

Exploración y preparación de datos

Presentaciones similares

Presentación del tema: "Exploración y preparación de datos"— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback

Iniciar la sesión

Autorizarse a través de una red social:

Exploración y preparación de datos

Presentaciones similares

Presentación del tema: "Exploración y preparación de datos"— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback