Enfoque estadístico para estimación y predicción MSc. Carlos Alberto Cobos Lozada ccobos@unicauca.edu.co http://www.unicauca.edu.co/~ccobos Grupo de I+D en Tecnologías de la Información Departamento de Sistemas Facultad de Ingeniería Electrónica y Telecomunicaciones Universidad del Cauca
Resumen Previo Prueba de hipótesis vs Análisis Exploratorio de los Datos (EDA) Ejemplo de clientes que dejan el servicio (Churn) Manejo de variables correlacionadas Eliminación de variables redundantes Análisis de regresión lineal (variantes de la misma) Exploración de variables categóricas (por cantidad y por porcentaje) Cruzar dos variables frente a la variable objetivo (si existe) Exploración de variables numéricas (media, moda, desviación estándar, mínimo, máximo, mediana, simetría vs asimetría) Coeficiente de correlación de pearson Herramientas Visuales de EDA (histogramas, gráficos de dispersión, análisis multivariable, gráficos que se puedan mover, rotar y/o expandir, …) Reporte general de cambios al data set Discretización (Binning – Banding) Igual ancho, igual cantidad en rango, variables con similar comportamiento
Tareas de minería de datos Descripción Técnicas estadísticas (media, moda, mediana, desviación estándar, mínimo , máximo, rango, correlaciones) y gráficas, algoritmos genéticos Clasificación Redes neuronales (back propagation), árboles de decisión (ID3, C4.5, C5.0, CART), k-nn (k vecinos más cercanos), naive bayes, técnicas estadísticas Estimación Técnicas estadísticas (regresión lineal simple, correlación, regresión múltiple), árboles de decisión, k-nn, redes neuronales Predicción Técnicas estadísticas, redes neuronales, árboles de decisión, k-nn, algoritmos genéticos Agrupación (Clustering) Jerárquico, K-nn, K-means, Red Kohonen, Fuzzy C-means Asociación Apriori (all, some, dynamic some), GRI, FP Grow Idea general NO camisa de fuerza
Métodos univariable: Medidas de centro Comprensión del negocio Análisis de los datos Preparación de los datos Modelamiento Evaluación Despliegue Datos Conteo Media Suma Mediana Moda La desviación estándar (o desviación típica) es una medida del grado de dispersión de los datos del valor promedio, dice cuánto tienden a alejarse los valores puntuales del promedio en una distribución. La mediana es el valor que deja el mismo número de datos antes y después que él, una vez ordenados estos La moda es el valor más frecuente. Para la formula de moda en rangos, tenga en cuenta: L1 = Límite inferior de la clase modal. D1 = Exceso de la frecuencia modal sobre la clase contigua inferior. D2 = Exceso de la frecuencia modal sobre la clase contigua superior. C = Tamaño del intervalo de la clase modal. Ejemplo: Encontrar la estatura modal de un grupo que se encuentra distribuido de la siguiente forma: Entre 1.70 y 1.80 hay 6 estudiantes. Entre 1.60 y 1.70 hay 10 estudiantes. Entre 1.50 y 1.60 hay 4 estudiantes. Moda = 1.60 + (6 / (4 + 6)) * 0.10 = 1.66
Métodos univariable: Medidas de dispersión Desviación estándar Error estándar de la media Desviación Absoluta Media (DAM) La desviación estándar (o desviación típica) es una medida del grado de dispersión de los datos del valor promedio, dice cuánto tienden a alejarse los valores puntuales del promedio en una distribución. La mediana es el valor que deja el mismo número de datos antes y después que él, una vez ordenados estos La moda es el valor más frecuente. Para la formula de moda en rangos, tenga en cuenta: L1 = Límite inferior de la clase modal. D1 = Exceso de la frecuencia modal sobre la clase contigua inferior. D2 = Exceso de la frecuencia modal sobre la clase contigua superior. C = Tamaño del intervalo de la clase modal. Ejemplo: Encontrar la estatura modal de un grupo que se encuentra distribuido de la siguiente forma: Entre 1.70 y 1.80 hay 6 estudiantes. Entre 1.60 y 1.70 hay 10 estudiantes. Entre 1.50 y 1.60 hay 4 estudiantes. Moda = 1.60 + (6 / (4 + 6)) * 0.10 = 1.66
Métodos univariable: Medidas de posición no central Los cuartiles, que dividen a la distribución en cuatro partes Primer cuartil (Q1) Segundo cuartil (Q2) = la mediana Tercer cuartil (Q3) Rango Inter cuartil (IQR) = Q3-Q1 Los quintiles, dividen la distribución en cinco partes Los deciles, dividen la distribución en diez partes Los percentiles, dividen la distribución en cien partes Tomado de [1] para uso educativo
Métodos univariable: Outliers y Sesgo Media (sensible a outliers): Revisar el sesgo, ejemplo, no coincide con moda y/o mediana (menos sensible) Histogramas La Desviación Estándar también es sensible a Outliers … preferible DAM
Métodos univariable La mayoría de datos esta entre las dos desviaciones estándar de la media Tomado de [2] para uso educativo
Inferencia Estadística Métodos para estimar y probar hipótesis en poblaciones con base en datos muéstrales (representativos) Los parámetros de una población normalmente son desconocidos (por ejemplo la media) y se denotan con letras griegas (μ) Es fácil conocer las características de una muestra, por ejemplo la media de llamadas a servicio al cliente es 1.563 Error muestral = | x - μ | normalmente desconocido - Tomado de [1] para uso educativo
Estimación del Intervalo de Confianza Intervalo de datos en los que se puede tener un nivel de confianza Valor Estimado ± Margen de Error Si Margen de Error es pequeño Entonces Mayor Precisión Ejemplo: El intervalo t es usado en distribuciones normales o con muestras de gran tamaño
Estimación del Intervalo de Confianza La cantidad representa el error normal de la media muestral (error estándar de la media) El multiplicador es asociado con el tamaño de la muestra y el nivel de confianza (normalmente 90 a 99%)
Estimación por intervalo de confianza Con el 95% confianza el número medio de llamadas a servicio al cliente de la población se encontrará en este intervalo. El margen de error es 0.045. Tomado de [1] para uso educativo
Tabla Distribución Normal para intervalo de confianza Tomado de [2] para uso educativo
Métodos Bivariables: Regresión lineal simple Analistas están interesados en los métodos bivarible de estimación, por ejemplo, usando el valor de una variable (X) para estimar el valor de una variable dependiente (Y)
Regresión lineal simple Ŷ valor estimado (variable respuesta) b0 intercepto y de la regresión b1 inclinación de la regresión b0 y b1 coeficientes de regresión
Regresión lineal simple Tomado de [1] para uso educativo
Regresión lineal simple Tomado de [1] para uso educativo
Regresión lineal simple Figura anterior muestra la Evaluación nutritiva (Rating) vs. azúcar, junto con la línea de regresión de mínimos-cuadrados Ŷ = 59.4 - 2.42 * Azúcar Se precisa calcular coeficiente de correlación R = -0,76
Peligros de extrapolación CUIDADO: Un nuevo cereal y que al estimar su valor nutricional se obtenga un valor negativo. Tomado de [1] para uso educativo
Intervalo de confianza del valor medio de Y dado X Tomado de [1] para uso educativo
Intervalo de predicción para un valor elegido al azar de Y dado X La presencia de los "1+" asegura que el intervalo de la predicción siempre sea más ancho que el intervalo de confianza del valor medio Tomado de [1] para uso educativo
Tomado de [1] para uso educativo
Regresión Lineal Simple Demo basado en Excel
Regresión Múltiple Relación Relación negativa positiva Tomado de [1] para uso educativo
Regresión Múltiple Sin relación Tomado de [1] para uso educativo
Regresión Múltiple Eliminar Potasio por relación directa con Fibra Tomado de [1] para uso educativo
Resultados en MiniTab Tomado de [1] para uso educativo
Verificar los supuestos del modelo Linealidad Independencia Normalidad Varianza constante Gráficos Valor Normal vs. Residuos estandarizados Residuos estandarizados vs. Valores estimados
Diagrama de normalidad de residuos Tomado de [1] para uso educativo
Residuos estandarizados vs valores ajustados Tomado de [1] para uso educativo
Regresión Múltiple Demo basado en Matlab Tomado de [3] para uso educativo
Resumen Medidas de tendencia central y no central Medidas de dispersión Inferencia estadística e intervalos de confianza Regresión lineal simple Regresión múltiple Regresión puede ser logarítmica
Taller Usar el DataSet de clientes de una empresa de telecomunicaciones que se han ido a la competencia (churn) o que todavía permanecen en la compañía Montarlo en una Tabla de una Base de Datos (SQL Server, Access, ...) Hacer una aplicación en Visual C#.NET para analizar los datos del DataSet y definir: Simetría de las variables Media, Moda, Mediana Desviación estándar Q1, Q2, Q3, IQR Determinar posibles valores atípicos Establecer dependencia (directa/inversa) entra las variables: Regresión lineal Coeficiente de correlación y determinación Regresión múltiple Mostrar gráficamente los datos (usar ejemplo enviado de Office Web Components)
Referencias Discovering knowledge in Data: An Introduction to Data Mining. Daniel T. Larose. John Wiley & Sons, Inc. 2005. ISBN 0-471-66657-2 Pete Chapman, Julian Clinton, Randy Kerber and other. CRISP-DM 1.0. Step-by-step data mining guide, 1999-2000. SPSS Inc. Análisis y Extracción de Conocimiento en Sistemas de Información: Datawarehouse y Datamining. Departamento de Sistemas Informáticos y Computación. Universidad Politécnica de Valencia. http://www.dsic.upv.es/~jorallo/cursoDWDM. Matlab Help