Enfoque estadístico para estimación y predicción

Enfoque estadístico para estimación y predicción
MSc. Carlos Alberto Cobos Lozada Grupo de I+D en Tecnologías de la Información Departamento de Sistemas Facultad de Ingeniería Electrónica y Telecomunicaciones Universidad del Cauca

Resumen Previo Prueba de hipótesis vs Análisis Exploratorio de los Datos (EDA) Ejemplo de clientes que dejan el servicio (Churn) Manejo de variables correlacionadas Eliminación de variables redundantes Análisis de regresión lineal (variantes de la misma) Exploración de variables categóricas (por cantidad y por porcentaje) Cruzar dos variables frente a la variable objetivo (si existe) Exploración de variables numéricas (media, moda, desviación estándar, mínimo, máximo, mediana, simetría vs asimetría) Coeficiente de correlación de pearson Herramientas Visuales de EDA (histogramas, gráficos de dispersión, análisis multivariable, gráficos que se puedan mover, rotar y/o expandir, …) Reporte general de cambios al data set Discretización (Binning – Banding) Igual ancho, igual cantidad en rango, variables con similar comportamiento

Tareas de minería de datos
Descripción Técnicas estadísticas (media, moda, mediana, desviación estándar, mínimo , máximo, rango, correlaciones) y gráficas, algoritmos genéticos Clasificación Redes neuronales (back propagation), árboles de decisión (ID3, C4.5, C5.0, CART), k-nn (k vecinos más cercanos), naive bayes, técnicas estadísticas Estimación Técnicas estadísticas (regresión lineal simple, correlación, regresión múltiple), árboles de decisión, k-nn, redes neuronales Predicción Técnicas estadísticas, redes neuronales, árboles de decisión, k-nn, algoritmos genéticos Agrupación (Clustering) Jerárquico, K-nn, K-means, Red Kohonen, Fuzzy C-means Asociación Apriori (all, some, dynamic some), GRI, FP Grow Idea general NO camisa de fuerza

Métodos univariable: Medidas de centro
Comprensión del negocio Análisis de los datos Preparación de los datos Modelamiento Evaluación Despliegue Datos Conteo Media Suma Mediana Moda La desviación estándar (o desviación típica) es una medida del grado de dispersión de los datos del valor promedio, dice cuánto tienden a alejarse los valores puntuales del promedio en una distribución. La mediana es el valor que deja el mismo número de datos antes y después que él, una vez ordenados estos La moda es el valor más frecuente. Para la formula de moda en rangos, tenga en cuenta: L1 = Límite inferior de la clase modal. D1 = Exceso de la frecuencia modal sobre la clase contigua inferior. D2 = Exceso de la frecuencia modal sobre la clase contigua superior. C = Tamaño del intervalo de la clase modal. Ejemplo: Encontrar la estatura modal de un grupo que se encuentra distribuido de la siguiente forma: Entre 1.70 y 1.80 hay 6 estudiantes. Entre 1.60 y 1.70 hay 10 estudiantes. Entre 1.50 y 1.60 hay 4 estudiantes. Moda = (6 / (4 + 6)) * 0.10 = 1.66

Métodos univariable: Medidas de dispersión
Desviación estándar Error estándar de la media Desviación Absoluta Media (DAM) La desviación estándar (o desviación típica) es una medida del grado de dispersión de los datos del valor promedio, dice cuánto tienden a alejarse los valores puntuales del promedio en una distribución. La mediana es el valor que deja el mismo número de datos antes y después que él, una vez ordenados estos La moda es el valor más frecuente. Para la formula de moda en rangos, tenga en cuenta: L1 = Límite inferior de la clase modal. D1 = Exceso de la frecuencia modal sobre la clase contigua inferior. D2 = Exceso de la frecuencia modal sobre la clase contigua superior. C = Tamaño del intervalo de la clase modal. Ejemplo: Encontrar la estatura modal de un grupo que se encuentra distribuido de la siguiente forma: Entre 1.70 y 1.80 hay 6 estudiantes. Entre 1.60 y 1.70 hay 10 estudiantes. Entre 1.50 y 1.60 hay 4 estudiantes. Moda = (6 / (4 + 6)) * 0.10 = 1.66

Métodos univariable: Medidas de posición no central
Los cuartiles, que dividen a la distribución en cuatro partes Primer cuartil (Q1) Segundo cuartil (Q2) = la mediana Tercer cuartil (Q3) Rango Inter cuartil (IQR) = Q3-Q1 Los quintiles, dividen la distribución en cinco partes Los deciles, dividen la distribución en diez partes Los percentiles, dividen la distribución en cien partes Tomado de [1] para uso educativo

Métodos univariable: Outliers y Sesgo
Media (sensible a outliers): Revisar el sesgo, ejemplo, no coincide con moda y/o mediana (menos sensible) Histogramas La Desviación Estándar también es sensible a Outliers … preferible DAM

Métodos univariable La mayoría de datos esta entre las dos desviaciones estándar de la media Tomado de [2] para uso educativo

Inferencia Estadística
Métodos para estimar y probar hipótesis en poblaciones con base en datos muéstrales (representativos) Los parámetros de una población normalmente son desconocidos (por ejemplo la media) y se denotan con letras griegas (μ) Es fácil conocer las características de una muestra, por ejemplo la media de llamadas a servicio al cliente es 1.563 Error muestral = | x - μ | normalmente desconocido - Tomado de [1] para uso educativo

Estimación del Intervalo de Confianza
Intervalo de datos en los que se puede tener un nivel de confianza Valor Estimado ± Margen de Error Si Margen de Error es pequeño Entonces Mayor Precisión Ejemplo: El intervalo t es usado en distribuciones normales o con muestras de gran tamaño

Estimación del Intervalo de Confianza
La cantidad representa el error normal de la media muestral (error estándar de la media) El multiplicador es asociado con el tamaño de la muestra y el nivel de confianza (normalmente 90 a 99%)

Estimación por intervalo de confianza
Con el 95% confianza el número medio de llamadas a servicio al cliente de la población se encontrará en este intervalo. El margen de error es Tomado de [1] para uso educativo

Tabla Distribución Normal para intervalo de confianza
Tomado de [2] para uso educativo

Métodos Bivariables: Regresión lineal simple
Analistas están interesados en los métodos bivarible de estimación, por ejemplo, usando el valor de una variable (X) para estimar el valor de una variable dependiente (Y)

Regresión lineal simple
Ŷ valor estimado (variable respuesta) b0 intercepto y de la regresión b1 inclinación de la regresión b0 y b1 coeficientes de regresión

Figura anterior muestra la Evaluación nutritiva (Rating) vs. azúcar, junto con la línea de regresión de mínimos-cuadrados Ŷ = * Azúcar Se precisa calcular coeficiente de correlación R = -0,76

Peligros de extrapolación
CUIDADO: Un nuevo cereal y que al estimar su valor nutricional se obtenga un valor negativo. Tomado de [1] para uso educativo

Intervalo de confianza del valor medio de Y dado X

Intervalo de predicción para un valor elegido al azar de Y dado X
La presencia de los "1+" asegura que el intervalo de la predicción siempre sea más ancho que el intervalo de confianza del valor medio Tomado de [1] para uso educativo

Tomado de [1] para uso educativo

Regresión Lineal Simple
Demo basado en Excel

Regresión Múltiple Relación Relación negativa positiva

Regresión Múltiple Sin relación Tomado de [1] para uso educativo

Regresión Múltiple Eliminar Potasio por relación directa con Fibra

Resultados en MiniTab Tomado de [1] para uso educativo

Verificar los supuestos del modelo
Linealidad Independencia Normalidad Varianza constante Gráficos Valor Normal vs. Residuos estandarizados Residuos estandarizados vs. Valores estimados

Diagrama de normalidad de residuos

Residuos estandarizados vs valores ajustados

Regresión Múltiple Demo basado en Matlab

Resumen Medidas de tendencia central y no central
Medidas de dispersión Inferencia estadística e intervalos de confianza Regresión lineal simple Regresión múltiple Regresión puede ser logarítmica

Taller Usar el DataSet de clientes de una empresa de telecomunicaciones que se han ido a la competencia (churn) o que todavía permanecen en la compañía Montarlo en una Tabla de una Base de Datos (SQL Server, Access, ...) Hacer una aplicación en Visual C#.NET para analizar los datos del DataSet y definir: Simetría de las variables Media, Moda, Mediana Desviación estándar Q1, Q2, Q3, IQR Determinar posibles valores atípicos Establecer dependencia (directa/inversa) entra las variables: Regresión lineal Coeficiente de correlación y determinación Regresión múltiple Mostrar gráficamente los datos (usar ejemplo enviado de Office Web Components)

Referencias Discovering knowledge in Data: An Introduction to Data Mining. Daniel T. Larose. John Wiley & Sons, Inc ISBN Pete Chapman, Julian Clinton, Randy Kerber and other. CRISP-DM 1.0. Step-by-step data mining guide, SPSS Inc. Análisis y Extracción de Conocimiento en Sistemas de Información: Datawarehouse y Datamining. Departamento de Sistemas Informáticos y Computación. Universidad Politécnica de Valencia. Matlab Help

Enfoque estadístico para estimación y predicción

Presentaciones similares

Presentación del tema: "Enfoque estadístico para estimación y predicción"— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback

Iniciar la sesión

Autorizarse a través de una red social:

Enfoque estadístico para estimación y predicción

Presentaciones similares

Presentación del tema: "Enfoque estadístico para estimación y predicción"— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback