La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Enfoque estadístico para estimación y predicción

Presentaciones similares


Presentación del tema: "Enfoque estadístico para estimación y predicción"— Transcripción de la presentación:

1 Enfoque estadístico para estimación y predicción
MSc. Carlos Alberto Cobos Lozada Grupo de I+D en Tecnologías de la Información Departamento de Sistemas Facultad de Ingeniería Electrónica y Telecomunicaciones Universidad del Cauca

2 Resumen Previo Prueba de hipótesis vs Análisis Exploratorio de los Datos (EDA) Ejemplo de clientes que dejan el servicio (Churn) Manejo de variables correlacionadas Eliminación de variables redundantes Análisis de regresión lineal (variantes de la misma) Exploración de variables categóricas (por cantidad y por porcentaje) Cruzar dos variables frente a la variable objetivo (si existe) Exploración de variables numéricas (media, moda, desviación estándar, mínimo, máximo, mediana, simetría vs asimetría) Coeficiente de correlación de pearson Herramientas Visuales de EDA (histogramas, gráficos de dispersión, análisis multivariable, gráficos que se puedan mover, rotar y/o expandir, …) Reporte general de cambios al data set Discretización (Binning – Banding) Igual ancho, igual cantidad en rango, variables con similar comportamiento

3 Tareas de minería de datos
Descripción Técnicas estadísticas (media, moda, mediana, desviación estándar, mínimo , máximo, rango, correlaciones) y gráficas, algoritmos genéticos Clasificación Redes neuronales (back propagation), árboles de decisión (ID3, C4.5, C5.0, CART), k-nn (k vecinos más cercanos), naive bayes, técnicas estadísticas Estimación Técnicas estadísticas (regresión lineal simple, correlación, regresión múltiple), árboles de decisión, k-nn, redes neuronales Predicción Técnicas estadísticas, redes neuronales, árboles de decisión, k-nn, algoritmos genéticos Agrupación (Clustering) Jerárquico, K-nn, K-means, Red Kohonen, Fuzzy C-means Asociación Apriori (all, some, dynamic some), GRI, FP Grow Idea general NO camisa de fuerza

4 Métodos univariable: Medidas de centro
Comprensión del negocio Análisis de los datos Preparación de los datos Modelamiento Evaluación Despliegue Datos Conteo Media Suma Mediana Moda La desviación estándar (o desviación típica) es una medida del grado de dispersión de los datos del valor promedio, dice cuánto tienden a alejarse los valores puntuales del promedio en una distribución. La mediana es el valor que deja el mismo número de datos antes y después que él, una vez ordenados estos La moda es el valor más frecuente. Para la formula de moda en rangos, tenga en cuenta: L1 = Límite inferior de la clase modal. D1 = Exceso de la frecuencia modal sobre la clase contigua inferior. D2 = Exceso de la frecuencia modal sobre la clase contigua superior. C = Tamaño del intervalo de la clase modal. Ejemplo: Encontrar la estatura modal de un grupo que se encuentra distribuido de la siguiente forma: Entre 1.70 y 1.80 hay 6 estudiantes. Entre 1.60 y 1.70 hay 10 estudiantes. Entre 1.50 y 1.60 hay 4 estudiantes. Moda = (6 / (4 + 6)) * 0.10 = 1.66

5 Métodos univariable: Medidas de dispersión
Desviación estándar Error estándar de la media Desviación Absoluta Media (DAM) La desviación estándar (o desviación típica) es una medida del grado de dispersión de los datos del valor promedio, dice cuánto tienden a alejarse los valores puntuales del promedio en una distribución. La mediana es el valor que deja el mismo número de datos antes y después que él, una vez ordenados estos La moda es el valor más frecuente. Para la formula de moda en rangos, tenga en cuenta: L1 = Límite inferior de la clase modal. D1 = Exceso de la frecuencia modal sobre la clase contigua inferior. D2 = Exceso de la frecuencia modal sobre la clase contigua superior. C = Tamaño del intervalo de la clase modal. Ejemplo: Encontrar la estatura modal de un grupo que se encuentra distribuido de la siguiente forma: Entre 1.70 y 1.80 hay 6 estudiantes. Entre 1.60 y 1.70 hay 10 estudiantes. Entre 1.50 y 1.60 hay 4 estudiantes. Moda = (6 / (4 + 6)) * 0.10 = 1.66

6 Métodos univariable: Medidas de posición no central
Los cuartiles, que dividen a la distribución en cuatro partes Primer cuartil (Q1) Segundo cuartil (Q2) = la mediana Tercer cuartil (Q3) Rango Inter cuartil (IQR) = Q3-Q1 Los quintiles, dividen la distribución en cinco partes Los deciles, dividen la distribución en diez partes Los percentiles, dividen la distribución en cien partes Tomado de [1] para uso educativo

7 Métodos univariable: Outliers y Sesgo
Media (sensible a outliers): Revisar el sesgo, ejemplo, no coincide con moda y/o mediana (menos sensible) Histogramas La Desviación Estándar también es sensible a Outliers … preferible DAM

8 Métodos univariable La mayoría de datos esta entre las dos desviaciones estándar de la media Tomado de [2] para uso educativo

9 Inferencia Estadística
Métodos para estimar y probar hipótesis en poblaciones con base en datos muéstrales (representativos) Los parámetros de una población normalmente son desconocidos (por ejemplo la media) y se denotan con letras griegas (μ) Es fácil conocer las características de una muestra, por ejemplo la media de llamadas a servicio al cliente es 1.563 Error muestral = | x - μ | normalmente desconocido - Tomado de [1] para uso educativo

10 Estimación del Intervalo de Confianza
Intervalo de datos en los que se puede tener un nivel de confianza Valor Estimado ± Margen de Error Si Margen de Error es pequeño Entonces Mayor Precisión Ejemplo: El intervalo t es usado en distribuciones normales o con muestras de gran tamaño

11 Estimación del Intervalo de Confianza
La cantidad representa el error normal de la media muestral (error estándar de la media) El multiplicador es asociado con el tamaño de la muestra y el nivel de confianza (normalmente 90 a 99%)

12 Estimación por intervalo de confianza
Con el 95% confianza el número medio de llamadas a servicio al cliente de la población se encontrará en este intervalo. El margen de error es Tomado de [1] para uso educativo

13 Tabla Distribución Normal para intervalo de confianza
Tomado de [2] para uso educativo

14 Métodos Bivariables: Regresión lineal simple
Analistas están interesados en los métodos bivarible de estimación, por ejemplo, usando el valor de una variable (X) para estimar el valor de una variable dependiente (Y)

15 Regresión lineal simple
Ŷ valor estimado (variable respuesta) b0 intercepto y de la regresión b1 inclinación de la regresión b0 y b1 coeficientes de regresión

16 Regresión lineal simple
Tomado de [1] para uso educativo

17 Regresión lineal simple
Tomado de [1] para uso educativo

18 Regresión lineal simple
Figura anterior muestra la Evaluación nutritiva (Rating) vs. azúcar, junto con la línea de regresión de mínimos-cuadrados Ŷ = * Azúcar Se precisa calcular coeficiente de correlación R = -0,76

19 Peligros de extrapolación
CUIDADO: Un nuevo cereal y que al estimar su valor nutricional se obtenga un valor negativo. Tomado de [1] para uso educativo

20 Intervalo de confianza del valor medio de Y dado X
Tomado de [1] para uso educativo

21 Intervalo de predicción para un valor elegido al azar de Y dado X
La presencia de los "1+" asegura que el intervalo de la predicción siempre sea más ancho que el intervalo de confianza del valor medio Tomado de [1] para uso educativo

22 Tomado de [1] para uso educativo

23 Regresión Lineal Simple
Demo basado en Excel

24 Regresión Múltiple Relación Relación negativa positiva
Tomado de [1] para uso educativo

25 Regresión Múltiple Sin relación Tomado de [1] para uso educativo

26 Regresión Múltiple Eliminar Potasio por relación directa con Fibra
Tomado de [1] para uso educativo

27 Resultados en MiniTab Tomado de [1] para uso educativo

28 Verificar los supuestos del modelo
Linealidad Independencia Normalidad Varianza constante Gráficos Valor Normal vs. Residuos estandarizados Residuos estandarizados vs. Valores estimados

29 Diagrama de normalidad de residuos
Tomado de [1] para uso educativo

30 Residuos estandarizados vs valores ajustados
Tomado de [1] para uso educativo

31 Regresión Múltiple Demo basado en Matlab
Tomado de [3] para uso educativo

32 Resumen Medidas de tendencia central y no central
Medidas de dispersión Inferencia estadística e intervalos de confianza Regresión lineal simple Regresión múltiple Regresión puede ser logarítmica

33 Taller Usar el DataSet de clientes de una empresa de telecomunicaciones que se han ido a la competencia (churn) o que todavía permanecen en la compañía Montarlo en una Tabla de una Base de Datos (SQL Server, Access, ...) Hacer una aplicación en Visual C#.NET para analizar los datos del DataSet y definir: Simetría de las variables Media, Moda, Mediana Desviación estándar Q1, Q2, Q3, IQR Determinar posibles valores atípicos Establecer dependencia (directa/inversa) entra las variables: Regresión lineal Coeficiente de correlación y determinación Regresión múltiple Mostrar gráficamente los datos (usar ejemplo enviado de Office Web Components)

34 Referencias Discovering knowledge in Data: An Introduction to Data Mining. Daniel T. Larose. John Wiley & Sons, Inc ISBN Pete Chapman, Julian Clinton, Randy Kerber and other. CRISP-DM 1.0. Step-by-step data mining guide, SPSS Inc. Análisis y Extracción de Conocimiento en Sistemas de Información: Datawarehouse y Datamining. Departamento de Sistemas Informáticos y Computación. Universidad Politécnica de Valencia. Matlab Help


Descargar ppt "Enfoque estadístico para estimación y predicción"

Presentaciones similares


Anuncios Google