Enfoque estadístico para estimación y predicción

Slides:



Advertisements
Presentaciones similares
DISEÑO DE EXPERIMENTOS EXPERIMENTOS DE COMPARACIÓN SIMPLE
Advertisements

ANALISIS PARAMÉTRICOS
Lic. Cristian R. Arroyo López
Lic. Cristian R. Arroyo López
Regresión mínimo cuadrada (I)
Epidemiología Clínica y Estadística Aplicada
REGRESION LINEAL SIMPLE
ESTADÍSTICA DESCRIPTIVA
Error Estándar de la Media
ANÁLISIS EXPLORATORIO DE DATOS
ANÁLISIS PREELIMINAR DE LOS DATOS
K-NN: K vecinos más cercanos
UNIVERSIDAD AUTÓNOMA DEL CARIBE
Ingeniería Industrial II CicloEducativo 2011
FRANCISCO JAVIER RODRÍGUEZ
ESTRATEGIAS Y DISEÑOS AVANZADOS DE INVESTIGACIÓN SOCIAL
Estimación por Intervalos de confianza
Regresión y correlación
Medidas de Dispersión Estadística E.S.O.
MEDIDAS DE TENDENCIA CENTRAL
Regresión lineal Es un modelo matemático para predecir el efecto de una variable sobre otra, ambas cuantitativas. Una variable es la dependiente y otra.
Regresión Lineal Simple
9 Regresión Lineal Simple
MEDIDAS DE DISPERSIÓN:
ANÁLISIS EXPLORATORIO DE DATOS
Estadística Descriptiva
Pronósticos, Series de Tiempo y Regresión
Mt. Martín Moreyra Navarrete.
Estadística Descriptiva continuación
ANALISIS DE FRECUENCIA EN HIDROLOGIA (2)
DISTRIBUCION NORMAL Mario Briones L. MV, MSc 2005.
Proceso KDD MSc. Carlos Alberto Cobos Lozada
ANÁLISIS EXPLORATORIO DE DATOS
Laboratorio de Estadística administrativa
SEMINARIO DE INVESTIGACIÓN IV Y TRABAJO DE GRADO
Titular: Agustín Salvia
ULACIT MAESTRÍA EN ORTODONCIA
Analisis exploratorio INGRID TATIANA RODRIGUEZ GUZMAN DIANA COSTANZA BERMUDEZ GORDILLO.
Estadística Descriptiva: 2. Medidas de Tendencia y Dispersión
Diseño de EXPERIMENTOS
LA ESTADÍSTICA PROF.: EDMUNDO C.PARDO H. CARACAS,OCTUBRE DE 2014
Ramón Giraldo H MSc. Estadística. Profesor Universidad Nacional
Describir una variable numérica
Bioestadística Tema 2: Estadísticos Bioestadística. U. Málaga.
Si comparamos este intervalo con (10.5), vemos que el intervalo de confianza para la Y 0 individual es más amplio que el intervalo para el valor medio.
Tipos de Variables.- Cualitativas. Describen cualidades de los elementos de la muestra. Nominales. Categorías excluyentes y sin orden. (Ej. Sexo) Ordinales.
Estadística Básica Conceptos & Aplicaciones
Métodos Cuantitativos
Análisis de los Datos Cuantitativos
Aplicaciones Estadísticas a las Finanzas Clase 1
Estadística para la gestión educativa Conceptos básicos Mtra. Ing. Rosa María Lamadrid Velazco T.
Construcción de modelos con regresión y correlación
Regresión lineal simple Nazira Calleja
Unidad 4 Análisis de los Datos.
Características de las distribuciones estadísticas
Capítulo 10 Análisis de los datos.
Supuestos en el análisis de regresión
Supuestos en el análisis de regresión Miles, J. & Shervin, M. (2011). Applyng regression & correlation. A guide for students and researchers. London: Sage.
Gráficos.
Aplicaciones Estadísticas a las Finanzas Clase 1
Departamento de Informática Universidad Técnica Federico Santa María EconometríaEconometría Capitulo II.
Coeficiente de variación
REGRESIÓN LINEAL SIMPLE
REGRESIÓN LINEAL SIMPLE. Temas Introducción Análisis de regresión (Ejemplo aplicado) La ecuación de una recta Modelo estadístico y suposiciones Estimación.
UNIVERSIDAD DE COSTA RICA Sistema de Estudios de Posgrado Escuela de Salud Pública I Ciclo lectivo 2003 Epidemiología – (SP – 2216) Profesora: Carmen.
Estadística descriptiva
Medidas de posición y dispersión IV medio
Estadística y probabilidad aplicada a los negocios
Medidas de tendencia central
TEMA 7 ANÁLISIS DE LOS RESULTADOS TEMA 7 ANÁLISIS DE LOS RESULTADOS.
Transcripción de la presentación:

Enfoque estadístico para estimación y predicción MSc. Carlos Alberto Cobos Lozada ccobos@unicauca.edu.co http://www.unicauca.edu.co/~ccobos Grupo de I+D en Tecnologías de la Información Departamento de Sistemas Facultad de Ingeniería Electrónica y Telecomunicaciones Universidad del Cauca

Resumen Previo Prueba de hipótesis vs Análisis Exploratorio de los Datos (EDA) Ejemplo de clientes que dejan el servicio (Churn) Manejo de variables correlacionadas Eliminación de variables redundantes Análisis de regresión lineal (variantes de la misma) Exploración de variables categóricas (por cantidad y por porcentaje) Cruzar dos variables frente a la variable objetivo (si existe) Exploración de variables numéricas (media, moda, desviación estándar, mínimo, máximo, mediana, simetría vs asimetría) Coeficiente de correlación de pearson Herramientas Visuales de EDA (histogramas, gráficos de dispersión, análisis multivariable, gráficos que se puedan mover, rotar y/o expandir, …) Reporte general de cambios al data set Discretización (Binning – Banding) Igual ancho, igual cantidad en rango, variables con similar comportamiento

Tareas de minería de datos Descripción Técnicas estadísticas (media, moda, mediana, desviación estándar, mínimo , máximo, rango, correlaciones) y gráficas, algoritmos genéticos Clasificación Redes neuronales (back propagation), árboles de decisión (ID3, C4.5, C5.0, CART), k-nn (k vecinos más cercanos), naive bayes, técnicas estadísticas Estimación Técnicas estadísticas (regresión lineal simple, correlación, regresión múltiple), árboles de decisión, k-nn, redes neuronales Predicción Técnicas estadísticas, redes neuronales, árboles de decisión, k-nn, algoritmos genéticos Agrupación (Clustering) Jerárquico, K-nn, K-means, Red Kohonen, Fuzzy C-means Asociación Apriori (all, some, dynamic some), GRI, FP Grow Idea general NO camisa de fuerza

Métodos univariable: Medidas de centro Comprensión del negocio Análisis de los datos Preparación de los datos Modelamiento Evaluación Despliegue Datos Conteo Media Suma Mediana Moda La desviación estándar (o desviación típica) es una medida del grado de dispersión de los datos del valor promedio, dice cuánto tienden a alejarse los valores puntuales del promedio en una distribución. La mediana es el valor que deja el mismo número de datos antes y después que él, una vez ordenados estos La moda es el valor más frecuente. Para la formula de moda en rangos, tenga en cuenta: L1 = Límite inferior de la clase modal. D1 = Exceso de la frecuencia modal sobre la clase contigua inferior. D2 = Exceso de la frecuencia modal sobre la clase contigua superior. C = Tamaño del intervalo de la clase modal. Ejemplo: Encontrar la estatura modal de un grupo que se encuentra distribuido de la siguiente forma: Entre 1.70 y 1.80 hay 6 estudiantes. Entre 1.60 y 1.70 hay 10 estudiantes. Entre 1.50 y 1.60 hay 4 estudiantes. Moda = 1.60 + (6 / (4 + 6)) * 0.10 = 1.66

Métodos univariable: Medidas de dispersión Desviación estándar Error estándar de la media Desviación Absoluta Media (DAM) La desviación estándar (o desviación típica) es una medida del grado de dispersión de los datos del valor promedio, dice cuánto tienden a alejarse los valores puntuales del promedio en una distribución. La mediana es el valor que deja el mismo número de datos antes y después que él, una vez ordenados estos La moda es el valor más frecuente. Para la formula de moda en rangos, tenga en cuenta: L1 = Límite inferior de la clase modal. D1 = Exceso de la frecuencia modal sobre la clase contigua inferior. D2 = Exceso de la frecuencia modal sobre la clase contigua superior. C = Tamaño del intervalo de la clase modal. Ejemplo: Encontrar la estatura modal de un grupo que se encuentra distribuido de la siguiente forma: Entre 1.70 y 1.80 hay 6 estudiantes. Entre 1.60 y 1.70 hay 10 estudiantes. Entre 1.50 y 1.60 hay 4 estudiantes. Moda = 1.60 + (6 / (4 + 6)) * 0.10 = 1.66

Métodos univariable: Medidas de posición no central Los cuartiles, que dividen a la distribución en cuatro partes Primer cuartil (Q1) Segundo cuartil (Q2) = la mediana Tercer cuartil (Q3) Rango Inter cuartil (IQR) = Q3-Q1 Los quintiles, dividen la distribución en cinco partes Los deciles, dividen la distribución en diez partes Los percentiles, dividen la distribución en cien partes Tomado de [1] para uso educativo

Métodos univariable: Outliers y Sesgo Media (sensible a outliers): Revisar el sesgo, ejemplo, no coincide con moda y/o mediana (menos sensible) Histogramas La Desviación Estándar también es sensible a Outliers … preferible DAM

Métodos univariable La mayoría de datos esta entre las dos desviaciones estándar de la media Tomado de [2] para uso educativo

Inferencia Estadística Métodos para estimar y probar hipótesis en poblaciones con base en datos muéstrales (representativos) Los parámetros de una población normalmente son desconocidos (por ejemplo la media) y se denotan con letras griegas (μ) Es fácil conocer las características de una muestra, por ejemplo la media de llamadas a servicio al cliente es 1.563 Error muestral = | x - μ | normalmente desconocido - Tomado de [1] para uso educativo

Estimación del Intervalo de Confianza Intervalo de datos en los que se puede tener un nivel de confianza Valor Estimado ± Margen de Error Si Margen de Error es pequeño Entonces Mayor Precisión Ejemplo: El intervalo t es usado en distribuciones normales o con muestras de gran tamaño

Estimación del Intervalo de Confianza La cantidad representa el error normal de la media muestral (error estándar de la media) El multiplicador es asociado con el tamaño de la muestra y el nivel de confianza (normalmente 90 a 99%)

Estimación por intervalo de confianza Con el 95% confianza el número medio de llamadas a servicio al cliente de la población se encontrará en este intervalo. El margen de error es 0.045. Tomado de [1] para uso educativo

Tabla Distribución Normal para intervalo de confianza Tomado de [2] para uso educativo

Métodos Bivariables: Regresión lineal simple Analistas están interesados en los métodos bivarible de estimación, por ejemplo, usando el valor de una variable (X) para estimar el valor de una variable dependiente (Y)

Regresión lineal simple Ŷ valor estimado (variable respuesta) b0 intercepto y de la regresión b1 inclinación de la regresión b0 y b1 coeficientes de regresión

Regresión lineal simple Tomado de [1] para uso educativo

Regresión lineal simple Tomado de [1] para uso educativo

Regresión lineal simple Figura anterior muestra la Evaluación nutritiva (Rating) vs. azúcar, junto con la línea de regresión de mínimos-cuadrados Ŷ = 59.4 - 2.42 * Azúcar Se precisa calcular coeficiente de correlación R = -0,76

Peligros de extrapolación CUIDADO: Un nuevo cereal y que al estimar su valor nutricional se obtenga un valor negativo. Tomado de [1] para uso educativo

Intervalo de confianza del valor medio de Y dado X Tomado de [1] para uso educativo

Intervalo de predicción para un valor elegido al azar de Y dado X La presencia de los "1+" asegura que el intervalo de la predicción siempre sea más ancho que el intervalo de confianza del valor medio Tomado de [1] para uso educativo

Tomado de [1] para uso educativo

Regresión Lineal Simple Demo basado en Excel

Regresión Múltiple Relación Relación negativa positiva Tomado de [1] para uso educativo

Regresión Múltiple Sin relación Tomado de [1] para uso educativo

Regresión Múltiple Eliminar Potasio por relación directa con Fibra Tomado de [1] para uso educativo

Resultados en MiniTab Tomado de [1] para uso educativo

Verificar los supuestos del modelo Linealidad Independencia Normalidad Varianza constante Gráficos Valor Normal vs. Residuos estandarizados Residuos estandarizados vs. Valores estimados

Diagrama de normalidad de residuos Tomado de [1] para uso educativo

Residuos estandarizados vs valores ajustados Tomado de [1] para uso educativo

Regresión Múltiple Demo basado en Matlab Tomado de [3] para uso educativo

Resumen Medidas de tendencia central y no central Medidas de dispersión Inferencia estadística e intervalos de confianza Regresión lineal simple Regresión múltiple Regresión puede ser logarítmica

Taller Usar el DataSet de clientes de una empresa de telecomunicaciones que se han ido a la competencia (churn) o que todavía permanecen en la compañía Montarlo en una Tabla de una Base de Datos (SQL Server, Access, ...) Hacer una aplicación en Visual C#.NET para analizar los datos del DataSet y definir: Simetría de las variables Media, Moda, Mediana Desviación estándar Q1, Q2, Q3, IQR Determinar posibles valores atípicos Establecer dependencia (directa/inversa) entra las variables: Regresión lineal Coeficiente de correlación y determinación Regresión múltiple Mostrar gráficamente los datos (usar ejemplo enviado de Office Web Components)

Referencias Discovering knowledge in Data: An Introduction to Data Mining. Daniel T. Larose. John Wiley & Sons, Inc. 2005. ISBN 0-471-66657-2 Pete Chapman, Julian Clinton, Randy Kerber and other. CRISP-DM 1.0. Step-by-step data mining guide, 1999-2000. SPSS Inc. Análisis y Extracción de Conocimiento en Sistemas de Información: Datawarehouse y Datamining. Departamento de Sistemas Informáticos y Computación. Universidad Politécnica de Valencia. http://www.dsic.upv.es/~jorallo/cursoDWDM. Matlab Help