EL ANÁLISIS DE REGRESIÓN MÚLTIPLE Sesión Miércoles 21 de Julio

Slides:



Advertisements
Presentaciones similares
Regresión Lineal Verificación de Supuestos
Advertisements

León Darío Bello Parias
Titular: Agustín Salvia
Unidad 4 Análisis de los Datos.
REGRESIÓN LINEAL MÚLTIPLE TEMA INTRODUCCIÓN 2 x1x1 Y x2x2 x3x3 xKxK.
Contraste de Hipotesis
LEONARDO LÓPEZ C. ECONOMIA ESTADISTICA COMPUTARIZADA PARALELO: 261.
PRINCIPIOS DE ESTADÍSTICAS INFERENCIALES PRUEBA DE HIPÓTESIS: MUESTRAS PEQUEÑAS.
TEMA 2: PARÁMETROS ESTADÍSTICOS. ÍNDICE 1. Parámetros estadísticos. 2.Interpretación de la media y desviación típica. 3. Coeficiente de variación.
ESTADÍSTICA II Ing. Danmelys Perozo MSc. Blog:
¿Qué es el Análisis Multivariante? X Y Z W T Son métodos estadísticos que analizan X, Y, Z, W, …, T simultaneamente Medidas múltiples Individuo u objeto.
DISEÑOS EXPERIMENTALES ESTADÍSTICA PARA INGENIERIA II.
REGRESIÓN Y CORRELACIÓN  REGRESIÓN Es un Proceso estadístico que consiste en predecir una variable a partir de otra utilizando datos anteriores. INGA.
1 Pronósticos, Series de Tiempo y Regresión Capítulo 3: Regresión Lineal Simple.
¡Guía tonta de estadística! Dr. Hamda Qotba, B.Med.Sc, M.D, ABCM.
Prof. Dr. Luis Alberto Rubio Jacobo CURSO: “Estadística Aplicada al Marketing” MAESTRIA EN GERENCIA DE MARKETING.
MEP- II.
Procedimiento completo de regresión múltiple
Estimación de la distribución de las variables
Descripción y tratamientos de datos multivariantes
ESTADÍSTICAS INFERENCIALES
MODELOS de PROBABILIDAD Modelo LOGIT
Instituto Nacional de Estadística y Geografía
Curso de Elaboración de Pruebas Prof. Gerardo A. Valderrama M
PRUEBA DE HIPÓTESIS: MUESTRAS PEQUEÑAS
Procedimiento completo de regresión múltiple
Pedro Letelier Patricio Contreras
ESTRATEGIAS Y DISEÑOS AVANZADOS DE INVESTIGACIÓN SOCIAL
¿Qué es? ¿Para que se utiliza?
TALLER REGIONAL SOBRE EL DISEÑO ESTADÍSTICO DE ENCUESTAS DE HOGARES PARA EL ESTUDIO DEL MERCADO LABORAL “Jackknife” Jaime Mojica Cuevas Agosto Panamá.
Análisis de varianza Paramétricos vs. No Paramétricos
CORRELACIÓN PARCIAL Y CORRELACIÓN SEMIPARCIAL
Introducción a los modelos econométricos
ESTADÍSTICA II Ing. Danmelys Perozo MSc.
Regresion Multiple Varias variables explicativas
Capítulo 6 Regresión no lineal
¿Cuándo usar esta distribución?
Temas Estimador de Efectos Fijos: utiliza una transformación para eliminar el efecto inobservable ai antes de la estimación Estimador de Efectos Aleatorios:
Regresión y Correlación Múltiple: Confusión y colinearidad.
Tema 4: Análisis de datos bivariantes numéricos (continuación)
Correlación Lineal de Pearson y Regresión Lineal Simple
Tema 9 Fiabilidad de las puntuaciones
Capitulo 10 Análisis de los datos cuantitativos. Programas Computacionales La Matriz de Datos Estadística Pasos SPSS Minitab SAS Stats Como Reportar resultados.
¡Guía básica de estadística! Dr. Hamda Qotba, B.Med.Sc, M.D, ABCM.
Análisis descriptivo y presentación de datos bivariables
PREDICCIÓN Y ESTIMACIÓN
REGRESÍON LINEAL SIMPLE
UNIDAD CURRICULAR: ESTADÍSTICA II
Modelo de regresión lineal múltiple. Estimación de parámetros. Evaluación de la recta estimada. Diagnóstico del modelo. Detección, evaluación de puntos.
ANALISIS DE VARIANZA
Tema 1- Regresión lineal simple.
Correlación Relación no lineal Relación lineal positiva Relación
Contraste de Hipotesis
CAUDALES. ESTADÍSTICA HIDROLÓGICA ESTADÍSTICA E N LA HIDROLOGÍA ESTADÍSTICA HIDROLÓGICA Los procesos hidrológicos varían en el espacio y en el tiempo.
Identificación de los efectos de los diseños experimentales.
ICPM050 – ECONOMETRÍA tema 03: ESTIMACIÓN MODELO LINEAL SIMPLE
Correlación Relación no lineal Relación lineal positiva Relación
¡Guía tonta de estadística! Dr. Hamda Qotba, B.Med.Sc, M.D, ABCM.
Regresión Lineal Simple
Contraste de Hipotesis
Contraste de Hipotesis
ANÁLISIS DE VARIANZA(ANOVA) AULA:33 INTEGRANTES: JUAN CHAUCA ALEXIS JARAMILLO JEFFERSON LLANGARI KATHY ULLOA UNIVERSIDAD CENTRAL DEL ECUADOR FACULTAD DE.
Analisis de Regresion Multiple
diseño de investigación
01/08/ Escuela Nacional de Estadística e Informátia Muestreo I Muestreo Aleatorio Estratificado Prof. Willer David Chanduvi Puicón.
ESTADÍSTICA DESCRIPTIVA Mg. JHON FREDY SABI ROJAS.
ESTUDIO DE MERCADO. MÉTODOS DE PROYECCIÓN ¿Qué es una proyección? Es una estimación del comportamiento de una variable en el futuro. Específicamente, se.
REGRESION LINEAL SIMPLE
Econometría financiera Retorno y riesgo. ¿Qué es la econometría financiera? La econometría consiste en dar un contenido empírico a un razonamiento económico.
Transcripción de la presentación:

EL ANÁLISIS DE REGRESIÓN MÚLTIPLE Sesión Miércoles 21 de Julio

EL ANÁLISIS DE REGRESIÓN MÚLTIPLE: CONCEPTO Método multivariante que analiza la relación entre una única variable dependiente (criterio) y varias variables independientes (predictores). El objetivo es predecir cambios en la variable dependiente en respuesta a cambios en varias de las variables independientes Cada variable predictor es ponderada, indicando la ponderación su contribución relativa a la predicción conjunta El conjunto de variables independientes ponderadas se denomina valor teórico de la regresión o ecuación de regresión Y= b0 + b1X1 + b2X2 +.....+ bn Xn Técnica de dependencia en la que los datos deben ser métricos o apropiadamente transformados

DIAGRAMA DE DECISIÓN DE LA REGRESIÓN MÚLTIPLE (I) Análisis de regresión múltiple DIAGRAMA DE DECISIÓN DE LA REGRESIÓN MÚLTIPLE (I) Primer paso Problema de investigación Seleccionar objetivo (s) - Predicción - Explicación Seleccionar variables dep. e indep. Segundo paso Diseño de la investigación Selección del tamaño muestral Creación de variables adicionales No Tercer paso Supuestos en la regresión múltiple ¿Cumplen las variables individuales los supuestos de: normalidad linealidad homoscedasticidad? Si

DIAGRAMA DE DECISIÓN DE LA REGRESIÓN MÚLTIPLE (II) Análisis de regresión múltiple DIAGRAMA DE DECISIÓN DE LA REGRESIÓN MÚLTIPLE (II) Estimación del modelo de regresión ¿especifica el investigador el modelo o se utiliza algún procedimiento de selección de las var. indep.? Cuarto paso Especificación del investigador Procedimiento de selección Método de estimación secuencial Estimación progresiva/regresiva Estimación por etapas Método de combinación Examinar todas las combinaciones posibles para identificar la que mejor se ajusta ¿Cumple el valor teórico de regresión los supuestos del análisis de regresión? No A segundo paso: Creación de variables adicionales Si Examinar significación estadística del modelo Coeficiente de determinación (R2) Coeficiente de determinación ajustado Significación de los coeficientes de regresión

DIAGRAMA DE DECISIÓN DE LA REGRESIÓN MÚLTIPLE (III) Análisis de regresión múltiple DIAGRAMA DE DECISIÓN DE LA REGRESIÓN MÚLTIPLE (III) Interpretación del valor teórico de la regresión Evaluar importancia relativa de las variables independientes con los coeficientes beta Valoración de la multicolinealidad Quinto paso Validación de los resultados Contraste del modelo de regresión en una nueva muestra de la población Dividir la muestra en dos partes y utilizar una submuestra para crear el modelo y otra para contrastarlo Sexto paso

OBJETIVOS DE LA REGRESIÓN MÚLTIPLE Análisis de regresión múltiple OBJETIVOS DE LA REGRESIÓN MÚLTIPLE Predicción de la variable criterio con un conjunto de variables independientes, de forma que se maximice el valor teórico de la regresión. La predicción del modelo elegido debe demostrar tanto significación práctica como estadística Explicación objetiva del grado y carácter de la relación entre las variables independientes y la variable dependiente. Concretamente: Determinación de la importancia relativa de cada variable independiente sobre la variable dependiente (magnitud y dirección de la relación) Evaluación de la naturaleza de las relaciones entre las variables independientes y la dependiente (lineal y/o curvilineal) Evaluación de las interrelaciones entre las variables independientes

CREACIÓN DE VARIABLES ADICIONALES Análisis de regresión múltiple CREACIÓN DE VARIABLES ADICIONALES Transformaciones de las variables para cumplir los supuestos Transformaciones más comunes: inversa, raiz cuadrada y logaritmo Incorporación de datos no métricos con variables ficticias Cuando la variable dependiente se mide como una variable dicotómica (0,1) Análisis discriminante Regresión logística Cuando las variables independientes son no métricas, con dos o más categorías Se pueden sustituir por variables ficticias. Cualquier variable no métrica con k categorías puede representarse con k-1 variables ficticias

SUPUESTOS EN LA REGRESIÓN MÚLTIPLE Análisis de regresión múltiple SUPUESTOS EN LA REGRESIÓN MÚLTIPLE NORMALIDAD El perfil de la distribución de los datos se corresponde con una distribución normal. Si la variación respecto de la distribución normal es amplia, los tests estadísticos resultantes no son válidos, dado que se requiere la normalidad para el uso de los estadísticos de la t y de la F. La normalidad univariante ayuda a obtener normalidad multivariante, pero no la garantiza. La normalidad multivariante implica que las variables individuales son normales. ¿cómo evaluarla? 1. Gráfico de probabilidad normal de los residuos 2. Test de Kolmogorov-Smirnov sobre los residuos estandarizados LINEALIDAD Supuesto implícito en todas las técnicas multivariantes basadas en medidas de correlación. Resulta necesario identificar cualquier desplazamiento de la linealidad que pueda impactar la correlación. ¿cómo evaluarla? Examen visual de los residuos y Gráfico de regresión parcial HOMOSCEDASTICIDAD Varianza constante del término de error. Se refiere al supuesto de que las variables dependientes exhiban iguales niveles de varianza a lo largo del rango de los valores de las variables independientes. ¿cómo evaluarla? 1. Examen visual de los residuos 2. Test de Levene

MÉTODOS DE ESTIMACIÓN SECUENCIAL Análisis de regresión múltiple MÉTODOS DE ESTIMACIÓN SECUENCIAL Estimación por etapas (paso a paso ó stepwise) 1. Empezar con modelo de regresión simple, seleccionando la variable independiente que tenga la mayor correlación con la variable dependiente. Ecuación: Y = b0 + b1X1 2. Examinar coeficientes de correlación parcial para encontrar una variable adicional que explique la mayor parte del error que queda de la primera ecuación de regresión 3. Recalcular la ecuación de regresión utilizando las dos variables independientes, y examinar el valor parcial F de la variable original del modelo para ver si todavía realiza una contribución significativa. Si no lo hace, se elimina. Si lo hace, la ecuación queda: Y = b0 + b1X1 + b2X2 4. Continuar este procedimiento con todas las variables independientes restantes para ver si deberían incluirse en la ecuación. Si se incluye alguna, hay que examinar las variables previamente incluidas para juzgar si deben mantenerse Estimación progresiva (forward) y regresiva (backward) El modelo de estimación progresiva es similar a la estimación por etapas, mientras que la estimación regresiva implica calcular una ecuación de regresión con todas las variables independientes, para a continuación ir eliminando aquéllas que no contribuyan significativamente. La diferencia con la estimación por etapas es que en ésta se pueden añadir o eliminar variables en cada etapa, mientras que una vez que se añade o elimina una variable en los procedimientos de estimación progresiva o regresiva, no existe la posibilidad de revertir la acción posteriormente.

EVALUACIÓN DE LA MULTICOLINEALIDAD Análisis de regresión múltiple EVALUACIÓN DE LA MULTICOLINEALIDAD Situación ideal: Tener una cantidad de variables independientes altamente correlacionadas con la variable dependiente, pero con poca correlación entre sí Multicolinealidad: correlación entre tres o más variables independientes La multicolinealidad reduce el poder predictivo de cualquier variable independiente individual, en la medida en que está asociado con las otras variables independientes A mayor colinealidad, la varianza única explicada por cada variable independiente se reduce y el porcentaje de predicción compartida aumenta ¿Cómo detectar la existencia de multicolinealidad? 1. Examen de la matriz de correlación de las variables independientes (altas correlaciones indican elevada colinealidad) 2. Estadísticos de colinealidad: valor de tolerancia (TOL) y factor de inflación de la varianza (FIV) (valores de TOL próximos a 0 y elevados valores de FIV, superiores a 4, denotan multicolinealidad) Efecto

EL ANÁLISIS DE LA VARIANZA (ANOVA) Análisis bivariante TABULACIÓN CRUZADA Método de análisis comúnmente usado para clasificar variables categóricas. A través de una tabla de contingencia, se cruzan dos variables y se interpretan los porcentajes. Proporciona un valor chi-cuadrado, que permite contrastar si existe relación entre las variables que se cruzan. Valores significativos del estadístico indican que existe relación. EL ANÁLISIS DE LA VARIANZA (ANOVA) Procedimiento para valorar las diferencias de grupo. Se utiliza para constrastar la hipótesis de que varias medias muestrales son iguales. Las variables dependientes son métricas, mientras que el factor (variable independiente) es una variable categórica. Proporciona un estadístico F. Valores significativos de F indican que existen diferencias significativas entres las muestras. REGRESIÓN SIMPLE Método univariante que analiza la relación entre una variable dependiente (criterio) y una única variable independiente (predictor). El objetivo es predecir cambios en la variable dependiente en respuesta a cambios en la variable independiente.

Homogeneus variance  Homocedasticity. HOMOCEDASTICIDAD Hipótesis referente a la dispersión de los valores de una perturbación aleatoria en un modelo de regresión lineal, que consiste en suponer que la variable se distribuye con igual varianza en cualquiera de las estimaciones hechas mediante el modelo. Homogeneus variance  Homocedasticity.

Análisis gráfico Homocedasticidad Heterocedasticidad

Causas frecuentes de ausencia de homocedasticidad Variables independientes que posean un gran recorrido con respecto a su propia media Esto generalmente ocurre cuando se ha dispuesto arbitrariamente el orden de las observaciones, generando, casualmente que existan observaciones con grandes valores en una determinada variable explicativa y lo mismo con valores pequeños de esta misma variable. Omisión de variables importantes dentro del modelo a estimar Obviamente, si se omite una variable de relevancia en la especificación, tal variable quedará parcialmente recogida dentro de las perturbaciones aleatorias, introduciendo en estas su propia variación, que no será necesariamente fija. Cambio de estructura El hecho de que se produzca un cambio en la estructura determina un mal ajuste de los parámetros al conjunto de los datos muestrales. Y este no tiene porque influir del mismo modo en todo el recorrido de la muestra, pudiendo producir cuantías de desajuste del modelo diferentes y, por lo tanto, varianza no constante Utilizar variables no relativizadas Cuando existen observaciones dentro de una variable en concreto, y que poseen un valor mayor a las otras variables explicativas, puede originar valores del error diferentes. Esta situación es similar a la explicada al principio pero con la salvedad que en este caso se compara con las otras variables (inclusive con la dependiente) y no con respecto a su media.