REGRESION LINEAL MULTIPLE: Introducción

Slides:



Advertisements
Presentaciones similares
CONTENIDOS Teoría del muestreo ¿Cómo seleccionar una muestra?
Advertisements

Modelos de Variable Dependiente Binaria -Logit y Probit-
ESTUDIO DE MERCADO. MÉTODOS DE PROYECCIÓN
Pronósticos, Series de Tiempo y Regresión
FORMULACION DEL DISEÑO DE LA INVESTIGACION
¿Cuál es la naturaleza de las ecuaciones simultáneas?
Metodología – Procesos Psicológicos Básicos Prof: Julio Santiago
León Darío Bello Parias
KRIGING.
Covarianza muestral Sean x1, x2, ..., xn e y1, y2, ..., yn dos muestras aleatorias independientes de observaciones de X e Y respectivamente. La covarianza.
Modelado y simulación en Ingeniería Química. Manuel Rodríguez
Representación en espacio de estado
ESTRATEGIAS Y DISEÑOS AVANZADOS DE INVESTIGACIÓN
MANUAL DE LABORATORIO DE CÓMPUTO ECONOMETRÍA I MULTICOLINEALIDAD
ESTRATEGIAS Y DISEÑOS AVANZADOS DE INVESTIGACIÓN SOCIAL
MODELOS DE ECUACIONES SIMULTÁNEAS
Capitulo 10: La metodología Box-Jenkins
Regresión y correlación
Problema de la medición en Psicología
9 Regresión Lineal Simple
División de Estudios Políticos, CIDE
REGRESION LINEAL En la búsqueda de mejoras o en la solución de problemas es necesario, frecuentemente, investigar la relación entre factores (o variables).
Regresión Lineal Múltiple
Técnicas estadísticas paramétricas univariantes: regresión
Población y Muestra.
MODELOS DE ELECCIÓN BINARIA: ANÁLISIS LOGIT
MODELOS GENERALIZADOS
Diseño de la investigación
Importancia de las aplicaciones de estadística en el control de procesos Guatemala 2010.
Investigación bajo el Paradigma Cuantitativo
Curso de Bioestadística. ANOVA
DISEÑOS ESTADÍSTICOS: principios de la inferencia científica.
Predicción: Aproximación intuitiva. La actividad de predicción es un fenómeno inherente a la condición humana y permanentemente estamos realizando predicciones.
Pronósticos, Series de Tiempo y Regresión
Pronósticos, Series de Tiempo y Regresión
(Organización y Manejo de Archivos)
SISTEMAS ADAPTATIVOS Y FILTRADO
Investigación Experimental
ESTIMACION En varios pasajes de este libro hemos planteado la dificultad que se confronta en las investigaciones, de llegar a conclusiones sobre una población.
Universidad Nacional de Colombia Curso Análisis de Datos Cuantitativos.
Titular: Agustín Salvia
Regresión No- lineal y Múltiple
CORRELACION Y REGRESION LINEAL: Introducción
Concepto Según la estrategia de medidas repetidas, las unidades son observadas a lo largo de una serie reducida de intervalos de tiempo u ocasiones.
Diagnóstico Participativo
UNIDAD 1.- EVALUACIÓN DE DATOS ANALITICOS
REGRESION LINEAL II Mario Briones L. MV, MSc
Definición del alcance de la investigación a realizar: Exploratoria, descriptiva, correlacional o explicativa.
Capitulo 1: “La ciencia en las ciencias sociales”
MÉTODOS DE ANÁLISIS EN LA TOMA DE DECISIONES EXISTEN PROCEDIMIENTOS DE ORDEN MATEMÁTICO, FINANCIERO, ECONÓMICO, ESTADÍSTICO ENTRE OTROS, PARA LA TOMA DE.
REGRESIÓN MULTIPLE CON DOS VARIABLES EXPLICATIVAS: EJEMPLO INGRESO EXP S 11 1 INGRESO =  1 +  2 S +  3 EXP + u Esta presentación proporciona una interpretación.
Planificación de transporte UNIDAD V: GENERACION DEL MOVIMIENTO DE PASAJEROS EL EMPLEO DE ANALISIS DE REGRESION Múltiple EN LA PREDICCION DE FUTURA.
TIPOS DE INVESTIGACION
Análisis de los Datos Cuantitativos
Aplicaciones Estadísticas a las Finanzas Clase 1
LA SELECCIÓN DE LAS MUESTRAS EN EL PROCESO DE INVESTIGACIÓN
Método de mínimos cuadrados
MUESTREO : Generalidades
Regresión lineal simple Nazira Calleja
Unidad 4 Análisis de los Datos.
Regresión múltiple Métodos Nazira Calleja
Germán Fromm R. 1. Objetivo Entender los diseños metodológicos predictivos 2.
1 Tema 8. Diseños evaluativos de alta intervención TALLER: DISEÑO Y EVALUACIÓN DE PROGRAMAS XIV CONGRESO DE METODOLOGÍA DE LAS CIENCIAS SOCIALES Y DE LA.
Aplicaciones Estadísticas a las Finanzas Clase 1
REGRESIÓN LINEAL SIMPLE. Temas Introducción Análisis de regresión (Ejemplo aplicado) La ecuación de una recta Modelo estadístico y suposiciones Estimación.
REGRESIÓN LINEAL SIMPLE TEMA INTRODUCCIÓN Determinar la ecuación de regresión sirve para: – Describir de manera concisa la relación entre variables.
MUESTREO Parte 1: Generalidades Una vez definido el problema a investigar, formulados los objetivos y delimitadas las variables se hace necesario determinar.
Free and Quick translation of Prof. Anderson's slides1 Analisis de Regresion Multiple y =  0 +  1 x 1 +  2 x  k x k + u 1. Estimacion.
1 INTRODUCCIÓN AL DISEÑO Y EVALUACIÓN DE PROGRAMAS SOCIALES, EDUCATIVOS Y DE LA SALUD Tema 7. Diseños evaluativos de intervención media (cuasi-experimentos)
M.E. ADA PAULINA MORA GONZALEZ. Esta parte describe las técnicas para ajustar curvas en base a datos para estimaciones intermedias. Una manera de hacerlo.
Transcripción de la presentación:

REGRESION LINEAL MULTIPLE: Introducción Mario Briones L. MV, MSc 2005

DESARROLLO DEL MODELO Búsqueda de las variables a incluir en el modelo. Se asume que hay un conjunto de variables candidatas o disponibles, el cual presumiblemente incluye todas las variables relevantes, a partir del cual un subconjunto de r variables debe elegirse para la ecuación de regresión. Las variables candidatas pueden incluir diferentes formas de la misma variable básica, tales como X y X2 y el proceso de selección puede incluir restriciones acerca de las variables que pueden ser incluidas. Por ejemplo, X puede ser forzada a incluirse en el modelo si X2 está en el subconjunto seleccionado.

Hay 3 áreas problema relacionadas con esto: 1. Los efectos teóricos de la selección de variables sobre la regresión resultante. 2. Los métodos de cálculo para encontrar el “mejor” subconjunto de variables para cada tamaño de subconjunto. 3. La elección del tamaño del subconjunto (para el modelo final), o regla de detención

Usos de la ecuación de regresión: 1. Proporcionar una buena descripción de la conducta en la variable de respuesta. 2. Predicción de respuesta futura y estimación de respuestas promedio. 3. Extrapolación o predicción de respuestas fuera del rango de los datos. 4. Estimación de parámetros. 5. Control de un proceso por variación de los nivele de input. 6. Desarrollo de modelos realísticos del proceso.

Cada objetivo tiene implicancias diferentes en el modo como se coloca el énfasis en la eliminación de variables desde el modelo, o en cuan importante es que las variables retenidas estén causalmente relacionadas con la variable de respuesta. Las decisiones acerca de causalidad y realismo deben depender de información ajena al conjunto de datos. Por ej., modalidad de recolección de los datos y conocimiento fundamental acerca de la operación del sistema.

Objetivo: descripción de la conducta de la variable respuesta en un conjunto particular de datos. No tiene importancia la eliminación de variables, las posibles relaciones causales o el realismo del modelo. La mejor descripción de la variable respuesta, en términos de mínima suma de cuadrados residuales, estará dada por el modelo completo.

DEP VAR: BIO N: 45 MULTIPLE R: 0.823 SQUARED MULTIPLE R: 0.677 ADJUSTED SQUARED MULTIPLE R: .636 STANDARD ERROR OF ESTIMATE: 398.267 VARIABLE COEFFICIENT STD ERROR STD COEF TOLERANCE T P(2 TAIL) CONSTANT 1252.575 1234.717 0.000 . 1.014 0.317 SAL -30.288 24.030 -0.171 0.451 -1.260 0.215 PH 305.483 87.882 0.577 0.300 3.476 0.001 K -0.285 0.348 -0.129 0.335 -0.819 0.418 NA -0.009 0.016 -0.090 0.300 -0.544 0.590 ZN -20.678 15.054 -0.259 0.232 -1.374 0.177 ANALYSIS OF VARIANCE SOURCE SUM-OF-SQUARES DF MEAN-SQUARE F-RATIO P REGRESSION .129849E+08 5 2596984.192 16.373 0.000 RESIDUAL 6186042.238 39 158616.468

Las ecuaciones de regresión con pocas variables : Tienen el atractivo de la simplicidad. Son económicas por baja información necesaria. Eliminan variables irrelevantes. Eliminan variables con bajo aporte a la explicación de la variable dependiente.

Los usos de PREDICCION y ESTIMACION de respuestas promedio son los más tolerantes a la eliminación de variables. Al mismo tiempo, no es importante si las variables están causalmente relacionadas o el modelo es realístico. Se asume que la predicción y la estimación van a estar en el espacio de X de los datos y que el sistema continua operando como cuando se recogieron los datos. Cualquier variable que contenga información predictiva acerca de la variable dependiente y para la cual se pueda obtener información a bajo costo, es una variable de utilidad.

La extrapolación requiere más cuidado en la elección de las variables. Las variables retenidas deben describir de la manera más completa posible la conducta del sistema. Las extrapolaciones más allá del ámbito de X son siempre peligrosas. Debe re analizarse y agregarse continuamente información.

Estimación de parámetros: Se debe tener precaución al sacar variables del modelo, para evitar sesgo. Como ventaja, la eliminación de variables realmente no relacionadas reduce la varianza de las estimaciones. Control de un sistema: Implica una relación de causa efecto entre las variables independientes y la variable de respuesta. Si se eliminan las variables incorrectas conduce a una falta de efecto de la intervención sobre el sistema.

El objetivo de la investigación básica es con frecuencia la construcción de modelos realísticos La meta final es la comprensión del proceso. Existe siempre un interés en identificar las variables importantes por su relación de causa sobre el modelo. La selección no puede basarse sólo sobre la estructura correlacional. Este análisis sirve para identificar clases de variables que promuevan investigación posterior del tipo causa efecto. En la medida que se necesita mayor conocimiento del proceso, hay mayor interés en desarrollar modelos cuya forma funcional refleje realísticamente la conducta del sistema.

Cuando las variables independientes en el conjunto de datos son ortogonales, el resultado de mínimo cuadrado para cada variable es el mismo independientemente de cual otra variable se incorpore al modelo. Entonces, el resultado de un solo análisis puede ser utilizado para escoger las variables independientes que permanecen en el modelo. En datos observacionales y por pérdida en experimentos, se produce falta de ortogonalidad y el resultado de mínimos cuadrados de cada una es dependiente de las otrad variables incluidas en el modelo.

Conceptualmente, la única manera de asegurar que se escoge el mejor modelo para cada subconjunto, es calcular todas las posibles regresiones. Se puede cuando el número de variables es relativamente pequeño, pero si hay 10 variables independientes hay 210-1 = 1023 posibles modelos a evaluar.

Este procedimiento identifica los modelos de los PROCEDIMIENTO DE REGRESION STEPWISE Este procedimiento identifica los modelos de los subconjuntos agregando o borrando, según la alternativa, la variable que tenga un mayor impacto sobre la suma de cuadrados residuales.

escoje los subconjuntos de modelos agregando una Forward stepwise: escoje los subconjuntos de modelos agregando una variable a la vez al conjunto previamente elegido. Este procedimiento comienza eligiendo como subconjunto de una variable a aquella variable independiente que explica la mayor parte de la variación en la variable dependiente. Esta es la con mayor correlación lineal con Y. En cada paso sucesivo, se agrega al subconjunto aquella variable QUE NO ESTABA en el modelo previo y que produce la mayor reducción en la suma de cuadrados residuales.

En la práctica, es la variable que tiene la mayor correlación con los residuales del modelo actual. Sin una regla de término, la selección continúa hasta incluir todas las variables en el promedio.

Backward elimination: Escoge el modelo comenzando con todas las variables y eliminando en cada paso la variable cuya eliminación cause el mínimo incremento en la suma de cuadrados residuales. Esta es la variable dependiente que en el modelo actual tenga la más pequeña suma de cuadrados parciales. Sin una regla de término, la selección continúa hasta que el modelo incluye una sola variable.

Ninguno de los dos procedimientos toma en cuenta el efecto que la adición o eliminación de una variable puede tener en la contribución de las otras variables del modelo. Una variable agregada tempranamente al modelo en Forward selection puede hacerse irrelevante más adelante, a agregar otras variables o bien, variables eliminadas tempranamente pueden hacerse importantes después que otras se han eliminado del modelo. El método llamado stepwise es una selección hacia delante que rechequea en cada paso la importancia de las variables ya incluidas.

Si la suma de cuadrados parciales para cualquiera de las variables incluidas previamente no satisface un criterio mínimo para permanecer en el modelo, el procedimiento cambia a eliminación hacia atrás y las variables son eliminadas una a la vez hasta que todas las variables satisfacen el criterio. Después de esto se reanuda la selección hacia adelante.

CRITERIOS DE TERMINO DE SELECCION SELECCIÓN HACIA ADELANTE: Tasa de reducción en la suma de cuadrados residuales producto de la incorporación de la siguiente variable Nivel crítico de F para entrar o nivel de significancia El proceso termina cuando ninguna de las variables fuera del modelo satisface el criterio para entrar. SELECCIÓN HACIA ATRÁS: Test de F para la mayor suma de cuadrados residuales de las variables que permanecen en el modelo.