La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

REGRESION LINEAL MULTIPLE: Introducción

Presentaciones similares


Presentación del tema: "REGRESION LINEAL MULTIPLE: Introducción"— Transcripción de la presentación:

1 REGRESION LINEAL MULTIPLE: Introducción
Mario Briones L. MV, MSc 2005

2

3 DESARROLLO DEL MODELO Búsqueda de las variables a incluir en el modelo. Se asume que hay un conjunto de variables candidatas o disponibles, el cual presumiblemente incluye todas las variables relevantes, a partir del cual un subconjunto de r variables debe elegirse para la ecuación de regresión. Las variables candidatas pueden incluir diferentes formas de la misma variable básica, tales como X y X2 y el proceso de selección puede incluir restriciones acerca de las variables que pueden ser incluidas. Por ejemplo, X puede ser forzada a incluirse en el modelo si X2 está en el subconjunto seleccionado.

4 Hay 3 áreas problema relacionadas con esto:
1. Los efectos teóricos de la selección de variables sobre la regresión resultante. 2. Los métodos de cálculo para encontrar el “mejor” subconjunto de variables para cada tamaño de subconjunto. 3. La elección del tamaño del subconjunto (para el modelo final), o regla de detención

5 Usos de la ecuación de regresión:
1. Proporcionar una buena descripción de la conducta en la variable de respuesta. 2. Predicción de respuesta futura y estimación de respuestas promedio. 3. Extrapolación o predicción de respuestas fuera del rango de los datos. 4. Estimación de parámetros. 5. Control de un proceso por variación de los nivele de input. 6. Desarrollo de modelos realísticos del proceso.

6 Cada objetivo tiene implicancias diferentes en el modo
como se coloca el énfasis en la eliminación de variables desde el modelo, o en cuan importante es que las variables retenidas estén causalmente relacionadas con la variable de respuesta. Las decisiones acerca de causalidad y realismo deben depender de información ajena al conjunto de datos. Por ej., modalidad de recolección de los datos y conocimiento fundamental acerca de la operación del sistema.

7 Objetivo: descripción de la conducta de la variable
respuesta en un conjunto particular de datos. No tiene importancia la eliminación de variables, las posibles relaciones causales o el realismo del modelo. La mejor descripción de la variable respuesta, en términos de mínima suma de cuadrados residuales, estará dada por el modelo completo.

8 DEP VAR: BIO N: 45 MULTIPLE R: 0.823 SQUARED MULTIPLE R: 0.677
ADJUSTED SQUARED MULTIPLE R: STANDARD ERROR OF ESTIMATE: VARIABLE COEFFICIENT STD ERROR STD COEF TOLERANCE T P(2 TAIL) CONSTANT SAL PH K NA ZN ANALYSIS OF VARIANCE SOURCE SUM-OF-SQUARES DF MEAN-SQUARE F-RATIO P REGRESSION E RESIDUAL

9 Las ecuaciones de regresión con pocas variables :
Tienen el atractivo de la simplicidad. Son económicas por baja información necesaria. Eliminan variables irrelevantes. Eliminan variables con bajo aporte a la explicación de la variable dependiente.

10 Los usos de PREDICCION y ESTIMACION de
respuestas promedio son los más tolerantes a la eliminación de variables. Al mismo tiempo, no es importante si las variables están causalmente relacionadas o el modelo es realístico. Se asume que la predicción y la estimación van a estar en el espacio de X de los datos y que el sistema continua operando como cuando se recogieron los datos. Cualquier variable que contenga información predictiva acerca de la variable dependiente y para la cual se pueda obtener información a bajo costo, es una variable de utilidad.

11 La extrapolación requiere más cuidado en la elección de las variables.
Las variables retenidas deben describir de la manera más completa posible la conducta del sistema. Las extrapolaciones más allá del ámbito de X son siempre peligrosas. Debe re analizarse y agregarse continuamente información.

12 Estimación de parámetros:
Se debe tener precaución al sacar variables del modelo, para evitar sesgo. Como ventaja, la eliminación de variables realmente no relacionadas reduce la varianza de las estimaciones. Control de un sistema: Implica una relación de causa efecto entre las variables independientes y la variable de respuesta. Si se eliminan las variables incorrectas conduce a una falta de efecto de la intervención sobre el sistema.

13 El objetivo de la investigación básica es con
frecuencia la construcción de modelos realísticos La meta final es la comprensión del proceso. Existe siempre un interés en identificar las variables importantes por su relación de causa sobre el modelo. La selección no puede basarse sólo sobre la estructura correlacional. Este análisis sirve para identificar clases de variables que promuevan investigación posterior del tipo causa efecto. En la medida que se necesita mayor conocimiento del proceso, hay mayor interés en desarrollar modelos cuya forma funcional refleje realísticamente la conducta del sistema.

14 Cuando las variables independientes
en el conjunto de datos son ortogonales, el resultado de mínimo cuadrado para cada variable es el mismo independientemente de cual otra variable se incorpore al modelo. Entonces, el resultado de un solo análisis puede ser utilizado para escoger las variables independientes que permanecen en el modelo. En datos observacionales y por pérdida en experimentos, se produce falta de ortogonalidad y el resultado de mínimos cuadrados de cada una es dependiente de las otrad variables incluidas en el modelo.

15 Conceptualmente, la única manera de asegurar
que se escoge el mejor modelo para cada subconjunto, es calcular todas las posibles regresiones. Se puede cuando el número de variables es relativamente pequeño, pero si hay 10 variables independientes hay = 1023 posibles modelos a evaluar.

16 Este procedimiento identifica los modelos de los
PROCEDIMIENTO DE REGRESION STEPWISE Este procedimiento identifica los modelos de los subconjuntos agregando o borrando, según la alternativa, la variable que tenga un mayor impacto sobre la suma de cuadrados residuales.

17 escoje los subconjuntos de modelos agregando una
Forward stepwise: escoje los subconjuntos de modelos agregando una variable a la vez al conjunto previamente elegido. Este procedimiento comienza eligiendo como subconjunto de una variable a aquella variable independiente que explica la mayor parte de la variación en la variable dependiente. Esta es la con mayor correlación lineal con Y. En cada paso sucesivo, se agrega al subconjunto aquella variable QUE NO ESTABA en el modelo previo y que produce la mayor reducción en la suma de cuadrados residuales.

18 En la práctica, es la variable que tiene la mayor
correlación con los residuales del modelo actual. Sin una regla de término, la selección continúa hasta incluir todas las variables en el promedio.

19 Backward elimination:
Escoge el modelo comenzando con todas las variables y eliminando en cada paso la variable cuya eliminación cause el mínimo incremento en la suma de cuadrados residuales. Esta es la variable dependiente que en el modelo actual tenga la más pequeña suma de cuadrados parciales. Sin una regla de término, la selección continúa hasta que el modelo incluye una sola variable.

20 Ninguno de los dos procedimientos toma en cuenta el
efecto que la adición o eliminación de una variable puede tener en la contribución de las otras variables del modelo. Una variable agregada tempranamente al modelo en Forward selection puede hacerse irrelevante más adelante, a agregar otras variables o bien, variables eliminadas tempranamente pueden hacerse importantes después que otras se han eliminado del modelo. El método llamado stepwise es una selección hacia delante que rechequea en cada paso la importancia de las variables ya incluidas.

21 Si la suma de cuadrados parciales para cualquiera
de las variables incluidas previamente no satisface un criterio mínimo para permanecer en el modelo, el procedimiento cambia a eliminación hacia atrás y las variables son eliminadas una a la vez hasta que todas las variables satisfacen el criterio. Después de esto se reanuda la selección hacia adelante.

22 CRITERIOS DE TERMINO DE SELECCION
SELECCIÓN HACIA ADELANTE: Tasa de reducción en la suma de cuadrados residuales producto de la incorporación de la siguiente variable Nivel crítico de F para entrar o nivel de significancia El proceso termina cuando ninguna de las variables fuera del modelo satisface el criterio para entrar. SELECCIÓN HACIA ATRÁS: Test de F para la mayor suma de cuadrados residuales de las variables que permanecen en el modelo.


Descargar ppt "REGRESION LINEAL MULTIPLE: Introducción"

Presentaciones similares


Anuncios Google