Descargar la presentación
La descarga está en progreso. Por favor, espere
Publicada porJuan Arias Modificado hace 2 años
1
EL MODELO DE REGRESIÓN LINEAL SIMPLE
2
INTRODUCCIÓN Definición del problema Los modelos de regresión intentan encontrar una relación funcional entre una variable dependiente o endógena, y otra u otras independientes o exógenas (también llamadas regresores). Por lo tanto, su objetivo no es sólo poder afirmar cosas como: “El precio de una vivienda depende del número de metros cuadrados construidos”, o afinando más: “El precio de una vivienda es tanto mayor cuanto mayor es también su número de metros cuadrados construidos”.
3
”. El hecho de que la relación sea “funcional” implica una mayor concreción en la naturaleza de la misma, más cuantitativa en lugar de ser únicamente cualitativa: “El precio de la vivienda es 100.000 veces el número de metros cuadrados construidos de la misma”. Así, una vivienda de 100 m2 tendría un valor de mercado de 10 millones de u.m. Es éste el primer y fundamental tipo de resultados que se buscan, pero no el único. También interesa conocer el grado de confiabilidad de lo afirmado, buscando una mayor precisión: “El precio de la vivienda es aproximadamente 100.000 veces el número de metros cuadrados construidos, en un tanto por ciento determinado de los casos”. Es necesario determinar cuán “aproximada” es esa relación, y en qué “tanto por ciento” de los casos se cumple.
4
Fichero de datos En el presente capítulo se va a desarrollar tomando como material de trabajo un fichero de datos con información del precio medio de la vivienda en el año 1998 en cada una de las provincias españolas y las características más relevantes de los mismos. Los datos aquí facilitados serán también manejados en posteriores capítulos, por lo que convendrá disponer de un listado completo de las variables incluidas en los ficheros de Statgraphics y SPSS a fin de familiarizarse lo antes posible. Dicho listado se ha añadido como anejo 1 al final del presenta capítulo.
5
REGRESIÓN LINEAL Como es conocido, el modelo de regresión lineal trata de cuantificar la relación lineal existente entre la variabilidad de una variable y los valores que una o más variables, independientes de la primera, pueden tomar. Por lo tanto trata de determinar el valor de los coeficientes asignados a cada una de las variables independientes:
6
donde: Y = variable dependiente (precio de la vivienda) α= constante de la ecuación. Es el valor que toma la variable independiente cuando el resto de variables se sitúan en un valor nulo. β! = coeficiente de la variable X. El valor de la variable dependiente (precio de la vivienda) se incrementa/decrementa en unidades por un incremento/decremento unitario en el valor de Xi. e = variable que se distribuye aleatoriamente; representa la variabilidad de la variable dependiente Y que no viene explicada por el modelo de regresión (también llamada residuo). Esto es, de otros factores o parámetros no considerados en el análisis.
7
El modelo de regresión lineal puedes ser simple o múltiple. Es simple cuando sólo se utiliza una variable independiente para explicar el comportamiento de la variable dependiente. Por el contrario, cuando se considera más de una variable independiente o explicativa con el modelo, se trata de una regresión múltiple.
8
LA REGRESIÓN LINEAL SIMPLE EN STA TGRAPHICS YSPSS Como fichero de ejemplo para el presente capítulo, utilizaremos los archivos Vivienda provincias.sf3 y Viviendas provincias.sav para los programas Statgraphcis y SPSS respectivamente, ambos dentro de la carpeta provincias. En estos ficheros se recoge el precio por metro cuadrado para la vivienda nueva en 50 provincias españolas, en la variable pnueva, así como un amplio número de variables que serán utilizadas para obtener una relación funcional entre el precio y ellas, que determine, de una manera aproximada, el precio por metro cuadrado de la vivienda nueva. Por lo tanto, el primer paso para iniciar la parte práctica de este capítulo consiste en abrir los archivos arriba indicados.
9
A continuación, se realizará un regresión simple entre las variables pnueva (precio en miles de pesetas por metro cuadrado en la vivienda nueva) y pusada (precio en miles de pesetas por metro cuadrado en la vivienda usada), siendo la primera variable la que se quiere predecir, y la segunda la predictora; Esto es: Pnueva - variable dependiente Pusada - variable independiente El análisis de regresión simple se encuentra accesible a través de menú en ambos paquetes estadísticos: Statgraphics: Relate - Simple Regression SPSS: Estadísticos - Regresión - Lineal
10
En las figuras 1 y 2 se muestran los cuadros de diálogo asociados a cada una de las opciones, tal y como deben ser cumplimentados para realizar el análisis de regresión.
11
En cuanto a los resultados, ambos paquetes difieren en su presentación. Mientras el Statgraphics los incluye en una sola ventana (SIMPLE REGRESSION - PNUEVA vs SADA), SPSS muestra cuatro cuadros distintos en el navegador de resultados. Las figuras 3 y 4 representan estas salidas, si bien la correspondiente a la del SPSS (figura 4) sólo contiene los cuadros más importantes de la salida. -Statgrahics —> En la parte superior de la salida aparece un cuadro resumen donde se proporciona la relación funcional entre las variables pnueva y pusada. La fila Intercept se corresponde con a, la constante de la ecuación, mientras que Slope (pendiente) contiene el valor del coeficiente β!. Así pues, y según la salida del paquete Statgraphics, la estimación (columna Estimato) para estos parámetros queda como sigue: α = 422947 β!= 08335 pnueva = 422947 + 0’8335xpusada
12
La última de las columnas, P-Value, hace referencia al grado de significación de los coeficientes. A modo orientativo, diremos que un coeficiente es significativamente distinto de cero si tiene un P- Value menor que 005. En caso contrario diremos que el coeficiente no es significativo, y lo eliminaremos del modelo (supondremos que su valor es cero, que no existe una relación lineal entre la variable dependiente y la independiente). En este caso, el coeficiente asociado a la variable independiente pusada es significativo, por lo que podemos asegurar que el precio por metro de la vivienda nueva puede relacionarse de manera directa y positiva con el precio por metro cuadrado de la vivienda usada. Además la relación entre ambas variables es de 08335 pesetas por metro cuadrado en vivienda nueva por peseta en vivienda usada. El hecho de que la constante sea significativa implica que, en el caso hipotético de encontrar una provincia con un precio por metro cuadrado en vivienda usada de O pesetas, el precio por metro cuadrado en vivienda nueva sería de 42.295 pesetas.
14
El siguiente cuadro dentro de la misma ventana, Analysis of Variance (ANOVA), será estudiado en capítulos posteriores, por lo que aquí sólo haremos una somera referencia al mismo. Tan sólo destacar que en él se establece el grado de significación del modelo completo, en lugar de los coeficientes de manera aislada. También aquí se considera que el modelo es significativo si tiene un P-Value menor que O’05, como es el caso.
15
Líneas más abajo del cuadro del Análisis de la Varianza, se encuentra el valor de R cuadrado o coeficiente de determinación (R-squared), de aquí en adelante R2. Este valor nos informa de la bondad del análisis, de manera que un valor cercano al 100% implica que el modelo es capaz de explicar el mismo porcentaje de variabilidad encontrada en la muestra, mientras que un R2 próximo al 0% se correspondería con un pésimo modelo, incapaz de explicar la variabilidad muestra. En el caso de ejemplo su valor se sitúa por encima del 85%: El coeficiente asociado al error standard (Standard Error or Est.) llega a superar ligeramente las 12.000 pesetas. En general, no podemos decir si un modelo es bueno o malo simplemente viendo el valor de su o el error standard, sino que debemos compararlo con otros obtenidos para un sector o mercado de similares características.
17
En la figura 4 se incluye parte de la salida de SPSS para el análisis de regresión simple. El primer cuadro, Resumen del modelo, muestra el valor de la R2, además de otros valores que se comentarán posteriormente, cuando introduzcamos un mayor número de variables en el modelo. El cuadro del análisis ANOVA proporciona la misma información sobre la significación del modelo que su homólogo en el Statgraphics, si bien aquí el P- Value pasa a denominarse Sig. Por último, SPSS también proporciona el cuadro Coeficientes, donde se recogen los valores para la constante y el coeficiente asociado al precio por metro cuadrado en vivienda usada.
18
INTERPRETACIÓN DE RESULTADOS EN LA REGRESIÓN LINEAL SIMPLE Según lo expuesto, la interpretación de los coeficientes sería la siguiente: α = 422947 - El precio por metro cuadrado de la vivienda nueva en aquellas provincias con un valor nulo en el precio por metro cuadrado de viviendas usadas. β!= 08335 - Incremento en el precio por metro cuadrado de vivienda nueva por incremento unitario (una peseta) en el precio del metro cuadrado en vivienda usada.
19
Si bien la interpretación estadística de los parámetros es la correcta, desde el punto de vista económico se pueden hacer dos puntualizaciones: El valor de la constante no tendría aplicación práctica alguna, puesto que en ningún caso (provincia) encontraremos un precio cero para el metro cuadrado en vivienda usada. Resulta sorprendente que el precio de la vivienda nueva se sitúe en torno al 83% deI precio de la vivienda usada, cuando lo normal es que el precio del metro cuadrado en vivienda nueva sea superior al de vivienda usada. Esta inconsistencia nos hace pensar en la posibilidad de haber planteado el modelo erróneamente en sentido económico.
20
Si bien la interpretación estadística de los parámetros es la correcta, desde el punto de vista económico se pueden hacer dos puntualizaciones: El valor de la constante no tendría aplicación práctica alguna, puesto que en ningún caso (provincia) encontraremos un precio cero para el metro cuadrado en vivienda usada. Resulta sorprendente que el precio de la vivienda nueva se sitúe en torno al 83% del precio de la vivienda usada, cuando lo normal es que el precio del metro cuadrado en vivienda nueva sea superior al de vivienda usada. Esta inconsistencia nos hace pensar en la posibilidad de haber planteado el modelo erróneamente en sentido económico.
21
Con respecto a la primera puntualización, debemos tener en cuenta, con carácter general, la siguiente norma: A la hora de hacer previsiones, éstas sólo tendrán validez para aquellos casos en los que los valores de la variables independientes se sitúen dentro del rango de valores muestral, es decir, aquellos con los que se ha obtenido el modelo de regresión. Según lo anterior, no tiene sentido interpretar el valor de la constante tal y como se ha hecho, puesto que en la muestra de precios obtenida para cada una de las 50 provincias no se ha hallado ninguna con un precio cero para el precio por metro cuadrado en vivienda usada. De hecho vamos a ver como este es el origen del segundo problema planteado anteriormente. Para ello deberemos repetir el análisis anterior pero excluyendo la constante.
22
En lo que respecta a la segunda puntualización, conviene tener en cuenta el siguiente principio básico: PRINCIPIO DE INTERPRETABILIDAD — Los modelos deben poder ser “económicamente interpretables”, prevaleciendo este criterio de corrección económica sobre el de mera corrección estadística. Si se hubiese pretendido relacionar el precio de la vivienda con el precio del jamón serrano, por muy similar que fuera la evolución en ambos índices, carecería de sentido el modelo obtenido aún siendo estadísticamente satisfactorios. En los casos en que nos encontremos con una situación parecida a la anterior, deberemos buscar otra variable que dé sentido económico al modelo.
23
Posiblemente como sustituta del precio del jamón serrano, podría considerarse la variable renta disponible por persona y sería ésta la variable que deberíamos utilizar como explicativa a la hora de plantear un modelo de regresión para el precio de la vivienda, y no la relacionada con el precio del jamón serrano. Retomando la primera de las cuestiones, para eliminar en SPSS la constante en el modelo de regresión simple debemos repetir el análisis hasta el paso de la figura 2. Una vez indicada qué variable actuará como dependiente y cuál como independiente, accederemos al cuadro de diálogo Regresión Lineal: Opciones, a través del botón etiquetado con Opciones (figura 2, esquina inferior derecha). En él (figura 5) deberemos desactivar la check-box Incluir constante en la ecuación, con lo que se obtendrá el resultado de la figura 6.
24
Si bien se ha obtenido un R2 mayor que el original, no son comparables, por lo que no nos guiaremos por este parámetro para determinar la bondad del ajuste. En el ANOVA se observa cómo el modelo sigue siendo válido, y en el cuadro de coeficientes también aparece como significativo el asociado a la única variable dependiente: pusada. Ahora el coeficiente determinado por el ajuste tiene un sentido económico mucho más lógico que el visto con anterioridad: β!= 1’229 que se puede interpretar como que el precio por metro cuadrado en vivienda nueva en el conjunto de todas las provincias españolas es aproximadamente 12 veces el precio por metro cuadrado en vivienda usada.
25
De hecho, si obtenemos la media para ambas variables, se observa cómo dicha relación se acerca de manera muy significativa al coeficiente hallado. Pnuevamedja = 123’21 Pusadamedia = 97’08 Ratio = 1’269
30
2.5. ANÁLISIS DE LOS RESIDUOS Los residuos se obtienen como diferencia entre los valores reales y los predichos o estimados por la ecuación de regresión.
31
Los residuos también pueden venir expresados, para el caso con el que estamos trabajando (una única variable independiente y con constante en el modelo), de la siguiente manera: Los residuos así calculados tienen media cero (RmedIa = 0), mientras que la desviación típica no viene limitada por ninguna restricción10. Esto último puede modificarse si trabajamos con los residuos estandarizados (también llamados tipificados), ya que éstos siguen una distribución Normal de media O y varianza 1, de manera abreviada: N(0,1). La variable residuo estandarizado viene datos por la expresión:
34
Los residuos tal y como los hemos presentado se pueden obtener automáticamente a través de ¡os paquetes estadísticos: - Statgraphics: En la ventana Simple Regressiori - PNUEVA va PUSADA, a través del botón Graphical Options. En el cuadro de diálogo emergente que ofrece Statgraphics deberemos seleccionar las check-box correspondientes a los residuos (Residuals) y a los residuos estudentizados (Studentized Residuals), tal y como aparece en la figura 7. Estos últimos no se corresponden exactamente con los residuos tipificados, si bien son una aproximación válida para el objetivo perseguido con el cálculo de los residuos. Los residuos aparecerán en la ventana de datos en una variable que, si no cambiamos el nombre, se debería llamar RESIDUALS, mientras que el nombre de los residuos estuendizados deberla ser RESIDUALS.
35
- SPSS: Nuevamente debe repetirse el análisis, pero en la ventana Regresión lineal (figura 2) se debe pinchar sobre el botón Guardar Entonces aparece el cuadro de diálogo de la figura 8 en el que se presenta una gran variedad de posibilidades en cuanto a las variables que podemos guardar tras el análisis. En el caso de hacer la selección de la figura 8, deberán aparecer tres nuevas variables en la ventana de datos: res_1, correspondiente a los residuos, zre_1, que contiene los residuos estandarizados o tipificados, y pre_1, que se corresponde con los valores calculados a través de la ecuación de regresión.
38
Podemos comprobar cómo ambos paquetes han creado nuevas variables, cada una de las cuales se corresponde con el tipo de residuo elegido en el cuadro de diálogo correspondiente, y cómo se obtienen exactamente los mismos valores que los mostrados en el cuadro 1, que fueron calculados a través de una hoja de cálculo. En el caso del Statgraphics, los residuos estudentizados varían ligeramente respecto a los calculados por el SPSS como residuos tipificados.
39
Datos anómalos Los datos anómalos se definen como aquellos que se alejan de la normalidad, que presentan unos valores muy diferentes a los que, según sus características, debieran tener. Estos datos pueden tener su origen bien en un error en la trascripción de los valores o bien en que se den unas circunstancias excepcionales por razones desconocidas (no tenidas en cuenta en el análisis). Sería el caso de una provincia que tuviera un precio en la vivienda nueva de 2 veces el de la usada, por ejemplo. También podría ser considerado como anómalo el que tuviera un precio en vivienda nueva inferior al de usada. Para detectar los datos o casos anómalos se recurre al análisis de los residuos, concretamente a la distribución de los residuos tipificados.
40
Tal y como se ha dicho, los residuos tipificados siguen una distribución Normal de media O y varianza 1. En la distribución Normal tipificada, el 95% de los casos se encuentra en el intervalo [-2, 2], y cerca del 100% en el intervalo [-3,3j. Por lo tanto, podrían ser considerados como anómalos aquellos casos que tuvieran un valor en su residuo tipificado por debajo de -3 á por encima de 3. Si observamos con detalle la columna correspondiente a los residuos tipificados del cuadro 1, vemos como la provincia de Guipúzcoa tiene un residuo tipificado de -38, por lo que puede considerarse que la relación entre el precio de la vivienda nueva y la usada en esa provincia no sigue el mismo comportamiento que el resto de las provincias españolas.
41
Adicionalmente, si recurrimos al cálculo del residuo estudentizado efectuado por Statgraphics, la provincia de Navarra se encuentra próxima a ser considerada como un caso atípico, pues su residuo se sitúa en 2’4. Centrándonos en el caso de Guipúzcoa, vemos que el valor predicho (calculado) supera al observado (225 el primero y 179’2 el segundo). Esto es, el precio de la vivienda nueva en esta provincia está por debajo de lo que correspondería a una provincia con el mismo precio por metro cuadrado de la vivienda usada.
43
De hecho, esta provincia puede ser considerada como atípica, ya que el precio por metro cuadrado en vivienda nueva es inferior al de la vivienda usada. El caso de Navarra es diferente, el precio observado (1594) es muy superior al predicho (1315), lo que igualmente indica un comportamiento diferenciado con respecto a la relación entre las variables observada en el resto de provincias. En los casos en que nos encontremos con datos anómalos, se hace necesaria una operación de criba o selección en los datos muestrales, de manera que sólo permanezcan en la muestra aquellos considerados como “normales”. De no hacerlo, obtendríamos unos resultados deformados, que no se corresponderían con la realidad, y que no serían válidos a la hora de efectuar predicciones, el fin último del análisis de regresión.
44
De hecho, esta provincia puede ser considerada como atípica, ya que el precio por metro cuadrado en vivienda nueva es inferior al de la vivienda usada. El caso de Navarra es diferente, el precio observado (1594) es muy superior al predicho (1315), lo que igualmente indica un comportamiento diferenciado con respecto a la relación entre las variables observada en el resto de provincias. En los casos en que nos encontremos con datos anómalos, se hace necesaria una operación de criba o selección en los datos muestrales, de manera que sólo permanezcan en la muestra aquellos considerados como “normales”. De no hacerlo, obtendríamos unos resultados deformados, que no se corresponderían con la realidad, y que no serían válidos a la hora de efectuar predicciones, el fin último del análisis de regresión.
45
Seguidamente se indican los pasos a seguir para obtener un gráfico de residuos en los paquetes estadísticos Statgraphics y SPSS. Statgraphics: En la ventana Simple Regression - PNUEVA vs. PUSADA, pinchar sobre el botón Graphical Options. Seleccionar en la nueva ventana (figura 9) los check box de Residuos frente a los valores predichos. El resultado aparece en la figura 10. SPSS: Seleccionar la opción Gráficos —> Dispersión, tras lo que aparecerá el cuadro de diálogo representado en la figura 11. Elegir el tipo Simples. En la nueva ventana de diálogo, Diagrama de dispersión simple (figura 12), introducir en el eje Y la variable zre_1 (residuos tipificados) y el eje X la variable pre_1 (valores predichos). El resultado es el de la figura 13.
51
Como se puede ver en ambas representaciones gráficas, existe un caso, el de la provincia de Guipúzcoa, que se aleja visiblemente de la pauta marcada por el resto de las provincias. Esto corrobora nuestra primera impresión, la que nos hacía considerar a dicha provincia como un caso atípico respecto de la relación precio vivienda nueva / precio vivienda usada. Tal y como se mencionó anteriormente, en estos casos lo. aconsejable es repetir el análisis eliminando los datos anómalos. Para ello Statgraphics y SPSS incorporan un mecanismo especial que facilita esta tarea.
52
Statgraphics: Nuevamente nos situamos en la ventana Simple Regressiori - PNUEVA vs. PUSADA. Pinchamos en el botón lnput dialog, y cumplimentamos la caja de texto Select tal y como aparece en la figura 1411. De esta manera le estamos diciendo a Statgraphics que realice el análisis de regresión para aquellos valores que tengan un nombre de provincia distinto a Guipúzcoa. El resultado de los residuos estudentizados es el de la figura 15. SPSS: Para poder realizar un análisis de regresión de manera selectiva, deberemos hacer uso de la opción de menú Datos —÷ Seleccionar casos. De esta manera cualquier análisis que realicemos se hará únicamente sobre los casos seleccionados, dejando a un lado el resto. En el cuadro de diálogo Seleccionar casos (figura 16), elegiremos la segunda opción, la correspondiente al radio button Si se satisface la condición, para después pinchar en el botón SP2. En el nuevo cuadro de diálogo es donde teclearemos la condición de selección de casos (figura 17). Una vez realizado este paso intermedio13, volveremos a realizar el análisis de regresión, que deberá coincidir con el proporcionado por Statgraphics.
57
También el error standard ha disminuido de 12.141 pesetas/m2 a 9.160 pesetas/m2. Llegados a este punto conviene explicar el significado del error standard (Ea). Este se corresponde con la desviación típica de los residuos: ES = SR Para poder interpretar correctamente su valor, debemos asumir en primer lugar el cumplimiento de la hipótesis de normalidad sobre los datos muestrales. De esta manera el error standard nos informa del grado de confiabilidad de los valores predichos, dando un rango de valores entre los que se moverá el valor calculado a partir de la ecuación de la regresión:
59
Pongamos un ejemplo a partir de la última ecuación de regresión obtenida para los datos muestrales: Supongamos la existencia de una provincia que tuviera un precio por metro cuadrado en vivienda usada de 85.000 pesetas, y para la que quisiéramos calcular el precio por metro cuadrado en vivienda nueva. Para ello utilizaremos la ecuación obtenida con el último análisis de regresión. Según Io expuesto, el valor estimado que le correspondería al precio en vivienda nueva para una provincia con ese precio por metro cuadrado en vivienda usada será: pnueva = 26’808 + 1’007x85’000 = 112’413 miles pts/m2.
60
Este sería el valor medio en el preciofm2 de vivienda nueva para una provincia con un precio/m2 en vivienda usada de 85.000 pesetas. Si en lugar de dar un valor medio, quisiéramos ofrecer un rango de valores con una probabilidad asociada: En el 95% de los casos —> Pi € 94’093, [130’734] En el 99% de los casos —> Pi € 84’933, [139’894]
Presentaciones similares
© 2025 SlidePlayer.es Inc.
All rights reserved.