La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Laura López, Marta de Juan, Laura Mallo. Grupo 72. LADE.

Presentaciones similares


Presentación del tema: "Laura López, Marta de Juan, Laura Mallo. Grupo 72. LADE."— Transcripción de la presentación:

1 Laura López, Marta de Juan, Laura Mallo. Grupo 72. LADE

2 Nuestro trabajo va a consistir en el análisis de dos variables cuantitativas continuas. Primeramente analizaremos cada una de ellas por separado y posteriormente realizaremos un análisis conjunto de ambas variables. La estructura del trabajo será la siguiente: Análisis de la primera variable continua Análisis de la segunda variable continua Análisis de ambas variables INTRODUCCIÓN

3 Los datos del trabajo proceden de la base de datos de la página web del Instituto Nacional de Estadística ( INE ). Se trata de datos de carácter nacional y representan el gasto medio según el nivel de formación ( con o sin estudios universitarios) del sustentador principal en bienes y servicios de consumo perteneciente al período de 2006. PRESENTACIÓN DE DATOS Sin estudios o con estudios 1º grado Estudios universitarios Productos alimenticios 1364,221499,29 Bebidas no alcohólicas 86,93100,96 Bebidas alcohólicas 46,8578,06

4 Tabaco 123,51110,05 Articulos de vestir 390,48792,98 Calzados 126,37225,21 Alquileres reales 111,23329,85 Gastos corrientes de la vivienda 104,31118,27 Otros servicios de la vivienda 161,77350,75 Electricidad, gas… 271,52351,73 Inmobiliario 90,16318,14 Aparatos de calefaccion y cocina 94,06146,14 Utensilios de cocina 29,0635,35 Herramientas para jardin 18,6430,30 Mantenimiento del hogar 141,39566,37 Productos de farmacia 106,99175,15

5 Servicios medicos 155,15220,36 Compra de vehiculos 351,41948,61 Utilizacion de vehiculos personales 584,021024,66 Servicio de transporte 75,07259,50 Servicio postal 1,334,07 Equipos de telefono 4,989,35 Equipos de procesamientos de informacion 72,92215,63 Bienes de ocio y cultura 2,1235,36 Equipamientos recreativos 69,00158,23 Servicios culturales 146,80343,70 Prensa, librería y papelería. 66,33226,37 Vacaciones 66,43328,75 Educacion infantil y primaria 3,98105,43

6 1.- ANÁLISIS DE LA PRIMERA VARIABLE CONTINUA Se trata de la variable gasto medio por persona con estudios universitarios comprendidos entre 4,07 y 1499,29. 1.1.-Medidas de centralización -La media: representa el equilibrio o centro de gravedad de las observaciones. -Media:305,214 1.2-Medidas de dispersión -Desviación típica: mide la dispersión de los datos con respecto a la media. A mayor desviación típica, mayor dispersión de los datos respecto a la media. Toma valores no negativos. -Desviación típica:344,227 -Varianza: es el cuadrado de la desviación típica -Varianza:118492,0 -Rango: indica la diferencia entre el mayor y el menor de los datos -Rango:1495,22 -Coeficiente de asimetría -Coeficiente de asimetría:4,64031.Presenta una asimetría a la derecha, lo que significa que hay más datos pequeños.

7 -Curtosis : 4,98476. Como es positiva es leptocúrtica, lo que significa una menor dispersión ( mucho pico). -Máximo:1499,29 -Mínimo:4,07 1.3.- DIAGRAMA DE CAJA Como podemos observar en esta gráfico, los lados verticales de esta caja pasan por el primer y el tercer cuartil, y la línea vertical que aparece dentro del rectángulo, es la representada por la media. La caja del diagrama contiene la mitad central de los datos. Este es el gráfico de Caja y Bigotes para el gasto medio por persona con estudios universitarios. Es una buena herramienta que muestra varios aspectos sobre los datos.

8 La parte rectangular del gráfico se extiende desde el cuartil inferior hasta el cuartil superior, cubriendo la mitad central de la muestra. La línea central dentro de la Caja, muestra la localización de la mediana de la muestra. El signo “+” indica la localización de la media de la muestra. Los bigotes se extienden desde la caja hasta los valores mínimo y máximo de la muestra, excepto los datos atípicos o los datos atípicos lejanos, los cuales se representan por separado. Los datos atípicos son los que quedan a más de 1,5 veces el rango intercuartílico por encima o por debajo de la caja y se representan como pequeños cuadrados. Los datos atípicos lejanos se representan se representan como pequeños cuadrados con el signo más en su interior. En este caso existen 3 datos atípicos y 1 lejano. 1.4 – HISTOGRAMA El histograma es un gráfico para la distribución de una variable cuantitativa continua que representa frecuencias mediante áreas.

9 En el gráfico se observa que lo que más predomina el gasto medio inferior a 500 €. Se puede comentar sobre este histograma cierta apreciación visual, tiene asimetría por la derecha. 1.5- GRÁFICO DE DISPERSIÓN. Este es el gráfico de dispersión o nube de puntos para gasto medio por persona con estudios universitarios.

10 1.6-TABLA DE FRECUENCIAS. Tabla de Frecuencias para con estudios Las frecuencias muestran el número de valores en cada intervalo, mientras que las frecuencias relativas muestran las proporciones en cada intervalo. ClaseLímite inferior Límite superior MarcaFrecuen- cia F.RelativaF.Acumu- lada F.Acum. Relativa Menor oIgual-1000000 1 200 50 140,4667140,4667 2200500 350 110,3667250,3333 3500800 650 20,0667270,9 48001100 950 20,0667290,9667 511001400 1250 00290,9667 614001700 1550 10,0333301 mayor170000301

11 1.7-DIAGRAMA DE TALLO Y HOJAS. Diagrama de Tallo y Hojas para con: unidad = 100,0 1|2 representa 1200,0 14 0|00000001111111 (11) 0|22222333333 5 0|5 ALTO|792,98 948,61 1024,66 1499,29 Aquí se muestra la distribución de frecuencias para con estudios. El rango de datos ha sido dividido en intervalos de 3 (llamados tallos), cada uno representado por una fila de la tabla. El tallo se etiqueta utilizando los primeros dígitos de los valores que se encuentran dentro del intervalo. En cada fila, los valores de los datos individuales son representados por un dígito (llamado hoja) a la derecha de la línea vertical. Esto nos da un histograma de los datos. Si hay cualquier punto que queda alejado de la mayoría de los otros (llamados datos atípicos), se sitúan en tallos altos y bajos separados. En este caso, hay 4 datos atípicos. Los datos atípicos se representan en el gráfico de caja y bigotes. La columna de números situada más a la izquierda contiene el recuento acumulado desde la parte superior de la tabla hacia la inferior, deteniéndose en la fila que contiene la mediana.

12 2. ANÁLISIS DE LA SEGUNDA VARIABLE CONTINUA Se trata de la variable gasto medio por persona con estudios universitarios comprendidos entre 1,33 y 1364,22. 2.1.-Medidas de centralización -La media: representa el equilibrio o centro de gravedad de las observaciones. -Media:162,374 2.2-Medidas de dispersión -Desviación típica: mide la dispersión de los datos con respecto a la media. A mayor desviación típica, mayor dispersión de los datos respecto a la media. Toma valores no negativos. -Desviación típica:260,71 -Varianza: es el cuadrado de la desviación típica -Varianza:67969,6 -Rango: indica la diferencia entre el mayor y el menor de los datos -Rango:1362,89 -Coeficiente de asimetría -Coeficiente de asimetría:8,38314.Presenta una asimetría a la derecha, lo que significa que hay más datos pequeños.

13 - Curtosis : 4,98476. Como es positiva es leptocúrtica, lo que significa una menor dispersión (mucho pico). -Máximo:1354,22 -Mínimo:1,33 2.3.-DIAGRAMA DE CAJA.

14 Como podemos observar en esta gráfico, los lados verticales de esta caja pasan por el primer y el tercer cuartil, y la línea vertical que aparece dentro del rectángulo, es la representada por la media. La caja del diagrama contiene la mitad central de los datos. Este es el gráfico de Caja y Bigotes para el gasto medio por persona con estudios universitarios. Es una buena herramienta que muestra varios aspectos sobre los datos. La parte rectangular del gráfico se extiende desde el cuartil inferior hasta el cuartil superior, cubriendo la mitad central de la muestra. La línea central dentro de la Caja, muestra la localización de la mediana de la muestra. El signo “+” indica la localización de la media de la muestra. Los bigotes se extienden desde la caja hasta los valores mínimo y máximo de la muestra, excepto los datos atípicos o los datos atípicos lejanos, los cuales se representan por separado. Los datos atípicos son los que quedan a más de 1,5 veces el rango intercuartílico por encima o por debajo de la caja y se representan como pequeños cuadrados. Los datos atípicos lejanos se representan se representan como pequeños cuadrados con el signo más en su interior. En este caso existen 2 datos atípicos y 2 lejano. 2.4 – HISTOGRAMA.

15 El histograma es un gráfico para la distribución de una variable cuantitativa continua que representa frecuencias mediante áreas. En el gráfico se observa que lo que más predomina el gasto medio inferior a 200€. Se puede comentar sobre este histograma cierta apreciación visual, tiene asimetría por la derecha. 2.5– GRÁFICO DE DISPERSIÓN. Este es el gráfico de dispersión o nube de puntos para gasto medio por persona sin estudios Universitarios o estudios de primer grado.

16 2.6- TABLA DE FRECUENCIAS ClaseLímite inferior Límite superior MarcaFrecuen- cia F.RelativaF.Acumu- lada F.Acum. Relativa Menor oIgual-1000000 1 166,66,733,3333250,8333250,8333 2166,66,7433,33330030,0333280,9333 3433,333700566,66710290,9 4700966,667833,33300290,9667 5966,6671233,33110000290,9667 61233,3315001366,6710,0333301 mayor150000301

17 2.7- DIAGRAMA DE TALLO Y HOJAS Diagrama de Tallo y Hojas para sin: unidad = 10,0 1|2 representa 120,0 (16) 0|0000012466677899 14 1|001224456 5 2|7 ALTO|351,41 390,48 584,02 1364,22 Aquí se muestra la distribución de frecuencias para sin estudios. El rango de datos ha sido dividido en intervalos de 3 (llamados tallos), cada uno representado por una fila de la tabla. El tallo se etiqueta utilizando los primeros dígitos de los valores que se encuentran dentro del intervalo. En cada fila, los valores de los datos individuales son representados por un dígito (llamado hoja) a la derecha de la línea vertical. Esto nos da un histograma de los datos. Si hay cualquier punto que queda alejado de la mayoría de los otros (llamados datos atípicos ), se sitúan en tallos altos y bajos separados. En este caso, hay 4 datos atípicos. Los datos atípicos se representan en el gráfico de caja y bigotes. La columna de números situada más a la izquierda contiene el recuento acumulado desde la parte superior de la tabla hacia la inferior, deteniéndose en la fila que contiene la mediana.

18 3. ANÁLISIS DE DOS VARIABLES CUANTITATIVAS CONJUNTAS Tenemos: Una variable cuantitativa continua: Gasto medio por persona con estudios universitarios (€/persona) Una variable cuantitativa continua: gasto medio por persona sin estudios universitarios (€/persona) -Muestra 1 : Gasto medio por persona con estudios universitarios. -Muestra 2 : Gasto medio por persona sin estudios universitarios. -Muestra 1: 30 valores comprendidos desde 4,07 hasta 1499,29 -Muestra 2: 30 valores comprendidos desde 1,33 hasta 1364,22 3.1- DIAGRAMA DE CAJA MÚLTIPLE. Existen 5 datos atípicos y 3 atípicos lejanos.

19 3.2- HISTOGRAMA CONJUNTO

20 3.3- GRÁFICO DE DISPERSIÓN MÚLTIPLE.

21 3.4- RECTA DE REGRESIÓN. La salida muestra los resultados de ajuste al modelo linear para describir la relación entre gasto medio y nivel de estudios. La ecuación del modelo ajustado, mostrado como una línea continua es: estudios universitarios=110,231+1,20083*sin estudios/con estudios 1er grado

22 Análisis de Regresión - Modelo Lineal Y = a + b*X ----------------------------------------------------------------------------- Variable dependiente: con estudios Variable independiente: sin estudios ----------------------------------------------------------------------------- Error Estadístico Parámetro Estimación estándar T P-Valor ----------------------------------------------------------------------------- Ordenada 110,231 31,4774 3,50191 0,0016 Pendiente 1,20083 0,103739 11,5755 0,0000 ----------------------------------------------------------------------------- Análisis de la Varianza ----------------------------------------------------------------------------- Fuente Suma de cuadrados GL Cuadrado medio Cociente-F P-Valor ----------------------------------------------------------------------------- Modelo 2,84233E6 1 2,84233E6 133,99 0,0000 Residuo 593955,0 28 21212,7 ----------------------------------------------------------------------------- Total (Corr.) 3,43628E6 29 Interpretación: existe una correlación positiva, ya que en un principio a un mayor Nivel de estudios, en general un trabajo mejor remunerado, lo que permite mayores ingresos para dedicarlo al consumo.

23 Coeficiente de Correlación = 0,909479 R-cuadrado = 82,7152 porcentaje R-cuadrado (ajustado para g.l.) = 82,0979 porcentaje Error estándar de est. = 145,646 Error absoluto medio = 111,404 Estadístico de Durbin-Watson = 1,7906 (P=0,2538) Autocorrelación residual en Lag 1 = 0,0486201 Dado que el p-valor en la tabla ANOVA es inferior a 0.01, existe relación estadísticamente significativa entre con estudios y sin estudios para un nivel de confianza del 99%. El estadístico R-cuadrado indica que el modelo explica un 82,7152% de la variabilidad en con estudios. El coeficiente de correlación es igual a 0,909479, indicando una relación relativamente fuerte entre las variables. El error estándar de la estimación muestra la desviación típica de los residuos que es 145,646. Este valor puede usarse para construir límites de la predicción para las nuevas observaciones seleccionando la opción Predicciones del menú del texto. El error absoluto medio (MAE) de 111,404 es el valor medio de los residuos. El estadístico Durbin-Watson (DW) examina los residuos para determinar si hay alguna correlación significativa basada en el orden en el que se han introducido los datos en el fichero. Dado que el p-valor es superior a 0.05, no hay indicio de autocorrelación serial en los residuos.

24 El error absoluto medio (MAE) de 111,404 es el valor medio de los residuos. El estadístico Durbin-Watson (DW) examina los residuos para determinar si hay alguna correlación significativa basada en el orden en el que se han introducido los datos en el fichero. Dado que el p-valor es superior a 0.05, no hay indicio de autocorrelación serial en los residuos. Residuos Atípicos ---------------------------------------------------------------------------- Y Residuo Fila X Y Predicha Residuo Estudentizado ---------------------------------------------------------------------------- 1 1364,22 1499,29 1748,42 -249,133 -4,67 15 141,39 566,37 280,016 286,354 2,12 18 351,41 948,61 532,214 416,396 3,46 ---------------------------------------------------------------------------- Puntos Influyentes ---------------------------------------------------------------------------- Y Residuo Fila X Y Predicha Estudentizado Influencia ---------------------------------------------------------------------------- 1 1364,22 1499,29 1748,42 -4,67 0,766132 ---------------------------------------------------------------------------- Influencia media de un punto = 0,0666667 3.5. Residuos atípicos y puntos influyentes.


Descargar ppt "Laura López, Marta de Juan, Laura Mallo. Grupo 72. LADE."

Presentaciones similares


Anuncios Google