Laura López, Marta de Juan, Laura Mallo. Grupo 72. LADE.

Slides:



Advertisements
Presentaciones similares
Lic. Cristian R. Arroyo López
Advertisements

Lic. Cristian R. Arroyo López
Introducción En toda investigación, y antes de extraer conclusiones acerca de los objetivos e hipótesis planteados, es necesario llevar a cabo un análisis.
Capítulo 4: Medidas de dispersión
MÉTODOS DE MEDICIÓN DE COSTOS.
Pronósticos, Series de Tiempo y Regresión
Análisis exploratorio de datos
Rango y Rango intercuartil
ESTRATEGIAS Y DISEÑOS AVANZADOS DE INVESTIGACIÓN SOCIAL
Regresión y correlación
MATEMÁTICAS 2º ESO UD8 ESTADÍSTICA.
MEDIDAS DE TENDENCIA CENTRAL
بسم الله الرحمن الرحيم.
Regresión lineal Es un modelo matemático para predecir el efecto de una variable sobre otra, ambas cuantitativas. Una variable es la dependiente y otra.
1º BACHILLERATO | Matemáticas © Oxford University Press España, S.A Hacer clic en la pantalla para avanzar VARIABLE ESTADÍSTICA UNIDIMENSIONAL Población:
Estadística bidimensional
COMPORTAMIENTO DE LAS DISTRIBUCIONES DE
Facultad: Turismo Y Hotelería
I. Grande y E. Abascal. Fundamentos y Técnicas. 12 ª Ed. Esic Editorial. Tema 8. Análisis clásico de la información.
ANALISIS DE DATOS CON EXCEL
Pronósticos, Series de Tiempo y Regresión
Mt. Martín Moreyra Navarrete.
Bioestadística Francisco Javier Barón López Dpto. Medicina Preventiva
La Estadística se encarga de dar solución a este y otros problemas.
Estadística Descriptiva continuación
Representaciones gráficas
Tema 2: Parámetros Estadísticos
Elaboración de gráficas
FACILITADOR JOSE HERIBERTO CRUZ GARCÍA
Coeficiente de Variación
Laboratorio de Estadística administrativa
SEMINARIO DE INVESTIGACIÓN IV Y TRABAJO DE GRADO
Titular: Agustín Salvia
Introducción a la Inferencia Estadística
Herramientas básicas.
Page 1 ESCUELA SUPERIOR POLITECNICA DE CHIMBORAZO FACULTAD DE INFORMATICA Y ELECTRONICA ESCUELA DE DISEÑO GRAFICO ESTADISTICA TEMA: estadista, entendimiento.
Gráfico de tallos y hojas Diagrama de cajas
Analisis exploratorio INGRID TATIANA RODRIGUEZ GUZMAN DIANA COSTANZA BERMUDEZ GORDILLO.
ESTADÍSTICA.
Estadística 1. Recuento de datos. Tablas de frecuencias
MEDIDAS DE FORMA DE LA DISTRIBUCION
Bioestadística Tema 2: Estadísticos Bioestadística. U. Málaga.
Descripción de los datos: medidas de dispersión
LA ESTADÍSTICA.
Estadísticos Asunto de Estado: Estadísticos. Estadísticos Los parámetros estadísticos nos permiten tener una idea global de la población, compararla con.
Si comparamos este intervalo con (10.5), vemos que el intervalo de confianza para la Y 0 individual es más amplio que el intervalo para el valor medio.
PARÁMETROS ESTADÍSTICOS
Tipos de Variables.- Cualitativas. Describen cualidades de los elementos de la muestra. Nominales. Categorías excluyentes y sin orden. (Ej. Sexo) Ordinales.
MEDIDAS DE POSICIÓN RELATIVA
Análisis de los Datos Cuantitativos
Sesión 8 Tema: Estadística descriptiva Objetivo:
ESTADÍSTICA UNIDIMENSIONAL
CORRELACIÓN Y REGRESIÓN EMPLEANDO EXCEL
Construcción de modelos con regresión y correlación
Ejercicios Dado un conjunto de datos, aplicar el Criterio de Fourier para desechar los posibles valores atípicos.
Regresión lineal simple Nazira Calleja
Unidad 4 Análisis de los Datos.
TEMA 3: Estadística Bidimensional.
Características de las distribuciones estadísticas
Estadística descriptiva
Coeficiente de variación
ESTADISTICA DESCRIPTIVA BIVARIADA MEDIDAS DE RELACIÓN ENTRE VARIABLES CUANTITATIVAS.
DIPLOMADO DE POSTGRADO
Estadística descriptiva
Estadística descriptiva
Medidas de posición y dispersión IV medio
Estadística y probabilidad aplicada a los negocios
PROBABILIDAD Y ESTADISTICA.
Medidas de tendencia central
UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS (Universidad del Perú, Decana de América) FACULTAD DE MEDICINA - UPG MAESTRÍA EN NEUROCIENCIAS Curso: Bioestadística.
Transcripción de la presentación:

Laura López, Marta de Juan, Laura Mallo. Grupo 72. LADE

Nuestro trabajo va a consistir en el análisis de dos variables cuantitativas continuas. Primeramente analizaremos cada una de ellas por separado y posteriormente realizaremos un análisis conjunto de ambas variables. La estructura del trabajo será la siguiente: Análisis de la primera variable continua Análisis de la segunda variable continua Análisis de ambas variables INTRODUCCIÓN

Los datos del trabajo proceden de la base de datos de la página web del Instituto Nacional de Estadística ( INE ). Se trata de datos de carácter nacional y representan el gasto medio según el nivel de formación ( con o sin estudios universitarios) del sustentador principal en bienes y servicios de consumo perteneciente al período de PRESENTACIÓN DE DATOS Sin estudios o con estudios 1º grado Estudios universitarios Productos alimenticios 1364,221499,29 Bebidas no alcohólicas 86,93100,96 Bebidas alcohólicas 46,8578,06

Tabaco 123,51110,05 Articulos de vestir 390,48792,98 Calzados 126,37225,21 Alquileres reales 111,23329,85 Gastos corrientes de la vivienda 104,31118,27 Otros servicios de la vivienda 161,77350,75 Electricidad, gas… 271,52351,73 Inmobiliario 90,16318,14 Aparatos de calefaccion y cocina 94,06146,14 Utensilios de cocina 29,0635,35 Herramientas para jardin 18,6430,30 Mantenimiento del hogar 141,39566,37 Productos de farmacia 106,99175,15

Servicios medicos 155,15220,36 Compra de vehiculos 351,41948,61 Utilizacion de vehiculos personales 584,021024,66 Servicio de transporte 75,07259,50 Servicio postal 1,334,07 Equipos de telefono 4,989,35 Equipos de procesamientos de informacion 72,92215,63 Bienes de ocio y cultura 2,1235,36 Equipamientos recreativos 69,00158,23 Servicios culturales 146,80343,70 Prensa, librería y papelería. 66,33226,37 Vacaciones 66,43328,75 Educacion infantil y primaria 3,98105,43

1.- ANÁLISIS DE LA PRIMERA VARIABLE CONTINUA Se trata de la variable gasto medio por persona con estudios universitarios comprendidos entre 4,07 y 1499, Medidas de centralización -La media: representa el equilibrio o centro de gravedad de las observaciones. -Media:305, Medidas de dispersión -Desviación típica: mide la dispersión de los datos con respecto a la media. A mayor desviación típica, mayor dispersión de los datos respecto a la media. Toma valores no negativos. -Desviación típica:344,227 -Varianza: es el cuadrado de la desviación típica -Varianza:118492,0 -Rango: indica la diferencia entre el mayor y el menor de los datos -Rango:1495,22 -Coeficiente de asimetría -Coeficiente de asimetría:4,64031.Presenta una asimetría a la derecha, lo que significa que hay más datos pequeños.

-Curtosis : 4, Como es positiva es leptocúrtica, lo que significa una menor dispersión ( mucho pico). -Máximo:1499,29 -Mínimo:4, DIAGRAMA DE CAJA Como podemos observar en esta gráfico, los lados verticales de esta caja pasan por el primer y el tercer cuartil, y la línea vertical que aparece dentro del rectángulo, es la representada por la media. La caja del diagrama contiene la mitad central de los datos. Este es el gráfico de Caja y Bigotes para el gasto medio por persona con estudios universitarios. Es una buena herramienta que muestra varios aspectos sobre los datos.

La parte rectangular del gráfico se extiende desde el cuartil inferior hasta el cuartil superior, cubriendo la mitad central de la muestra. La línea central dentro de la Caja, muestra la localización de la mediana de la muestra. El signo “+” indica la localización de la media de la muestra. Los bigotes se extienden desde la caja hasta los valores mínimo y máximo de la muestra, excepto los datos atípicos o los datos atípicos lejanos, los cuales se representan por separado. Los datos atípicos son los que quedan a más de 1,5 veces el rango intercuartílico por encima o por debajo de la caja y se representan como pequeños cuadrados. Los datos atípicos lejanos se representan se representan como pequeños cuadrados con el signo más en su interior. En este caso existen 3 datos atípicos y 1 lejano. 1.4 – HISTOGRAMA El histograma es un gráfico para la distribución de una variable cuantitativa continua que representa frecuencias mediante áreas.

En el gráfico se observa que lo que más predomina el gasto medio inferior a 500 €. Se puede comentar sobre este histograma cierta apreciación visual, tiene asimetría por la derecha GRÁFICO DE DISPERSIÓN. Este es el gráfico de dispersión o nube de puntos para gasto medio por persona con estudios universitarios.

1.6-TABLA DE FRECUENCIAS. Tabla de Frecuencias para con estudios Las frecuencias muestran el número de valores en cada intervalo, mientras que las frecuencias relativas muestran las proporciones en cada intervalo. ClaseLímite inferior Límite superior MarcaFrecuen- cia F.RelativaF.Acumu- lada F.Acum. Relativa Menor oIgual , , , , , , , , , , mayor

1.7-DIAGRAMA DE TALLO Y HOJAS. Diagrama de Tallo y Hojas para con: unidad = 100,0 1|2 representa 1200,0 14 0| (11) 0| |5 ALTO|792,98 948, , ,29 Aquí se muestra la distribución de frecuencias para con estudios. El rango de datos ha sido dividido en intervalos de 3 (llamados tallos), cada uno representado por una fila de la tabla. El tallo se etiqueta utilizando los primeros dígitos de los valores que se encuentran dentro del intervalo. En cada fila, los valores de los datos individuales son representados por un dígito (llamado hoja) a la derecha de la línea vertical. Esto nos da un histograma de los datos. Si hay cualquier punto que queda alejado de la mayoría de los otros (llamados datos atípicos), se sitúan en tallos altos y bajos separados. En este caso, hay 4 datos atípicos. Los datos atípicos se representan en el gráfico de caja y bigotes. La columna de números situada más a la izquierda contiene el recuento acumulado desde la parte superior de la tabla hacia la inferior, deteniéndose en la fila que contiene la mediana.

2. ANÁLISIS DE LA SEGUNDA VARIABLE CONTINUA Se trata de la variable gasto medio por persona con estudios universitarios comprendidos entre 1,33 y 1364, Medidas de centralización -La media: representa el equilibrio o centro de gravedad de las observaciones. -Media:162, Medidas de dispersión -Desviación típica: mide la dispersión de los datos con respecto a la media. A mayor desviación típica, mayor dispersión de los datos respecto a la media. Toma valores no negativos. -Desviación típica:260,71 -Varianza: es el cuadrado de la desviación típica -Varianza:67969,6 -Rango: indica la diferencia entre el mayor y el menor de los datos -Rango:1362,89 -Coeficiente de asimetría -Coeficiente de asimetría:8,38314.Presenta una asimetría a la derecha, lo que significa que hay más datos pequeños.

- Curtosis : 4, Como es positiva es leptocúrtica, lo que significa una menor dispersión (mucho pico). -Máximo:1354,22 -Mínimo:1, DIAGRAMA DE CAJA.

Como podemos observar en esta gráfico, los lados verticales de esta caja pasan por el primer y el tercer cuartil, y la línea vertical que aparece dentro del rectángulo, es la representada por la media. La caja del diagrama contiene la mitad central de los datos. Este es el gráfico de Caja y Bigotes para el gasto medio por persona con estudios universitarios. Es una buena herramienta que muestra varios aspectos sobre los datos. La parte rectangular del gráfico se extiende desde el cuartil inferior hasta el cuartil superior, cubriendo la mitad central de la muestra. La línea central dentro de la Caja, muestra la localización de la mediana de la muestra. El signo “+” indica la localización de la media de la muestra. Los bigotes se extienden desde la caja hasta los valores mínimo y máximo de la muestra, excepto los datos atípicos o los datos atípicos lejanos, los cuales se representan por separado. Los datos atípicos son los que quedan a más de 1,5 veces el rango intercuartílico por encima o por debajo de la caja y se representan como pequeños cuadrados. Los datos atípicos lejanos se representan se representan como pequeños cuadrados con el signo más en su interior. En este caso existen 2 datos atípicos y 2 lejano. 2.4 – HISTOGRAMA.

El histograma es un gráfico para la distribución de una variable cuantitativa continua que representa frecuencias mediante áreas. En el gráfico se observa que lo que más predomina el gasto medio inferior a 200€. Se puede comentar sobre este histograma cierta apreciación visual, tiene asimetría por la derecha. 2.5– GRÁFICO DE DISPERSIÓN. Este es el gráfico de dispersión o nube de puntos para gasto medio por persona sin estudios Universitarios o estudios de primer grado.

2.6- TABLA DE FRECUENCIAS ClaseLímite inferior Límite superior MarcaFrecuen- cia F.RelativaF.Acumu- lada F.Acum. Relativa Menor oIgual ,66,733, , , ,66,7433, , , , , , ,667833, , , , , , ,6710, mayor

2.7- DIAGRAMA DE TALLO Y HOJAS Diagrama de Tallo y Hojas para sin: unidad = 10,0 1|2 representa 120,0 (16) 0| | |7 ALTO|351,41 390,48 584, ,22 Aquí se muestra la distribución de frecuencias para sin estudios. El rango de datos ha sido dividido en intervalos de 3 (llamados tallos), cada uno representado por una fila de la tabla. El tallo se etiqueta utilizando los primeros dígitos de los valores que se encuentran dentro del intervalo. En cada fila, los valores de los datos individuales son representados por un dígito (llamado hoja) a la derecha de la línea vertical. Esto nos da un histograma de los datos. Si hay cualquier punto que queda alejado de la mayoría de los otros (llamados datos atípicos ), se sitúan en tallos altos y bajos separados. En este caso, hay 4 datos atípicos. Los datos atípicos se representan en el gráfico de caja y bigotes. La columna de números situada más a la izquierda contiene el recuento acumulado desde la parte superior de la tabla hacia la inferior, deteniéndose en la fila que contiene la mediana.

3. ANÁLISIS DE DOS VARIABLES CUANTITATIVAS CONJUNTAS Tenemos: Una variable cuantitativa continua: Gasto medio por persona con estudios universitarios (€/persona) Una variable cuantitativa continua: gasto medio por persona sin estudios universitarios (€/persona) -Muestra 1 : Gasto medio por persona con estudios universitarios. -Muestra 2 : Gasto medio por persona sin estudios universitarios. -Muestra 1: 30 valores comprendidos desde 4,07 hasta 1499,29 -Muestra 2: 30 valores comprendidos desde 1,33 hasta 1364, DIAGRAMA DE CAJA MÚLTIPLE. Existen 5 datos atípicos y 3 atípicos lejanos.

3.2- HISTOGRAMA CONJUNTO

3.3- GRÁFICO DE DISPERSIÓN MÚLTIPLE.

3.4- RECTA DE REGRESIÓN. La salida muestra los resultados de ajuste al modelo linear para describir la relación entre gasto medio y nivel de estudios. La ecuación del modelo ajustado, mostrado como una línea continua es: estudios universitarios=110,231+1,20083*sin estudios/con estudios 1er grado

Análisis de Regresión - Modelo Lineal Y = a + b*X Variable dependiente: con estudios Variable independiente: sin estudios Error Estadístico Parámetro Estimación estándar T P-Valor Ordenada 110,231 31,4774 3, ,0016 Pendiente 1, , ,5755 0, Análisis de la Varianza Fuente Suma de cuadrados GL Cuadrado medio Cociente-F P-Valor Modelo 2,84233E6 1 2,84233E6 133,99 0,0000 Residuo , , Total (Corr.) 3,43628E6 29 Interpretación: existe una correlación positiva, ya que en un principio a un mayor Nivel de estudios, en general un trabajo mejor remunerado, lo que permite mayores ingresos para dedicarlo al consumo.

Coeficiente de Correlación = 0, R-cuadrado = 82,7152 porcentaje R-cuadrado (ajustado para g.l.) = 82,0979 porcentaje Error estándar de est. = 145,646 Error absoluto medio = 111,404 Estadístico de Durbin-Watson = 1,7906 (P=0,2538) Autocorrelación residual en Lag 1 = 0, Dado que el p-valor en la tabla ANOVA es inferior a 0.01, existe relación estadísticamente significativa entre con estudios y sin estudios para un nivel de confianza del 99%. El estadístico R-cuadrado indica que el modelo explica un 82,7152% de la variabilidad en con estudios. El coeficiente de correlación es igual a 0,909479, indicando una relación relativamente fuerte entre las variables. El error estándar de la estimación muestra la desviación típica de los residuos que es 145,646. Este valor puede usarse para construir límites de la predicción para las nuevas observaciones seleccionando la opción Predicciones del menú del texto. El error absoluto medio (MAE) de 111,404 es el valor medio de los residuos. El estadístico Durbin-Watson (DW) examina los residuos para determinar si hay alguna correlación significativa basada en el orden en el que se han introducido los datos en el fichero. Dado que el p-valor es superior a 0.05, no hay indicio de autocorrelación serial en los residuos.

El error absoluto medio (MAE) de 111,404 es el valor medio de los residuos. El estadístico Durbin-Watson (DW) examina los residuos para determinar si hay alguna correlación significativa basada en el orden en el que se han introducido los datos en el fichero. Dado que el p-valor es superior a 0.05, no hay indicio de autocorrelación serial en los residuos. Residuos Atípicos Y Residuo Fila X Y Predicha Residuo Estudentizado , , , ,133 -4, ,39 566,37 280, ,354 2, ,41 948,61 532, ,396 3, Puntos Influyentes Y Residuo Fila X Y Predicha Estudentizado Influencia , , ,42 -4,67 0, Influencia media de un punto = 0, Residuos atípicos y puntos influyentes.