Prueba para la Bondad de ajuste Validación de Modelo

Slides:



Advertisements
Presentaciones similares
DISEÑO DE EXPERIMENTOS EXPERIMENTOS DE COMPARACIÓN SIMPLE
Advertisements

MSP César Eduardo Luna Gurrola
Tema 6: Regresión lineal.
1.1 Contraste de Bondad de Ajuste para Datos Categóricos
TEMA 6: CONTRASTES NO PARAMÉTRICOS
Regresión mínimo cuadrada (I)
REGRESION LINEAL SIMPLE
Ejemplo Grafico.
ESTRATEGIAS Y DISEÑOS AVANZADOS DE INVESTIGACIÓN SOCIAL
Ingeniería Industrial II CicloEducativo 2011
La prueba U DE MANN-WHITNEY
Regresión Lineal y Regresión Polinomial
ESTRATEGIAS Y DISEÑOS AVANZADOS DE INVESTIGACIÓN SOCIAL
Modelo básico de regresión Lineal
Regresión y correlación
Correlación 1.
Nombre: Israel Espinosa Jiménez Matricula: Carrera: TIC Cuatrimestre: 4 Página 1 de 5.
Estadística Descriptiva: 4. Correlación y Regresión Lineal
بسم الله الرحمن الرحيم.
Tema 1- Regresión lineal simple.
Estadística Descriptiva: 4. Correlación y Regresión Lineal Ricardo Ñanculef Alegría Universidad Técnica Federico Santa María.
Regresión lineal Es un modelo matemático para predecir el efecto de una variable sobre otra, ambas cuantitativas. Una variable es la dependiente y otra.
Regresión Lineal Simple
9 Regresión Lineal Simple
Tema 2: Métodos de ajuste
Estadística bidimensional
MEDIDAS DE DISPERSIÓN:
Análisis de Correlación y de Regresión lineal simple
UNIVERSIDAD AUTONOMA DEL PERÚ
Distribuciones bidimensionales. Tablas de contingencia
PROYECCIONES DE LA DEMANDA
Inferencia Estadística
REGRESION Y CORRELACION
BIOMETRIA II TEMA 2 El Modelo de Regresión.
Pronósticos, Series de Tiempo y Regresión
Tema 7: Regresión Simple y Múltiple. EJEMPLO: Aproxima bien el número de préstamos que efectúa una biblioteca a lo largo de su primer año de vida. Nos.
Modelo de regresión con dos variables: Estimación
Curso de Bioestadística. ANOVA
Universidad Nacional de Colombia Curso Análisis de Datos Cuantitativos.
Titular: Agustín Salvia
Normalidad, Variabilidad y estimación del Modelo de Regresión
Econometría Clase 10 Caso práctico. El Gerente General de la compañía Aceros del Pacífico considera que los ingresos podrían aumentar un 3,5% durante.
Clase 4a Significancia Estadística y Prueba Z
Inferencia Estadística
Variables estadísticas bidimensionales
RELACIÓN ENTRE VARIABLES
Pruebas de hipótesis.
ANÁLISIS DE REGRESIÓN SIMPLE
Análisis de los Datos Cuantitativos
Regresión Lineal Simple
Aplicaciones Estadísticas a las Finanzas Clase 1
Método de mínimos cuadrados
Variables estadísticas bidimensionales
CORRELACIÓN Y REGRESIÓN EMPLEANDO EXCEL
Ejercicios Dado un conjunto de datos, aplicar el Criterio de Fourier para desechar los posibles valores atípicos.
Prueba de Hipótesis Una hipótesis estadística es un supuesto que se establece sobre las características de una distribución poblacional El estudio se plantea.
Regresión lineal simple Nazira Calleja
TEMA 3: Estadística Bidimensional.
REGRESIÓN LINEAL SIMPLE
TEMA : ANALISIS DE REGRESION
Aplicaciones Estadísticas a las Finanzas Clase 1
REGRESIÓN LINEAL SIMPLE
REGRESIÓN LINEAL SIMPLE. Temas Introducción Análisis de regresión (Ejemplo aplicado) La ecuación de una recta Modelo estadístico y suposiciones Estimación.
ESTADISTICA DESCRIPTIVA BIVARIADA MEDIDAS DE RELACIÓN ENTRE VARIABLES CUANTITATIVAS.
Introducción a la Estadística Inferencial con SPSS Juan José Igartua Perosanz Universidad de Salamanca
REGRESIÓN LINEAL SIMPLE TEMA INTRODUCCIÓN Determinar la ecuación de regresión sirve para: – Describir de manera concisa la relación entre variables.
1 REGRESIÓN CON VARIABLES DICOTÓMICAS TEMA 1 (CONTINUACIÓN)
M.E. ADA PAULINA MORA GONZALEZ. Esta parte describe las técnicas para ajustar curvas en base a datos para estimaciones intermedias. Una manera de hacerlo.
ESTADÍSTICA BIDIMENSIONAL
ANALISIS DE VARIANZA.
Transcripción de la presentación:

Prueba para la Bondad de ajuste Validación de Modelo REPUBLICA BOLIVARIANA DE VENEZUELA MINISTERIO DEL PODER POPULAR PARA LA DEFENSA UNIVERSIDAD NACIONAL EXPERIMENTAL DE LA FUERZA ARMADA (UNEFA) NUCLEO ZULIA Prueba para la Bondad de ajuste Validación de Modelo Integrantes LERBY ARTEAGA FREDDY ARENAS CARLOS ARIZA LUIS MORENO

Prueba para la Bondad de ajuste   Las pruebas de bondad de ajuste tienen por objetivo determinar si los datos se ajustan a una determinada distribución, esta distribución puede estar completamente especificada (hipótesis simple) o perteneciente a una clase paramétrica (hipótesis compuesta). La prueba de bondad de ajuste se aplica en diseños de investigación en los que se estudia a un único grupo. La prueba compara la distribución de frecuencias observada (Fo) de una variable usualmente cualitativa, pero que también puede ser cuantitativa, con la distribución de frecuencias de la misma variable medida en un grupo de referencia.

Prueba para la Bondad de ajuste Hipótesis estadística nula: Ho: Fo = Fe Hipótesis estadística alterna: Ha: Fo ≠ Fe El procedimiento de la prueba incluye el cálculo de la medida de resumen llamada Chi cuadrada. El rechazo del Ho ocurre cuando el valor calculado con los datos resulta mayor que el valor crítico de dicha medida contenido en una tabla llamada Valores Críticos de Chi cuadrada.

Prueba para la Bondad de ajuste En el caso de que el valor de Chi cuadrada calculada sea igual o menor al de Chi cuadrada crítica se dice que no se rechaza al Ho y, por tanto, se concluye que la Fo es semejante a la Fe. En otras palabras, se dice que ambas distribuciones se ajustan bien; de ahí el nombre de la prueba: bondad de ajuste. Se propone que el número de defectos en las tarjetas de circuito impreso sigue una distribución Poisson. Se reúne una muestra aleatoria de 60 tarjetas de circuito impreso y se observa el número de defectos. Los resultados obtenidos son los siguientes:

Prueba para la Bondad de ajuste Una moneda fue lanzada al aire 1000 series, de 5 veces cada serie y se observó el número de caras de cada serie. El número de series en los que se presentaron 0, 1, 1, 3, 4 y 5 caras se muestra en la siguiente tabla. Número de caras Número de series (frecuencia observada) 38 1 144 2 342 3 287 4 164 5 25 Total 1000

Prueba para la Bondad de ajuste

Prueba para la Bondad de ajuste Número de defectos Frecuencia observada 32 1 15 2 9 3 ó más 4

Prueba para la Bondad de ajuste

Validación de modelos Validación es el proceso de comprobar que los resultados aportados por el modelo para las variables de salida y de estado no son muy diferentes a los medidos en la realidad. Existen diferentes índices que permiten cuantificar el grado de ajuste entre los datos medidos y los resultados del modelo. Coeficiente de determinación r2, es decir el cuadrado del Coeficiente de correlación El problema estadístico se convierte en que dado un conjunto de datos hipotéticamente relacionados entre sí ¿cómo evidenciar esa relación? Desarrollar un modelo que permita ser posible validar con determinada certeza el valor de una variable dependiente con respecto a otra relacionada   Y=f(x)

Diagrama de Dispersión Es la representación gráfica de las observaciones de las variables aparente o hipotéticamente relacionadas, con el objeto de evidenciar tal relación. Por ejemplo

El ajuste de la curva es el procedimiento de hallar una curva que represente lo más eficazmente posible la distribución de los datos   El objeto es determinar la ecuación de la curva que represente la menos desviación posible del conjunto de datos considerado. A estos efectos el procedimiento de mínimos cuadrados, es la técnica matemática de análisis numérico que permite encontrar la función que mejor se aproxime al conjunto de datos siguiendo el criterio del menor error cuadrático. Se trata de minimizar la suma de los cuadrados entre los puntos generados por la función y los correspondientes en los datos

Regresión y regresión lineal simple Se llama Regresión a la media de la distribución de una variable (dependiente) con respecto a un valor determinado de otra (independiente). Es el proceso de ajustar una recta a un conjunto de datos cuya dispersión sugiere este tipo de síntesis matemática. El modelo puede representarse como: Donde: Yᵢ= variable dependiente β0=intersección con el eje de las ordenadas β1=pendiente real de la población Xᵢ=la variable independiente ἑᵢ=error aleatorio en Y para la observación ᵢ El método de mínimos cuadrados nos permite determinar, dentro de estas premisas, la ecuación bajo el siguiente modelo general:  

Las ecuaciones normales de la regresión lineal Resolviendo el sistema se obtiene

Donde ambas medias son las correspondientes al conjunto de datos dado. Si obtenemos la razón de la variación explicada a la variación total podremos calcular el porcentaje de la variación explicada por el modelo de regresión y por tanto una medida de cuán confiable es el modelo. Esta medida se define como:

La variación explicada representa la diferencia entre la media de Y y Yest;. La variación no explicada representa la parte de la variación no explicada por la regresión y está basada en la diferencia entre el valor observado Yi y el valor de Yest; el valor predicho por la recta de regresión para un Xi dado. Es claro que: Vtotal=Vexp - Vnexp Vtotal=variación total Considerando: Vexp=Variación explicada Vnexp=Variación no explicada

Expresadas matemáticamente con los siguientes ecuaciones Variación total Variación no explicada Variación explicada

Área de la parcela (mts)2 Costo construcción (bs) Ejercicio I Área de la parcela (mts)2 Costo construcción (bs) 1 500 31,60 2 700 32,40 3 1000 41,70 4 50,20 5 1200 46,20 6 2000 58,50 7 2200 59,30 8 1500 48,40 9 3000 63,70 10 4000 85,30 11 53,40 12 54,50 A partir de esta data, se construye un gráfico de dispersión con el objeto de determinar a grandes rasgos si su hipótesis es válida:

Ejercicio I El contador de costos de una empresa de construcción tiene el problema de estimar los costos de construcción para viviendas unifamiliares en el próximo año, para asignar los posibles precios. Tiene a mano los registros de todas las viviendas construidas en el último año. Por experiencia supone como razonable la hipótesis que el costo de la construcción está relacionado con el tamaño de la parcela: (Y) decide tomar una muestra aleatoria de 12 casas, según tabla a continuación:

El gráfico demuestra que la hipótesis es más que razonablemente valida, por lo proceda a construir una recta de regresión y obtener así su modelo.

Área de la parcela (mts)2 Costo construcción (bs) X.Y X2 Y2 1 500 31,6 15.800 250.000 998,56 2 700 32,4 22.680 490.000 1.049,76 3 1.000 41,7 41.700 1.000.000 1.738,89 4 50,2 50.200 2.520,04 5 1.200 46,2 55.440 1.440.000 2.134,44 6 2.000 58,5 117.000 4.000.000 3.422,25 7 2.200 59,3 130.460 4.840.000 3.516,49 8 1.500 48,4 72.600 2.250.000 2.342,56 9 3.000 63,7 191.100 9.000.000 4.057,69 10 4.000 85,3 341.200 16.000.000 7.276,09 11 53,4 64.080 2.851,56 12 54,5 81.750 2.970,25 ∑ 19.800 625,20 1.184.010 43.960.000 34.878,58

b1=0,90 b0=50.610 Ya que aplicando esta formula obtenemos b1 Ya aplicada esta formula se obtiene los siguiente resultados

b1=0,90 b0=50.610 Ya habiendo obtenido b1 y b0 procedemos a buscar a Y estimada utilizando la siguiente formula i= b0+ b1* X i   Ῡ i=50.6+(0.90*500)=500.6 Ῡ i=50.6+(0.90*700)=680.6 Ῡ i=50.6+(0.901000)=950.6 Ῡ i=50.6+(0.90*1000)=950.6 Ῡ i=50.6+(0.90*1200)=1130.6 Ῡ i=50.6+(0.90*2000)=1850.6 Ῡ i=50.6+(0.90*2200)=2030.6 Ῡ i=50.6+(0.90*1500)=1400.6 Ῡ i=50.6+(0.90*3000)=2750.6 Ῡ i=50.6+(0.90*4000)=3650.6

Aria de la parcela(mts)2 Costo Construcción X.Y 2 X Y Yest Y-Yest 1 500 31.60 15.800 250.000 998,56 5000.6 -4969 700 32.4 22.680 490.000 1.049,76 680.6 -648.2 3 1000 41.7 41.700 1.000.000 1.738,89 950.6 -908.9 4 50.2 50.200 2.520,04 -900.4 5 1200 46.2 55.440 1.440.000 2.134,44 1130.6 -1084.4 6 2000 58.5 117.000 4.000.000 3.422,25 1850.6 -1792.1 7 2200 59.3 130.460 4.840.000 3.516,49 2030.6 -1971.3 8 1500 48.4 72.600 2.250.000 2.342,56 1400.6 -1352.2 9 3000 63.7 191.100 9.000.000 4.057,69 2750.6 -2686.9 10 4000 85.3 341.200 16.000.000 7.276,09 3650.6 -3565.3 11 53.4 64.080 2.851,56 -1077.2 12 54.5 81.750 2.970,25 -1346.1 sumatoria 19.800 625.2 1.184.01 43.960.000 34.878,58 22927.2 -22302

Variación no explicada Variación total Vtotal = 2305.66 Variación no explicada Ojo: Esta no se hace solo nos piden r2 = Vexp/Vtotal Variación explicada Vexp = - 30944.63 = r2= = - 13.42 r2 = - 13.42

Área de la terreno (mts)2 Costo construcción (bs) Ejercicio II Se desea estimar los costos para la construcción de un apartamento, para determinar los posibles precios, tomando en cuenta la relación costo-tamaño se decide tomar una muestra aleatoria de 7 expresada según la tabla a continuación Área de la terreno (mts)2 Costo construcción (bs) 1 2000 41.20 2 1500 45.50 3 4000 54.10 4 3000 50,05 5 5000 63.40 6 2500 90.40 7 4500 85.70

Ejercicio II El gráfico demuestra que la hipótesis es más que razonablemente valida, por lo proceda a construir una recta de regresión y obtener así su modelo. Luego se obtienen los valores de la tabla de acuerdo a cada uno de ellos

Costo construcción (bs) Ejercicio II Área del terreno (mts)2 Costo construcción (bs) X.Y X2 Y2 Yest Y-Yest 1 2000 41.20 82.400 4.000.000 1.697,44 55.4 -14.2 2 1500 45.50 68.250 2.250.000 2.070,25 54.0 -8.5 3 4000 54.10 216.400 16.000.000 2.926,81 56.0 -1.9 4 3000 50.05 150.150 9.000.000 2.505,0025 56.2 -6.6 5 5000 63.40 317.000 25.000.000 4.019,56 57.8 5.6 6 2500 90.40 226.000 6.250.000 8.172,16 55.8 34.6 7 4500 85.70 385.650 20.250.000 7.344,49 57.4 28.3 ∑ 22.500 430.35 1445.850 82750.000 27673.096 392.6 37.3

Ejercicio II Ojo: No da el resultado hubo un error en la media se toma con N=7 Al momento de aplicar la formula se obtiene los siguiente resultados: b1=0.0008 b0=53.79 Ya habiendo obtenido b1 y b0 procedemos a buscar a Y estimada utilizando la siguiente formula

Ejercicio II Ya habiendo obtenido b1 y b0 procedemos a buscar a Y estimada utilizando la siguiente formula: Ῡ i= b0+ b1* X I Ῡ i=53.79+(0.0008*2000)=55.4 Ῡ i=53.79+(0.0008*1500)=54.0 Ῡ i=53.79+(0.0008*4000)=56.0 Ῡ i=53.79+(0.0008*3000)=56.2 Ῡ i=53.79+(0.0008*5000)=57.8 Ῡ i=53.79+(0.0008*2500)=55.8 Ῡ i=53.79+(0.0008*4500)=57.4

Ejercicio II Datos original Estimación Igualmente puede observarse que en la estimación la mitad de los datos calculados están muy cercanos al dato observado Datos original Estimación Área de la terreno (mts)2 Costo construcción (bs) Yest Y-Yest 1 2000 41.20 55.4 -14.1 2 1500 45.50 54.0 -8.5 3 4000 54.10 56.0 -1.9 4 3000 50.05 56.2 -6.6 5 5000 63.40 57.8 5.6 6 2500 90.40 55.8 34.6 7 4500 85.70 57.4 28.3

Ejercicio II Vtotal=143013.223 Vnexp=30920.61 Vexp= 90264.91

Gracias