Juan José Hernández Ocaña

Slides:



Advertisements
Presentaciones similares
Tema 6: Regresión lineal.
Advertisements

Tema.9.Predicción y estimación. Concepto. Cálculo de la ecuación de regresión lineal. Modelo general lineal. Evaluación del modelo. Diagnóstico del modelo.
REGRESION LINEAL SIMPLE
Error Estándar de la Media
ESTRATEGIAS Y DISEÑOS AVANZADOS DE INVESTIGACIÓN SOCIAL
MÉTODOS DE MEDICIÓN DE COSTOS.
Ingeniería Industrial II CicloEducativo 2011
ESTRATEGIAS Y DISEÑOS AVANZADOS DE INVESTIGACIÓN SOCIAL
Regresión y correlación
Correlación 1.
Estadística Administrativa II
Estadística Administrativa II
Estadística Descriptiva: 4. Correlación y Regresión Lineal
بسم الله الرحمن الرحيم.
Tema 1- Regresión lineal simple.
COEFICIENTE DE CORRELACIÓN PRODUCTO-MOMENTO DE PEARSON
CURSO DE ESTADÍSTICA BÁSICA
Estadística Descriptiva: 4. Correlación y Regresión Lineal Ricardo Ñanculef Alegría Universidad Técnica Federico Santa María.
Regresión lineal Es un modelo matemático para predecir el efecto de una variable sobre otra, ambas cuantitativas. Una variable es la dependiente y otra.
Regresión Lineal Simple
Curso de Estadística Básica
9 Regresión Lineal Simple
Regresión Linear Correlación de Pearson, r Regresión Múltiple Regresión Logística Regresión de Poisson.
Estadística bidimensional
MEDIDAS DE DISPERSIÓN:
Análisis de Correlación y de Regresión lineal simple
UNIVERSIDAD AUTONOMA DEL PERÚ
Distribuciones bidimensionales. Tablas de contingencia
REGRESION Y CORRELACION
Prueba para la Bondad de ajuste Validación de Modelo
Módulo 5 Análisis de Regresión y Series de Tiempo.
Este procedimiento mide la relación entre la intensidad de un estímulo y la proporción de casos que presentan una cierta respuesta a dicho estímulo. Es.
Pronósticos, Series de Tiempo y Regresión
Pronósticos, Series de Tiempo y Regresión
Regresión Lineal Simple Lic. César Octavio Contreras.
Tema 7: Regresión Simple y Múltiple. EJEMPLO: Aproxima bien el número de préstamos que efectúa una biblioteca a lo largo de su primer año de vida. Nos.
Métodos de calibración: regresión y correlación
Titular: Agustín Salvia
Introducción a la Inferencia Estadística
LA RECTA DE REGRESIÓN CONTENIDOS:
Primerasdefiniciones y conceptos de la regresión El análisis de la regresión es una técnica estadística que se utiliza para estudiar la relación entre.
Variables estadísticas bidimensionales
RELACIÓN ENTRE VARIABLES
SEMINARIO DE INVESTIGACION Titular: Agustín Salvia
Estadística II Regresión Lineal.
Análisis de los Datos Cuantitativos
Regresión Lineal Simple
Variables estadísticas bidimensionales
CORRELACIÓN Y REGRESIÓN EMPLEANDO EXCEL
Ejercicios Dado un conjunto de datos, aplicar el Criterio de Fourier para desechar los posibles valores atípicos.
Prueba de Hipótesis Una hipótesis estadística es un supuesto que se establece sobre las características de una distribución poblacional El estudio se plantea.
Variables estadísticas bidimensionales
Regresión lineal simple Nazira Calleja
Unidad 4 Análisis de los Datos.
TEMA 3: Estadística Bidimensional.
ANÁLISIS DE LA INFORMACIÓN La relación entre variables.
TEMA : ANALISIS DE REGRESION
Germán Fromm R. 1. Objetivo Entender los diseños metodológicos predictivos 2.
Estadística Administrativa II
Estadística Administrativa II
REGRESIÓN LINEAL SIMPLE
UNIDAD I.- Analisis 3.4 Prueba de Hipotesis.
REGRESIÓN LINEAL SIMPLE. Temas Introducción Análisis de regresión (Ejemplo aplicado) La ecuación de una recta Modelo estadístico y suposiciones Estimación.
ESTADISTICA DESCRIPTIVA BIVARIADA MEDIDAS DE RELACIÓN ENTRE VARIABLES CUANTITATIVAS.
Introducción a la Estadística Inferencial con SPSS Juan José Igartua Perosanz Universidad de Salamanca
REGRESIÓN LINEAL SIMPLE TEMA INTRODUCCIÓN Determinar la ecuación de regresión sirve para: – Describir de manera concisa la relación entre variables.
Licenciatura en Psicopedagogía: Métodos, Diseños y Técnicas de Investigación Psicológica Tema 9 Fiabilidad de las puntuaciones.
14 Introducción al Análisis de Correlación y de Regresión Lineal
METODO DEL PUNTO ALTO Y DEL PUNTO BAJO
M.E. ADA PAULINA MORA GONZALEZ. Esta parte describe las técnicas para ajustar curvas en base a datos para estimaciones intermedias. Una manera de hacerlo.
Transcripción de la presentación:

Juan José Hernández Ocaña Correlación Juan José Hernández Ocaña

Correlación Muchas veces en Estadística necesitamos saber si existe una relación entre datos apareados y tratamos de buscar una posible relación entre variables. Podemos decir que hay una correlación entre dos variables “si cuando una de ellas se relaciona con la otra de alguna manera”

Análisis de correlación Conceptos Análisis de correlación Conjunto de técnicas estadísticas empleado para medir la intensidad de la asociación entre dos variables Este tipo de estadístico puede utilizarse para medir el grado de relación de dos variables si ambas utilizan una escala de medida a nivel de intervalo/razón (variables cuantitativas)

Diagrama de dispersión Es una gráfica que representa la relación entre dos variables. Los datos muestrales apareados (x,y) se grafican en un eje horizontal (x) y un eje vertical (y). Cada par individual (x, y) se grafica como un solo punto. Podemos encontrar tres tipos de relación entre las variables Positiva Negativa Sin relación

Coeficiente de correlación El coeficiente de correlación r mide la fuerza de la relación lineal entre los valores cuantitativos apareados x y y. El coeficiente de correlación expresa de manera cuantitativa la magnitud y dirección de una relación Condiciones La muestra de datos apareados (x, y) es una muestra aleatoria de datos cuantitativos Los pares de datos ( x, y) tienen una distribución normal bivariada

Conceptos Correlación Coeficiente de correlación Este coeficiente expresa de manera cuantitativa la magnitud y dirección de una relación lineal La dirección se refiere a si la relación es positiva o negativa El grado de la relación se refiere a la magnitud Una correlación puede variar de +1 a - 1 Hay que considerar que la gráfica de dispersión está formada por parejas de valores de x y Si se desea conocer la relación simple entre una variable x y , podemos emplear La r de Pearson r2 Nos mide la proporción de la variación de y , que se explica por relación lineal de x

∑X Es la suma de todos los valores de x ∑X2 indica que cada valor de x debe elevarse al cuadrado y después dichos cuadrados se suman ∑(X)2 indica que los valores de x deben sumarse y el total elevarse al cuadrado ∑XY indica que cada valor de x debe multiplicarse por su correspondiente de y después hacer la suma de todos los productos.

Ejercicios Considere los siguiente valores para la variable x y para la variable y. Calcule el valor de la r de Pearson Calcule el valor de r2 Cuál es la hipótesis nula Cuál es la hipótesis alternativa Establezca criterio de decisión de acuerdo a t Rechace Ho de acuerdo a los criterios anteriores Cuáles son sus conclusiones x 1 2 3 4 y 5 8 13

x y 1 3 2 5 8 4 13 xy 3 10 24 52 x2 1 4 9 16 y2 9 25 64 169 SUMATORIAS ∑x =10 ∑y=29 ∑xy=89 ∑ x2= 30 ∑ y2 =267

Grafico de dispersión

Regresión lineal En el modelo de regresión lineal simple, se supone que la relación entre la variable dependiente (y) y la variable independiente (x) es casi una recta

Regresión Conceptos La regresión mide la relación entre dos variables y se basa en el uso de la misma relación para elaborar una predicción. Esto resultaría sencillo siempre y cuando se considere una recta perfecta en la relación entre dos variables En el caso de relaciones imperfectas la solución consiste en construir una recta que minimice los errores de predicción de acuerdo a un criterio llamado mínimos cuadrados

Se quiere conocer si existe una relación entre el numero de las llamadas que los empleados realizan a los clientes potenciales y el número de equipos vendidos llamadas Equipos vendidos Keller 20 30 Hall 40 60 Vinist Fish Welch 10 Ramirez Niles Kiel 50 Reynols Jones 70 EJEMPLO

La media de X ( llamadas ) es 22 La media de Y ( equipos vendido) es 45

βo es la ordenada al origen β 1 es la pendiente La ecuación que describe la forma en que el valor medio de y se relaciona con x se llama ecuación de regresión lineal simple E(y) = βo + β 1x βo es la ordenada al origen β 1 es la pendiente E(y) es el valor esperado de y para determinado valor de x

donde a es la ordenada al origen La ecuación que describe la forma en que el valor medio de y se relaciona con x se llama ecuación de regresión estimada y = bx + a donde a es la ordenada al origen Donde b es la pendiente El valor de y sería el valor estimado de y a partir del valor de x empleando la ecuación

Se investiga únicamente relaciones lineales Supuestos Se investiga únicamente relaciones lineales Para cada valor de (x, y) es una variable aleatoria con una distribución normal y se considera que todas estas distribuciones de y tienen la misma varianza. Si existe una correlación lineal, el mejor valor predicho de y se calcula sustituyendo el valor de x en la ecuación de regresión. Si no existe una correlación lineal, no debe utilizar la ecuación de regresión para hacer predicciones. Cuando utilice la ecuación de regresión para hacer predicciones, debe permanecer en el ámbito de los datos muestrales disponibles.

PENDIENTE DE LA RECTA La pendiente nos representa la cantidad que cambia la variable dependiente cuando la variable independiente cambia exactamente una unidad, esto es conocido como cambio marginal Una recta satisface la propiedad de mínimos cuadrados sí la suma de los cuadrados de los residuales es la menor posible Un residual es la diferencia entre el valor observado muestral de y, y el valor de y predicho por la ecuación de regresión. Es necesario realizar una prueba de hipótesis para verificar la fiabilidad de la predicción mediante el uso de la ecuación

Predicción

Se puede pronosticar el valor de y siempre y cuando se tenga una recta 1.-Se puede dar confiabilidad a la estimación mediante la prueba de hipótesis. nos dice en términos de probabilidad la certeza de tener o no un recta. 2.- Se puede emplear también el calculo del error estándar de estimación. Nos dice cuán preciso es el pronóstico

Error estándar de estimación Es la medida de la dispersión de los valores observados respecto a la recta de regresión calcular residuos y a partir de allí el error estándar de medición Si su valor es pequeño ello significa que los datos están relativamente cercanos a la recta de regresión y la ecuación sirve para predecir con un margen de error pequeño Se emplea el método de la recta de mínimos cuadrados No hay otra recta que pase por el valor de los datos donde la suma de las desviaciones al cuadrado sea menor

1.-calcular valores estimados de la variable dependiente (y) 2.- Calcular los residuos 3.- calcular el cuadrado de los residuos 4.- Calcular error estándar de medición 5.- Comparar con regla de distribución empírica Se considera como muy confiable si se encuentra dentro de +/- un valor del error estándar se considera confiable si se encuentra dentro de +/- 2 valores del error estándar.

Coeficiente de determinación r2 Es una medida de la bondad de ajuste para una ecuación de regresión Esto es , qué tan bien se ajusta a los datos la ecuación de regresión los valores van desde 0 a 1 se puede emplear para relaciones que tengan dos o más variables independientes

EJERCICIOS

AÑO AUTOS (MILLONES) % GM 1950 6 50.2 1955 7.8 50.4 1960 7.3 44 1965 10.3 49.9 1970 10.1 39.5 1975 10.8 43.1 1980 11.5 1985 15.4 40.1 1990 13.5 36 1995 15.5 31. 2000 17.4 28.6 2003 17.1 27.8 Se desea terminar si existe una relación entre la cantidad de autos vendidos durante varios años y el porcentaje de participación de la compañía General Motors

Coeficiente de correlación ( r) = - 0.7852 conforme aumentan las semanas de experiencia, disminuye el número de rechazos Coeficiente de determinación (r2)= 0.6165 EL 61.65% de los cambios de y se deben a la variable x, esto es, el 61.65% de la disminución en el número de los defectos es atribuible a la experiencia del operador

Pendiente de la recta ( b)= -1 Pendiente de la recta ( b)= -1.408, lo que significa que cada semana de experiencia en el operador se refleja en una disminución en el número de defectos de 1.408 . El valor de la intersección (a) es de 34.71, se puede inferir que 34.71 unidades son independiente de la experiencia del operador y se deben a otros factores ( materia prima, maquinaria). Para un análisis más especifico se deberá centrar el proceso al valor medio de x

El error estándar de medición es = 4.587= Observación Pronóstico para Y Residuos R2 1 24.85546875 1.14453125 1.30995178 2 22.0390625 -2.0390625 4.15777588 3 26.26367188 1.73632813 3.01483536 4 14.99804688 1.00195313 1.00391006 5 23.44726563 -11.4472656 131.03989 6 17.81445313 0.18554687 0.03442764 7 20.63085938 3.36914063 11.3511086 8 29.08007813 -3.08007813 9.48688126 9 31.89648438 6.10351563 37.252903 10 19.22265625 2.77734375 7.71363831 11 33.3046875 -1.3046875 1.70220947 12 1.55273438 2.41098404 210.478516 El error estándar de medición es = 4.587= Por lo que podemos decir que es confiable ya que solo dos datos están fuera del 68% y ningún dato se encuentra fuera del 95% de los mismos de acuerdo a regla empírica

Regresión y Correlación ejercicios Regresión y Correlación

semana ingreso Costo variable 1 157 52 2 150 3 143 48 4 139 49 5 163 53 6 165 54 7 167 57 8 173 58 Un gerente de una empresa que comercializa cosméticos desea saber qué relación existe entre los ingresos de varias semanas y sus respectivos costos variables, para lo cual, registra estas variables durante 8 semanas, dando como resultado los siguientes datos Calcule el coeficiente de correlación Calcule la ecuación de regresión. Valor de b y el valor de a Si tiene un valor DE X DE 140 CUAL SERÍA EL VALOR DE Y Calcule el coeficiente de determinación Pruebe la hipótesis de la fiabilidad de la predicción de la ecuación

semana ingreso costo var XY X2 Y2 1 157 52 8164 24649 2704 2 150 7800 22500 3 143 48 6864 20449 2304 4 139 49 6811 19321 2401 5 163 53 8639 26569 2809 6 165 54 8910 27225 2916 7 167 57 9519 27889 3249 8 173 58 10034 29929 3364 sumas 1257 423 66741 198531 22451 N

SST SSR SSE semana ingreso costo var y estimada (y1 -y prom)2 (y est- y pro)2 (y1-yest)2 (x-xpro)2 1 157 52 52.8412001 0.765625 0.00114243 0.70761769 0.015625 2 150 50.9484083 3.71175541 1.10584501 50.765625 3 143 48 49.0556165 23.765625 14.58769 1.11432628 199.515625 4 139 49 47.9740212 15.015625 24.019593 1.05263245 328.515625 5 163 53 54.4635931 2.5236281 2.14210482 34.515625 6 165 54 55.0043908 1.265625 4.53430509 1.00880084 62.015625 7 167 57 55.5451884 17.015625 7.12990629 2.11647668 97.515625 8 173 58 57.1675814 26.265625 18.4262552 0.69292071 252.015625 suma 1257 423 84.875 74.9342755 9.94072448 1024.875

En la asociación de hoteleros de la zona de Naucalpan existe una preocupación por los bajos niveles de ocupación durante el año. Ellos están por plantear una solución al problema, realizando una diagnóstico del mismo, para lo cual registran los niveles de ocupación promedio al año y las tarifas por persona que se cobran por noche en habitación doble 1.- Determine el coeficiente de correlación 2.- Determine la ecuación de regresión 3.- Calcule el coeficiente de determinación 4.- Realice la prueba de hipótesis para determinar la fiabilidad de predicción de la ecuación. Sí la tarifa por persona fuera 270, cuál sería el % de ocupación esperado? 5.- De acuerdo a los resultado, cuáles serían sus conclusiones? TARIFA POR PERSONA % DEL NIVEL DE OCUPACIÓN 185. 19.69 176. 20.45 201. 18.1 194. 14.5 240. 15.23 314. 6.6 187. 15.9 267. 9.2 250 9.96 170. 19.2

1.- Obtenga la ecuación de regresión PC WORLD publicó las evaluaciones para las 15 computadoras portátiles más vendidas. Las puntuaciones de desempeño es una medida de qué tan rápido una PC corre en combinación de aplicaciones de negocios en comparación con una maquina de referencia. Por ejemplo, una PC ´con una puntuación de desempeño de 200 es dos veces más rápida que la máquina de referencia. Se utilizó una escala de 100 puntos para asignar una evaluación global a cada computadora portátil que se probó en el estudio. 1.- Obtenga la ecuación de regresión 2.- Estime la evaluación global para una nueva PC que tiene una puntuación de desempeño de 225 Marca Desempeño Evaluación global AMS 115 67 CPM 191 78 COMNT 153 79 DELL37 194 80 DELL75 236 84 DELLA3 184 76 ENP 77 GATEW 216 92 HP 185 83 IBM 183 MICROE 189 MICROT 202 NEC 192 SCET 141 73 SONY 187

numero de actos agresivos Una neuróloga sospecha que los bajos niveles de serotonina pueden estar relacionados con el comportamiento agresivo. Como primer paso de su investigación, decide realizar un estudio de correlación con nueve macacos de la India. Los monos son observados durante 6 meses y se registra en número de actos agresivos que realizan. El número de actos agresivos por cada animal es el promedio de 6 meses, expresados sobre base diaria a.- Obtenga la recta de regresión por mínimos cuadrados para predecir el número de actos agresivos a partir del nivel de serotonina b.- Cuál es el número de actos agresivos por día que se podría predecir si el nivel se serotonina es de 0.46 microgramos/gramo sujeto nivel de serotonina numero de actos agresivos 1 0.32 6 2 0.35 3.8 3 0.38 4 0.41 5.1 5 0.43 0.51 7 0.53 2.4 8 0.6 3.5 9 0.63 2.2

A.-Determine el coeficiente de correlación Una Psicóloga del desarrollo está interesada en determinar si es posible utilizar la estatura de los niños como base para predecir su posible estatura en la edad adulta. A.-Determine el coeficiente de correlación Empleando una alfa de 0.05, determine si tiene una relación lineal Cuáles son sus conclusiones a.- Si los datos están relacionados de manera lineal, deduzca la recta de regresión por mínimos cuadrados ( calcular la pendiente y la coordenada al origen) b.- Qué estatura podría predecir para una persona de 20 años si a los tres años tuvo una estatura de 42 pulgadas INDIVIDUO EST 3 AÑOS EST. 20 AÑOS 1 30 59 2 63 3 32 62 4 33 67 5 34 65 6 35 61 7 36 69 8 38 66 9 40 68 10 41 11 73 12 43 13 45 71 14 74 15 47 16 48 75