La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Juan José Hernández Ocaña

Presentaciones similares


Presentación del tema: "Juan José Hernández Ocaña"— Transcripción de la presentación:

1 Juan José Hernández Ocaña
Correlación Juan José Hernández Ocaña

2 Correlación Muchas veces en Estadística necesitamos saber si existe una relación entre datos apareados y tratamos de buscar una posible relación entre variables. Podemos decir que hay una correlación entre dos variables “si cuando una de ellas se relaciona con la otra de alguna manera”

3 Análisis de correlación
Conceptos Análisis de correlación Conjunto de técnicas estadísticas empleado para medir la intensidad de la asociación entre dos variables Este tipo de estadístico puede utilizarse para medir el grado de relación de dos variables si ambas utilizan una escala de medida a nivel de intervalo/razón (variables cuantitativas)

4 Diagrama de dispersión
Es una gráfica que representa la relación entre dos variables. Los datos muestrales apareados (x,y) se grafican en un eje horizontal (x) y un eje vertical (y). Cada par individual (x, y) se grafica como un solo punto. Podemos encontrar tres tipos de relación entre las variables Positiva Negativa Sin relación

5 Coeficiente de correlación
El coeficiente de correlación r mide la fuerza de la relación lineal entre los valores cuantitativos apareados x y y. El coeficiente de correlación expresa de manera cuantitativa la magnitud y dirección de una relación Condiciones La muestra de datos apareados (x, y) es una muestra aleatoria de datos cuantitativos Los pares de datos ( x, y) tienen una distribución normal bivariada

6 Conceptos Correlación
Coeficiente de correlación Este coeficiente expresa de manera cuantitativa la magnitud y dirección de una relación lineal La dirección se refiere a si la relación es positiva o negativa El grado de la relación se refiere a la magnitud Una correlación puede variar de a Hay que considerar que la gráfica de dispersión está formada por parejas de valores de x y Si se desea conocer la relación simple entre una variable x y , podemos emplear La r de Pearson r2 Nos mide la proporción de la variación de y , que se explica por relación lineal de x

7 ∑X Es la suma de todos los valores de x
∑X2 indica que cada valor de x debe elevarse al cuadrado y después dichos cuadrados se suman ∑(X)2 indica que los valores de x deben sumarse y el total elevarse al cuadrado ∑XY indica que cada valor de x debe multiplicarse por su correspondiente de y después hacer la suma de todos los productos.

8 Ejercicios Considere los siguiente valores para la variable x y para la variable y. Calcule el valor de la r de Pearson Calcule el valor de r2 Cuál es la hipótesis nula Cuál es la hipótesis alternativa Establezca criterio de decisión de acuerdo a t Rechace Ho de acuerdo a los criterios anteriores Cuáles son sus conclusiones x 1 2 3 4 y 5 8 13

9 x y 1 3 2 5 8 4 13 xy 3 10 24 52 x2 1 4 9 16 y2 9 25 64 169 SUMATORIAS ∑x =10 ∑y=29 ∑xy=89 ∑ x2= 30 ∑ y2 =267

10 Grafico de dispersión

11 Regresión lineal En el modelo de regresión lineal simple, se supone que la relación entre la variable dependiente (y) y la variable independiente (x) es casi una recta

12 Regresión Conceptos La regresión mide la relación entre dos variables y se basa en el uso de la misma relación para elaborar una predicción. Esto resultaría sencillo siempre y cuando se considere una recta perfecta en la relación entre dos variables En el caso de relaciones imperfectas la solución consiste en construir una recta que minimice los errores de predicción de acuerdo a un criterio llamado mínimos cuadrados

13 Se quiere conocer si existe una relación entre el numero de las llamadas que los empleados realizan a los clientes potenciales y el número de equipos vendidos llamadas Equipos vendidos Keller 20 30 Hall 40 60 Vinist Fish Welch 10 Ramirez Niles Kiel 50 Reynols Jones 70 EJEMPLO

14 La media de X ( llamadas ) es 22
La media de Y ( equipos vendido) es 45

15 βo es la ordenada al origen β 1 es la pendiente
La ecuación que describe la forma en que el valor medio de y se relaciona con x se llama ecuación de regresión lineal simple E(y) = βo β 1x βo es la ordenada al origen β 1 es la pendiente E(y) es el valor esperado de y para determinado valor de x

16 donde a es la ordenada al origen
La ecuación que describe la forma en que el valor medio de y se relaciona con x se llama ecuación de regresión estimada y = bx + a donde a es la ordenada al origen Donde b es la pendiente El valor de y sería el valor estimado de y a partir del valor de x empleando la ecuación

17 Se investiga únicamente relaciones lineales
Supuestos Se investiga únicamente relaciones lineales Para cada valor de (x, y) es una variable aleatoria con una distribución normal y se considera que todas estas distribuciones de y tienen la misma varianza. Si existe una correlación lineal, el mejor valor predicho de y se calcula sustituyendo el valor de x en la ecuación de regresión. Si no existe una correlación lineal, no debe utilizar la ecuación de regresión para hacer predicciones. Cuando utilice la ecuación de regresión para hacer predicciones, debe permanecer en el ámbito de los datos muestrales disponibles.

18 PENDIENTE DE LA RECTA La pendiente nos representa la cantidad que cambia la variable dependiente cuando la variable independiente cambia exactamente una unidad, esto es conocido como cambio marginal Una recta satisface la propiedad de mínimos cuadrados sí la suma de los cuadrados de los residuales es la menor posible Un residual es la diferencia entre el valor observado muestral de y, y el valor de y predicho por la ecuación de regresión. Es necesario realizar una prueba de hipótesis para verificar la fiabilidad de la predicción mediante el uso de la ecuación

19

20

21 Predicción

22 Se puede pronosticar el valor de y siempre y cuando se tenga una recta
1.-Se puede dar confiabilidad a la estimación mediante la prueba de hipótesis. nos dice en términos de probabilidad la certeza de tener o no un recta. 2.- Se puede emplear también el calculo del error estándar de estimación. Nos dice cuán preciso es el pronóstico

23 Error estándar de estimación
Es la medida de la dispersión de los valores observados respecto a la recta de regresión calcular residuos y a partir de allí el error estándar de medición Si su valor es pequeño ello significa que los datos están relativamente cercanos a la recta de regresión y la ecuación sirve para predecir con un margen de error pequeño Se emplea el método de la recta de mínimos cuadrados No hay otra recta que pase por el valor de los datos donde la suma de las desviaciones al cuadrado sea menor

24 1.-calcular valores estimados de la variable dependiente (y)
2.- Calcular los residuos 3.- calcular el cuadrado de los residuos 4.- Calcular error estándar de medición 5.- Comparar con regla de distribución empírica Se considera como muy confiable si se encuentra dentro de +/- un valor del error estándar se considera confiable si se encuentra dentro de +/- 2 valores del error estándar.

25 Coeficiente de determinación r2
Es una medida de la bondad de ajuste para una ecuación de regresión Esto es , qué tan bien se ajusta a los datos la ecuación de regresión los valores van desde 0 a 1 se puede emplear para relaciones que tengan dos o más variables independientes

26 EJERCICIOS

27 AÑO AUTOS (MILLONES) % GM 1950 6 50.2 1955 7.8 50.4 1960 7.3 44 1965 10.3 49.9 1970 10.1 39.5 1975 10.8 43.1 1980 11.5 1985 15.4 40.1 1990 13.5 36 1995 15.5 31. 2000 17.4 28.6 2003 17.1 27.8 Se desea terminar si existe una relación entre la cantidad de autos vendidos durante varios años y el porcentaje de participación de la compañía General Motors

28

29

30 Coeficiente de correlación ( r) = - 0.7852
conforme aumentan las semanas de experiencia, disminuye el número de rechazos Coeficiente de determinación (r2)= EL 61.65% de los cambios de y se deben a la variable x, esto es, el 61.65% de la disminución en el número de los defectos es atribuible a la experiencia del operador

31 Pendiente de la recta ( b)= -1
Pendiente de la recta ( b)= , lo que significa que cada semana de experiencia en el operador se refleja en una disminución en el número de defectos de El valor de la intersección (a) es de 34.71, se puede inferir que unidades son independiente de la experiencia del operador y se deben a otros factores ( materia prima, maquinaria). Para un análisis más especifico se deberá centrar el proceso al valor medio de x

32 El error estándar de medición es = 4.587=
Observación Pronóstico para Y Residuos R2 1 2 3 4 5 6 7 8 9 10 11 12 El error estándar de medición es = = Por lo que podemos decir que es confiable ya que solo dos datos están fuera del 68% y ningún dato se encuentra fuera del 95% de los mismos de acuerdo a regla empírica

33 Regresión y Correlación
ejercicios Regresión y Correlación

34 semana ingreso Costo variable 1 157 52 2 150 3 143 48 4 139 49 5 163
53 6 165 54 7 167 57 8 173 58 Un gerente de una empresa que comercializa cosméticos desea saber qué relación existe entre los ingresos de varias semanas y sus respectivos costos variables, para lo cual, registra estas variables durante 8 semanas, dando como resultado los siguientes datos Calcule el coeficiente de correlación Calcule la ecuación de regresión. Valor de b y el valor de a Si tiene un valor DE X DE 140 CUAL SERÍA EL VALOR DE Y Calcule el coeficiente de determinación Pruebe la hipótesis de la fiabilidad de la predicción de la ecuación

35 semana ingreso costo var XY X2 Y2 1 157 52 8164 24649 2704 2 150 7800
22500 3 143 48 6864 20449 2304 4 139 49 6811 19321 2401 5 163 53 8639 26569 2809 6 165 54 8910 27225 2916 7 167 57 9519 27889 3249 8 173 58 10034 29929 3364 sumas 1257 423 66741 198531 22451 N

36 SST SSR SSE semana ingreso costo var y estimada (y1 -y prom)2
(y est- y pro)2 (y1-yest)2 (x-xpro)2 1 157 52 2 150 3 143 48 4 139 49 5 163 53 6 165 54 7 167 57 8 173 58 suma 1257 423 84.875

37 En la asociación de hoteleros de la zona de Naucalpan existe una preocupación por los bajos niveles de ocupación durante el año. Ellos están por plantear una solución al problema, realizando una diagnóstico del mismo, para lo cual registran los niveles de ocupación promedio al año y las tarifas por persona que se cobran por noche en habitación doble 1.- Determine el coeficiente de correlación 2.- Determine la ecuación de regresión 3.- Calcule el coeficiente de determinación 4.- Realice la prueba de hipótesis para determinar la fiabilidad de predicción de la ecuación. Sí la tarifa por persona fuera 270, cuál sería el % de ocupación esperado? 5.- De acuerdo a los resultado, cuáles serían sus conclusiones? TARIFA POR PERSONA % DEL NIVEL DE OCUPACIÓN 185. 19.69 176. 20.45 201. 18.1 194. 14.5 240. 15.23 314. 6.6 187. 15.9 267. 9.2 250 9.96 170. 19.2

38 1.- Obtenga la ecuación de regresión
PC WORLD publicó las evaluaciones para las 15 computadoras portátiles más vendidas. Las puntuaciones de desempeño es una medida de qué tan rápido una PC corre en combinación de aplicaciones de negocios en comparación con una maquina de referencia. Por ejemplo, una PC ´con una puntuación de desempeño de 200 es dos veces más rápida que la máquina de referencia. Se utilizó una escala de 100 puntos para asignar una evaluación global a cada computadora portátil que se probó en el estudio. 1.- Obtenga la ecuación de regresión 2.- Estime la evaluación global para una nueva PC que tiene una puntuación de desempeño de 225 Marca Desempeño Evaluación global AMS 115 67 CPM 191 78 COMNT 153 79 DELL37 194 80 DELL75 236 84 DELLA3 184 76 ENP 77 GATEW 216 92 HP 185 83 IBM 183 MICROE 189 MICROT 202 NEC 192 SCET 141 73 SONY 187

39 numero de actos agresivos
Una neuróloga sospecha que los bajos niveles de serotonina pueden estar relacionados con el comportamiento agresivo. Como primer paso de su investigación, decide realizar un estudio de correlación con nueve macacos de la India. Los monos son observados durante 6 meses y se registra en número de actos agresivos que realizan. El número de actos agresivos por cada animal es el promedio de 6 meses, expresados sobre base diaria a.- Obtenga la recta de regresión por mínimos cuadrados para predecir el número de actos agresivos a partir del nivel de serotonina b.- Cuál es el número de actos agresivos por día que se podría predecir si el nivel se serotonina es de 0.46 microgramos/gramo sujeto nivel de serotonina numero de actos agresivos 1 0.32 6 2 0.35 3.8 3 0.38 4 0.41 5.1 5 0.43 0.51 7 0.53 2.4 8 0.6 3.5 9 0.63 2.2

40 A.-Determine el coeficiente de correlación
Una Psicóloga del desarrollo está interesada en determinar si es posible utilizar la estatura de los niños como base para predecir su posible estatura en la edad adulta. A.-Determine el coeficiente de correlación Empleando una alfa de 0.05, determine si tiene una relación lineal Cuáles son sus conclusiones a.- Si los datos están relacionados de manera lineal, deduzca la recta de regresión por mínimos cuadrados ( calcular la pendiente y la coordenada al origen) b.- Qué estatura podría predecir para una persona de 20 años si a los tres años tuvo una estatura de 42 pulgadas INDIVIDUO EST 3 AÑOS EST. 20 AÑOS 1 30 59 2 63 3 32 62 4 33 67 5 34 65 6 35 61 7 36 69 8 38 66 9 40 68 10 41 11 73 12 43 13 45 71 14 74 15 47 16 48 75


Descargar ppt "Juan José Hernández Ocaña"

Presentaciones similares


Anuncios Google