La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Estadística Avanzasa para Ingenieros

Presentaciones similares


Presentación del tema: "Estadística Avanzasa para Ingenieros"— Transcripción de la presentación:

1 Estadística Avanzasa para Ingenieros
Dr. Ernesto R. Fuentes Garí

2 Actividad #2 Tema 2. HISTOGRAMAS Temario
Temario 2.1 Histogramas, Diagrama de caja. 2.2 Cuartiles. 2.3 Gráficas en el tiempo. 2.4 Diagramas de dispersión. 2.5 Medidas de resumen. 2.7 Tendencia central. 2.8 Dispersión. 2.9 Correlación. 2.10 Regresión lineal simple.

3 Objetivos Conocer: histograma, diagrama de caja, cuartiles, percentiles, gráficas en el tiempo, diagramas de dispersión, medidas de resumen, de tendencia central y de dispersión, correlación y regresión lineal simple. Elaborar histogramas, diagrama de caja, gráficas en el tiempo y diagramas de dispersión. Calcular: media, moda, varianza y desviación estándar de un conjunto de datos, asi como otras medidas de tendencia central. Analizar si dos variables se correlacionan linealmente y calcular los parámetros y el coeficiente de correlación correspondiente.

4 Frecuencias Frecuencia absoluta es el número de veces que aparece un determinado valor en un estudio estadístico y se representa por fi. La suma de las frecuencias absolutas es igual al número total de datos, que se representa por N. 𝑁= 𝑓 1 + 𝑓 2 + 𝑓 3 +…+ 𝑓 𝑛 = 𝑖=1 𝑛 𝑓 𝑖

5 Ejemplo Durante el mes de julio, en una ciudad se han registrado las siguientes temperaturas máximas: 32, 31, 28, 29, 33, 32, 31, 30, 31, 31, 27, 28, 29, 30, 32, 31, 31, 30, 30, 29, 29, 30, 30, 31, 30, 31, 34, 33, 33, 29, 29.

6 Frecuencias Xi 27 28 29 30 31 32 33 34 fi 1 2 6 7 8 3

7 Frecuencias La frecuencia relativa es el cociente entre la frecuencia absoluta de un determinado valor y el número total de datos. La frecuencia relativa se puede expresar en tantos por ciento y se representa por ni. La suma de las frecuencias relativas es igual a 1.

8 Frecuencias Xi 27 28 29 30 31 32 33 34 fi 1 2 6 7 8 3 ni 0,032 0,065 0,194 0,226 0,258 0,094

9 Frecuencias La frecuencia absoluta acumulada es la suma de las frecuencias absolutas de todos los valores inferiores o iguales al valor considerado y se representa por Fi. Xi 27 28 29 30 31 32 33 34 fi 1 2 6 7 8 3 Fi. 9 16 24

10 Frecuencias La frecuencia relativa acumulada es el cociente entre la frecuencia acumulada de un determinado valor y el número total de datos. Se representa por Ni y Se puede expresar en tantos por ciento. Xi 27 28 29 30 31 32 33 34 fi 1 2 6 7 8 3 Fi. 9 16 24 Ni 0,032 0,097 0,290 0,516 0,774 0,871 0,968 1,000

11 Distribución de frecuencia
Es una tabla que divide un conjunto de datos varias clases o categorías, mostrando también el número de elementos de cada clase. La tabla sacrifica parte de la información contenida en los datos, en lugar de conocer su valor exacto solo sabemos que se encuentra en determinada clase. Aunque se gana legibilidad compensando la pérdida de información.

12 Distribución de frecuencia
Consideremos las 80 mediciones de la emisión diaria en toneladas de óxido de azufre de una planta industrial. 15.8 26.4 17.3 11.2 23.9 24.8 18.7 9.0 13.2 22.7 9.8 6.2 14.7 17.5 26.1 12.8 17.6 23.7 26.8 18.0 20.5 11.0 20.9 15.5 19.4 16.7 10.7 19.1 15.2 22.9 26.6 20.4 21.4 19.2 21.6 16.9 19.0 18.5 23.0 24.6 20.1 16.2 7.7 13.5 23.5 14.5 14.4 29.6 17.0 20.8 24.3 22.5 18.4 18.1 8.3 21.9 12.3 22.3 13.3 11.8 19.3 20.0 25.7 31.8 25.9 10.5 15.9 27.5 17.9 9.4 24.1 28.5

13 Distribución de frecuencia
Límites de clase Marcas de clase Frecuencia Absoluta Frecuencia Absoluta Acumulada Frecuencia Relativa Frecuencia Relativa Acumulada FRA en % 6.95 3 0,0375 3,75 10.95 10 13 0,125 0,1625 16,25 14.95 14 27 0,175 0,3375 33,75 18.95 25 52 0,3125 0,65 65 22.95 17 69 0,2125 0,8625 86,25 26.95 9 78 0,1125 0,975 97,5 30.95 2 80 0,025 1 100  - Total

14 Histograma Es una representación gráfica de una variable en forma de barras, donde la superficie de cada barra es proporcional a la frecuencia de los valores representados, ya sea en forma diferencial o acumulada. Sirven para obtener una "primera vista" general, o panorama, de la distribución de la población, o la muestra, respecto a una característica, cuantitativa y continua, de la misma y que es de interés para el observador.

15 Histograma Los histogramas son más frecuentes en ciencias sociales, humanas y económicas que en ciencias naturales y exactas. Y permite la comparación de los resultados de un proceso

16 Histograma de frecuencias absolutas, elaborado en MS Excel

17 Histogramas Existen diversas demostraciones de como elaborar histogramas con MS Excel en la red. Por ejemplo:

18 Histogramas Tipos de histogramas
Diagramas de barras simples: Representa la frecuencia simple (absoluta o relativa) mediante la altura de la barra la cual es proporcional a la frecuencia simple de la categoría que representa. Diagramas de barras compuesta: Se usa para representar la información de una tabla de doble entrada o sea a partir de dos variables, las cuales se representan así; la altura de la barra representa la frecuencia simple de las modalidades o categorías de la variable y esta altura es proporcional a la frecuencia simple de cada modalidad.

19 Histogramas Diagramas de barras agrupadas: Se usa para representar la información de una tabla de doble entrada o sea a partir de dos variables, el cual es representado mediante un conjunto de barras como se clasifican respecto a las diferentes modalidades. Polígono de frecuencias: Es un gráfico de líneas que de las frecuencias absolutas de los valores de una distribución en el cual la altura del punto asociado a un valor de las variables es proporcional a la frecuencia de dicho valor. LoRmA1ZBeA

20 Polígono de frecuencias
Histogramas Polígono de frecuencias

21 Histogramas Ojiva porcentual: Es un gráfico acumulativo, el cual es muy útil cuando se quiere representar el rango porcentual de cada valor en una distribución de frecuencias. Estudio Independiente: Diagramas de Tallos y Hojas

22 Media aritmética: 𝑥 = 𝑖=1 𝑛 𝑥 𝑖 𝑛
Medidas Descriptivas Dado un conjunto de n mediciones u observaciones x1, x2, x3,…., xn, existen varias formas de describir su centro (punto medio o localización central, medidas de tendencia central). Entre las más comunes están, la media aritmética, la mediana y la moda. Media aritmética: 𝑥 = 𝑖=1 𝑛 𝑥 𝑖 𝑛 A menudo se le llama a 𝑥 la media de la muestra de la cual fueron tomados los datos.

23 Medidas Descriptivas La mediana de n mediciones u observaciones x1, x2, x3,…., xn, puede definirse vagamente como el valor más “cercano a la mitad” una vez que los datos han sido ordenados de acuerdo con su tamaño. Con más precisión, si se ordenan las observaciones de acuerdo con su tamaño si n es impar, la mediana es el valor que aparece en el lugar 𝑛+1 2 si es un número par, la mediana se define como el promedio de los valores que aparecen en las posiciones 𝑛 2 y 𝑛+2 2 .

24 Medidas Descriptivas Para n mediciones u observaciones x1, x2, x3,…., xn, ordenadas, la mediana es: m = 𝑥 𝑛+1 2 , sin 𝑛 𝑒𝑠 𝑖𝑚𝑝𝑎𝑟 𝑥 𝑛 2 + 𝑥 𝑛 , sin 𝑛 𝑒𝑠 𝑝𝑎𝑟

25 Medidas Descriptivas Ejemplo. Calcular la media y la mediana de los siguientes juegos de datos: a) 15, 14, 2, 27 y 13 b) 11, 9, 17, 19, 4 y 15

26 Medidas Descriptivas Para el inciso a)
La media es: 𝑥 = = y la mediana es el tercer valor más grande, m=14. 2, 13, 14, 15, 27 Para el inciso b) La media es: 𝑥 = = y la mediana es el promedio entre el tercer y cuarto valores más grandes, m = = 4, 9, 11, 15, 17, 19

27 Medidas Descriptivas Ejemplo
Una pequeña empresa contrata a 4 jóvenes ingenieros, les paga $24000 a cada uno al año, mientras el propietario (ingeniero también) cobra $ Analice si realmente la empresa paga un buen salario a sus ingenieros y x consiguiente es un buen lugar para trabajar.

28 Medidas Descriptivas La media es : 𝑥 = = , mientras la mediana es En este caso la media no describe la situación. La mediana es más representativa de lo que ganan los ingenieros. O sea que monetariamente no sería un buen lugar para trabajar.

29 Medidas Descriptivas La media y la mediana muestran una característica importante de los datos pero no dicen nada de los propios datos. Las variaciones individuales son x1- 𝑥 , x2- 𝑥 , x3- 𝑥 ,…., xn- 𝑥 . Sin embargo la suma de todas las variaciones nos da cero. 𝑖=1 𝑛 ( 𝑥 𝑖 − 𝑥 )=0 Estudio Independiente: Demostrar que esa suma es cero

30 Varianza: 𝑠 2 = 𝑖=1 𝑛 ( 𝑥 𝑖 − 𝑥 ) 2 𝑛−1
Medidas Descriptivas Varianza: 𝑠 2 = 𝑖=1 𝑛 ( 𝑥 𝑖 − 𝑥 ) 2 𝑛−1 Se divide por n-1 y no por n ya que solo hay n-1 desviaciones independientes de x1- 𝑥 .

31 Medidas Descriptivas Desviación estándar: S = 𝑖=1 𝑛 ( 𝑥 𝑖 − 𝑥 ) 2 𝑛−1 Ejemplo Los tiempos de preparación para cortar seis partes en un torno son 0.6, 1.2, y 0.8 minutos. Calcular la desviación estándar.

32 Medidas Descriptivas i (Xi - 𝑥 )2 1 0.6 -0.25 0.0625 2 1.2 0.35 0.1225
0.9 0.05 0.0025 4 0.15 0.0225 5 6 0.8 -0.05 Suma 5.1 0.275 Media 0.85 0.055 Desviación estándar 0.23

33 Medidas Descriptivas La desviación estándar y la varianza son medidas de variación absoluta, o sea que miden la cantidad real de variación presente en un conjunto de datos y dependen de la escala de medición. Para comparar la variación en diferentes conjuntos de datos es mejor utilizar la variación relativa como por ejemplo el coeficiente de variación.

34 Medidas Descriptivas Ejemplo Coeficiente de variación 𝑽 = 𝒔 𝒙 𝟏𝟎𝟎
Las mediciones realizadas con un micrómetro del diámetro de un cojinete de bolas tiene una media de mm y una desviación estándar de mm, en cambio las mediciones realizadas con otro micrómetro de la longitud original de un resorte tiene una media de 1.54 cm y una desviación estándar de 0,008 cm. ¿Cuál de los dos micrómetros resulta más preciso?. Coeficiente de variación 𝑽 = 𝒔 𝒙 𝟏𝟎𝟎

35 Medidas Descriptivas Para el primer micrómetro tenemos que 𝑽 = 𝟎.𝟎𝟏𝟓 𝟑.𝟗𝟐 𝟏𝟎𝟎= 0.38 % Para el segundo micrómetro tenemos que 𝑽 = 𝟎.𝟎𝟎𝟖 𝟏.𝟓𝟒 𝟏𝟎𝟎= 0.52 % Por tanto las mediciones realizadas con el primer micrómetro resultan más precisas.

36 Medidas Descriptivas Cuartiles y otros percentiles
El p-ésimo percentil de la muestra es un valor tal que al menos 100 p% de las observaciones están en o por debajo de ese valor y cuando menos (1-p)% están sobre ese valor. Cuatro partes: Los puntos de división se llaman Cuartiles. Qi Q1 separa la cuarta parte de la muestra, 25% de valores de la muestra menores que él. Tambien se denomina 25avo percentil de la muestra P0.25. La mediana es el quincuagésimo percentil (50).

37 Medidas Descriptivas Ejemplo.
Obtener los cuartiles y el nonagésimo quinto percentil de los datos para las emisiones de azufre del ejemplo anterior. 1 2 3 4 5 6 7 8 9 10 6,2 7,7 8,3 9,0 9,4 9,8 10,5 10,7 11,0 11,2 11,8 12,3 12,8 13,2 13,3 13,5 13,9 14,4 14,5 14,7 15,2 15,5 15,8 15,9 16,2 16,7 16,9 17,0 17,3 17,5 17,6 17,9 18,0 18,1 18,4 18,5 18,7 19,0 19,1 19,2 19,3 19,4 20,0 20,1 20,4 20,5 20,8 20,9 21,4 21,6 21,9 22,3 22,5 22,7 22,9 23,0 23,5 23,7 23,9 24,1 24,3 24,6 24,8 25,7 25,9 26,1 26,4 26,6 26,8 27,5 28,5 28,6 29,6 31,8

38 Medidas Descriptivas 𝑸 𝟏 = 𝟏𝟒.𝟕+𝟏𝟓.𝟐 𝟐 =𝟏𝟒.𝟗𝟓, promedio de las observaciones 20 y 21. 𝑸 𝟐 = 𝟏𝟖.𝟎+𝟏𝟗,𝟏 𝟐 =𝟏𝟗,𝟎𝟓, o mediana es el promedio entre las observaciones 40 y 41. 𝑸 𝟑 = 𝟐𝟐.𝟗+𝟐𝟑.𝟎 𝟐 =𝟐𝟐.𝟗𝟓, es el promedio entre las observaciones 59 y 60. 𝑷 𝟎.𝟗𝟓 = 𝟐𝟕.𝟓+𝟐𝟖.𝟓 𝟐 =𝟐𝟖.𝟎, es el promedio entre lasentre las observaciones 76 y 77.

39 Medidas Descriptivas Rango muestra = Máximo valor – Mínimo valor.
Rango intercuartílico = Q3 - Q1 En nuestro caso, Rango de la muestra es = 25.6 Rango Intercuartílico = Q3 - Q1 = 22,8 – 14, 95 =7.85

40 Diagramas de caja El resumen de la información de la información contenida en los cuartiles se visualiza en una presentación gráfica que se llama diagrama de caja. Los datos que van desde el primer cuartil hasta en tercero (en este caso el 50% de ellos y que se encuentran al centro) se representan en un rectángulo. La mediana se identifica mediante una línea vertical dentro del mismo. Una línea se extiende desde el primer cuartil hasta el valor mínimo y otra desde el tercero hasta el máximo valor, para conjuntos grande de dato esto se realiza hasta los 5to y 95avo cuartiles

41 Diagramas de caja Ejemplo (Para las emisiones de azufre) Mínimo 6,2 Q1
14,825 M 19,05 Q3 22,85 Máximo 31,8

42 Diagramas de caja Vea el video.

43 Gráfica de series de tiempo
Es una gráfica que puede utilizar para evaluar patrones y comportamiento de datos en el transcurso del tiempo. Una gráfica de series de tiempo muestra observaciones en el eje Y con respecto a intervalos de tiempo con igual separación en el eje X. Se utilizan para examinar variaciones diarias, semanales, trimestrales o anuales o efectos antes y después de un cambio de proceso. Son especialmente útiles para comparar patrones de datos de diferentes grupos.

44 Gráfica de series de tiempo

45 Gráfica de series de tiempo
Las ventas de la Compañía A muestran un crecimiento lento, moderadamente constante. Las ventas de la Compañía B comenzaron por debajo de las ventas de la Compañía A, pero alcanzaron y superaron las ventas de la Compañía A en el segundo año. La Compañía B tuvo mayores fluctuaciones en las ventas mensuales que la Compañía A.

46 Diagramas de dispersión
Es un tipo de diagrama matemático que utiliza las coordenadas cartesianas para mostrar los valores de dos variables para un conjunto de datos. Los datos se muestran como un conjunto de puntos, cada uno con el valor de una variable que determina la posición en el eje horizontal (x) y el valor de la otra variable determinado por la posición en el eje vertical (y). En las distribuciones bidimensionales a cada individuo le corresponden los valores de dos variables, las representamos por el par (xi, yi). Sobre la nube de puntos puede trazarse una recta que se ajuste a ellos lo mejor posible, llamada recta de regresión.

47 Diagramas de dispersión
Ejemplo Las notas de 12 alumnos de una clase en Matemáticas y Física son las siguientes: Matemáticas 2 3 4 5 6 7 8 10 Física 1 9

48 Diagramas de dispersión

49 Diagramas de dispersión

50 Medidas de Resumen Medidas resumen de posición (Moda, Mediana y Media) que informan dónde se ubican algunos datos representativos del conjunto. Medidas de dispersión (Varianza, Desvío Estándar y Rango) Medidas de forma (Simetría y Curtosis) de la distribución de la variable.

51 Medidas de Resumen Medidas resumen de posición
De la mediana y la Mediana y la Media, ya hablamos anteriormente. La mediana es una medida de posición “robusta” (soporta varios valores extremos sin modificar su valor). De hecho, ésta no será afectada hasta que el 50% de los datos se contaminen. La mediana es resistente a valores extremos pero la media no. Moda Todos los valores de una variable no están igualmente distribuidos dentro del rango de variación; esto es, los valores se presentan con diferentes frecuencias. Al valor que aparece con mayor frecuencia se lo denomina modo o moda. Una distribución puede tener más de un valor modal (multimodal), también puede ser que no exista ninguna moda. El modo es la medida de tendencia central más usada en variables con escala nominal.

52 Medidas de Resumen En nuestro ejemplo de las emanaciones de azufre a la atmósfera tenemos varias modas es 18, repetidas 2 veces cada una. 18.0, 18.1, 19.4, 20.1, 22.7 y 24.6 En la tabla de las notas de Matemáticas tenemos como moda: 4,6,8 y 10, repetidas 2 veces cada una.

53 Medidas de Resumen La Varianza, la Desviación Estándar y el Rango, ya los vimos en la conferencia. Las medidas de forma Simetría La media aritmética se compara con el centro de gravedad de un cuerpo. La media sería el punto de equilibrio de la distribución. A diferencia de la mediana, que siempre está en el centro de la distribución, en algunas distribuciones la media no coincide con el centro de los datos porque es afectada por valores extremos que causan su desplazamiento.

54 Medidas de Resumen En las distribuciones simétricas unimodales los valores de la moda, la mediana y la media son iguales. Si la media es mayor que la mediana, la distribución es asimétrica derecha. Si la media es menor que la mediana la distribución es asimétrica izquierda. El coeficiente de simetría que se describe a continuación mide si la distribución tiene una forma simétrica, es decir, si respecto al centro de la misma (centro de simetría) los segmentos de curva que quedan a derecha e izquierda son similares.

55 Medidas de Resumen (a), con Modo=Mediana=Media, asimetría derecha
Gráfico de una distribución de variable con simetría (a), con Modo=Mediana=Media, asimetría derecha (b) con modo <mediana<media y asimetría izquierda (c) con modo˃mediana˃media.

56 Medidas de Resumen Curtosis Es una medida de la forma.
Tratan de estudiar la proporción de la varianza que se explica por la combinación de datos extremos respecto a la media en contraposición con datos poco alejados de la misma. Mayor curtosis implica una mayor concentración de datos muy cerca de la media de la distribución coexistiendo al mismo tiempo con una relativamente elevada frecuencia de datos muy alejados de la misma. Esto explica una forma de la distribución de frecuencias con colas muy elevadas y con un centro muy apuntado. Mide si los valores de la distribución están más o menos concentrados alrededor de los valores medios de la muestra; estudia  “la picudez”  o achatamiento de la distribución

57 Medidas de Resumen Su expresión es: 𝑔 2 = 𝑚 4 𝑠 4 −3 Donde m4 y s4 representan el momento no centrado de orden 4 y el momento centrado de tercer orden, respectivamente. Los valores del estadístico pueden ser los siguientes: g2 = 0 (distribución simétrica) g2 > 0 (distribución achatada; los valores tienden a dispersarse o a alejarse de la media) g2 < 0 (distribución picuda, los valores tienden a concentrarse cerca de la media) Ambos, el coeficiente de asimetría y el de curtosis, son considerados medidas de la forma de la distribución

58 Medidas tendencia central
Entre las medidas de tendencia central tenemos: Media aritmética Media ponderada Media geométrica Media armónica Mediana Moda

59 Medidas tendencia central
La media aritmética (promedio) es el valor obtenido por la suma de todos sus valores dividida entre el número de sumandos. Media ponderada: A veces puede ser útil otorgar pesos o valores a los datos dependiendo de su relevancia para determinado estudio. Si x1,x2,…xn, son los datos cuyos pesos son w1,w2,…,wn, La media ponderada es 𝑥 = 𝑖=1 𝑛 𝑤 𝑖 ∗ 𝑥 𝑖 𝑖=1 𝑛 𝑤 𝑖 .

60 Medidas tendencia central
La media geométrica de una cantidad arbitraria de números (por decir n números) es la raíz n-ésima del producto de todos los números, es recomendada para datos de progresión geométrica, para promediar razones, interés compuesto y números índices. El logaritmo de la media geométrica es igual a la media aritmética de los logaritmos de los valores de la variable. La media geométrica de un conjunto de números positivos es siempre menor o igual que la media aritmética. Considera todos los valores de la distribución Es menos sensible que la media aritmética a los valores extremos. Es de significado estadístico menos intuitivo que la media aritmética. Su cálculo es más difícil.

61 Medidas tendencia central
La media geométrica Si un valor de los datos se anula entonces la media geométrica se anula o no queda determinada. Solo es relevante la media geométrica si todos los números son positivos. En muchas ocasiones se utiliza su trasformación en el manejo estadístico de variables con distribución no normal. La media geométrica es relevante cuando varias cantidades son multiplicadas para producir un total.

62 Medidas tendencia central
La media armónica (designada usualmente mediante H) de una cantidad finita de números es igual al recíproco, o inverso, de la media aritmética de los recíprocos de dichos valores y es recomendada para promediar velocidades. resulta poco influida por la existencia de determinados valores mucho más grandes que el conjunto de los otros, siendo en cambio sensible a valores mucho más pequeños que el conjunto. La media armónica no está definida en el caso de que exista algún valor nulo.

63 Medidas tendencia central
Mediana. Ya la vimos antes. Moda: La moda es el dato más repetido, el valor de la variable con mayor frecuencia absoluta. Su cálculo es extremadamente sencillo, pues solo necesita un recuento. En variables continuas, expresadas en intervalos, existe el denominado intervalo modal o, en su defecto, si es necesario obtener un valor concreto de la variable, se recurre a la interpolación.

64 Dispersión Dispersión significa el grado de distanciamiento de un conjunto de valores respecto a su valor medio. Las medidas de dispersión, o medidas de variabilidad, muestran la variabilidad de una distribución, indicando por medio de un número si las diferentes puntuaciones de una variable están muy alejadas de la media. Cuanto mayor sea ese valor, mayor será la variabilidad, y cuanto menor sea, más homogénea será a la media. Así se sabe si todos los casos son parecidos o varían mucho entre ellos. Para calcular la variabilidad que una distribución tiene respecto de su media, se calcula la media de las desviaciones de las puntuaciones respecto a la media aritmética. Pero la suma de las desviaciones es siempre cero, así que se adoptan dos clases de estrategias para salvar este problema. Una es tomando las desviaciones en valor absoluto (desviación media) y otra es tomando las desviaciones al cuadrado (varianza).

65 Correlación La correlación indica la fuerza y la dirección de una relación lineal y proporcionalidad entre dos variables estadísticas. Se considera que dos variables cuantitativas están correlacionadas cuando los valores de una de ellas varían sistemáticamente con respecto a los valores homónimos de la otra: si tenemos dos variables (A y B) existe correlación si al aumentar los valores de A lo hacen también los de B y viceversa. La correlación entre dos variables no implica, por sí misma, ninguna relación de causalidad.

66 Correlación La fuerza extrema según el caso, mide el grado en que la línea representa a la nube de puntos: si la nube es estrecha y alargada, se representa por una línea recta, lo que indica que la relación es fuerte; si la nube de puntos tiene una tendencia elíptica o circular, la relación es débil. El sentido mide la variación de los valores de B con respecto a A: si al crecer los valores de A lo hacen los de B, la relación es directa (pendiente positiva); si al crecer los valores de A disminuyen los de B, la relación es inversa (pendiente negativa). La forma establece el tipo de línea que define el mejor ajuste: la línea recta, la curva monotónica o la curva no monotónica.

67 Correlación Existen diversos coeficientes que miden el grado de correlación, adaptados a la naturaleza de los datos. Coeficiente de Pearson. Coeficiente de correlación de Spearman Correlación canónica Coeficiente de Correlación Intraclase Correlación de Kendall Correlación de Jaspen

68 Correlación Coeficiente de Pearson.
"r" > 0 La correlación es tanto más fuerte cuanto más se aproxime a 1. Si "r" < 0 La correlación negativa es tanto más fuerte cuanto más se aproxime a -1. Si "r" = 0, no existe correlación lineal entre las variables.

69 Correlación Calcular el coeficiente de correlación de la siguiente serie de datos de altura y peso de los alumnos de una clase: Alum Estat Peso Al 1 1,25 32 Al 11 33 Al 21 Al 2 1,28 Al 12 35 Al 22 34 Al 3 1,27 Al 13 Al 23 Al 4 1,21 30 Al 14 Al 24 31 Al 5 1,22 Al 15 Al 25 Al 6 1,29 Al 16 Al 26 Al 7 1,30 Al 17 Al 27 Al 8 1,24 Al 18 Al 28 Al 9 Al 19 Al 29 Al 10 Al 20 Al 30

70 Correlación Calcular el coeficiente de correlación de la siguiente serie de datos de altura y peso de los alumnos de una clase: Por lo tanto, la correlación existente entre estas dos variables es elevada (0,8) y de signo positivo. Covarianza Estatura Peso 0.0357 Desv Estándar Estatura 0.0298 Desv Estándar Peso 1.4468 Coeficiente r 0.8282

71 Regresión Lineal La regresión lineal o ajuste lineal es un modelo matemático usado para aproximar la relación de dependencia entre una variable dependiente Y, las variables independientes Xi y un término aleatorio ε. Este modelo puede ser expresado como: Yt: es la variable dependiente explicada o regresando. X0, X1, ….Xp: son las variables independientes, explicativas o regresores. β 0, β1, ….,βp: parámetros, que miden la influencia que las variables explicativas tienen sobre el regrediendo.

72 Regresión Lineal Para poder crear un modelo de regresión lineal es necesario que se cumpla con los siguientes supuestos: Relación lineal entre las variables. Que los errores en la medición de las variables explicativas sean independientes entre sí. Que los errores tengan varianza constante. (Homocedasticidad) Que los errores tengan una esperanza matemática igual a cero. Que el error total sea la suma de todos los errores.

73 Regresión Lineal Simple
Donde es donde ξi es el error asociado a la medición del valor Xi. Derivando respecto a β0 y β1 e igualando a cero, se obtiene:

74 Regresión Lineal Simple
Obteniendo dos ecuaciones denominadas ecuaciones normales que generan la siguiente solución para ambos parámetros.

75 Regresión Lineal Simple
La interpretación del parámetro medio β1es que un incremento en Xi de una unidad, Yi incrementará en β1.

76 Gracias por su atención


Descargar ppt "Estadística Avanzasa para Ingenieros"

Presentaciones similares


Anuncios Google