La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Curso de Estadística Básica

Presentaciones similares


Presentación del tema: "Curso de Estadística Básica"— Transcripción de la presentación:

1 Curso de Estadística Básica
SESION 6 ANÁLISIS DESCRIPTIVO Y REPRESENTACIÓN DE DATOS DE DOS VARIABLES MCC. Manuel Uribe Saldaña MCC. José Gonzalo Lugo Pérez

2 Objetivo Representar datos de dos variables de forma tabular y gráfica. Comprender la distinción entre los propósitos básicos del análisis de correlación y regresión lineal. (Sesión 6 y 7)

3 Agenda Sesión 6 Datos de dos variables Correlación lineal (Sesión 6) Regresión lineal (Sesión 7) Evaluación (Sesión 7)

4 Casos A medida que una persona crece, por lo general aumenta de peso. Alguien podría preguntar, “¿existe alguna relación entre la estatura y el peso?” Médicos dedicados a la investigación, prueban fármacos nuevos y obsoletos prescribiendo dosis diferentes en pacientes y observando sus respuestas. Una de las preguntas podría ser, “¿la dosis del medicamento prescrito determina la cantidad de tiempo de recuperación que necesita el paciente?”

5 Datos de dos variables Estos datos constan de los valores de dos variables respuesta diferentes que se obtienen del mismo elemento de la población. Cada una puede ser cualitativa o cuantitativa. Como resultado, los datos bivariados pueden formarse mediante tres combinaciones de variable: Ambas variables son cualitativas (de atributo) Una variable es cualitativa y otra cuantitativa (numérica) Ambas variables son cuantitativas

6 Dos variables cualitativas
Cuando los datos bivariados resultan de dos variables cualitativas, los datos se disponen en una tabla cruzada o de contingencia.

7 Ejemplo Treinta estudiantes de una Universidad fueron identificados y clasificados aleatoriamente según dos variables: Género (M/F) Especialización (Filosofía y Letras, Administración de Empresas, Tecnología) A continuación se muestran los datos en la tabla:

8

9 Tabla cruzada Estos datos pueden resumirse en una tabla cruzada o de contingencia de 2 x 3 donde se presenta la frecuencia para cada categoría cruzada de las dos variables junto con los totales por renglón y por columna denominados totales marginales (o marginales). El total de los totales marginales es el gran total y es igual a n, el tamaño de la muestra.

10 Tabla cruzada

11 Frecuencias relativas
Las tablas de contingencia a menudo presentan porcentajes (frecuencias relativas). Estos porcentajes pueden estar basados en toda la muestra o en las clasificaciones de la submuestra (renglones o columnas).

12 Porcentajes basados en el gran total (toda la muestra)
La tabla de contingencia puede convertirse fácilmente en porcentajes del gran total, al dividir cada frecuencia entre el gran total y multiplicar por 100 el resultado.

13 Porcentajes basados en el gran total
Con la tabla de contingencia expresada en porcentajes puede verse fácilmente que el 60% de la muestra son hombres, 40% mujeres, 30% están especializándose en tecnología, etc.

14 Porcentajes basados en los totales por renglón
Los elementos de la misma tabla de contingencia pueden expresarse como porcentajes de los totales por renglón (o género), al dividir cada elemento del renglón entre el total de éste y multiplicar por 100 el resultado.

15 Porcentajes basados en los totales por renglón
En la tabla anterior se observa que el 28% de los hombres están especializándose en Filosofía y Letras, mientras que el 42% de las mujeres están especializándose en la misma área.

16 Porcentajes basados en los totales por columna
Los elementos de la tabla de contingencia también pueden expresarse como porcentajes de los totales por columna (o especialización), al dividir cada elemento de la columna entre el total de ésta y multiplicar por 100 el resultado.

17 Porcentajes basados en los totales por columna
Con base en la tabla anterior, se observa que de todos los estudiantes de Filosofía y Letras, la mitad son hombres y la otra mitad son mujeres.

18 Una variable cualitativa y otra cuantitativa
Cuando los datos bivariados se obtienen de una variable cuantitativa y otra cualitativa, los valores cuantitativos se consideran como muestras ajenas, cada una identificada por niveles de la variable cualitativa. Se aplica la estadística descriptiva vista en sesiones anteriores como, la media, varianza, desviación estándar, Q1, mediana, Q3, etc., y los resultados se presentan uno junto al otro para efectos de comparación.

19 Ejemplo Para comparar la capacidad de frenado de tres diseños de bandas de rodamiento, se midió la distancia necesaria para detener un automóvil de libras que se desplazaba sobre pavimento húmedo. Los neumáticos de cada diseño fueron probados en el mismo vehículo que circulaba sobre un pavimento húmedo controlado.

20 Nota El diseño de la banda de rodamiento es una variable cualitativa con tres niveles de respuesta y la distancia de frenado es una variable cuantitativa. La distribución de las distancias de frenado del diseño A, de la banda de rodamiento, debe compararse con las distribuciones de las distancias de frenado de cada uno de los diseños de la banda. Esta comparación puede efectuarse aplicando técnicas numéricas y gráficas.

21 Resumen de cinco puntos para cada diseño

22 Dos variables cuantitativas
Cuando los datos bivariados son resultado de dos variables cuantitativas, los datos matemáticos suelen expresarse como pares ordenados (x, y), donde x es la variable de entrada (variable independiente) y y es la variable de salida (variable dependiente). En los problemas en que intervienen dos variables cuantitativas, los datos de la muestra se presentan gráficamente en un diagrama de dispersión

23 Diagrama de dispersión
Es la gráfica de todos los pares ordenados de datos de dos variables que están en un sistema de ejes coordenados . La variable de entrada, x, se grafica en el eje horizontal y la variable de salida, y, se grafica en el eje vertical.

24 Ejemplo En la clase de educación física del señor Torres, se tomaron varios puntajes de condición física. La muestra siguiente es el número de “lagartijas” y “sentadillas” realizadas por 10 estudiantes elegidos aleatoriamente: En la siguiente tabla se presentan estos datos muestrales y un diagrama de dispersión de los datos

25

26 Correlación Lineal El objetivo primordial del análisis de correlación lineal es medir la intensidad de una relación lineal entre dos variables. Se aplica en datos cuantitativos que muestran diferentes relaciones entre variables independientes o de entrada, x, y variables dependientes o de salida, y. Si a medida que crece x no hay un cambio definido en los valores de y, se dice que no hay correlación o relación entre x y y. Si a medida que crece x, hay un cambio en los valores de y, existe una correlación. La correlación es positiva cuando y tiende a crecer, y es negativa cuando y tiende a decrecer. Si los pares ordenados (x, y) tienden a seguir un patrón de línea recta, se tiene una correlación lineal. La precisión del cambio en y cuando crece x, determina la intensidad de la correlación lineal.

27

28 Coeficiente de correlación lineal
El coeficiente de correlación lineal r, es la medida numérica de la intensidad de la relación lineal entre dos variables. El coeficiente refleja la consistencia del efecto que el cambio en una variable tiene sobre la otra. Este valor ayuda a responder a la pregunta ¿Existe una correlación lineal entre las dos variables en consideración? El coeficiente de correlación lineal, r, siempre tiene un valor entre -1 y +1. Un valor de +1 significa una correlación positiva perfecta, y un valor de -1 indica una correlación negativa perfecta.

29 Cálculo de r El valor de r está definido por la fórmula producto momento de Pearson: Donde: Son las desviaciones estándar de las variables x y y

30 Cálculo de r El valor de r se puede calcular con una fórmula alternativa equivalente al momento de Pearson como: Donde:

31 Ejemplo Encuentre el coeficiente de correlación lineal para los datos de “lagartijas” y “sentadillas” mostrados anteriormente. Solución: Primero, es necesario, elaborar una tabla de extensiones enumerando todos los pares de valores (x, y) para poder encontrar las extensiones x2, xy y y2, así como los totales en cada una de las cinco columnas.

32 Tabla de extensiones

33 Cálculos A continuación se realizan los preliminares, sustituyendo las cinco sumatorias de la tabla de extensiones en sus correspondientes fórmulas:

34 Cálculo de r Finalmente se sustituyen las tres sumas de cuadrados en el cálculo de r y se obtiene el valor del coeficiente de correlación. Nota: El valor de r suele redondearse a la centésima más próxima

35 Conclusión El valor del coeficiente de correlación lineal calculado ayuda a responder a la pregunta: “¿existe una correlación lineal entre las dos variables en consideración?”. Cuando el valor calculado de r está próximo a cero, se concluye que hay poca correlación lineal o que no hay correlación lineal. A medida que el valor calculado de r cambia de 0 a +1 ó -1, indica una correlación lineal cada vez más fuerte entre las dos variables. Desde el punto de vista gráfico, al calcular r, se mide qué tan bien una recta describe el diagrama de dispersión de los pares ordenados. Cuando el valor de r cambia de 0 a +1 ó -1, los puntos de datos que crean un patrón se acercan más a una recta.

36 Estimación visual del coeficiente de correlación lineal
El siguiente método para estimar r es rápido y en general produce un estimado razonable cuando la “ventana de datos” es aproximadamente cuadrada. Procedimiento Coloque dos lápices sobre su diagrama de dispersión. Manténgalos paralelos y muévalos de modo que estén lo más cerca posible, de modo que todos los puntos del diagrama de dispersión están entre ellos. Visualice una región rectangular acotada por los dos lápices y que termina de manera justa en los puntos extremos del diagrama de dispersión.

37 Ventana de datos

38 Estimación visual del coeficiente de correlación lineal
Estime cuántas veces más largo que ancho es el rectángulo. Una forma fácil de hacerlo es marcar mentalmente cuadrados en el rectángulo. Denomine k a este número de múltiplos. k=2.5

39 Estimación visual del coeficiente de correlación lineal
El valor de r puede estimarse como: El signo de r se determina por la posición general del largo de la región rectangular. Si el largo está en posición creciente, r es positivo; si está en posición decreciente, r es negativo. Si el rectángulo está en posición horizontal o vertical, entonces r es cero, sin importar la razón del largo al ancho.

40 Estimación de r para la relación entre el número de lagartijas y sentadillas
k=4

41 Cálculo de r

42 Coeficientes de correlación lineal

43 Problema Suponga que la compañía Trigos Excelentes, S.A. le haya pedido a varios de sus representantes regionales trabajar tiempo extra para incrementar las ventas. Usted no está convencido de que el tiempo extra sea necesario, ni que las horas extras estén correlacionadas con el incremento de ventas. La siguiente tabla de datos muestra el número de horas mensuales que los representantes trabajaban anteriormente junto con el promedio de ventas. La tabla de datos también muestra el incremento de horas y las nuevas ventas. Compare el incremento de horas con el incremento de ventas para determinar si están correlacionados.

44 Problema


Descargar ppt "Curso de Estadística Básica"

Presentaciones similares


Anuncios Google