La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Unidad 4 Análisis de los Datos.

Presentaciones similares


Presentación del tema: "Unidad 4 Análisis de los Datos."— Transcripción de la presentación:

1 Unidad 4 Análisis de los Datos

2 12-3 Análisis exploratorio de los datos: Estadística descriptiva de cada variable por separado. Se obtienen medidas de tendencia central, variabilidad, representaciones gráficas. Se pretende conocer cada variable así como detectar errores, valores extremos, etc. Estadística Bivariable: estudia las relaciones entre pares de variables, utilizando estadísticos como el coeficiente de correlación, chi-cuadrado,t de Student, y representaciones gráficas diversas.

3 12-4 Análisis Multivariante: analiza simultáneamente dos o más variables. Los métodos pueden ser predictivos cuando existe una variable criterio o independiente que explica o identifica por un conjunto de variables independientes o explicativas.Ej:Regresión lineal, regresión logística, análisis discriminante, árboles de segmentación, análisis de la varianza o reductivos: cuando se estudian las relaciones entre un conjunto de variables sin que exista una variable a identificar. Ej: análisis factorial, correspondencias binarias, correspondencias múltiples, etc.

4 Análisis Bivariante – relación entre dos variables.
12-10 Análisis Bivariante – relación entre dos variables. Dos variables cuantitativas: Correlación. Regresión lineal simple. Dos variables cualitativas: Tabulación cruzada. Porcentajes. Estadístico Chi-cuadrado y otros. Una cuantitativa y una cualitativa: ANOVA ( análisis de la varianza). Se dividen a su vez en paramétrico para dos grupos (T Student) y más de dos grupos(Test F).

5 Regresión y correlación lineal simple y múltiple

6 Análisis de correlación
12-3 Análisis de correlación Análisis de correlación: se usa un grupo de técnicas estadísticas para medir la fuerza de la relación (correlación) entre dos variables. Diagrama de dispersión: gráfica que describe la relación entre las dos variables de interés. Variable dependiente: la variable que se pronostica o estima. Variable independiente: la variable que proporciona la base para la estimación. Es la variable predictora.

7 Coeficiente de correlación de Pearson, r
12-4 Coeficiente de correlación de Pearson, r El coeficiente de correlación (r) es una medida de la intensidad de la relación entre dos variables. Indica si hay una relación lineal entre las mismas. Requiere datos con escala de intervalo o de razón (variables). Puede tomar valores entre y 1.00. Valores de o 1.00 indican correlación fuerte y perfecta. Valores cercanos a 0.0 indican correlación débil. Valores negativos indican una relación inversa y valores positivos indican una relación directa.

8 Correlación negativa perfecta
12-5 Correlación negativa perfecta 10 9 8 7 6 5 4 3 2 1 Y X

9 Correlación positiva perfecta
12-6 Correlación positiva perfecta 10 9 8 7 6 5 4 3 2 1 Y X

10 12-7 Correlación cero 10 9 8 7 6 5 4 3 2 1 Y X

11 Correlación positiva fuerte
12-8 Correlación positiva fuerte 10 9 8 7 6 5 4 3 2 1 Y X

12 Coeficiente de determinación
12-10 Coeficiente de determinación El coeficiente de determinación, r2 - la proporción de la variación total en la variable dependiente Y que está explicada por o se debe a la variación en la variable independiente X. El coeficiente de determinación es el cuadrado del coeficiente de correlación, y toma valores de 0 a 1.

13 12-15 Análisis de regresión Propósito: determinar la ecuación de regresión; se usa para predecir el valor de la variable dependiente (Y) basado en la variable independiente (X). Procedimiento: seleccionar una muestra de la población y enumerar los datos por pares para cada observación; dibujar un diagrama de dispersión para visualizar la relación; determinar la ecuación de regresión.

14 Análisis de regresión La ecuación de regresión: Y’= a + bX, donde:
12-16 Análisis de regresión La ecuación de regresión: Y’= a + bX, donde: Y’ es el valor promedio pronosticado de Y para cualquier valor de X. a es la intercepción en Y, o el valor estimado de Y cuando X = 0 b es la pendiente de la recta, o cambio promedio en Y’ por cada cambio de una unidad en X se usa el principio de mínimos cuadrados para obtener a y b:

15 Error estándar de la estimación
12-18 Error estándar de la estimación El error estándar de la estimación mide la dispersión de los valores observados alrededor de la recta de regresión. Fórmulas usadas para calcular el error estándar:

16 Regresión y Correlación Múltiples
Análisis de Regresión y Correlación Múltiples

17 Análisis de regresión múltiple
13-3 Análisis de regresión múltiple Para dos variables independientes, la fórmula general de la ecuación de regresión múltiple es: X1 y X2 son las variables independientes. a es la intercepción en Y. b1 es el cambio neto en Y por cada cambio unitario en X1, manteniendo X2 constante. Se denomina coeficiente de regresión parcial, coeficiente de regresión neta o bien coeficiente de regresión.

18 Análisis de regresión múltiple
13-4 Análisis de regresión múltiple La ecuación general de regresión múltiple con k variables independientes es: El criterio de mínimos cuadrados se usa para el desarrollo de esta ecuación. Como estimar b1, b2, etc. es muy tedioso, existen muchos programas de cómputo que pueden utilizarse para estimarlos.

19 Error estándar múltiple de la estimación
13-5 Error estándar múltiple de la estimación El error estándar múltiple de la estimación es la medida de la eficiencia de la ecuación de regresión. Está medida en las mismas unidades que la variable dependiente. Es difícil determinar cuál es un valor grande y cuál es uno pequeño para el error estándar.

20 Error estándar múltiple de la estimación
13-6 Error estándar múltiple de la estimación La fórmula es: donde n es el número de observaciones y k es el número de variables independientes.

21 13-13 EJEMPLO Un estudio de mercado para la cadena de tiendas autoservicio Super Dollar analiza la cantidad anual que gastan en comida las familias de cuatro o más miembros. Se piensa que tres variables independientes se relacionan con los gastos en comida. Esas variables son: ingreso familiar total, tamaño de la familia y si la familia tiene hijos en la universidad.

22 EJEMPLO continuación Ingresos ($1000) Tamaño de la familia Gastos en
13-14 EJEMPLO continuación Ingresos ($1000) Tamaño de la familia Gastos en comida Hijos en universidad Familia

23 13-15 EJEMPLO continuación Use un software, para desarrollar la matriz de correlación. Del análisis proporcionado por el software, la ecuación de regresión es: ¿Qué gastos en comida estima para una familia de 4 integrantes, sin hijos en la universidad y con ingresos de $50,000? Y’= * *4+565*0= 4491


Descargar ppt "Unidad 4 Análisis de los Datos."

Presentaciones similares


Anuncios Google