La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Ejercicios Dado un conjunto de datos, aplicar el Criterio de Fourier para desechar los posibles valores atípicos.

Presentaciones similares


Presentación del tema: "Ejercicios Dado un conjunto de datos, aplicar el Criterio de Fourier para desechar los posibles valores atípicos."— Transcripción de la presentación:

1 Ejercicios Dado un conjunto de datos, aplicar el Criterio de Fourier para desechar los posibles valores atípicos.

2 Otro criterio para detectar errores groseros (outliers)

3 La mediana es una medida robusta de tendencia central mientras que el promedio no lo es ya que una medición muy grande o muy pequeña puede alterarlo significativamente

4 x -   Recordando de la clase anterior…
Dado que tanto  como  pueden asumir infinitos valores, es impracticable tabular las probabilidades para todas las posibles distribuciones normales. Para solucionarlo, se utiliza la distribución normal reducida o tipificada. x -  Se define una variable z = Es una traslación , y un cambio de escala de la variable original. 4 4

5 Ejemplo La distribución de alturas de mujeres es aproximadamente normal con Cual es la altura estandarizada?

6 Ejemplo La altura estandarizada de una mujer es el número de desviaciones estándar que su altura difiere de la media de la altura de todas las mujeres Cual es la altura estandarizada de una mujer que mide 1.72 m? Cual es la altura estandarizada de una mujer que mide 1.56 m?

7 Cálculos a partir de distribuciones normales
El área por debajo de la curva de densidad es una proporción de observaciones de la distribución. Cualquier pregunta sobre que proporción de observaciones se encuentra en algún intervalo de valores se puede responder hallando el área por debajo de la curva en ese intervalo.

8 Cálculos a partir de distribuciones normales
Como todas las distribuciones normales son las mismas cuando quedan estandarizadas se puede hallar el área debajo de cualquier curva normal utilizando una tabla de valores

9

10

11 DISTRIBUCIÓN NORMAL ESTANDARIZADA

12 Ejercicio Que proporción de todas las mujeres miden menos de 1.72m?
Busco el valor de la tabla que corresponde a 1.33 0.9082

13 Ejercicio Hallar la proporción de observaciones de la distribución normal estandarizada que son mayores a -2.15

14 Ejercicio El nivel de colesterol en sangre es importante y se relaciona con el riesgo de enfermedades coronarias. La distribución del nivel de colesterol para una misma edad y sexo es aproximadamente normal. Para jóvenes de 14 años la media es 170 miligramos de colesterol por decilitro de sangre (mg/dl), y la desviación típica es 30 mg/dl. Niveles de colesterol superiores a 240 mg/dl pueden exigir atención médica. ¿Cúal es el porcentaje de jóvenes que pueden requerir esa atención? ¿Qué porcentaje de jóvenes tiene un nivel de colesterol entre 170 y 240 mg/dl?

15 Ejercicio Las notas de una prueba de matemática tiene una distribución N(430,100) Cual debe ser la nota de un alumno para pertencer al 10% e alumnos que tienen mejor nota?

16 Ejercicio

17 Valoración de la normalidad
La decisión de describir una distribución mediante una curva normal determina el análisis posterior de los datos ¿cómo juzgar que los datos son aproximadamente normales?

18    68 %  2  95 %  3  99 % 68% 95% 99% z 18 18

19 TEST DE KOLMOGOROV-SMIRNOV
Compara la función de distribución acumulada de los datos con la de una distribución normal, midiendo la máxima distancia entre ambas curvas. Si la máxima distancia entre las curvas (estadístico unilateral de Kolmogorov-Smirnov, Dn+) es superior al valor crítico del test (dn+, α) la distribución de la muestra no es normal. El test de Kolmogorov-Smirnov otorga un peso menor a las observaciones extremas.

20 Análisis de relaciones
La mayoría de los trabajos estadísticos hacen referencia a más de una variable. A veces queremos comparar las distribuciones de una misma variable referido a grupos distintos

21 Análisis de relaciones
Cuando se examinen la relación entre 2 o más variables, es conveniente realizar los siguientes planteos: ¿Qué individuos describen los datos? ¿Cuáles son las variables y como se miden? ¿Todas las variables son cuantitativas o existen al menos alguna variable categórica? ¿Se pretende explorar la naturaleza de la relación o se puede presumir que alguna de las variables explica o causa los cambios en otra variable?

22 Variable respuesta: mide el resultado de una estudio
Variable explicativa: intenta explicar los resultados observados

23 Diagrama de dispersión
Un diagrama de dispersión muestra la relación entre 2 variables cuantitativas medidas para los mismos individuos Si una de las variables se puede considerar explicativa, es mejor representarla en el eje de las abcisas y a la variable respuesta en el eje de las ordenadas

24 Diagrama de dispersión-Interpretación
Observar el aspecto general e intentar identificar su dirección, forma y la fuerza de la relación entre las 2 variables Asociación positiva asociación y negativa Recordemos que las observaciones atípicas se distinguen claramente del aspecto general del gráfico

25 Un diagrama de dispersión muestra la dirección, forma y fuerza de la relación entre 2 variables cuantitativas. En particular, la correlación (r) mide la fuerza y la dirección de la relación lineal entre 2 variables cuantitativas

26 Correlación (r) r positiva indica asociación positiva
r negativo indica asociación negativa r toma valores entre -1 y 1. si r=0 la relación lineal es muy débil, pero si es cercano a 1 o -1, los valores se acerca mucho a una recta. Como r usa valores estandarizados no varia cuando cambian las unidades. La correlación r no describe relaciones curvilíneas auqnue éstas sean fuertes. r se ve fuertemente afectada por observaciones atípicas, por lo que debe ser usado con precaución.

27

28 Definición previa… COVARIANZA- es una valor que indica el grado de variación conjunta de 2 variables aleatorias. Sirve para determinar si hay dependencia entre las variables y para calcular coeficiente de correlación o recta de regresión

29

30

31 Ejercicio Sean la siguiente tabla de datos. Graficar la dispersión
1 5 2 10 3 15 4 20 38 6 30 7 35 8 40 9 45 50 11 55 12 13 65 14 70 90 16 80 17 85 18 19 60 Sean la siguiente tabla de datos. Graficar la dispersión Utilizando planilla electrónica calcular la correlación r entre los valores de ambas columnas.

32 Regresión mínimo cuadrática
La regresión mínimo cuadrática es un método para hallar la recta que resuma la relación entre 2 variables. La recta de regresión describe como cambia una variable y a medida que cambia una variable x. Para predecir un valor de y dado uno de x se utiliza una recta de regresión A diferencia de la correlación, la regresión exige que tengamos una variable explicativa y una variable respuesta.

33 Recta de regresión mínimo-cuadrática
Diferentes personas dibujarían, razonablemente, diferentes rectas. Ninguna recta pasará por todos los puntos, por lo que se intentará que pase por todos ellos tan cerca como sea posible. La recta la utilizaremos para predecir y a partir de x.

34 La recta de regresión mínimo cuadrática de y en relación a x, es la recta que hace que la suma de los cuadrados de las distancias verticales de los puntos observados a la recta, sea mínima predicha (distancia) observada

35 predicha (distancia) observada

36 Con la recta calculada podemos predecir
valor observado-valor predicho=error

37 Ejercicio Sean la siguiente tabla de datos.
1 5 2 10 3 15 4 20 38 6 30 7 35 8 40 9 45 50 11 55 12 13 65 14 70 90 16 80 17 85 18 19 60 Sean la siguiente tabla de datos. Encontrar la ecuación de la recta de regresión mínimo cuadrática

38 Importante Incluso una fuerte correlación no significa que exista una relación causa-efecto entre x e y

39 Para resolver ejercicio 3 del práctico 2…
Regla de Sturges Regla práctica acerca para calcular el número de clases que deben considerar al hacer un histograma

40 Velocidad en kiómetros por segundo
Regresion de la distancia en relación a la velocidad Regresion de la velocidad en relación a la distancia r=0.7842 2 r=0.6150 Velocidad en kiómetros por segundo Distancia en millones de parsecs


Descargar ppt "Ejercicios Dado un conjunto de datos, aplicar el Criterio de Fourier para desechar los posibles valores atípicos."

Presentaciones similares


Anuncios Google