La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Datos: Estadística.

Presentaciones similares


Presentación del tema: "Datos: Estadística."— Transcripción de la presentación:

1 Datos: Estadística

2 Conceptos claves: La estadística se usa para describir la variabilidad en los datos de manera cuantitativa, y para cuantificar las relaciones entre las variables. El análisis estadístico se usa para diseñar los estudios científicos, para aumentar la consistencia, medir la incertidumbre y producir datos robustos. Hay varios malentendidos que rodean las estadísticas, incluiyendo la confusión entre términos estadísticos y el uso del lenguaje común de términos similares.

3 “Algunos estudios han demostrado que la probabilidad de desarrollar cáncer de pulmón es casi 20 veces mayor en los fumadores que en los no fumadores.” ¿Por qué los científicos hablan usando términos que parecen vagos? Si fumar causa cáncer de pulmón, ¿por qué no comunicarlo simplemente?

4 Los datos científicos rara vez conducen a conclusiones absolutas.
No todos los fumadores mueren de cáncer de pulmón. Todos los datos exhiben variabilidad, y es el rol de las estadísticas cuantificar esta variabilidad y permitirles a los científicos realizar declaraciones más exactas sobre sus datos.

5 La estadística en el análisis de datos
Se usa la estadística para modelar los patrones en los datos, emitir juicios sobre estos, identificar las relaciones entre las variables, e inferir sobre poblaciones más amplias basándose en muestras de datos más pequeñas. RAZONES PARA ESTUDIAR UNA MUESTRA Costos Tiempo Disponibilidad de personal cualificado Posibilidad de destruir toda una población

6 Variables: A cada característica de los elementos de una población se le llama variables. Ejemplos: categorías o atributos de los elementos (individuos) estudiados (color de ojos, sexo, tipo de sangre); datos de tipo numérico.

7 Para minimizar errores y obtener datos más cercanos a los reales hacemos réplicas o tomamos varias muestras. Cuando tenemos varias medidas para un mismo experimento usamos la media o promedio para estimar el valor real.

8 La media aritmética o simplemente promedio (también llamada media muestral ya que generalmente se calcula en relación a una muestra) se calcula de la siguiente forma: si las observaciones de una muestra de tamaño n son x1, x2,…,xn entonces

9 Ejemplo 1 Conjunto de N estudiantes en campamento de verano, ¿Cuántos pertenecen a cada una de las edades de 6 a 12 años? Conjunto original: 10, 14, 6, 7, 9, 15, 11, 12, 14, 11, 10, 12, 11, 7, 11, 10. Organizando los datos: 6, 7, 7, 9, 10, 10, 10, 11, 11, 11, 11, 12, 12, 14, 14, 15.

10 Ejemplo 1 Fórmula de la media: Σ (Xi/n)
Donde Σ(sigma mayúscula/letra griega) significa sumatoria. X representa observaciones individuales. n es el número de observaciones. X = 6, 7, 7, 9, 10, 10, 10, 11, 11, 11, 11, 12, 12, 14, 14, 15/16 =170 X = 170/16 X = 10.6 años

11 Ejemplo 1 ¿Cuántos niños se incluyeron en el estudio? R=16.
Edad más frecuente: 11 años, esto es la moda (valor presentado con mayor frecuencia en una serie de datos) Si se obtiene una sola moda es unimodal, si son 2 es bimodal y más de 2 multimodal. Se usa cuando es difícil o no posible realizar otros cálculos; ej. cuando se enumeran en periódicos las características más frecuentes de determinado sector social.

12 Ejemplo 1 ¿Cuál fue el valor encontrado en la mitad de los datos? R=11. Esto es la mediana, que es el valor medio de una secuencia ordenada de datos. Para obtener la mediana, se ordenan los datos de menor a mayor, si N es par, la posición de la mediana será entre dos valores reales, si N es impar la posición de la mediana será un valor de la serie.

13 COMPARACIÓN MEDIA-MEDIANA
La media contiene más información porque usa los valores de todos los datos. La mediana es más robusta frente a los cambios en los datos. La media es más sencilla de calcular y se presta mejor a los cálculos algebraicos. Deben calcularse ambas pues proporcionan información complementaria.

14 Ejemplo 1 Los valores de las medidas de dispersión son mayores cuando los datos están muy separados y son menores cuando los datos están cercanamente agrupados. ¿Qué tan separados están los datos? R=9, ya que 15-6=9. Esto se llama rango o amplitud. Es fácil de calcular y sus unidades son las mismas que las de la variable que se mide. Las medidas de dispersión nos permiten valorar si el valor de la medida de tendencia central es o no representativo.

15 Ejemplo 1 La varianza (s) se define como las desviaciones cuadradas medias respecto a la media, o como la media de los cuadrados de las diferencias entre cada valor de la variable y la media de la distribución. En el ejemplo 1 la varianza es 6.5 años. La desviación estándar es la raíz cuadrada de la varianza. 2 2

16 Pasos para calcular la varianza y la desviación estandar:
1. Calcula la media (el promedio de los números) 2. Por cada número resta la media y eleva el resultado al cuadrado (la diferencia elevada al cuadrado). 3. Ahora calcula la media de esas diferencias al cuadrado. 4. La desviación estándar es la raíz de la varianza.

17 Ejemplo 1 ¿Qué tanto están separados los datos del promedio o media? R=2.5 años. Esto se obtiene con la desviación estándar (s), que expresa que tanto se dispersan los datos en relación a la media. La s es la medida de dispersión más adecuada para la estadística descriptiva. El resultado para el ejemplo 1: 10.6 ± 2.5 años quiere decir que un 68% de los niños en el campamento tendrán una edad de 10.6 años con 2.5 años más o menos.

18 Esta forma de presentar los datos experimentales nos dice cuánto fue la variabilidad en los datos y por consiguiente cuán preciso fueron los datos. La desviación estándar de un registro de medidas puede ser usada para calcular un intervalo de confiabilidad alrededor del valor. Mientras menor sea la desviación estándar más confiabilidad tenemos de que nuestros datos están cercanos al valor real de la media.

19 Curva de distribución normal
 La parte roja indica una desviación estandar del promedio (68% de la población); la parte verde indica dos desviaciones estandar del promedio (95% población); la parte verde indica tres desviaciones estandar del promedio (99% población). ¿Por qué es esto útil? Desviaciones estandares más pequeñas reflejan datos más agrupados. Un grupo de datos con menos valores extremos indica más confiabilidad. La desviación estandar es por consiguiente una buena medida de la confiabilidad del valor promedio.


Descargar ppt "Datos: Estadística."

Presentaciones similares


Anuncios Google