Estadística Descriptiva para variables continuas

Estadística Descriptiva para variables continuas

Tópicos a tratar… Identificación de variables continuas
Medidas de tendencia central y dispersión Presentaciones gráficas Estimación puntual e intervalos de confianza Manejo de valores fuera de rango

Que buscamos? Obtener un ‘sabor’ de los datos continuos…
‘Aprender’ de los datos continuos a través de una visualización gráfica Examinar la calidad de los datos

Los observables En la naturaleza existen los “observables”… aquellas propiedades que pueden ser percibidas por los sentidos o instrumentos especializados. Observables físicos Cuantificables (medibles) Observables no-físicos No pueden ser cuantificados (aún)

Medir = ‘Comparar con un patrón’
Medición Cuantificar = Medir Medir = ‘Comparar con un patrón’ El patrón define la unidad de medida adoptada por un instrumento de medición

Observables físicos Observables físicos: (magnitudes físicas)
Temperatura Peso Talla Edad Estado civil Sexo Color Observables No-físicos La belleza de una obra de arte El amor La inteligencia?

Variables versus Constantes
Depende del contexto ! La edad de una persona es una constante en un instante dado, pero es una variable dentro de una población. La edad media es una constante para la población La desviación estándar de la edad es una constante de la población Generalmente las constantes van a ser parámetros de una población, que no conocemos y que deseamos estimar Edad media, talla media, prevalencia de TB en el Perú, incidencia de dengue en el Perú, Las variables son cambiantes La edad de cualquier individuo en una población El tiempo desde el ingreso a UCI hasta que un paciente es dado de alta

Tipos de variables: Discretas, categóricas
Ordinal: severidad de un cólico Nominal: sexo Dicotómica: si o no, ausencia o presencia Continuas: Temperatura, frecuencia cardíaca,

Las variables continuas
El carácter continuo de una variable lo da la naturaleza intrínseca del observable físico y es independiente de la manera cómo se mida (i.e. del instrumento utilizado) ó de la manera cómo se reporte la medición

Efecto de la manera ‘cómo se mide’ una variable
Imaginemos que medimos la induración del PPD en varios pacientes, y para ello utilizamos una regla milimetrada. Las dimensiones medidas para diferentes personas fueron: 5mm, 12mm, 9mm, 32mm, 21mm Aparentemente estamos frente a una variable discreta, aunque en realidad la induración (longitud) es y debe tratarse de manera continua.

Efecto de la manera ‘cómo se reporta’ una variable
Imaginemos que medimos la duración de la permanencia en UCI de pacientes en un hospital. Los tiempos medidos para diferentes pacientes fueron: 15días, 2días, 9días, 12días, 31días Aparentemente estamos frente a una variable discreta, aunque en realidad el tiempo es y debe tratarse de manera continua.

Rigurosamente hablando…
Por último, nada es continuo cuando se alcanza los límites moleculares!! El principio de incertidumbre de Heisenberg De manera práctica, todo depende de la escala en que trabajemos…

Comandos usados en STATA para identificar el tipo de variable:
Codebook Inspect

ATENCION ! STATA puede identificar un tipo de variable de manera erronea ! Debemos apoyarnos en la ciencia, en nuestro conocimiento previo de la variable con que estamos trabajando.

Recordemos las características de una variable continua con distribución normal…
Figure 10.10 6

Comando ‘summarize’ (su)

Distribución de frecuencias
Una lista exhaustiva y mutuamente excluyente de categorias (cualitativas o cuantitativas) con una tabulación (en valores absolutos o porcentajes) de cuántas observaciones en los datos se encuentran en cada categoría.

De ‘variables continuas’ a ‘variables categóricas’

Representación gráfica de una tabulación bivariada

Comando “histogram”

Estadísticas de resumen:
El conjunto de agregados numéricos de una distribución de frecuencias las que resumen una característica específica de un conjunto de datos.

Estadísticas de resumen importantes Coeficiente de Variación
Medidas de resumen de una muestra Tendencia Central Percentil Variación Media Moda Mediana Coeficiente de Variación Rango Varianza Desviación Estandar

Medidas de Variación Variación Varianza Desviación Estandar
Coeficiente de variación Rango Varianza de la población Desviación estandar de la población Varianza de la muestra Desviación estandar de la muestra Rango Intercuartil

Las medidas de resumen a utilizar dependen del ‘tipo’ de variable a explorar !
DATOS CATEGÓRICOS

Comandos usados en STATA para obtener estadísticas de resumen
Summarize (variables numéricas) Tabstat

Summarize varlist, detail

tabstat varlist, stats( options )

Ejemplo

‘by’ / ’bysort’ y Tabstat

Usando menues en STATA 8

Estimación puntual e intervalos de confianza
Los parámetros de una población tienen un valor fijo, (es un número exacto) Usualmente estos parámetros no se conocen, por que es complicado medir a ‘toda la población’ Ante esto, los parámetros se ‘estiman’ a partir de una ‘muestra’ de la población. La estimación puede ser ‘puntual’ o en un ‘intervalo de confianza’

Estimación puntual de la ‘MEDIA’
Población Muestra

Estimación puntual de la ‘VARIANZA’
Población Muestra

Efectos del ‘muestreo’ en la estimación de un parámetro

Es mejor estimar el intervalo de confianza de un parámetro antes que su estimación puntual…
El intervalo de confianza es una ‘variable aleatoria’ El 95% Intervalo de Confianza, es un intervalo que tiene un 95% de probabilidad de cubrir el verdadero valor del parámetro estimado

Comandos en STATA para los Intervalos de Confianza: ci

Intervalos de confianza de variables normales
Std.Err. = Std.Dev / sqrt(N)

Ci varlist, level( )

Intervalos de confianza de proporciones

Usando los menues de STATA 8

Exploración gráfica Una manera ‘visual’ y muy intuitiva de tener una imagen clara de los datos. Método muy usado para presentar resultados. Un solo gráfico puede contener una densidad muy alta de información Sujeta a interpretaciones subjetivas y problemas de ilusión

66 Desviaciones Estandar para Ninos y Adultos en Equipos de Basketball
Figure 10.8 66

Representación gráfica de una tabulación bivariada

Comparando Desviaciones Estandard
Data A Mean = 15.5 s = 3.338 Data B Mean = 15.5 s = .9258 Data C Mean = 15.5 s = 4.57

Dos bases de datos hipotéticas… Es importante tener una
imagen visual de la distribución de la variable Datos de baja variabilidad La media provee una buena representación de los valores en la base de datos. Al incrementar datos la distribución cambia.. Datos con alta variabilidad La media ya NO provee ahora una buena información de los datos como sucedía anterioremente

Perfil de la distribución (skewness coefficient)
Describe cómo los Datos están Distribuídos Caracterización del perfil de la distribución: Simétrica o sesgada

Perfil de la distribución
Describe cómo los Datos están Distribuídos Caracterización del perfil de la distribución: Simétrica o sesgada -0.5 <0 < 0.5 Simétrica Media = Mediana = Moda

Describe cómo los Datos están Distribuídos Caracterización del perfil de la distribución: Simétrica o sesgada < -1 -0.5 <0 < 0.5 Sesgada izquierda Simétrica Mean Median Mode Mean = Median = Mode

Describe cómo los Datos están Distribuídos Caracterización del perfil de la distribución: Simétrica o sesgada > 1 < -1 -0.5 <0 < 0.5 Sesgada izquierda Simétrica Sesgada derecha Media Mediana Moda Media = Mediana = Moda Moda Mediana Media

Veamos la base de ‘malaria’ y comprobemos el perfil de EDAD.

El comando ‘histogram’ en STATA

Histogram inf_edad, bin(12) kdensity

Box Plot (Gráfico de cajas)
Se muestra gráficamente los datos utilizando 5 números (estadísticas de resumen) X Q Mediana Q X Mínimo 1 3 Máximo 4 6 8 10 12

Relación entre el perfil de la distribución y el Box Plot
Sesgada izquierda Simétrica Sesgada derecha Q Mediana Q Q Mediana Q Q Mediana Q 1 3 1 3 1 3

El comando ‘Graph’ en STATA

graph box inf_edad

Box plot

Los gráficos ‘box-plot’ permiten realizar comparaciones

Gráficos ‘tallo y hoja’ comando ‘stem’ de STATA

Scatter-plots y Ejemplos de Relaciones
No-lineales

Representación gráfica y problemas éticos
Last year, 25 percent of our sales dollar was profits. Depending on whether we present it to our stockholders or the unions, we don’t want to give it the same emphasis. Ganancias 25% . That’s easy. For our stockholders, we’ll show it in our annual report as a coin in perspective and take the 25 percent profits from the front … Ganancias 25% Ganancias 25% Whereas for the union, we’ll show it from the back where it won’t look anywhere as impressive.

Labor Costs Oops, we certainly don’t want to advertise that sharp increase in administrative costs, it may raise questions by our stockholders. Administrative Costs Administrative Costs No sweat. We’ll switch the two components around. This way, by placing the administrative costs at the top, it doesn’t look so damning. As a matter of fact, it looks like it’s going down. Labor Costs

100 Now, if you could only show this declining sales picture as going up, all my problems would be solved. 75 50 25 ‘87 ‘88 ‘89 ‘90 ‘91 ‘92 100 Sure thing; no problem. A bit of perspective here, a bit of fore-shortening there, and now the line looks like it’s going up. 75 50 25 ‘87 ‘88 ‘89 ‘90 ‘91 ‘92

Manejo de datos fuera de rango (outliers)
Los Outliers son valores que se consideran “No Pertenecen” al conjunto de datos. Razones para darse: 1. Errores de medición Resultados atípicos La recomendación es corregir los errores (si es posible) y remover las observaciones atípicas. PERO! Y si así es la ciencia ?! Mejor hacer doble análisis: con y sin ‘outliers’

Análisis de OUTLIERS: Datos Simétricos
Valores que se exceden en 3 DS de la media outlier region outlier region -3s + 3s

Análisis de OUTLIERS: Datos sesgados:
Valores que se exceden de 3 rangos intercuartiles por debajo del primer cuartil Q1 o por encima del tercer cuartil (Q3) (percentiles 25 y 75 respectivamente) Sesgada izquierda Sesgada Positiva outlier region outlier region Q1 Q3 Q1 Q3 Q1 – 3(Q3 – Q1) Q3 + 3(Q3 – Q1)

Tratamientos TB MDR

Probabilidad de Conversión en Bk y Cultivo durante el tratamiento Estandarizado

Proporción acumulada de casos Bk y cultivo negativos a lo largo del tratamiento dentro de los que fueron positivos

Estadística Descriptiva para variables continuas

Presentaciones similares

Presentación del tema: "Estadística Descriptiva para variables continuas"— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback

Iniciar la sesión

Autorizarse a través de una red social:

Estadística Descriptiva para variables continuas

Presentaciones similares

Presentación del tema: "Estadística Descriptiva para variables continuas"— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback