Descargar la presentación
La descarga está en progreso. Por favor, espere
Publicada porOdalys Quinonez Modificado hace 9 años
1
Estadística Descriptiva para variables continuas
2
Tópicos a tratar… Identificación de variables continuas
Medidas de tendencia central y dispersión Presentaciones gráficas Estimación puntual e intervalos de confianza Manejo de valores fuera de rango
3
Que buscamos? Obtener un ‘sabor’ de los datos continuos…
‘Aprender’ de los datos continuos a través de una visualización gráfica Examinar la calidad de los datos
4
Los observables En la naturaleza existen los “observables”… aquellas propiedades que pueden ser percibidas por los sentidos o instrumentos especializados. Observables físicos Cuantificables (medibles) Observables no-físicos No pueden ser cuantificados (aún)
5
Medir = ‘Comparar con un patrón’
Medición Cuantificar = Medir Medir = ‘Comparar con un patrón’ El patrón define la unidad de medida adoptada por un instrumento de medición
6
Observables físicos Observables físicos: (magnitudes físicas)
Temperatura Peso Talla Edad Estado civil Sexo Color Observables No-físicos La belleza de una obra de arte El amor La inteligencia?
7
Variables versus Constantes
Depende del contexto ! La edad de una persona es una constante en un instante dado, pero es una variable dentro de una población. La edad media es una constante para la población La desviación estándar de la edad es una constante de la población Generalmente las constantes van a ser parámetros de una población, que no conocemos y que deseamos estimar Edad media, talla media, prevalencia de TB en el Perú, incidencia de dengue en el Perú, Las variables son cambiantes La edad de cualquier individuo en una población El tiempo desde el ingreso a UCI hasta que un paciente es dado de alta
8
Tipos de variables: Discretas, categóricas
Ordinal: severidad de un cólico Nominal: sexo Dicotómica: si o no, ausencia o presencia Continuas: Temperatura, frecuencia cardíaca,
9
Las variables continuas
El carácter continuo de una variable lo da la naturaleza intrínseca del observable físico y es independiente de la manera cómo se mida (i.e. del instrumento utilizado) ó de la manera cómo se reporte la medición
10
Efecto de la manera ‘cómo se mide’ una variable
Imaginemos que medimos la induración del PPD en varios pacientes, y para ello utilizamos una regla milimetrada. Las dimensiones medidas para diferentes personas fueron: 5mm, 12mm, 9mm, 32mm, 21mm Aparentemente estamos frente a una variable discreta, aunque en realidad la induración (longitud) es y debe tratarse de manera continua.
11
Efecto de la manera ‘cómo se reporta’ una variable
Imaginemos que medimos la duración de la permanencia en UCI de pacientes en un hospital. Los tiempos medidos para diferentes pacientes fueron: 15días, 2días, 9días, 12días, 31días Aparentemente estamos frente a una variable discreta, aunque en realidad el tiempo es y debe tratarse de manera continua.
12
Rigurosamente hablando…
Por último, nada es continuo cuando se alcanza los límites moleculares!! El principio de incertidumbre de Heisenberg De manera práctica, todo depende de la escala en que trabajemos…
13
Comandos usados en STATA para identificar el tipo de variable:
Codebook Inspect
17
ATENCION ! STATA puede identificar un tipo de variable de manera erronea ! Debemos apoyarnos en la ciencia, en nuestro conocimiento previo de la variable con que estamos trabajando.
19
Recordemos las características de una variable continua con distribución normal…
Figure 10.10 6
20
Comando ‘summarize’ (su)
21
Distribución de frecuencias
Una lista exhaustiva y mutuamente excluyente de categorias (cualitativas o cuantitativas) con una tabulación (en valores absolutos o porcentajes) de cuántas observaciones en los datos se encuentran en cada categoría.
22
De ‘variables continuas’ a ‘variables categóricas’
23
Representación gráfica de una tabulación bivariada
24
Comando “histogram”
25
Estadísticas de resumen:
El conjunto de agregados numéricos de una distribución de frecuencias las que resumen una característica específica de un conjunto de datos.
26
Estadísticas de resumen importantes Coeficiente de Variación
Medidas de resumen de una muestra Tendencia Central Percentil Variación Media Moda Mediana Coeficiente de Variación Rango Varianza Desviación Estandar
27
Medidas de Variación Variación Varianza Desviación Estandar
Coeficiente de variación Rango Varianza de la población Desviación estandar de la población Varianza de la muestra Desviación estandar de la muestra Rango Intercuartil
28
Las medidas de resumen a utilizar dependen del ‘tipo’ de variable a explorar !
DATOS CATEGÓRICOS
29
Comandos usados en STATA para obtener estadísticas de resumen
Summarize (variables numéricas) Tabstat
30
Summarize varlist, detail
31
tabstat varlist, stats( options )
32
Ejemplo
33
‘by’ / ’bysort’ y Tabstat
34
Usando menues en STATA 8
35
Estimación puntual e intervalos de confianza
Los parámetros de una población tienen un valor fijo, (es un número exacto) Usualmente estos parámetros no se conocen, por que es complicado medir a ‘toda la población’ Ante esto, los parámetros se ‘estiman’ a partir de una ‘muestra’ de la población. La estimación puede ser ‘puntual’ o en un ‘intervalo de confianza’
36
Estimación puntual de la ‘MEDIA’
Población Muestra
37
Estimación puntual de la ‘VARIANZA’
Población Muestra
38
Efectos del ‘muestreo’ en la estimación de un parámetro
39
Es mejor estimar el intervalo de confianza de un parámetro antes que su estimación puntual…
El intervalo de confianza es una ‘variable aleatoria’ El 95% Intervalo de Confianza, es un intervalo que tiene un 95% de probabilidad de cubrir el verdadero valor del parámetro estimado
40
Comandos en STATA para los Intervalos de Confianza: ci
41
Intervalos de confianza de variables normales
Std.Err. = Std.Dev / sqrt(N)
42
Ci varlist, level( )
43
Intervalos de confianza de proporciones
44
Usando los menues de STATA 8
45
Exploración gráfica Una manera ‘visual’ y muy intuitiva de tener una imagen clara de los datos. Método muy usado para presentar resultados. Un solo gráfico puede contener una densidad muy alta de información Sujeta a interpretaciones subjetivas y problemas de ilusión
46
66 Desviaciones Estandar para Ninos y Adultos en Equipos de Basketball
Figure 10.8 66
47
Representación gráfica de una tabulación bivariada
48
Comparando Desviaciones Estandard
Data A Mean = 15.5 s = 3.338 Data B Mean = 15.5 s = .9258 Data C Mean = 15.5 s = 4.57
49
Dos bases de datos hipotéticas… Es importante tener una
imagen visual de la distribución de la variable Datos de baja variabilidad La media provee una buena representación de los valores en la base de datos. Al incrementar datos la distribución cambia.. Datos con alta variabilidad La media ya NO provee ahora una buena información de los datos como sucedía anterioremente
50
Perfil de la distribución (skewness coefficient)
Describe cómo los Datos están Distribuídos Caracterización del perfil de la distribución: Simétrica o sesgada
51
Perfil de la distribución
Describe cómo los Datos están Distribuídos Caracterización del perfil de la distribución: Simétrica o sesgada -0.5 <0 < 0.5 Simétrica Media = Mediana = Moda
52
Perfil de la distribución
Describe cómo los Datos están Distribuídos Caracterización del perfil de la distribución: Simétrica o sesgada < -1 -0.5 <0 < 0.5 Sesgada izquierda Simétrica Mean Median Mode Mean = Median = Mode
53
Perfil de la distribución
Describe cómo los Datos están Distribuídos Caracterización del perfil de la distribución: Simétrica o sesgada > 1 < -1 -0.5 <0 < 0.5 Sesgada izquierda Simétrica Sesgada derecha Media Mediana Moda Media = Mediana = Moda Moda Mediana Media
54
Veamos la base de ‘malaria’ y comprobemos el perfil de EDAD.
55
El comando ‘histogram’ en STATA
56
Histogram inf_edad, bin(12) kdensity
57
Box Plot (Gráfico de cajas)
Se muestra gráficamente los datos utilizando 5 números (estadísticas de resumen) X Q Mediana Q X Mínimo 1 3 Máximo 4 6 8 10 12
58
Relación entre el perfil de la distribución y el Box Plot
Sesgada izquierda Simétrica Sesgada derecha Q Mediana Q Q Mediana Q Q Mediana Q 1 3 1 3 1 3
59
El comando ‘Graph’ en STATA
60
graph box inf_edad
61
Box plot
62
Los gráficos ‘box-plot’ permiten realizar comparaciones
63
Gráficos ‘tallo y hoja’ comando ‘stem’ de STATA
65
Scatter-plots y Ejemplos de Relaciones
No-lineales
70
Representación gráfica y problemas éticos
Last year, 25 percent of our sales dollar was profits. Depending on whether we present it to our stockholders or the unions, we don’t want to give it the same emphasis. Ganancias 25% . That’s easy. For our stockholders, we’ll show it in our annual report as a coin in perspective and take the 25 percent profits from the front … Ganancias 25% Ganancias 25% Whereas for the union, we’ll show it from the back where it won’t look anywhere as impressive.
71
Representación gráfica y problemas éticos
Labor Costs Oops, we certainly don’t want to advertise that sharp increase in administrative costs, it may raise questions by our stockholders. Administrative Costs Administrative Costs No sweat. We’ll switch the two components around. This way, by placing the administrative costs at the top, it doesn’t look so damning. As a matter of fact, it looks like it’s going down. Labor Costs
72
Representación gráfica y problemas éticos
100 Now, if you could only show this declining sales picture as going up, all my problems would be solved. 75 50 25 ‘87 ‘88 ‘89 ‘90 ‘91 ‘92 100 Sure thing; no problem. A bit of perspective here, a bit of fore-shortening there, and now the line looks like it’s going up. 75 50 25 ‘87 ‘88 ‘89 ‘90 ‘91 ‘92
73
Manejo de datos fuera de rango (outliers)
Los Outliers son valores que se consideran “No Pertenecen” al conjunto de datos. Razones para darse: 1. Errores de medición Resultados atípicos La recomendación es corregir los errores (si es posible) y remover las observaciones atípicas. PERO! Y si así es la ciencia ?! Mejor hacer doble análisis: con y sin ‘outliers’
76
Análisis de OUTLIERS: Datos Simétricos
Valores que se exceden en 3 DS de la media outlier region outlier region -3s + 3s
77
Análisis de OUTLIERS: Datos sesgados:
Valores que se exceden de 3 rangos intercuartiles por debajo del primer cuartil Q1 o por encima del tercer cuartil (Q3) (percentiles 25 y 75 respectivamente) Sesgada izquierda Sesgada Positiva outlier region outlier region Q1 Q3 Q1 Q3 Q1 – 3(Q3 – Q1) Q3 + 3(Q3 – Q1)
78
Tratamientos TB MDR
79
Probabilidad de Conversión en Bk y Cultivo durante el tratamiento Estandarizado
80
Proporción acumulada de casos Bk y cultivo negativos a lo largo del tratamiento dentro de los que fueron positivos
Presentaciones similares
© 2024 SlidePlayer.es Inc.
All rights reserved.