Estadística Descriptiva para variables continuas

Slides:



Advertisements
Presentaciones similares
Unidad I. Conceptos Básicos y Estadística Descriptiva
Advertisements

UNIVERSIDAD DE QUINTANA ROO Investigación de Mercado 2
Lic. Cristian R. Arroyo López
Epidemiología Clínica y Estadística Aplicada
Introducción En toda investigación, y antes de extraer conclusiones acerca de los objetivos e hipótesis planteados, es necesario llevar a cabo un análisis.
DEFINICIÓN Y MEDICIÓN DE VARIABLES
FRANCISCO JAVIER RODRÍGUEZ
UNIVERSIDAD DE DEASARROLLO PROFESIONAL (UNIDEP) I Ciclo 2010 ESTADISTICA Profesor: Ing. Pavel González Reyes.
Unidad I. Conceptos Básicos y Estadística Descriptiva
Metodología De las Ciencias Sociales III
ESCUELA PROFERSIONAL DE INGENIERÍA EMPRESARIAL.
CONCEPTOS BASICOS DE BIOESTADISTICA JAVIER RUIZ GARCIA Maestro en Ciencias Médicas Nov del 2000.
Metodología de la evaluación y estadística aplicada
Estadística Descriptiva
REPASO BLOQUE I: TEMAS 1-4
… de la semana pasada.
Importancia de las aplicaciones de estadística en el control de procesos Guatemala 2010.
Mt. Martín Moreyra Navarrete.
Estadística Descriptiva continuación
ANALISIS DE FRECUENCIA EN HIDROLOGIA (2)
Datos: Estadística.
Tema 2: Parámetros Estadísticos
Medidas de resumen.
Elaboración de gráficas
Coeficiente de Variación
ANÁLISIS EXPLORATORIO DE DATOS
Bioestadística PROGRAMA DE DOCTORADO EN SALUD PÚBLICA.
Laboratorio de Estadística administrativa
VARIABLES Descriptores parte I
Medidas de Posición y Centralización Estadística E.S.O.
Titular: Agustín Salvia
ESTADÍSTICA DESCRIPTIVA
MEDICION La medición es un proceso básico de la ciencia que consiste en comparar un patrón seleccionado con el objeto o fenómeno cuya magnitud física se.
INFERENCIA ESTADISTICA
Analisis exploratorio INGRID TATIANA RODRIGUEZ GUZMAN DIANA COSTANZA BERMUDEZ GORDILLO.
Estadística social fundamental
Estadística Descriptiva: 2. Medidas de Tendencia y Dispersión
LA ESTADÍSTICA PROF.: EDMUNDO C.PARDO H. CARACAS,OCTUBRE DE 2014
Qué es una Variable Aleatoria??????????
Bioestadística Tema 2: Estadísticos Bioestadística. U. Málaga.
Descripción de los datos: medidas de dispersión
METODOLOGÍA Y TÉCNICAS DE INVESTIGACIÓN EN CIENCIAS SOCIALES
Titular: Agustín Salvia
Estadística Aplicada a la Gestión Empresarial
Tipos de Variables.- Cualitativas. Describen cualidades de los elementos de la muestra. Nominales. Categorías excluyentes y sin orden. (Ej. Sexo) Ordinales.
Métodos Cuantitativos
METODOLOGÍA Y TÉCNICAS DE INVESTIGACIÓN EN CIENCIAS SOCIALES
Análisis de los Datos Cuantitativos
Sesión 8 Tema: Estadística descriptiva Objetivo:
Aplicaciones Estadísticas a las Finanzas Clase 1
BASES PARA EL RAZONAMIENTO EN ESTADÍSTICA INFERENCIAL
BASES PARA LA SELECCIÓN DE UNA PRUEBA ESTADÍSTICA DRA. MA
¿Qué es la Estadística? Originalmente la palabra estadística ha estado asociada al procesamiento de datos, entendiéndose por esto la representación gráfica,
MEDIDAS DE TENDENCIA CENTRAL
Ejercicios Dado un conjunto de datos, aplicar el Criterio de Fourier para desechar los posibles valores atípicos.
Conceptos Básicos y Estadística Descriptiva
Características de las distribuciones estadísticas
Capítulo 10 Análisis de los datos.
¿Qué es la Estadística? Guayaquil, 20 de Octubre del 2015
Aplicaciones Estadísticas a las Finanzas Clase 1
Coeficiente de variación
7. Distribución normal Sin duda la distribución continua de probabilidad más importante, por la frecuencia con que se encuentra y por sus aplicaciones.
DIPLOMADO DE POSTGRADO
UNIVERSIDAD DE COSTA RICA Sistema de Estudios de Posgrado Escuela de Salud Pública I Ciclo lectivo 2003 Epidemiología – (SP – 2216) Profesora: Carmen.
Estadística descriptiva
Estadística y probabilidad aplicada a los negocios
Medidas de tendencia central
UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS (Universidad del Perú, Decana de América) FACULTAD DE MEDICINA - UPG MAESTRÍA EN NEUROCIENCIAS Curso: Bioestadística.
ESTADISTICA Llamada ciencia de los datos por el aporte que recibe de la matemática y el uso que hace de esta para la medición de errores. Se encarga de.
Transcripción de la presentación:

Estadística Descriptiva para variables continuas

Tópicos a tratar… Identificación de variables continuas Medidas de tendencia central y dispersión Presentaciones gráficas Estimación puntual e intervalos de confianza Manejo de valores fuera de rango

Que buscamos? Obtener un ‘sabor’ de los datos continuos… ‘Aprender’ de los datos continuos a través de una visualización gráfica Examinar la calidad de los datos

Los observables En la naturaleza existen los “observables”… aquellas propiedades que pueden ser percibidas por los sentidos o instrumentos especializados. Observables físicos Cuantificables (medibles) Observables no-físicos No pueden ser cuantificados (aún)

Medir = ‘Comparar con un patrón’ Medición Cuantificar = Medir Medir = ‘Comparar con un patrón’ El patrón define la unidad de medida adoptada por un instrumento de medición

Observables físicos Observables físicos: (magnitudes físicas) Temperatura Peso Talla Edad Estado civil Sexo Color Observables No-físicos La belleza de una obra de arte El amor La inteligencia?

Variables versus Constantes Depende del contexto ! La edad de una persona es una constante en un instante dado, pero es una variable dentro de una población. La edad media es una constante para la población La desviación estándar de la edad es una constante de la población Generalmente las constantes van a ser parámetros de una población, que no conocemos y que deseamos estimar Edad media, talla media, prevalencia de TB en el Perú, incidencia de dengue en el Perú, Las variables son cambiantes La edad de cualquier individuo en una población El tiempo desde el ingreso a UCI hasta que un paciente es dado de alta

Tipos de variables: Discretas, categóricas Ordinal: severidad de un cólico Nominal: sexo Dicotómica: si o no, ausencia o presencia Continuas: Temperatura, frecuencia cardíaca,

Las variables continuas El carácter continuo de una variable lo da la naturaleza intrínseca del observable físico y es independiente de la manera cómo se mida (i.e. del instrumento utilizado) ó de la manera cómo se reporte la medición

Efecto de la manera ‘cómo se mide’ una variable Imaginemos que medimos la induración del PPD en varios pacientes, y para ello utilizamos una regla milimetrada. Las dimensiones medidas para diferentes personas fueron: 5mm, 12mm, 9mm, 32mm, 21mm Aparentemente estamos frente a una variable discreta, aunque en realidad la induración (longitud) es y debe tratarse de manera continua.

Efecto de la manera ‘cómo se reporta’ una variable Imaginemos que medimos la duración de la permanencia en UCI de pacientes en un hospital. Los tiempos medidos para diferentes pacientes fueron: 15días, 2días, 9días, 12días, 31días Aparentemente estamos frente a una variable discreta, aunque en realidad el tiempo es y debe tratarse de manera continua.

Rigurosamente hablando… Por último, nada es continuo cuando se alcanza los límites moleculares!! El principio de incertidumbre de Heisenberg De manera práctica, todo depende de la escala en que trabajemos…

Comandos usados en STATA para identificar el tipo de variable: Codebook Inspect

ATENCION ! STATA puede identificar un tipo de variable de manera erronea ! Debemos apoyarnos en la ciencia, en nuestro conocimiento previo de la variable con que estamos trabajando.

Recordemos las características de una variable continua con distribución normal… Figure 10.10 6

Comando ‘summarize’ (su)

Distribución de frecuencias Una lista exhaustiva y mutuamente excluyente de categorias (cualitativas o cuantitativas) con una tabulación (en valores absolutos o porcentajes) de cuántas observaciones en los datos se encuentran en cada categoría.

De ‘variables continuas’ a ‘variables categóricas’

Representación gráfica de una tabulación bivariada

Comando “histogram”

Estadísticas de resumen: El conjunto de agregados numéricos de una distribución de frecuencias las que resumen una característica específica de un conjunto de datos.

Estadísticas de resumen importantes Coeficiente de Variación Medidas de resumen de una muestra Tendencia Central Percentil Variación Media Moda Mediana Coeficiente de Variación Rango Varianza Desviación Estandar

Medidas de Variación Variación Varianza Desviación Estandar Coeficiente de variación Rango Varianza de la población Desviación estandar de la población Varianza de la muestra Desviación estandar de la muestra Rango Intercuartil

Las medidas de resumen a utilizar dependen del ‘tipo’ de variable a explorar ! DATOS CATEGÓRICOS

Comandos usados en STATA para obtener estadísticas de resumen Summarize (variables numéricas) Tabstat

Summarize varlist, detail

tabstat varlist, stats( options )

Ejemplo

‘by’ / ’bysort’ y Tabstat

Usando menues en STATA 8

Estimación puntual e intervalos de confianza Los parámetros de una población tienen un valor fijo, (es un número exacto) Usualmente estos parámetros no se conocen, por que es complicado medir a ‘toda la población’ Ante esto, los parámetros se ‘estiman’ a partir de una ‘muestra’ de la población. La estimación puede ser ‘puntual’ o en un ‘intervalo de confianza’

Estimación puntual de la ‘MEDIA’ Población Muestra

Estimación puntual de la ‘VARIANZA’ Población Muestra

Efectos del ‘muestreo’ en la estimación de un parámetro

Es mejor estimar el intervalo de confianza de un parámetro antes que su estimación puntual… El intervalo de confianza es una ‘variable aleatoria’ El 95% Intervalo de Confianza, es un intervalo que tiene un 95% de probabilidad de cubrir el verdadero valor del parámetro estimado

Comandos en STATA para los Intervalos de Confianza: ci

Intervalos de confianza de variables normales Std.Err. = Std.Dev / sqrt(N)

Ci varlist, level( )

Intervalos de confianza de proporciones

Usando los menues de STATA 8

Exploración gráfica Una manera ‘visual’ y muy intuitiva de tener una imagen clara de los datos. Método muy usado para presentar resultados. Un solo gráfico puede contener una densidad muy alta de información Sujeta a interpretaciones subjetivas y problemas de ilusión

66 Desviaciones Estandar para Ninos y Adultos en Equipos de Basketball Figure 10.8 66

Representación gráfica de una tabulación bivariada

Comparando Desviaciones Estandard Data A Mean = 15.5 s = 3.338 11 12 13 14 15 16 17 18 19 20 21 Data B Mean = 15.5 s = .9258 11 12 13 14 15 16 17 18 19 20 21 Data C Mean = 15.5 s = 4.57 11 12 13 14 15 16 17 18 19 20 21

Dos bases de datos hipotéticas… Es importante tener una imagen visual de la distribución de la variable Datos de baja variabilidad La media provee una buena representación de los valores en la base de datos. Al incrementar datos la distribución cambia.. Datos con alta variabilidad La media ya NO provee ahora una buena información de los datos como sucedía anterioremente

Perfil de la distribución (skewness coefficient) Describe cómo los Datos están Distribuídos Caracterización del perfil de la distribución: Simétrica o sesgada

Perfil de la distribución Describe cómo los Datos están Distribuídos Caracterización del perfil de la distribución: Simétrica o sesgada -0.5 <0 < 0.5 Simétrica Media = Mediana = Moda

Perfil de la distribución Describe cómo los Datos están Distribuídos Caracterización del perfil de la distribución: Simétrica o sesgada < -1 -0.5 <0 < 0.5 Sesgada izquierda Simétrica Mean Median Mode Mean = Median = Mode

Perfil de la distribución Describe cómo los Datos están Distribuídos Caracterización del perfil de la distribución: Simétrica o sesgada > 1 < -1 -0.5 <0 < 0.5 Sesgada izquierda Simétrica Sesgada derecha Media Mediana Moda Media = Mediana = Moda Moda Mediana Media

Veamos la base de ‘malaria’ y comprobemos el perfil de EDAD.

El comando ‘histogram’ en STATA

Histogram inf_edad, bin(12) kdensity

Box Plot (Gráfico de cajas) Se muestra gráficamente los datos utilizando 5 números (estadísticas de resumen) X Q Mediana Q X Mínimo 1 3 Máximo 4 6 8 10 12

Relación entre el perfil de la distribución y el Box Plot Sesgada izquierda Simétrica Sesgada derecha Q Mediana Q Q Mediana Q Q Mediana Q 1 3 1 3 1 3

El comando ‘Graph’ en STATA

graph box inf_edad

Box plot

Los gráficos ‘box-plot’ permiten realizar comparaciones

Gráficos ‘tallo y hoja’ comando ‘stem’ de STATA

Scatter-plots y Ejemplos de Relaciones No-lineales

Representación gráfica y problemas éticos Last year, 25 percent of our sales dollar was profits. Depending on whether we present it to our stockholders or the unions, we don’t want to give it the same emphasis. Ganancias 25% . That’s easy. For our stockholders, we’ll show it in our annual report as a coin in perspective and take the 25 percent profits from the front … Ganancias 25% Ganancias 25% Whereas for the union, we’ll show it from the back where it won’t look anywhere as impressive.

Representación gráfica y problemas éticos Labor Costs Oops, we certainly don’t want to advertise that sharp increase in administrative costs, it may raise questions by our stockholders. Administrative Costs Administrative Costs No sweat. We’ll switch the two components around. This way, by placing the administrative costs at the top, it doesn’t look so damning. As a matter of fact, it looks like it’s going down. Labor Costs

Representación gráfica y problemas éticos 100 Now, if you could only show this declining sales picture as going up, all my problems would be solved. 75 50 25 ‘87 ‘88 ‘89 ‘90 ‘91 ‘92 100 Sure thing; no problem. A bit of perspective here, a bit of fore-shortening there, and now the line looks like it’s going up. 75 50 25 ‘87 ‘88 ‘89 ‘90 ‘91 ‘92

Manejo de datos fuera de rango (outliers) Los Outliers son valores que se consideran “No Pertenecen” al conjunto de datos. Razones para darse: 1. Errores de medición 2. Resultados atípicos La recomendación es corregir los errores (si es posible) y remover las observaciones atípicas. PERO! Y si así es la ciencia ?! Mejor hacer doble análisis: con y sin ‘outliers’

Análisis de OUTLIERS: Datos Simétricos Valores que se exceden en 3 DS de la media outlier region outlier region -3s + 3s

Análisis de OUTLIERS: Datos sesgados: Valores que se exceden de 3 rangos intercuartiles por debajo del primer cuartil Q1 o por encima del tercer cuartil (Q3) (percentiles 25 y 75 respectivamente) Sesgada izquierda Sesgada Positiva outlier region outlier region Q1 Q3 Q1 Q3 Q1 – 3(Q3 – Q1) Q3 + 3(Q3 – Q1)

Tratamientos TB MDR

Probabilidad de Conversión en Bk y Cultivo durante el tratamiento Estandarizado

Proporción acumulada de casos Bk y cultivo negativos a lo largo del tratamiento dentro de los que fueron positivos