Curso de Bioestadística Parte 3 Tipos de datos, resumen y presentación

Slides:



Advertisements
Presentaciones similares
Unidad I. Conceptos Básicos y Estadística Descriptiva
Advertisements

Curso: Seminario de estadística Aplicada a la investigación Educacional UNIVERSIDAD NACIONAL DE EDUCACIÓN ENRIQUE GUZMÁN Y VALLE Alma Máter del Magisterio.
LA ESTADISTICA COMO PILAR DE LA EPIDEMIOLOGÍA
Curso de Bioestadística Parte 4 Probabilidad
Curso de Bioestadística Parte 10 Inferencias de una proporción
Curso de Bioestadística Parte 9 Comparación de dos medias
Curso de Bioestadística Parte 11 Comparación de dos proporciones
Variables Sherine Shawky, MD, Dr.PH Profesor asistente
Curso de Bioestadística Parte 13 Medidas de efecto en tablas 2 x 2
Curso de Bioestadística Parte 2 Tipos de estudios en epidemiología
Curso de Bioestadística Parte 16 Regresión lineal
Curso de Bioestadística Parte 17 Métodos no paramétricos
Curso de Bioestadística Parte 14 Análisis de datos binarios pareados
Curso de Bioestadística Parte 1 ¿Qué es estadística?
Epidemiología de la amebiasis
Curso de Bioestadística Parte 7 Introducción a estadística inferencial
Curso de Bioestadística Parte 5 Distribución binominal
Curso de Bioestadística Parte 15 Correlación
ESTADÍSTICA DESCRIPTIVA
ANALISIS DE DATOS CUANTITATIVOS
VARIABLES Una de las etapas fundamentales de toda investigación es la identificación de variables, entendiendo como variable la medida de una característica.
Décima tercera Clase, Medición de la Salud I
Estudios de Cohorte Dra. Pilar Jiménez M..
INVESTIGACIÓN EN EPIDEMIOLOGÌA
Instructor: Lic. Cristian R. Arroyo L.
Dr.. Roy Martin Angulo Reyes
EPIDEMIOLOGIA Ciencia que estudia la distribución de los fenómenos biológicos y sociales en las poblaciones, así como las causas de dicha distribución.
Introducción a La Estadística
MEDICIONES UTILIZADAS EN EPIDEMIOLOGIA Y FUENTES DE INFORMACIÓN
Infección por Rotavirus en menores de 5 años
Desnutrición en México
Universidad Mariano Gálvez de Guatemala Facultad de Ciencias Médicas y de la Salud Curso de Epidemiología (código 200 – 523) Décima novena clase, Riesgo.
HIS, CIE 10, CERTIFICADO DE DEFUNCION
FRANCISCO JAVIER RODRÍGUEZ
Facultad de Farmacia – I Ciclo lectivo 2002
Unidad I. Conceptos Básicos y Estadística Descriptiva
METODOLOGIA DE LA INVESTIGACION EDUCATIVA I
Metodología De las Ciencias Sociales III
Curso de Bioestadística Parte 6 Distribución Normal
LAS VARIABLES Dr. Walther, CASIMIRO URCOS.
ESTADISTICA LABORAL Relaciones Laborales Facultad de Derecho 2008
Estadística Descriptiva Tema I. Conceptos Básicos
RECOLECCIÓN DE LA INFORMACIÓN Información primaria y secundaria.
Unidad III. Conceptos Básicos de Estadística
Curso Práctico de Bioestadística Con Herramientas De Excel
Planeación de la Investigación
Bioestadística Diplomado en Sanidad
MEDICION DE LA CONDICION DE SALUD Y DE LA OCURRENCIA DE ENFERMEDADES
Estadísticas PCQ IP de Chile 2009
Dr. en C. Nicolás Padilla Raygoza
Obtención, Medición y Representación de Datos Estadística E.S.O.
UNIVERSIDAD DE GUADALAJARA Escuela Preparatoria No. 2
Estadística social fundamental
Análisis de los datos.
Introducción Estadística ¿Qué es la estadística?
VARIABLES E INDICADORES
Estadística Aplicada a la Gestión Empresarial
Tipos de Variables.- Cualitativas. Describen cualidades de los elementos de la muestra. Nominales. Categorías excluyentes y sin orden. (Ej. Sexo) Ordinales.
TALLER DE ESTADISTICA PRIMARIA 1 a 3.
Fundamentos Básicos de Estadística
BASES PARA LA SELECCIÓN DE UNA PRUEBA ESTADÍSTICA DRA. MA
Distribución de frecuencias y gráficos
ESTADÍSTICA DESCRIPTIVA
INTRODUCCIÓN Y CONCEPTUALIZACIÓN
REPUBLICA DE VENEZUELA UNIVERSIDAD ALONSO DE OJEDA VICERRECTORADO ACÁDEMICO FACULTAD DE INGENIERIA ESTADISTICA I DISTRIBUCIÓN DE FRECUENCIAS Y GRÁFICOS.
Análisis de tablas y gráficos IV medio
CAPÍTULO 4 Introducción a la Estadística. Modelos de regresión.
Estadística Profesora: Mariela Palma Hernández. Objetivo: Calcular e interpretar las medidas de tendencia central.
PRUEBA DE SIGNIFICANCIA
Lic. Gabriela Colella. - -Planificación: Consiste en pensar anticipadamente qué es lo que se desea conocer, se determinan los objetivos y se decide que.
Transcripción de la presentación:

Curso de Bioestadística Parte 3 Tipos de datos, resumen y presentación Dr. en C. Nicolás Padilla Raygoza Facultad de Enfermería y Obstetricia de Celaya Universidad de Guanajuato México

Presentación Médico Cirujano por la Universidad Autónoma de Guadalajara. Pediatra por el Consejo Mexicano de Certificación en Pediatría. Diplomado en Epidemiología, Escuela de Higiene y Medicina Tropical de Londres, Universidad de Londres. Master en Ciencias con enfoque en Epidemiología, Atlantic International University. Doctorado en Ciencias con enfoque en Epidemiología, Atlantic International University. Profesor Asociado B, Facultad de Enfermería y Obstetricia de Celaya, Universidad de Guanajuato. padillawarm@gmail.com padillawarm@gmail.com

Competencias Describirá los tipos de variables. Analizará como resumir y presentar los diferentes tipos de variables. Aplicará fórmulas para calcular medidas de tendencia central y las localizará en gráficas. Aplicará fórmulas para calcular medidas de dispersión y las localizará en gráficas.

Definiciones Datos se colectan sobre las características específicas de cada sujeto, formándose grupos para ser comparados. Estas características se llaman variables, ya que cambian de sujeto a sujeto. La variable se obtiene por ser: Un resultado de interés-variable dependiente O explica a la variable dependiente - factor de riesgo- exposición-variable independiente. El enfoque estadístico de un estudio es observar y comparar grupos de sujetos. El valor de la variable dependientes, va a depender de la variable independiente o exposición.

Tipos de datos Clasificación por su escala de medición: Cualitativas Dicotómicas-binarias Ordinales Nominales Cuantitativas Discretas Continuas Las cualitativas señalan una cualidad del sujeto. Pueden tomar sólo dos valores (dicotómicas o binarias), o tener varios valores con un orden natural (ordinales) o no tener un orden natural (nominales). Las cuantitativas se refieren a números. Las discretas es el resultado de conteos y son números enteros y las continuas, utilizan un instrumento de medición.

Tipos de datos-Ejemplos Cualitativas Dicotómicas-binarias Sexo: masculino o femenino. Status de empleo: empleado o desempleado. Ordinales Nivel socioeconómico: alto, medio o bajo. Nominales Sitio de residencia: centro, sur, norte, este, oeste Estado civil: soltero, casado, viudo, divorciado, unión libre Cuantitativas Discretas Número de hijos: 1,2,3,4. Continuas Nivel de glucosa en sangre: 110 mg/dl, 145 mg/dl.

Resumen de datos Generalmente queremos presentar los datos en forma resumida. El número de veces que un dato ocurre, es de interés ya que nos presenta la distribución de una variable. Se puede generar una lista de frecuencias para variables cuantitativas o cualitativas.

Resumen de datos categóricos Podemos obtener frecuencias de datos categóricos y resumirlos en una tabla o gráfica. Ejemplo: tenemos 21 diagnósticos de parásitos aislados en heces de niños. Giardia lamblia Entamoeba histolytica Ascaris lumbricoides Enterobius vermicularis Giardia lamblia Entamoeba histolytica Ascaris lumbricoides Enterobius vermicularis Giardia lamblia Entamoeba histolytica Ascaris lumbricoides Enterobius vermicularis

Resumen de datos categóricos La lista de parásitos detectados nos da una idea de la frecuencia de cada parásito, pero no es una forma clara. Si los ordenamos, nos clarifica la presentación. Ascaris lumbricoides Enterobius vermicularis Enterobius vermicularis Entamoeba histolytica Giardia lamblia Ascaris lumbricoides Ordenar la lista de datos nos da una idea más clara de la frecuencia de los datos, pero aún podemos clarificar más la presentación de los datos.

Resumen de datos categóricos Podemos presentar los resultados en una distribución de frecuencias. Distribución de frecuencias de parásitos intestinales detectados en niños en el CAISES Celaya, n=21 Parásito n Giardia lamblia 6 Ascaris lumbricoides Enterobius vermicularis Entamoeba histolytica 3 Total 21 Con una tabla de distribución de frecuencias, podemos ver clara y rápidamente, cual parásito intestinal es más frecuente. Aquí no existe tanto problema ya que contamos con 21 como tamaño de la muestra, pero en muchas ocasiones, la muestra será de cientos o miles. La primera columna muestra los tipos de parásitos y la segunda columna muestra que tantas veces se repitió cada uno de los parásitos. Fuente: Reporte de Laboratorio

Resumen de datos categóricos Es de utilidad, presentar los frecuencia de cada categoría, expresada como el porcentaje de la frecuencia total. Se le llama distribución de frecuencias relativas Distribución de frecuencias relativas de parásitos intestinales detectados en niños en el CAISES Celaya, n=21 Parásito n % Giardia lamblia 6 28.57 Ascaris lumbricoides Enterobius vermicularis Entamoeba histolytica 3 14.29 Total 21 100.00 La frecuencia relativa para cada categoría se obtiene dividiendo la frecuencia de la categoría entre el total de la muestra y multiplicándolo por 100. Frecuencia relativa = frecuencia de la categoría por 100/ frecuencia total. Fuente: Reporte de Laboratorio

Resumen de datos categóricos En ocasiones el número de categorías puede ser elevado y debemos procurar disminuir el número de categorías. Distribución por causa de muerte en Celaya, Gto. durante 2007 Causa de defunción n % Enfermedad cardiovascular 12,525 21.96 Cáncer 10,321 18.10 Infecciones de vías respiratorias bajas 8,745 15.34 Otras 25,435 44.60 Total 57,026 100.00 En la distribución de frecuencias relativas por causa de muerte, la categoría otras incluyen el resto de causas de muerte; si no lo hacemos así, el número de categorías de causa de muerte sería muy grande. Fuente: Certificados de defunción

Distribución de frecuencias para datos cuantitativos Con datos cuantitativos, necesitamos agrupar los datos, antes de presentarlos en una tabla de frecuencias o de frecuencias relativas. Distribución de frecuencias de estudiantes de la FEOC que han fumado al menos una vez. N=534 Edad en años n % 19 52 14.70 20 32 9.00 21 46 12.99 22 67 18.94 23 26 7.35 24 77 21.76 25 54 15.26 Total 534 100.00 El número de categorías de edad es razonable (7) pero si sobrepasan de 15, habría que agruparlas. Fuente: Encuesta de salud

Distribución de frecuencias para datos cuantitativos Con datos cuantitativos, es de utilidad calcular la frecuencia acumulada. Distribución de frecuencias de estudiantes de la FEOC que han fumado al menos una vez. N=534 Edad en años n % % acumulado 19 52 14.70 20 32 9.00 23.70 21 46 12.99 36.69 22 67 18.94 55.63 23 26 7.35 62.98 24 77 21.76 84.74 25 54 15.26 100.00 Total 534 La frecuencia acumulada es la suma consecutiva de las frecuencias relativas. Podemos ver que los alumnos de 23 o menos años habían fumado al menos una vez, en el 62.98% de la muestra. Fuente: Encuesta de salud

Distribución de frecuencias para datos cuantitativos agrupados Con frecuencia hay muchas categorías de datos cuantitativos, por lo tanto tenemos que calcular intervalos para cada categoría. Edad en años n % <1 2 0.51 1 8 2.00 13 3.30 3 29 7.36 4 37 9.39 5 44 11.17 6 51 12.94 7 50 12.69 49 12.44 9 32 8.12 10 25 6.35 11 22 5.58 12 14 3.55 2.28 1.78 15 Total 394 100.00 Distribución de frecuencias de edades de niños con faingoamigdalitis aguda Esta tabla es informativa, pero no es la mejor forma de presentar los datos. Se puede lograr una presentación más eficiente presentando los grupos de edad de 3 en 3 años. Fuente: Padilla N, Moreno M. Comparación entre claritromicina, azitromicina y propicillina en el manejo de faringoamigdalitis aguda estreptocóccica en niños. Archivos de Investigación Pediátrica de México 2005; 8:5-11.

Distribución de frecuencias para datos cuantitativos agrupados Distribución de frecuencias de edades de niños con faingoamigdalitis aguda Edad en años n % <1 - 3 52 13.20 4 - 6 132 33.50 6 - 9 131 33.25 10 - 12 61 15.48 13 - 15 18 4.57 Total 394 100.00 Fuente: Padilla N, Moreno M. Comparación entre claritromicina, azitromicina y propicillina en el manejo de faringoamigdalitis aguda estreptocóccica en niños. Archivos de Investigación Pediátrica de México 2005; 8:5-11. Con esta tabla, podemos ver que la mayoría de niños tuvieron de 4 a 9 años de edad. Se re-codificó la variable edad en años (numérica) en grupo de edad (categórica ordinal).

Agrupamiento de datos Guía Obtenga el valor mínimo y máximo y decida el número de intervalos. Número de intervalos entre 5 - 15. Asegurar los límites del intervalo. Asegurar que los intervalos sean de la misma amplitud. Evitar que el primer y/o último intervalo queden abiertos. Se considera que dividiendo el rango entre el número de intervalos, podemos tener la amplitud del intervalo. Pocos intervalos resumen demasiado la información, muchos intervalos dispersan la información. Ocasionalemente por razones clínicas, sociales o estándares predefinidos, la anchura de los intervalos es desigual. Si quedan abiertos algunos intervalos, se puede perder información importante.

Gráficas Datos categóricos Datos numéricos Gráfica de barras Gráfica de pastel Datos numéricos Histograma Polígono de frecuencias Las gráficas dan un mensaje inmediato al lector a diferencia de la tabla. El tipo de gráfica a usar depende de la naturaleza de los datos.

Gráfica de barras La frecuencia o frecuencia relativa de una variable categórica, se puede mostrar fácilmente con una gráfica de barras. Se usan para datos categóricos o numéricos discretos. Cada barra representa una categoría y su altura es la frecuencia o frecuencia relativa. Las barras deben estar separadas. Es importante que el eje Y inicie en 0. Si las barras están separadas representan que está describiendo una variable categórica. Al iniciar el eje Y en 0, evitamos distorsiones de las frecuencias de cada categoría.

Gráfica de barras

Gráfica de barras agrupadas Si tenemos una variable categórica nominal, dividida en dos categorías, podemos mostrar los datos con una gráfica de barras agrupadas. Permite fácil comparación entre grupos.

Gráfica de barras agrupadas La categoría de infección gastrointestinal, se divide por sexo. Podemos fácilmente ver que entre los infectados por E. histolytica, predominaron las mujeres y entre los infectados por Giardia lamblia, predominaron los hombres.

Gráfica de pastel Son una alternativa para mostrar una variable categórica. Cada “rebanada” corresponde a la frecuencia o frecuencia relativa de las categorías de la variable. Sólo muestra una variable a la vez. Si se quiere hacer comparaciones se tienen que hacer dos pasteles.

Gráfica de pastel

Gráfica de pastel

Gráficas de distribuciones de frecuencias: histogramas De utilidad para variables numéricas. No hay espacios entre las barras. El área de la barra, no su altura, representan su frecuencia. El eje X debe ser continuo. El eje Y debe iniciar en 0. La amplitud representa el intervalo de cada grupo.

Gráficas de distribuciones de frecuencias: histogramas

Gráficas de distribuciones de frecuencias: polígono de frecuencias Es otra forma de representar la distribución de frecuencias de una variable numérica. Se construye uniendo el punto medio más alto de cada barra del histograma. Debe tomarse en cuenta la amplitud de las barras. Se puede trazar más de un polígono de frecuencias en una gráfica, para poder hacer comparaciones.

Gráficas de distribuciones de frecuencias: polígono de frecuencias

Gráficas de distribuciones de frecuencias: histograma acumulado Se puede trazar directamente de una tabla de frecuencias acumuladas. No es necesario hacer ajustes en la altura de las barras, ya que las frecuencias acumuladas representan la frecuencia total superior, incluyendo el límite superior del intervalo en cuestión.

Gráficas de distribuciones de frecuencias: histograma acumulado

Gráficas de distribuciones de frecuencias: polígono de frecuencias acumulado Se usan para ver proporciones por debajo o por arriba de un punto de la curva. Podemos leer la mediana y los percentiles directamente. Si la distribución es simétrica, tendrá forma de S simétrica. Si esta sesgada a la derecha o a la izquierda estará aplanada de ese lado.

Gráficas de distribuciones de frecuencias: histograma acumulado

Otras gráficas: tronco y hoja Se usan para exhibición directa de datos cuantitativos o paso preliminar para la construcción de una distribución de frecuencias. Se organizan los datos, determinando el número de divisiones (5-15). Se traza una línea vertical y se coloca el primer dígito (tronco) de la categoría a la izquierda de la línea y el segundo dígito (hojas) a la derecha de la línea vertical.

Otras gráficas: tronco y hoja Paciente Edad 1 54 2 35 3 49 4 61 5 58 6 64 7 32 8 57 9 43 10 42 3 5 2 4 932 5 487 6 14

Otras gráficas: caja y línea Se traza una línea vertical que representa el rango de la distribución. Se traza una línea horizontal que representa el tercer cuartil y otra que representa el primer cuartil. El punto medio de la distribución se señala con una línea horizontal dentro de la caja.

Otras gráficas: caja y línea 5500 5000 4500 4000 3500 3000 2500 2000 1500 1000 500

Medidas de localización Para una variable categórica: porcentaje Para variable cuantitativa: Medidas de tendencia central: Media Mediana Modo Medidas de dispersión: Desviación estándar Percentiles Rango Con variables categóricas sólo podemos calcular su porcentaje. Para las variables ´cuantitativas podemos medir su tendencia central y su dispersión.

Medidas de tendencia central Media Es el promedio convencional. Si decimos de n observaciones tiene un valor xi, entonces el valor de la media será: _ X =Σxi/n Σ es el símbolo de suma. Si medimos la estatura de cinco estudiantes: 167, 171, 163, 159, 175, la media será 167 + 171 + 163 + 159 + 175 /5 = 167 cm.

Medidas de tendencia central en una distribución de frecuencias Cada valor de los datos (xi) ocurre con una frecuencia (fi), entonces: En una distribución agrupada, utilizamos los puntos medios de los intervalos como valor de x _ X =Σxifi/n

Medidas de tendencia central en una distribución de frecuencias Intervalo Punto medio Frecuencia (fi) _________________________________ 1 – 3 2 18 4 – 6 5 27 7 – 9 8 34 10 – 12 11 22 13 – 15 14 13 Total 114 Ejemplo de la media para una distribución agrupada (2 x 18) + (5 x 27) + (8 x 34) + (11 x 22) + (14 x 13) 36 + 135 + 272 + 242 + 182 867 Media = --------------------------------------------------------------------- = ---------------------------------------- = -------- = 7.61 (18 + 27 + 34 + 22 + 13) 114 114 Media = 7.61 años

Medidas de tendencia central Mediana Es el valor que divide a la distribución en dos mitades iguales. Si es un número par de observaciones, los valores centrales, se suman y se dividen entre dos. 51.2, 53.5, 55.6, 65.0, 74.2 la mediana es el valor que está a la mitad, así: Mediana = 55.6 51.2, 53.5, 55.6, 61.4, 65.0, 74.2, 55.6 + 61.4 /2 = Mediana 58.5

Medidas de tendencia central para distribuciones de frecuencias Mediana Es el valor donde está el 50%.

Medidas de tendencia central Modo Es el valor que ocurre más frecuentemente Intervalo Punto medio Frecuencia (fi) _________________________________ 1 – 3 2 18 4 – 6 5 27 7 – 9 8 34 10 – 12 11 22 13 – 15 14 13 Total 114

Medidas de tendencia central Propiedades La media es sensible a las colas, la mediana y el modo, no El modo puede ser afectado por pequeños cambios en los datos, la media y la mediana no. El modo y la mediana se puede localizar en una gráfica. Las tres medidas son iguales en una distribución Normal.

Medidas de tendencia central ¿Cuál medida usar? Para distribuciones sesgadas, se usa la mediana. Para análisis estadístico e inferencia, se usa más la media.

Medidas de dispersión Rango Se señalan el valor mínimo y máximo y la diferencia entre ellos. 51.2, 53.5, 55.6, 61.4, 65.0, 74.2 El rango de esta distribución es 51.2 – 74.2 kg. Sin embargo los valores extremos de esta distribución están alejados del centro de la distribución, oscureciendo el hecho de que la mayoría de los datos están 53.5 y 65 kg.

Medidas de dispersión Percentiles Examine la distribución de la estatura en esta población. ¿Cuál es el rango, mediana, percentil 25 y percentil 75? Estatura en cm. n Frecuencia relativa (%) Frecuencia acumulada (%) 151 2 0.7 0.7 152 3 1.1 1.8 152 6 2.2 4.0 154 12 4.5 8.5 155 27 10.0 18.5 157 29 10.8 29.3 158 26 9.7 39.0 159 33 12.3 51.3 163 37 13.8 65.1 164 16 5.9 71.0 165 24 8.9 79.9 168 18 6.7 86.6 169 14 5.2 91.8 171 6 2.2 94.0 174 7 2.6 96.6 175 1 0.4 97.0 177 4 1.5 98.5 179 2 0.7 99.2 184 1 0.4 99.6 185 1 0.4 100.0 Total 269 100.0 Percentiles Un percentil o centil es el valor abajo del cual, un porcentaje dado de los datos, ha ocurrido. Rango 151- 185 Mediana 159 Percentil 25 157 Percentil 75 165

Medidas de dispersión Desviación estándar Es la forma más común de cuantificar la variabilidad de una distribución. Mide que tan alejando está cada valor de su media. Sujeto Altura Valor Σ Xi - X 1 1.6 -1 Desviación media = ---------- 2 1.7 0 n 3 1.8 +1 _ X= 1.7 Desviación media = (-1)+(0)+(+1)/3 = 0

Medidas de dispersión Desviación estándar Debemos interesarnos más por la magnitud de las desviaciones. Si elevamos al cuadrado cada desviación, tendremos valores positivos. Si dividimos esa suma entre n -1, obtendremos la varianza y si obtenemos la raíz cuadrada, tendremos la desviación estándar. Sujeto Altura Valor2 Σ (Xi - X)2 1 1.6 0.1 Desviación estándar =√ ---------- 2 1.7 0 n-1 3 1.8 0.1 _ X= 1.7 Desviación estándar = √0.2/2 = 0.32

Medidas de dispersión para datos agrupados Desviación estándar Se usa el punto medio de cada intervalo. Σ f(Xi - X)2 Desviación estándar =√ -------------- f - 1 También puede expresarse: Σfx2 - (Σfx)2 /Σf Desviación estándar = √ --------------------- Σ f -1

Medidas de dispersión para datos agrupados Para datos distribuidos normalmente Alrededor del 68% de los datos están dentro de 1 desviación estándar. Alrededor del 95% de los datos están dentro de 2 desviaciones estándar. Alrededor del 99.9% de los datos están dentro de 3 desviaciones estándar. La desviación estándar es una medición de la anchura de la distribución. Si la desviación estándar cambia, también cambia la distribución.

Bibliografía 1.- Kirkwood BR. Essentials of medical ststistics. Oxford, Blackwell Science, 1988. 2.- Altman DG. Practical statistics for medical research. Boca Ratón, Chapman & Hall/ CRC; 1991.