La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Curso de Bioestadística Parte 3 Tipos de datos, resumen y presentación

Presentaciones similares


Presentación del tema: "Curso de Bioestadística Parte 3 Tipos de datos, resumen y presentación"— Transcripción de la presentación:

1 Curso de Bioestadística Parte 3 Tipos de datos, resumen y presentación
Dr. en C. Nicolás Padilla Raygoza Facultad de Enfermería y Obstetricia de Celaya Universidad de Guanajuato México

2 Presentación Médico Cirujano por la Universidad Autónoma de Guadalajara. Pediatra por el Consejo Mexicano de Certificación en Pediatría. Diplomado en Epidemiología, Escuela de Higiene y Medicina Tropical de Londres, Universidad de Londres. Master en Ciencias con enfoque en Epidemiología, Atlantic International University. Doctorado en Ciencias con enfoque en Epidemiología, Atlantic International University. Profesor Asociado B, Facultad de Enfermería y Obstetricia de Celaya, Universidad de Guanajuato.

3 Competencias Describirá los tipos de variables.
Analizará como resumir y presentar los diferentes tipos de variables. Aplicará fórmulas para calcular medidas de tendencia central y las localizará en gráficas. Aplicará fórmulas para calcular medidas de dispersión y las localizará en gráficas.

4 Definiciones Datos se colectan sobre las características específicas de cada sujeto, formándose grupos para ser comparados. Estas características se llaman variables, ya que cambian de sujeto a sujeto. La variable se obtiene por ser: Un resultado de interés-variable dependiente O explica a la variable dependiente - factor de riesgo- exposición-variable independiente. El enfoque estadístico de un estudio es observar y comparar grupos de sujetos. El valor de la variable dependientes, va a depender de la variable independiente o exposición.

5 Tipos de datos Clasificación por su escala de medición: Cualitativas
Dicotómicas-binarias Ordinales Nominales Cuantitativas Discretas Continuas Las cualitativas señalan una cualidad del sujeto. Pueden tomar sólo dos valores (dicotómicas o binarias), o tener varios valores con un orden natural (ordinales) o no tener un orden natural (nominales). Las cuantitativas se refieren a números. Las discretas es el resultado de conteos y son números enteros y las continuas, utilizan un instrumento de medición.

6 Tipos de datos-Ejemplos
Cualitativas Dicotómicas-binarias Sexo: masculino o femenino. Status de empleo: empleado o desempleado. Ordinales Nivel socioeconómico: alto, medio o bajo. Nominales Sitio de residencia: centro, sur, norte, este, oeste Estado civil: soltero, casado, viudo, divorciado, unión libre Cuantitativas Discretas Número de hijos: 1,2,3,4. Continuas Nivel de glucosa en sangre: 110 mg/dl, 145 mg/dl.

7 Resumen de datos Generalmente queremos presentar los datos en forma resumida. El número de veces que un dato ocurre, es de interés ya que nos presenta la distribución de una variable. Se puede generar una lista de frecuencias para variables cuantitativas o cualitativas.

8 Resumen de datos categóricos
Podemos obtener frecuencias de datos categóricos y resumirlos en una tabla o gráfica. Ejemplo: tenemos 21 diagnósticos de parásitos aislados en heces de niños. Giardia lamblia Entamoeba histolytica Ascaris lumbricoides Enterobius vermicularis Giardia lamblia Entamoeba histolytica Ascaris lumbricoides Enterobius vermicularis Giardia lamblia Entamoeba histolytica Ascaris lumbricoides Enterobius vermicularis

9 Resumen de datos categóricos
La lista de parásitos detectados nos da una idea de la frecuencia de cada parásito, pero no es una forma clara. Si los ordenamos, nos clarifica la presentación. Ascaris lumbricoides Enterobius vermicularis Enterobius vermicularis Entamoeba histolytica Giardia lamblia Ascaris lumbricoides Ordenar la lista de datos nos da una idea más clara de la frecuencia de los datos, pero aún podemos clarificar más la presentación de los datos.

10 Resumen de datos categóricos
Podemos presentar los resultados en una distribución de frecuencias. Distribución de frecuencias de parásitos intestinales detectados en niños en el CAISES Celaya, n=21 Parásito n Giardia lamblia 6 Ascaris lumbricoides Enterobius vermicularis Entamoeba histolytica 3 Total 21 Con una tabla de distribución de frecuencias, podemos ver clara y rápidamente, cual parásito intestinal es más frecuente. Aquí no existe tanto problema ya que contamos con 21 como tamaño de la muestra, pero en muchas ocasiones, la muestra será de cientos o miles. La primera columna muestra los tipos de parásitos y la segunda columna muestra que tantas veces se repitió cada uno de los parásitos. Fuente: Reporte de Laboratorio

11 Resumen de datos categóricos
Es de utilidad, presentar los frecuencia de cada categoría, expresada como el porcentaje de la frecuencia total. Se le llama distribución de frecuencias relativas Distribución de frecuencias relativas de parásitos intestinales detectados en niños en el CAISES Celaya, n=21 Parásito n % Giardia lamblia 6 28.57 Ascaris lumbricoides Enterobius vermicularis Entamoeba histolytica 3 14.29 Total 21 100.00 La frecuencia relativa para cada categoría se obtiene dividiendo la frecuencia de la categoría entre el total de la muestra y multiplicándolo por 100. Frecuencia relativa = frecuencia de la categoría por 100/ frecuencia total. Fuente: Reporte de Laboratorio

12 Resumen de datos categóricos
En ocasiones el número de categorías puede ser elevado y debemos procurar disminuir el número de categorías. Distribución por causa de muerte en Celaya, Gto. durante 2007 Causa de defunción n % Enfermedad cardiovascular 12,525 21.96 Cáncer 10,321 18.10 Infecciones de vías respiratorias bajas 8,745 15.34 Otras 25,435 44.60 Total 57,026 100.00 En la distribución de frecuencias relativas por causa de muerte, la categoría otras incluyen el resto de causas de muerte; si no lo hacemos así, el número de categorías de causa de muerte sería muy grande. Fuente: Certificados de defunción

13 Distribución de frecuencias para datos cuantitativos
Con datos cuantitativos, necesitamos agrupar los datos, antes de presentarlos en una tabla de frecuencias o de frecuencias relativas. Distribución de frecuencias de estudiantes de la FEOC que han fumado al menos una vez. N=534 Edad en años n % 19 52 14.70 20 32 9.00 21 46 12.99 22 67 18.94 23 26 7.35 24 77 21.76 25 54 15.26 Total 534 100.00 El número de categorías de edad es razonable (7) pero si sobrepasan de 15, habría que agruparlas. Fuente: Encuesta de salud

14 Distribución de frecuencias para datos cuantitativos
Con datos cuantitativos, es de utilidad calcular la frecuencia acumulada. Distribución de frecuencias de estudiantes de la FEOC que han fumado al menos una vez. N=534 Edad en años n % % acumulado 19 52 14.70 20 32 9.00 23.70 21 46 12.99 36.69 22 67 18.94 55.63 23 26 7.35 62.98 24 77 21.76 84.74 25 54 15.26 100.00 Total 534 La frecuencia acumulada es la suma consecutiva de las frecuencias relativas. Podemos ver que los alumnos de 23 o menos años habían fumado al menos una vez, en el 62.98% de la muestra. Fuente: Encuesta de salud

15 Distribución de frecuencias para datos cuantitativos agrupados
Con frecuencia hay muchas categorías de datos cuantitativos, por lo tanto tenemos que calcular intervalos para cada categoría. Edad en años n % <1 2 0.51 1 8 2.00 13 3.30 3 29 7.36 4 37 9.39 5 44 11.17 6 51 12.94 7 50 12.69 49 12.44 9 32 8.12 10 25 6.35 11 22 5.58 12 14 3.55 2.28 1.78 15 Total 394 100.00 Distribución de frecuencias de edades de niños con faingoamigdalitis aguda Esta tabla es informativa, pero no es la mejor forma de presentar los datos. Se puede lograr una presentación más eficiente presentando los grupos de edad de 3 en 3 años. Fuente: Padilla N, Moreno M. Comparación entre claritromicina, azitromicina y propicillina en el manejo de faringoamigdalitis aguda estreptocóccica en niños. Archivos de Investigación Pediátrica de México 2005; 8:5-11.

16 Distribución de frecuencias para datos cuantitativos agrupados
Distribución de frecuencias de edades de niños con faingoamigdalitis aguda Edad en años n % <1 - 3 52 13.20 4 - 6 132 33.50 6 - 9 131 33.25 61 15.48 18 4.57 Total 394 100.00 Fuente: Padilla N, Moreno M. Comparación entre claritromicina, azitromicina y propicillina en el manejo de faringoamigdalitis aguda estreptocóccica en niños. Archivos de Investigación Pediátrica de México 2005; 8:5-11. Con esta tabla, podemos ver que la mayoría de niños tuvieron de 4 a 9 años de edad. Se re-codificó la variable edad en años (numérica) en grupo de edad (categórica ordinal).

17 Agrupamiento de datos Guía
Obtenga el valor mínimo y máximo y decida el número de intervalos. Número de intervalos entre Asegurar los límites del intervalo. Asegurar que los intervalos sean de la misma amplitud. Evitar que el primer y/o último intervalo queden abiertos. Se considera que dividiendo el rango entre el número de intervalos, podemos tener la amplitud del intervalo. Pocos intervalos resumen demasiado la información, muchos intervalos dispersan la información. Ocasionalemente por razones clínicas, sociales o estándares predefinidos, la anchura de los intervalos es desigual. Si quedan abiertos algunos intervalos, se puede perder información importante.

18 Gráficas Datos categóricos Datos numéricos Gráfica de barras
Gráfica de pastel Datos numéricos Histograma Polígono de frecuencias Las gráficas dan un mensaje inmediato al lector a diferencia de la tabla. El tipo de gráfica a usar depende de la naturaleza de los datos.

19 Gráfica de barras La frecuencia o frecuencia relativa de una variable categórica, se puede mostrar fácilmente con una gráfica de barras. Se usan para datos categóricos o numéricos discretos. Cada barra representa una categoría y su altura es la frecuencia o frecuencia relativa. Las barras deben estar separadas. Es importante que el eje Y inicie en 0. Si las barras están separadas representan que está describiendo una variable categórica. Al iniciar el eje Y en 0, evitamos distorsiones de las frecuencias de cada categoría.

20 Gráfica de barras

21 Gráfica de barras agrupadas
Si tenemos una variable categórica nominal, dividida en dos categorías, podemos mostrar los datos con una gráfica de barras agrupadas. Permite fácil comparación entre grupos.

22 Gráfica de barras agrupadas
La categoría de infección gastrointestinal, se divide por sexo. Podemos fácilmente ver que entre los infectados por E. histolytica, predominaron las mujeres y entre los infectados por Giardia lamblia, predominaron los hombres.

23 Gráfica de pastel Son una alternativa para mostrar una variable categórica. Cada “rebanada” corresponde a la frecuencia o frecuencia relativa de las categorías de la variable. Sólo muestra una variable a la vez. Si se quiere hacer comparaciones se tienen que hacer dos pasteles.

24 Gráfica de pastel

25 Gráfica de pastel

26 Gráficas de distribuciones de frecuencias: histogramas
De utilidad para variables numéricas. No hay espacios entre las barras. El área de la barra, no su altura, representan su frecuencia. El eje X debe ser continuo. El eje Y debe iniciar en 0. La amplitud representa el intervalo de cada grupo.

27 Gráficas de distribuciones de frecuencias: histogramas

28 Gráficas de distribuciones de frecuencias: polígono de frecuencias
Es otra forma de representar la distribución de frecuencias de una variable numérica. Se construye uniendo el punto medio más alto de cada barra del histograma. Debe tomarse en cuenta la amplitud de las barras. Se puede trazar más de un polígono de frecuencias en una gráfica, para poder hacer comparaciones.

29 Gráficas de distribuciones de frecuencias: polígono de frecuencias

30 Gráficas de distribuciones de frecuencias: histograma acumulado
Se puede trazar directamente de una tabla de frecuencias acumuladas. No es necesario hacer ajustes en la altura de las barras, ya que las frecuencias acumuladas representan la frecuencia total superior, incluyendo el límite superior del intervalo en cuestión.

31 Gráficas de distribuciones de frecuencias: histograma acumulado

32 Gráficas de distribuciones de frecuencias: polígono de frecuencias acumulado
Se usan para ver proporciones por debajo o por arriba de un punto de la curva. Podemos leer la mediana y los percentiles directamente. Si la distribución es simétrica, tendrá forma de S simétrica. Si esta sesgada a la derecha o a la izquierda estará aplanada de ese lado.

33 Gráficas de distribuciones de frecuencias: histograma acumulado

34 Otras gráficas: tronco y hoja
Se usan para exhibición directa de datos cuantitativos o paso preliminar para la construcción de una distribución de frecuencias. Se organizan los datos, determinando el número de divisiones (5-15). Se traza una línea vertical y se coloca el primer dígito (tronco) de la categoría a la izquierda de la línea y el segundo dígito (hojas) a la derecha de la línea vertical.

35 Otras gráficas: tronco y hoja
Paciente Edad 1 54 2 35 3 49 4 61 5 58 6 64 7 32 8 57 9 43 10 42 3 5 2 4 932 5 487 6 14

36 Otras gráficas: caja y línea
Se traza una línea vertical que representa el rango de la distribución. Se traza una línea horizontal que representa el tercer cuartil y otra que representa el primer cuartil. El punto medio de la distribución se señala con una línea horizontal dentro de la caja.

37 Otras gráficas: caja y línea
5500 5000 4500 4000 3500 3000 2500 2000 1500 1000 500

38 Medidas de localización
Para una variable categórica: porcentaje Para variable cuantitativa: Medidas de tendencia central: Media Mediana Modo Medidas de dispersión: Desviación estándar Percentiles Rango Con variables categóricas sólo podemos calcular su porcentaje. Para las variables ´cuantitativas podemos medir su tendencia central y su dispersión.

39 Medidas de tendencia central
Media Es el promedio convencional. Si decimos de n observaciones tiene un valor xi, entonces el valor de la media será: _ X =Σxi/n Σ es el símbolo de suma. Si medimos la estatura de cinco estudiantes: 167, 171, 163, 159, 175, la media será /5 = 167 cm.

40 Medidas de tendencia central en una distribución de frecuencias
Cada valor de los datos (xi) ocurre con una frecuencia (fi), entonces: En una distribución agrupada, utilizamos los puntos medios de los intervalos como valor de x _ X =Σxifi/n

41 Medidas de tendencia central en una distribución de frecuencias
Intervalo Punto medio Frecuencia (fi) _________________________________ 1 – 4 – 7 – 10 – 13 – Total Ejemplo de la media para una distribución agrupada (2 x 18) + (5 x 27) + (8 x 34) + (11 x 22) + (14 x 13) Media = = = = 7.61 ( ) Media = 7.61 años

42 Medidas de tendencia central
Mediana Es el valor que divide a la distribución en dos mitades iguales. Si es un número par de observaciones, los valores centrales, se suman y se dividen entre dos. 51.2, 53.5, 55.6, 65.0, la mediana es el valor que está a la mitad, así: Mediana = 55.6 51.2, 53.5, 55.6, 61.4, 65.0, 74.2, /2 = Mediana 58.5

43 Medidas de tendencia central para distribuciones de frecuencias
Mediana Es el valor donde está el 50%.

44 Medidas de tendencia central
Modo Es el valor que ocurre más frecuentemente Intervalo Punto medio Frecuencia (fi) _________________________________ 1 – 4 – 7 – 10 – 13 – Total

45 Medidas de tendencia central
Propiedades La media es sensible a las colas, la mediana y el modo, no El modo puede ser afectado por pequeños cambios en los datos, la media y la mediana no. El modo y la mediana se puede localizar en una gráfica. Las tres medidas son iguales en una distribución Normal.

46 Medidas de tendencia central
¿Cuál medida usar? Para distribuciones sesgadas, se usa la mediana. Para análisis estadístico e inferencia, se usa más la media.

47 Medidas de dispersión Rango
Se señalan el valor mínimo y máximo y la diferencia entre ellos. 51.2, 53.5, 55.6, 61.4, 65.0, 74.2 El rango de esta distribución es 51.2 – 74.2 kg. Sin embargo los valores extremos de esta distribución están alejados del centro de la distribución, oscureciendo el hecho de que la mayoría de los datos están 53.5 y 65 kg.

48 Medidas de dispersión Percentiles
Examine la distribución de la estatura en esta población. ¿Cuál es el rango, mediana, percentil 25 y percentil 75? Estatura en cm n Frecuencia relativa (%) Frecuencia acumulada (%) Total Percentiles Un percentil o centil es el valor abajo del cual, un porcentaje dado de los datos, ha ocurrido. Rango Mediana 159 Percentil Percentil

49 Medidas de dispersión Desviación estándar
Es la forma más común de cuantificar la variabilidad de una distribución. Mide que tan alejando está cada valor de su media. Sujeto Altura Valor Σ Xi - X Desviación media = n _ X= 1.7 Desviación media = (-1)+(0)+(+1)/3 = 0

50 Medidas de dispersión Desviación estándar
Debemos interesarnos más por la magnitud de las desviaciones. Si elevamos al cuadrado cada desviación, tendremos valores positivos. Si dividimos esa suma entre n -1, obtendremos la varianza y si obtenemos la raíz cuadrada, tendremos la desviación estándar. Sujeto Altura Valor2 Σ (Xi - X) Desviación estándar =√ n _ X= 1.7 Desviación estándar = √0.2/2 = 0.32

51 Medidas de dispersión para datos agrupados
Desviación estándar Se usa el punto medio de cada intervalo. Σ f(Xi - X)2 Desviación estándar =√ f - 1 También puede expresarse: Σfx2 - (Σfx)2 /Σf Desviación estándar = √ Σ f -1

52 Medidas de dispersión para datos agrupados
Para datos distribuidos normalmente Alrededor del 68% de los datos están dentro de 1 desviación estándar. Alrededor del 95% de los datos están dentro de 2 desviaciones estándar. Alrededor del 99.9% de los datos están dentro de 3 desviaciones estándar. La desviación estándar es una medición de la anchura de la distribución. Si la desviación estándar cambia, también cambia la distribución.

53 Bibliografía 1.- Kirkwood BR. Essentials of medical ststistics. Oxford, Blackwell Science, 1988. 2.- Altman DG. Practical statistics for medical research. Boca Ratón, Chapman & Hall/ CRC; 1991.


Descargar ppt "Curso de Bioestadística Parte 3 Tipos de datos, resumen y presentación"

Presentaciones similares


Anuncios Google