La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS (Universidad del Perú, Decana de América) FACULTAD DE MEDICINA - UPG MAESTRÍA EN NEUROCIENCIAS Curso: Bioestadística.

Presentaciones similares


Presentación del tema: "UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS (Universidad del Perú, Decana de América) FACULTAD DE MEDICINA - UPG MAESTRÍA EN NEUROCIENCIAS Curso: Bioestadística."— Transcripción de la presentación:

1 UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS (Universidad del Perú, Decana de América) FACULTAD DE MEDICINA - UPG MAESTRÍA EN NEUROCIENCIAS Curso: Bioestadística Tema: Introducción al Análisis Exploratorio de Datos Prof.: Mg. Violeta Nolberto Sifuentes (30/07/09)

2 Visualización previa de los datos, antes de realizar el análisis definitivo de los datos bajo estudio. Objetivos: 1. Evaluar la calidad y consistencia de datos 2. Determinar la distribución de la variable bajo estudio (forma) 3. Datos ausentes 4. Datos atípicos (outliers) 5. Verificar los requisitos que deben cumplir los datos antes de emplear otras herramientas estadísticas. 6. Resumir datos 7. Categorización de las variables, identificando puntos de corte. 1. INTRODUCCION

3 2. DIAGRAMA DE TALLO Y HOJA (STEM-AND-LEAF) Tukey, W. (1977) EDA Es una técnica de análisis exploratorio de datos de una variable cuantitativa, muy útil por que muestra simultáneamente el orden de rangos así como la forma del conjunto de datos. Se caracteriza por ser fácil de construir y dar más información que un histograma, debido a que muestra los datos cuantitativos.

4 No hay cantidad única de tallos ni hojas aún cuando se recomienda seleccionar entre 5 a 20 tallos (“clases”) Permite identificar: Simetría de los datos. Variabilidad de los datos Presencia de datos atípicos Concentración de datos Brechas en el conjunto de datos

5 Se caracteriza por ser fácil de construir y dar más información que un histograma, debido a que muestra los datos cuantitativos. No hay cantidad única de tallos ni hojas aún cuando se recomienda seleccionar entre 5 a 20 tallos (“clases”)

6 Procedimiento: 1. Se redondean los datos a dos o tres cifras signi- ficativas, expresándolos en unidades convenien- tes. 2. Se disponen en una tabla con dos columnas se- paradas por una línea vertical: Para datos con 2 dígitos se escriben a la izquier- da de una línea los dígitos de las decenas (que forman el tallo) y a la derecha las unidades, que serán las hojas, por ejemplo: 65 se escribe 6 | 5 Para datos de 3 dígitos el tallo estará formado por los dígitos de las centenas y de las decenas, que se escriban a la izquierda, separados de las unidades. Por ejemplo: 265 se escribe 26 | 5

7 3. Cada tallo define una clase, y se escribe una sola vez. El número de hojas representa la frecuencia de dicha clase Ejemplo 1: El tiempo (seg.) de reacción ante cierto estímulo es:

8 1.190.930.910.930.910.850.861.131.240.830.87 0.931.160.971.161.130.820.90.941.150.950.96 1.131.181.270.971.021.051.070.981.091.060.99 1.081.140.981.011.120.991.120.971.041.030.98 1.091.041.031.040.981.010.991.040.910.93 10| 4 1.04 tallohoja Unidad del tallo 0.1

9 Tiempo (seg.) Stem-and-Leaf Plot Frequency Stem & Leaf 2.00 8. 23 3.00 8. 567 9.00 9. 011133334 12.00 9. 567778888999 9.00 10. 112334444 6.00 10. 567899 6.00 11. 223334 5.00 11. 56689 1.00 12. 4 1.00 12. 7 Stem width:.10 Each leaf: 1 case(s)

10 Tiempo (seg.) Stem-and-Leaf Plot Frequency Stem & Leaf 2.00 8. 23 3.00 8. 567 9.00 9. 011133334 12.00 9. 567778888999 9.00 10. 112334444 6.00 10. 567899 6.00 11. 223334 5.00 11. 56689 1.00 12. 4 1.00 Extremes (>=1.52) Stem width:.10 Each leaf: 1 case(s)

11 3. DIAGRAMA DE CAJA ( Box and whisker plot ) Es un gráfico representativo de un conjunto de datos de variable cuantitativa, para su construcción se usan cinco medidas de resumen que hemos estudia- do: Mediana, Cuartil 1 y Cuartil 3, valor máximo y mínimo de la variable. Es una presentación de los datos de una variable pero de manera visual, asocia las cinco medidas de resumen antes mencionadas. Presenta al mismo tiempo, información sobre la ten- dencia central, dispersión y simetría.

12 También permite identificar con claridad y de forma individual, observaciones que se alejan de manera poco usual del resto de los datos (outliers o atípicos) Gráfico de caja de una variable simétrica

13 ¿Cómo se interpreta un gráfico de caja? Si la caja y los bigotes son largos, entonces se trata de una variable muy dispersa. Si la mediana está ubicada relativamente en el centro de la caja la distribución es simétrica. Si la mediana se acerca al cuartil 1, la distribución tiene asimetría positiva. Si la mediana se acerca al cuartil 3, la distribución tiene asimetría negativa. Si la mediana coincide con los cuartiles o con los límites de los bigotes, es por que se concentran muchos datos en un mismo punto, puede ser el caso de una distribución sesga- da o de una distribución muy homogénea.

14 Gráfico de caja de una variable con datos atípicos Ejemplo 2: El peso (kg.) perdido en una semana de tratamiento es:

15 Interpretación:

16 Elegir un artículo (o más) de investigación (enfoque cuantitativo) publicado en una Revista de Investigación de su especialidad e identificar: 1.Medidas de resumen empleadas en clase 2.Gráfico de tallo y de hojas. 3.Gráfico de caja. Para: Interpretar los resultados. Explicar en qué medida permiten lograr los objetivos de investigación. Presentación, fecha máxima: 05/08/09 PRACTICA Nº 2


Descargar ppt "UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS (Universidad del Perú, Decana de América) FACULTAD DE MEDICINA - UPG MAESTRÍA EN NEUROCIENCIAS Curso: Bioestadística."

Presentaciones similares


Anuncios Google