Tópicos en Análisis de Datos y Bioestadística. SAMPLES AND POPULATIONS: INFERENCE AND PROBABILITY Population P1P1 P2P2 P 15 P3P3 PNPN Sample S1S1 S2S2.

Slides:



Advertisements
Presentaciones similares
DISEÑOS DE ESTUDIO EN EPIDEMIOLOGIA
Advertisements

EPIDEMIOLOGIA Ciencia que estudia la distribución de los fenómenos biológicos y sociales en las poblaciones, así como las causas de dicha distribución.
FRANCISCO JAVIER RODRÍGUEZ
Medidas de tendencia central y de variabilidad
Junta de Trabajo- TACIB A 15 de Mayo del ¡Muchas felicidades a todos!
Introducción Los fenómenos biológicos no suelen ser constantes, por lo que será necesario que junto a una medida que indique el valor alrededor del cual.
Bioestadística Aplicada I
Muestreo Introducción Suma muestral Media muestral
Nombre: Israel Espinosa Jiménez Matricula: Carrera: TIC Cuatrimestre: 4 Página 1 de 5.
Science Meeting Junta de la Ciencia March 3, de marzo 2009 Bridges Academy at Melrose March 3, de marzo 2009 Bridges Academy at Melrose.
Universidad Mexicana en Línea Carrera: Administración Pública Asignatura: Estadística Tutor: Leonardo Olmedo Alumno: Alfredo Camacho Cordero Matrícula:
Telling Time (Cómo decir la hora). When we ask what time it is in Spanish, we say “¿Qué hora es?” Some people also say “¿Qué horas son?”
Licenciatura en Administración Pública
Definite and Indefinite Articles “We’re going to learn how to say ‘the’ and ‘a’”
8.3.- APROXIMACIOIN DE LA DISTRIBUCION BINOMIAL A LA NORMAL
MODELOS DE ELECCIÓN BINARIA: ANÁLISIS LOGIT
Sesión 2: Teoría de Probabilidad “Considero que la probabilidad representa el estado de la mente con respecto a una afirmación, evento u otra cosa para.
VARIABLE ALEATORIA Y DISTRIBUCION DE PROBABILIDAD
¿Qué hora es? To ask what time is it in Spanish, we say… ¿Qué hora es?
Telling Time.
Costar and numbers to one millon. Use the verb costar (which means to cost) to talk about what something costs. Costar is only used in the third person,
4.1 Continuidad en un punto 4.2 Tipos de discontinuidades 4.3 Continuidad en intervalos.
Accuracy & Precision. Fundamental principle of measuring: No measurement is exact and the true value is never known Accuracy & Precision.
The Normal Distribution To calculate the probability of a Normal distribution between a and b:
DISTRIBUCIONES DE MUESTREO
Unidad V: Estimación de
Tema 8: Estimación 1. Introducción.
Definición de Estadística
Estadística Descriptiva para variables continuas
Elaboración de gráficas
FACILITADOR JOSE HERIBERTO CRUZ GARCÍA
Time Expression with Hacer Grammar Essential #106.
Bioestadística PROGRAMA DE DOCTORADO EN SALUD PÚBLICA.
ESTADISTICA I CSH M. en C. Gal Vargas Neri.
PROGRAMA DE DOCTORADO EN SALUD PÚBLICA
ESTIMACION POR INTERVALOS
Inferencia Estadística
ESTADÍSTICA DESCRIPTIVA
La hora. The traditional way to tell time in Spanish is by dividing the clock in half. The right side uses “y” to add minutes to the hour. Once the minute.
3rd Grade 3 rd Six Weeks Science Unit 4, Lesson 3 CScope Vocabulary Words
INFERENCIA ESTADISTICA
 Imperfect Tense describes what you used to do.  It’s closely related to past tense, but past tense is something that just happened.
LA ESTADÍSTICA PROF.: EDMUNDO C.PARDO H. CARACAS,OCTUBRE DE 2014
Bioestadística Tema 2: Estadísticos Bioestadística. U. Málaga.
FÍSICA DE SEMICONDUCTORES MOBILIDAD Y CONDUCTIVIDAD EN SEMICONDUCTORES
Distribución de probabilidad conjunta
Los Adjetivos. Hoy veremos… How adjectives work in Spanish Practice the use of adjectives.
“To Be” or not “To Be” Ser vs. Estar. Why does it matter? Because both ser and estar mean “to be”, we have to distinguish between the two. Therefore,
La hora. The traditional way to tell time in Spanish is by dividing the clock in half. The right side uses “y” to add minutes to the hour. Once the minute.
Tipos de Variables.- Cualitativas. Describen cualidades de los elementos de la muestra. Nominales. Categorías excluyentes y sin orden. (Ej. Sexo) Ordinales.
Tecnología y Estructura de Costos. Technologies u A technology is a process by which inputs are converted to an output. u E.g. labor, a computer, a projector,
Time Telling time is rather easy. You only need to know the numbers up to 59 to be able to tell the time.
Spanish Sentence Structure How can we make better sentences?
BASES PARA LA SELECCIÓN DE UNA PRUEBA ESTADÍSTICA DRA. MA
1 Applied biostatistics Francisco Javier Barón López Dpto. Medicina Preventiva Universidad de Málaga – España
MÉTODO CIENTÍFICO SCIENTIFIC METHOD. Observación Observation Scientists use observation skills to identify which problems they would like to solve Simply.
Aim: What can affect the rate of enzyme reactions? Que puede afectar la tasa de reacciones enzimáticas?
Aplicaciones Estadísticas a las Finanzas Clase 1
DIPLOMADO DE POSTGRADO
UNIVERSIDAD DE COSTA RICA Sistema de Estudios de Posgrado Escuela de Salud Pública I Ciclo lectivo 2003 Epidemiología – (SP – 2216) Profesora: Carmen.
Describiendo los Datos, Usando Medidas Numéricas
Estadística descriptiva
  Jugó=he/she played  Use the preterite tense for past actions that are viewed as over and are not being connected to the present. ¿Te acuerdas?
Intervalos de Confianza M. C. José Juan Rincón Pasaye UMSNH – FIE Mayo de 2003.
Bioestadística Inferencia estadística y tamaño de muestra
Time Expression with Hacer Grammar Essential #106.
Los números.
Los Adjetivos Spanish4Teachers.og.
Los Adjetivos Spanish4Teachers.og.
Los Adjetivos Spanish4Teachers.og.
Transcripción de la presentación:

Tópicos en Análisis de Datos y Bioestadística

SAMPLES AND POPULATIONS: INFERENCE AND PROBABILITY Population P1P1 P2P2 P 15 P3P3 PNPN Sample S1S1 S2S2 SnSn Inference Probability 2

The probabilistic concept produces a natural classification: Fixed Numbers (Constants) Random Variables (unfixed, may change with a certain probability distribution)

A random variable has a PROBABILITY DISTRIBUTION n The probability distribution can be seen as a ‘frequency plot’ or as an ‘histogram’

Just to remind: To MEASURE is nothing else than to ‘assign’ a NUMBER to a certain characteristic of a physical observable, and for that we need to use a MEASUREMENT INSTRUMENT

A Clarification… A RANDOM VARIABLE has a probability distribution, BUT its realization (the value obtained once it’s measured) is then a CONSTANT (fixed value)

What causes randomness? How do we know if an observable is determined by a random variable or a constant? Remember that to ‘know’ something is equivalent to measure it several times and make predictions and inferences on it

Classical Physics is deterministic n According to Newton’s laws, we can ‘predict’ how a system is going to behave in the future

Remember that in order to solve for the dynamics of any system, we need to ‘know’ the initial conditions How can we ‘know’ the initial conditions? Just ‘measuring them’… and after measuring, we inevitably introduce uncertainty

What about ‘giving’ the initial conditions instead of measuring them? Can we then use our computational capacity to ‘predict’ how the system is going to evolve?

So, if a robot arm can always throw an ace, what happened to the randomness of the process? What can we conclude about it?

The randomness is due to the variability on the initial conditions Many systems are very sensible even to extremely small variations on the initial conditions: This is called Dynamical Instability or CHAOS

Atan Method Fractals

Miscellaneous

Bubbles

Summarizing The ‘randomness’ of a random variable resides on: - The variability of the initial conditions - The dynamical instability - The perturbation suffered during a measurement

Clasificación general: CategóricaCuantitativa o numérica NominalOrdinalDiscretaContinua

Ejemplos: n Nominales: Sexo, estado civil, presencia de morbilidad, resultado del tratamiento n Ordinales: Severidad de morbilidad, riesgo quirúrgico, resistencia a antibioticos n Discretas: Cociente intelectual, tiempo de tratamiento u hospitalización n Contínuas: concentración de alcohol en la sangre

Las variables continuas n El carácter continuo de una variable lo da la naturaleza intrínseca del observable físico y es independiente de la manera cómo se mida (i.e. del instrumento utilizado) ó de la manera cómo se reporte la medición

Efecto de la manera ‘cómo se mide’ una variable n Imaginemos que medimos la induración del PPD en varios pacientes, y para ello utilizamos una regla milimetrada. Las dimensiones medidas para diferentes personas fueron: 5mm, 12mm, 9mm, 32mm, 21mm n Aparentemente estamos frente a una variable discreta, aunque en realidad la induración (longitud) es y debe tratarse de manera continua.

Efecto de la manera ‘cómo se reporta’ una variable n Imaginemos que medimos la duración de la permanencia en UCI de pacientes en un hospital. Los tiempos medidos para diferentes pacientes fueron: 15días, 2días, 9días, 12días, 31días n Aparentemente estamos frente a una variable discreta, aunque en realidad el tiempo es y debe tratarse de manera continua.

En sus trabajos, que tipo de dato es su variable respuesta, resultado o desenlace principal?

Categorización/discretización: n Las variables continuas pueden ser convertida en variables discretas y hasta en categóricas n En este proceso se pierde información (precisión) n La información debe obtenerse al mayor nivel de precisión posible y luego agruparse si fuera necesario (discretización)

DESCRIBIENDO VARIABLES DICOTOMICAS

Variables dicotómicas:

Pero, nos interesa realmente la muestra o la población? n Esta exploración es parte de un proceso de inferencia estadística n Queremos extrapolar conclusiones a la población n Nuestro primer objetivo es hacer una estimación a nivel de la población: –Cálculo numérico de un cierto parámetro en la población –En forma puntual y con intervalo de variabilidad

Perfil de la distribución n Describe cómo los Datos están Distribuídos n Caracterización del perfil de la distribución: Simétrica o sesgada

Dos bases de datos hipotéticas… Es importante tener una imagen visual de la distribución de la variable La media provee una buena representación de los valores en la base de datos. Datos de baja variabilidad Datos con alta variabilidad La media ya NO provee ahora una buena información de los datos como sucedía anterioremente Al incrementar datos la distribución cambia..

Recordemos las características de una variable continua con distribución normal… Figure

Perfil de la distribución n Describe cómo los Datos están Distribuídos n Caracterización del perfil de la distribución: Simétrica o sesgada Simétrica Media =Mediana =Moda

Bioestadística Aplicada How does the standard deviation affect the shape of f(x)?  = 2  =3  =4  = 10  = 11  = 12 How does the expected value affect the location of f(x)?

Fenómenos tipo Bernoulli: n Se aplican a variables dicotómicas n Representan la ocurrencia o no ocurrencia de UN evento, por ejemplo: el sexo de CADA UNA de las personas encuestadas n Toman solamente dos posibles valores o estados: hombre (1) o mujer (2) n Solo se aplican a nivel unitario: un dato, persona u observación

Distribución Binomial: n Es un conjunto de variables Bernoulli del mismo tipo, por ejemplo, el sexo de las 4,850 personas encuestadas n La variable en estudio (sexo) tiene también dos valores (hombre/mujer), los cuales ocurren con frecuencias relativas (p) y (1-p) simétricas n El valor p es la frecuencia relativa o proporción de hombres entre las personas encuestadas

n=2 n=5 n=30 n=3 n=15 n=60

El Teorema del Límite Central da validez a los intervalos de confianza n La media de una muestra “grande” de datos de cualquier tipo sigue una distribución normal n Esto aún se cumple para datos binomiales (sexo, prevalencia, sensibilidad, etc) n Qué es una muestra grande? Eso varía según cada tipo de dato (entre otras cosas) n A medida que el tamaño de muestra crece, la distribución de la media muestral se hace más normal

Bioestadística Aplicada AN ILLUSTRATION OF THE CENTRAL LIMIT THEOREM 36

ATENCION ! n STATA puede identificar un tipo de variable de manera erronea ! n Debemos apoyarnos en la ciencia, en nuestro conocimiento previo de la variable con que estamos trabajando.

Bioestadística Aplicada Continuous Models on the Line n Normal n Logistic n Cauchy n Laplace n Student n Non-central Student

Bioestadística Aplicada Normal Distribution n Mean= 0 n SD = 0.5, 1, 2

Bioestadística Aplicada Logistic distribution n Mean=0 n SD=0.5, 1

Bioestadística Aplicada Student distribution n Degrees of freedom= 1,10,100

Bioestadística Aplicada Laplace distribution Mean=0 SD=0.5, 1, 5

Bioestadística Aplicada Continuous Models on the Half Line n Exponential n Gama n Chi-square n Non central Chi-square n F n Non central F n Weibull

Bioestadística Aplicada Exponential distribution n Scale parameter = 0.5, 1, 2

Bioestadística Aplicada Chi-square distribution n Degrees of freedom = 3, 5, 10,15

Bioestadística Aplicada F distribution n Degrees of freedom = (3,3), (10,10), (30,30)

Bioestadística Aplicada Continuous Models on a Finite Interval n Beta n Uniform

Bioestadística Aplicada Uniform distribution n P = 1/3

Bioestadística Aplicada Beta distribution n Parameters: (2,15), (5,15), (15,5)

Bioestadística Aplicada Discrete Models n Binomial n Poisson n Negative Binomal n Uniform

Bioestadística Aplicada Binomial distribution n N=10 n P= 0.2, 0.5, 0.8

Bioestadística Aplicada Poisson distribution n Intensity parameter = 1, 3, 7

Bioestadística Aplicada Negative Binomial n P N

Distribuciones sesgadas

Perfil de la distribución (skewness coefficient) n Describe cómo los Datos están Distribuídos n Caracterización del perfil de la distribución: Simétrica o sesgada

Perfil de la distribución n Describe cómo los Datos están Distribuídos n Caracterización del perfil de la distribución: Simétrica o sesgada Sesgada izquierdaSimétrica Mean =Median =Mode Mean Median Mod e

Perfil de la distribución n Describe cómo los Datos están Distribuídos n Caracterización del perfil de la distribución: Simétrica o sesgada Sesgada derecha Sesgada izquierdaSimétrica Media =Mediana =Moda Media Mediana Moda Mediana Media Mod a

Análisis de OUTLIERS: Datos sesgados: Valores que se exceden de 3 rangos intercuartiles por debajo del primer cuartil Q1 o por encima del tercer cuartil (Q3) (percentiles 25 y 75 respectivamente) Sesgada izquierda Sesgada Positiva Q 1 – 3(Q 3 – Q 1 ) Q1Q1 Q3Q3 Q1Q1 Q3Q3 Q 3 + 3(Q 3 – Q 1 ) outlier region