Análisis estadístico básico: t-test, anova, pruebas no paramétricas, regresión... José Ríos.

Slides:



Advertisements
Presentaciones similares
DISEÑO DE EXPERIMENTOS EXPERIMENTOS DE COMPARACIÓN SIMPLE
Advertisements

Una Breve Introducción a la Epidemiología - III (Estadística básica y medidas epidemiológicas comunes) Betty C. Jung RN, MPH, CHES ¿Quién es Betty C. Jung?
Tema 4: Medidas de posición individual.
Tema 15. Contraste de hipótesis: Planteamiento de las hipótesis
Estudios de Cohorte Dra. Pilar Jiménez M..
Metodología de la Investigación
Lic. Cristian R. Arroyo López
Lic. Cristian R. Arroyo López
Introducción En toda investigación, y antes de extraer conclusiones acerca de los objetivos e hipótesis planteados, es necesario llevar a cabo un análisis.
ESTADÍSTICA DESCRIPTIVA
Métodos Cuantitativos Aplicados a Los Negocios.
ESTADISTICA INFERENCIAL
TIPOS DE ESTUDIOS CLINICO EPIDEMIOLOGICOS
FRANCISCO JAVIER RODRÍGUEZ
Estimación por intervalos de confianza.
ESTRATEGIAS Y DISEÑOS AVANZADOS DE INVESTIGACIÓN SOCIAL
Introducción Los fenómenos biológicos no suelen ser constantes, por lo que será necesario que junto a una medida que indique el valor alrededor del cual.
ESTUDIOS EPIDEMIOLÓGICOS
Medidas de Dispersión Estadística E.S.O.
Pruebas de hipótesis Walter Valdivia Miranda
Bioestadística III. Escala cuantitativa. n Cuando la escala de medición es cuantitativa, y el análisis requiere un solo valor numérico que resuma alguna.
MEDIDAS DE TENDENCIA CENTRAL
9 Regresión Lineal Simple
Tema 2: Métodos de ajuste
COMPORTAMIENTO DE LAS DISTRIBUCIONES DE
Estadística Descriptiva
Unidad VI: PRUEBAS DE HIPOTESIS
1 Planteamiento del problema ¿Tenemos los humanos la capacidad de percibir si nos miran desde atrás? O, más exactamente: ¿Es defendible que existen otras.
Análisis de datos El diseño estadístico.
Pronósticos, Series de Tiempo y Regresión
Estadística Descriptiva continuación
ESTADÍSTICA BÁSICA EN ECOLOGÍA EVOLUTIVA Juan J. Soler Cruz Estación Experimental de Zonas Áridas Almería.
Unidad V: Estimación de
Medidas de Dispersión.
Tema 2: Parámetros Estadísticos
ESTADÍSTICAS DESCRIPTIVA
FACILITADOR JOSE HERIBERTO CRUZ GARCÍA
Coeficiente de Variación
Universidad Nacional de Colombia Curso Análisis de Datos Cuantitativos.
Medidas de Posición y Centralización Estadística E.S.O.
Análisis Cuantitativo de Datos (Básico)
Titular: Agustín Salvia
Capacidad de Proceso.
Tratamiento de datos y azar
TABLAS DE FRECUENCIAS Una vez recopilados, tendremos un conjunto de datos que será necesario organizar para extraer información. Lo primero que se hace.
MEDIDAS DE DISPERSIÓN. La dispersión es la variación en un conjunto de datos que proporciona información adicional y permite juzgar la confiabilidad de.
Analisis exploratorio INGRID TATIANA RODRIGUEZ GUZMAN DIANA COSTANZA BERMUDEZ GORDILLO.
Estadística Descriptiva: 2. Medidas de Tendencia y Dispersión
Diseño de EXPERIMENTOS
UNIDAD 1.- EVALUACIÓN DE DATOS ANALITICOS
Qué es una Variable Aleatoria??????????
Bioestadística Tema 2: Estadísticos Bioestadística. U. Málaga.
Descripción de los datos: medidas de dispersión
Pruebas de hipótesis.
ANÁLISIS E INTREPRETACIÓN DE DATOS
Tipos de Variables.- Cualitativas. Describen cualidades de los elementos de la muestra. Nominales. Categorías excluyentes y sin orden. (Ej. Sexo) Ordinales.
Métodos Cuantitativos
Estimación y contraste de hipótesis
Taller 2 Reflexiones sobre Metodología Cuantitativa: Potencial de la comparación de muestras Germán Fromm R.
Análisis de los Datos Cuantitativos
BASES PARA EL RAZONAMIENTO EN ESTADÍSTICA INFERENCIAL
ESTIMACIÓN DE PARÁMETROS
Ejercicios Dado un conjunto de datos, aplicar el Criterio de Fourier para desechar los posibles valores atípicos.
INFERENCIA ESTADÍSTICA
Coeficiente de variación
DIPLOMADO DE POSTGRADO
UNIVERSIDAD DE COSTA RICA Sistema de Estudios de Posgrado Escuela de Salud Pública I Ciclo lectivo 2003 Epidemiología – (SP – 2216) Profesora: Carmen.
Estadística descriptiva
Bioestadística Inferencia estadística y tamaño de muestra
Medidas de tendencia central
Transcripción de la presentación:

Análisis estadístico básico: t-test, anova, pruebas no paramétricas, regresión... José Ríos

José Ríos ©IUSC ¿Es cierto el bostezo inducido?

José Ríos ©IUSC Hoy toca estadística

José Ríos ©IUSC Por que claro… conociendo toda la información somos capaces de saber como se llega a los resultados

José Ríos ©IUSC Pero antes hablemos de variables… PresenciaOcurrencia Tiempo No lo consideranObligan a determinarlo Enfermedad - Prevalencia Exposición -Estado opinión Encuestas No interesa la evolución temporal - Incidencia Densidad de (población) incidencia - Recurrencia (individuo) Estudio transversallongitudinal

José Ríos ©IUSC … y de la importancia metodológica del tamaño de la muestra

José Ríos ©IUSC Resumen de datos Tres tipos básicos Posición: también llamadas medidas de tendencia central. Dispersión: conocidas también como medidas de escala Forma: sirven para el estudio de la asimetría y apuntamiento comparado con la curva gaussiana

José Ríos ©IUSC Resumen de datos Medidas de Posición Media aritmética  En el caso de datos agrupados en intervalos, la media se calculará con el valor medio de intervalo Únicamente tiene sentido para variables cuantitativas

José Ríos ©IUSC Resumen de datos Medidas de Posición Mediana  Deja a ambos ‘lados’ la misma población.  El valor de la mediana no tiene por que existir en la muestra Para su cálculo sólo se requiere que las clases sean ordenables, podemos, por tanto, calcularla tanto para variables cuantitativas como cualitativas ordinales 1,3,3,4,6,13,14,14,18 6 1,3,3,4,6,13,14,14,17,18 6 y 13 Mediana=(6+13)/2=9.5

José Ríos ©IUSC Resumen de datos Medidas de Posición Moda Es el valor más frecuente en nuestros datos En el caso de variables que tomen muchos valores, el cálculo de la moda es preferible con los datos agrupados, obtendremos el intervalo modal Su cálculo tiene sentido para cualquier tipo de variable. Sólo usa el valor de las frecuencias

José Ríos ©IUSC Resumen de datos Medidas de Posición Cuantiles. Son de orden (  ). Dejan el  100% de la población por debajo. Los percentiles dividen la población en porcentajes, los terciles, cuartiles y quintiles fracciones. El segundo cuartil coincide con la Mediana

José Ríos ©IUSC Resumen de datos Medidas de Posición Propiedades. La Media es sensible a los valores extremos, la Mediana no lo es. Especial atención en estudios de análisis de supervivencia Media 1 Mediana 1 Nuevo valor en la muestra Media 2 Mediana 2

José Ríos ©IUSC ¿Pero entonces? Moda Mediana Media

José Ríos ©IUSC Resumen de datos Medidas de Posición Atención, siempre es mejor ‘visualizar’ los datos antes de trabajar con ellos. Es posible que ni la Media ni la Mediana representen bien el comportamiento ‘central’ de la variable En este caso, Media y Mediana tienen el mismo valor, ¿algún comentario?

José Ríos ©IUSC Resumen de datos Medidas Escala (dispersión) Dos Grandes Familias Recorridos Varianzas

José Ríos ©IUSC Resumen de datos Medidas Escala (dispersión) Rangos y amplitudes: valores pequeños en recorridos o rangos dan idea de poco dispersión, valores grandes indican mucha dispersión o presencia de valores extremos. El Rango (Mín – Máx) se ve extremadamente afectado por valores extremos, no es, por tanto, una buena medida. El recorrido intercualtílico (1er Cuartil – 3er Cuartil) también indica dispersión. Ambos valores combinados pueden dar buena idea de cómo son los datos

José Ríos ©IUSC Resumen de datos Medidas Escala (dispersión) Veamos un ejemplo de cálculo

José Ríos ©IUSC Resumen de datos Medidas Escala (dispersión) ¿Qué ocurre si sumamos todas las distancias? Las distancias negativas son compensadas con las positivas. La suma es siempre cero Def.: la media es el centro de gravedad de la distribución muestral

José Ríos ©IUSC Resumen de datos Medidas Escala (dispersión) La varianza es la media de la suma de las desviaciones respecto a la media elevadas al cuadrado. La Desviación estandar es la raíz del anterior El Coeficiente de variación usa las medidas de posición y escala

José Ríos ©IUSC Resumen de datos Medidas Escala (dispersión) Pregunta: ¿Por qué si tenemos la varianza acabamos utilizando la DE? ¿Complicamos los estadísticos inútilmente los cálculos? El problema de la varianza es que no se mide en las mismas unidades que los datos de la muestra, es por eso que se define la DE

José Ríos ©IUSC Resumen de datos Medidas Escala (dispersión) Bien.... Pero ¿qué medida es la buena? Por si sola ninguna. Siempre es preferible ver todas ellas, visualizar los datos siempre ayuda mucho a detectar posibles problemas en los datos Nos podemos ayudar de Histogramas y Diagramas de cajas (Box-Plot)

José Ríos ©IUSC Resumen de datos Medidas Escala (dispersión) El diagrama de caja (Box-Plot), interpretación: Nos presenta el Rango y el recorrido intercuartílico (ojo con el programa utilizado) Valores fuera de límites son representados con círculos se consideran ‘normales’ Valores presentados como asterísticos se podrían estudiar como atípicos  OJO CON DESCARTAR ‘ALEGREMENTE’ VALORES ATÍPICOS

José Ríos ©IUSC Resumen de datos Medidas Escala (dispersión) El diagrama de caja (Box-Plot) Máximo Mínimo Mediana 50% de la muestra Aquí se espera encontrar la mayoría de la muestra

José Ríos ©IUSC Resumen de datos Medidas de forma Medida de asimetría Medida de apuntamiento o kurtosis

José Ríos ©IUSC Resumen de datos Medidas de forma Medida de asimetría Simétrica Coef.=0 Asimétrica positiva Coef. > 0 Asimétrica negativa Coef. < 0

José Ríos ©IUSC Descripción gráfica Se comparan el largo del sepalo de tres variedades de lirios: setosa, versicola y virginica

José Ríos ©IUSC Descripción gráfica Gráfico de dispersión (Scatter Plot)

José Ríos ©IUSC Pudiendo resultar útil setosa versicolor virginica

José Ríos ©IUSC Descripción gráfica Una posible evaluación gráfica de los Odds Ratio (OR) Evento BMINoSíOddsOR < (20-25] (25-30] >=

Estadísitica inferencial P-valor Intervalo de confianza Paramétricas vs. No paramétricas

José Ríos ©IUSC Génesis de las ideas Karl Raimund Popper ( ) 1934: La lógica de la investigación científica. ¿Cómo fundamentar el conocimiento científico, por definición universal y necesario, en la experiencia empírica, por definición particular? Hasta entonces Descartes confía en las leyes eternas de la razón Hume en las leyes que se extraen de la experiencia En contra del positivismo: ¿Cómo realizar una ley universal a partir de un número particular de experimentos? A favor del falibilismo (o falsación): el conocimiento científico no puede avanzar confirmando nuevas leyes, sino descartando leyes que contradicen la experiencia. POR TANTO: La labor del científico consiste en criticar leyes para ir reduciendo el número de teorías compatibles con observaciones experimentales. CONSECUENCIA: Una proposición científica lo será si es posible crear un experimento que la pudiese contradecir.

José Ríos ©IUSC Pruebas de hipótesis Unilateral (una cola) H o :  E -  C  0 H 1 :  E -  C > 0 Bilateral (dos colas) H o :  E -  C = 0 H 1 :  E -  C > 0 ó  E -  C 0 ó  E -  C < 0

José Ríos ©IUSC ¿p? Probabilidad de observar, por azar, una diferencia como la de la muestra o mayor, cuando H 0 es cierta Es una medida de la evidencia en contra de la H 0 Es el azar una explicación posible de las diferencias observadas? Supongamos que así es (H 0 ). ¿Con qué probabilidad observaríamos unas diferencias de esa magnitud, o incluso mayor? P- valor Si P-valor pequeño, rechazamos H 0. ¿Difícil?... No, es como un juicio!

José Ríos ©IUSC ¿p? Se acepta un valor máximo de 5% (0,05). Si p  0,05  diferencias estadísticamente significativas. Si p>0,05  diferencias estadísticamente NO significativas. NO implica importancia clínica. NO implica magnitud de efecto!! Influenciada por el tamaño de la muestra. Si  n   p

José Ríos ©IUSC Pero el mío es mejor. Para un mismo resultado cuantitativo el ‘investigador avispado’ puede hacer SU interpretación cualitativa simplemente inundando el artículo de valores de p Mayor tamaño de muestra Menor valor de p (habitualmente) Mayor relevancia clínica Misma magnitud de efecto Misma relevancia clínica Menor valor de p (habitualmente) Mayor relevancia clínica ¿? Mayor relevancia clínica ¿? Mayor tamaño de muestra Menor valor de p (habitualmente) Mayor relevancia clínica ¿?

José Ríos ©IUSC Y Arguiñano nos dice:

José Ríos ©IUSC Y Arguiñano nos dice:

José Ríos ©IUSC Y Arguiñano nos dice:

José Ríos ©IUSC Intervalos de confianza Si repetimos el intervalo de confianza a lo largo del tiempo sobre la misma población, los intervalos de confianza al 95% calculados para cada muestra deberían incluir el verdadero valor de la población en el 95% de las veces. Una persona ‘normal’ es aquella que no ha sido lo suficientemente investigada.

José Ríos ©IUSC Amplitud del IC También depende de la información que la muestra proporciona sobre el verdadero valor poblacional Mayor tamaño de muestra -> mayor precisión -> IC más estrecho Mayor dispersión de la medida -> IC más amplio

José Ríos ©IUSC Por ejemplo… Fuente: Viñes, R. Larumbe, M.T. Artázcoz, I. Gaminde, D. Guerrero, J.V. Ferrer Estudio epidemiológico de la enfermedad de Parkinson en Navarra. Revista ANALES del Sistema Sanitario de Navarra, Vol. 22, Suplemento 3, 1999 OR entre casos y controles de consumo de tabaco y EP. Intervalos de confianza del 90%.

José Ríos ©IUSC Estimación Pero hemos de tener en cuenta que todo intervalo de confianza conlleva dos noticias, la buena y la mala La buena: hemos usado una técnica que en % alto de casos acierta. La mala: no sabemos si ha acertado en nuestro caso.

José Ríos ©IUSC Pruebas paramétricas y no-paramétricas Una prueba paramétrica requiere la estimación de uno o más parámetros (estadísticos) de la población Ej.: Una estimación de la diferencia entre la media antes y después de una intervención Las pruebas no-paramétricas no involucran ningún tipo de estimación de parámetros Ej.: Facilitarnos la una estimación de la P[X>Y], probabilidad de que, selecionando un paciente después del tratamiento, su valor sea mayor que antes del tratamiento

José Ríos ©IUSC Ventajas de las pruebas no-paramétricas No se asume nada sobre la distribución de nuestros datos. Se pueden usar en multitud de tipos de variables Inconvenientes Las pruebas no-paramétricas acostumbran a tener un poder estadístico menor que su equivalente paramétrico. A propósito de los datos Utiliza rangos (ordenaciones), no da resultados en las unidades de las variables originales. El efecto de los valores extremos se diluye (buena noticia o mala) Se deberían utilizar cuando los requerimientos para las pruebas paramétricas no se cumplan. Pruebas paramétricas y no- paramétricas

Estadísitica inferencial Regresión y Supervivencia

José Ríos ©IUSC Regresión lineal Describe como un variable respuesta ‘y’ cambia en función de otra (típicamente ‘diseñada’) factor ‘x’ de forma estrictamente lineal Formalmente se asume que: X no es una variable aleatoria (no tiene por qué cumplirse siempre) Para cada valor x i de X existe una v.a. Y|x i cuya media me predice el modelo lineal Todas las variables Y|x i son Normales, independientes y de igual varianza

José Ríos ©IUSC Ejemplos macabros Los llamaré macabros ya que son ilustrativos de que el abuso debido a su simplicidad de ejecución e interpretación puede tener resultados nefastos

José Ríos ©IUSC Ejemplos macabros

José Ríos ©IUSC Ejemplos macabros Y mucho cuidado con la ‘correlación’ La proporción de variabilidad explicada por la regresión es el r 2 * 100

José Ríos ©IUSC Ejemplos macabros Por que los abusos no son nada buenos

José Ríos ©IUSC J Allergy Clin Immunol 2006;117: )

José Ríos ©IUSC Ejemplo sencillo ¿El hábito tabáquico es un buen predictor lineal para los niveles de tiocianato?

José Ríos ©IUSC Rec.: Y = a + b*X

José Ríos ©IUSC Por tanto, la función que me indicaría la predicción lineal sería: Y = – 70.46*X

José Ríos ©IUSC ¿A que parecía una buena opción?

José Ríos ©IUSC Otro más para acabar ¿La TAS es un buen predictor lineal para la TAD?

José Ríos ©IUSC Otro ejemplo Por cada mmHg que aumenta la PAS, la PAD experimenta un aumento, en promedio, de mmHg

José Ríos ©IUSC ¿Qué conclusión real se puede obtener?

José Ríos ©IUSC Análisis de la supervivencia: Motivos para su uso En ocasiones importa tanto el tiempo hasta que se produce el evento que su consecución. Por ejemplo (por no ser más morboso): Evaluar el tiempo que se tarda en la mejoría o curación Estudiar n individuos Ti será el tiempo que tarda el i-ésimo paciente en curarse El problema viene cuando no se conoce Ti  censura Por tanto pueden existir variables que explican este tiempo. Muy útil cuando el seguimiento es incompleto o muy variable

José Ríos ©IUSC Cuando usar estas técnicas Deseamos un modelo para explicar tiempo hasta un evento ‘Evento’ es dicotómico (regresión lineal no sirve) Nos interesa el tiempo hasta evento (regresión logística no sirve) Deseamos comparar supervivencia entre grupos Podremos evaluar la relación entre covariables y el tiempo de supervivencia

José Ríos ©IUSC No es efectivo ni ético esperar a que se presenten todos los eventos para finalizar el estudio. Los individuos entran en el estudio a tiempos diferentes. Cuando usar estas técnicas (II)

José Ríos ©IUSC ¿Por qué no otras?

José Ríos ©IUSC ¿Qué estimamos?

José Ríos ©IUSC Posibles ejemplos de diseño (o no) Evaluar la mortalidad en el post-operatorio Reclutamos durante 5 años a 350 pacientes y los seguimos durante un tiempo de seis meses Se seleccionan a 100 pacientes y se aleatorizan a dos brazos de tratamiento. La aparición del evento se evalúa en consecutivas visitas programadas durante tres años Miramos la aparición espontánea de un evento en el trascurso de un estudio de cohortes

José Ríos ©IUSC Yo os doy una de las soluciones Mortalidad postoperatoria  Al no haber un seguimiento prolongado no tiene sentido hablar de censuras y se dispone de toda la información de los sujetos. Surgical Priority Discharge Status Emergency Non-Emergency Total DeadAliveTotal Chi-Square = 0.04 Degrees of Freedom = (2-1)(2-1) = 1 p = 0.084

José Ríos ©IUSC ¿Y las censuras? Existen de varios tipos, pero aquí hablaremos sólo de las que se producen de forma aleatoria por la derecha

José Ríos ©IUSC ¿Por qué censuras? Se produce por la imposibilidad práctica de tener información precisa del momento del evento en la totalidad de los sujetos. El día de cierre no se ha presentado el evento Hemos perdido el seguimiento del sujeto Motivos Acontecimiento adverso Cierre del estudio/seguimiento Pérdida de seguimiento Evento por causa diferentes a la del estudio

José Ríos ©IUSC Pero existe una clasificación Tipo I.Todos los individuos se siguen hasta una fecha fin de estudio Por la derecha: Pacientes vivos al finalizar el estudio Pacientes perdidos o abandonos En intervalo: Las visitas de control son espaciadas Por la izquierda: Se desconoce la fecha de inicio Tipo II.Los individuos se siguen hasta que han ocurrido r eventos

José Ríos ©IUSC ¿Falta de seguimiento?

José Ríos ©IUSC ¿Qué pasó con el último paciente?

José Ríos ©IUSC Por ejemplo…

José Ríos ©IUSC ¿Y si el evento es repetido? Los modelos generales de Cox se realizan contra un evento único El seguimiento del paciente se trunca en el primer evento Es suficiente para evaluar eventos ‘no repetibles’ como la mortalidad ¿Es este tipo de análisis suficiente en todos los casos?

José Ríos ©IUSC En EC quizás no mucho El modelo general de Cox lo que pretende es ver como una característica inicial modifica la presencia de un evento En EC, el tratamiento aleatorizado. Hay variables que se modifican a lo largo del seguimiento que pueden propiciar el evento  Cox con covariables tiempo-dependiente

José Ríos ©IUSC Esquemáticamente Modelo AG Modelo PWP O mezclas… Evento Nota: El grosor de la flecha indica el ‘riesgo’ potencial de presentar el evento Evento

José Ríos ©IUSC Pero hay muchos métodos para analizar este tipo de datos

José Ríos ©IUSC

José Ríos ©IUSC “Los métodos estadísticos no son un sustituto del sentido común y la objetividad. Nunca deberían estar dirigidos a confundir al lector, sino que deben ser una contribución importante a la claridad de los argumentos científicos” SJ Pocock. Br J Psychiat 1980; 137:

José Ríos ©IUSC