CURSO DE ESTADÍSTICA BÁSICA

Slides:



Advertisements
Presentaciones similares
DISEÑO DE EXPERIMENTOS EXPERIMENTOS DE COMPARACIÓN SIMPLE
Advertisements

ANOVA DE UN FACTOR.
ANALISIS PARAMÉTRICOS
Tema 5: Asociación. 1. Introducción. 2. Tablas y gráficas bivariadas.
REGRESION LINEAL SIMPLE
ESTADISTICA INFERENCIAL
ESTRATEGIAS Y DISEÑOS AVANZADOS DE INVESTIGACIÓN SOCIAL
Estadística: -Correlación y regresión
Ingeniería Industrial II CicloEducativo 2011
TABLAS DE CONTINGENCIA
ESTRATEGIAS Y DISEÑOS AVANZADOS DE INVESTIGACIÓN SOCIAL
Modelo básico de regresión Lineal
ALGUNOS CONCEPTOS PREVIOS
Regresión y correlación
Bioestadística Aplicada I
CURSO DE ESTADÍSTICA BÁSICA
Distribuciones de frecuencias bidimensionales
بسم الله الرحمن الرحيم.
Tema 1- Regresión lineal simple.
COEFICIENTE DE CORRELACIÓN PRODUCTO-MOMENTO DE PEARSON
Regresión lineal Es un modelo matemático para predecir el efecto de una variable sobre otra, ambas cuantitativas. Una variable es la dependiente y otra.
1º BACHILLERATO | Matemáticas © Oxford University Press España, S.A Hacer clic en la pantalla para avanzar VARIABLE ESTADÍSTICA UNIDIMENSIONAL Población:
9 Regresión Lineal Simple
Tema 2: Métodos de ajuste
Estadística bidimensional
MEDIDAS DE DISPERSIÓN:
Distribuciones bidimensionales. Tablas de contingencia
ANALISIS DE DATOS CON EXCEL
Clases 4 Pruebas de Hipótesis
REGRESION Y CORRELACION
ANALISIS DE DATOS CATEGORICOS
Este procedimiento mide la relación entre la intensidad de un estímulo y la proporción de casos que presentan una cierta respuesta a dicho estímulo. Es.
Pronósticos, Series de Tiempo y Regresión
Tema 7: Regresión Simple y Múltiple. EJEMPLO: Aproxima bien el número de préstamos que efectúa una biblioteca a lo largo de su primer año de vida. Nos.
ESTADÍSTICA BÁSICA EN ECOLOGÍA EVOLUTIVA Juan J. Soler Cruz Estación Experimental de Zonas Áridas Almería.
Métodos de calibración: regresión y correlación
Análisis Cuantitativo de Datos (Básico)
SEMINARIO DE INVESTIGACIÓN IV Y TRABAJO DE GRADO
Titular: Agustín Salvia
Introducción a la Inferencia Estadística
Herramientas básicas.
RELACIÓN ENTRE VARIABLES
LA ESTADÍSTICA PROF.: EDMUNDO C.PARDO H. CARACAS,OCTUBRE DE 2014
Pruebas de hipótesis.
coeficientes de correlación de
SEMINARIO DE INVESTIGACION Titular: Agustín Salvia
Métodos Cuantitativos
Estadística II Regresión Lineal.
Análisis de los Datos Cuantitativos
Regresión Lineal Simple
Aplicaciones Estadísticas a las Finanzas Clase 1
BASES PARA EL RAZONAMIENTO EN ESTADÍSTICA INFERENCIAL
CORRELACIÓN Y REGRESIÓN EMPLEANDO EXCEL
Correlación Decimos que dos variables, X e Y, están correlacionadas cuando hay una relación cuantitativa entre ellas. X suele ser la variable independiente.
BASES PARA LA SELECCIÓN DE UNA PRUEBA ESTADÍSTICA DRA. MA
Construcción de modelos con regresión y correlación
Ejercicios Dado un conjunto de datos, aplicar el Criterio de Fourier para desechar los posibles valores atípicos.
Regresión lineal simple Nazira Calleja
Unidad 4 Análisis de los Datos.
INFERENCIA ESTADÍSTICA
Germán Fromm R. 1. Objetivo Entender los diseños metodológicos predictivos 2.
REGRESIÓN LINEAL SIMPLE
REGRESIÓN LINEAL SIMPLE. Temas Introducción Análisis de regresión (Ejemplo aplicado) La ecuación de una recta Modelo estadístico y suposiciones Estimación.
ESTADISTICA DESCRIPTIVA BIVARIADA MEDIDAS DE RELACIÓN ENTRE VARIABLES CUANTITATIVAS.
Introducción a la Estadística Inferencial con SPSS Juan José Igartua Perosanz Universidad de Salamanca
REGRESIÓN LINEAL SIMPLE TEMA INTRODUCCIÓN Determinar la ecuación de regresión sirve para: – Describir de manera concisa la relación entre variables.
Bioestadística Inferencia estadística y tamaño de muestra
1 REGRESIÓN CON VARIABLES DICOTÓMICAS TEMA 1 (CONTINUACIÓN)
PRUEBA DE SIGNIFICANCIA
Transcripción de la presentación:

CURSO DE ESTADÍSTICA BÁSICA

DISEÑO DE EXPERIMENTOS ESTADÍSTICA DESCRIPTIVA INFERENCIA ESTADÍSTICA ESQUEMA DEL CURSO ESTADÍSTICA BÁSICA DISEÑO DE EXPERIMENTOS ESTADÍSTICA DESCRIPTIVA INFERENCIA ESTADÍSTICA ESTIMACIÓN CONTRASTE DE HIPÓTESIS TIPOS DE VARIABLES TABLAS Y GRÁFICAS PUNTUAL POR INTERVALOS MÉTODOS PARAMÉTRICOS MÉTODOS NO PARAMÉTRICOS T-STUDENT U-MANN WHITNEY MEDIDAS DE POSICIÓN CENTRAL Y DE DISPERSIÓN ANOVA K-W FISHER TABLAS DE CONTINGENCIA PEARSON

V 5 SESIÓN 5 INFERENCIA ESTADÍSTICA II 5.1 Tablas de contingencia 5.2 Contraste de hipótesis 5.3 Medidas de asociación

V 5 EN LA SESIÓN ANTERIOR VIMOS… Denominamos variables cualitativas a aquellas cuyo resultado es un valor o categoría de entre un conjunto finito de respuestas POR EJEMPLO El sexo, el estado civil o el grupo sanguíneo son variables cualitativas

5.1 TABLAS DE CONTINGENCIA 5.2 CONTRASTE DE HIPÓTESIS V 5.1 TABLAS DE CONTINGENCIA 5.2 CONTRASTE DE HIPÓTESIS 5.3 MEDIDAS DE ASOCIACIÓN Para analizar la relación de dependencia o independencia entre dos variables cualitativas es necesario estudiar su distribución conjunta o tabla de contingencia Tabla de contingencia: Tabla de doble entrada donde en cada casilla figura el número de individuos que posee esas características

5.1 TABLAS DE CONTINGENCIA 5.2 CONTRASTE DE HIPÓTESIS V 5.1 TABLAS DE CONTINGENCIA 5.2 CONTRASTE DE HIPÓTESIS 5.3 MEDIDAS DE ASOCIACIÓN EJEMPLOS El sexo y el hábito de fumar El grupo sanguíneo y la posibilidad de rechazar un trasplante La práctica de ejercicio y el riesgo de infarto Estudiar la relación entre…

5.1 TABLAS DE CONTINGENCIA 5.2 CONTRASTE DE HIPÓTESIS V 5.1 TABLAS DE CONTINGENCIA 5.2 CONTRASTE DE HIPÓTESIS 5.3 MEDIDAS DE ASOCIACIÓN OBJETIVOS Las tablas de contingencia tienen dos objetivos fundamentales: 1.- Organizar la información, cuando está referida a factores 2.- Analizar si existe alguna relación de dependencia o independencia entre los niveles de las variables objeto de estudio El hecho de que dos variables sean independientes significa que los valores de una de ellas no están influidos por la otra

5.1 TABLAS DE CONTINGENCIA 5.2 CONTRASTE DE HIPÓTESIS V 5.1 TABLAS DE CONTINGENCIA 5.2 CONTRASTE DE HIPÓTESIS 5.3 MEDIDAS DE ASOCIACIÓN ¿CÓMO SE CONSTRUYE UNA TABLA DE CONTINGENCIA? Una tabla de contingencia se presenta de la siguiente forma HOMBRE MUJER MARGINAL SI n11 n12 n1. NO n21 n22 N2. n.1 n.2 n.. nij=nº observaciones de la fila i y la columna j Frecuencia: Número de veces que se presenta un valor dado de una observación

5.1 TABLAS DE CONTINGENCIA 5.2 CONTRASTE DE HIPÓTESIS V 5.1 TABLAS DE CONTINGENCIA 5.2 CONTRASTE DE HIPÓTESIS 5.3 MEDIDAS DE ASOCIACIÓN EJEMPLO Para contrastar la hipótesis “El sexo influye en el hábito de fumar”, podemos construir la siguiente tabla de contingencia HOMBRE MUJER MARGINAL SI 65 58 123 NO 43 67 110 108 125 233

5.1 TABLAS DE CONTINGENCIA 5.2 CONTRASTE DE HIPÓTESIS V 5.1 TABLAS DE CONTINGENCIA 5.2 CONTRASTE DE HIPÓTESIS 5.3 MEDIDAS DE ASOCIACIÓN TIPOS DE TEST UTILIZADOS Para identificar relaciones entre variables cualitativas se utiliza el test estadístico de la Chi-cuadrado Para las tablas 2x2 se utiliza el test de Fisher

V 5 TIPOS DE TEST UTILIZADOS La hipótesis que plantearemos será: 5.1 TABLAS DE CONTINGENCIA 5.2 CONTRASTE DE HIPÓTESIS 5.3 MEDIDAS DE ASOCIACIÓN TIPOS DE TEST UTILIZADOS En los ejemplos anteriores… La hipótesis que plantearemos será: H0: independencia H1: dependencia ¿Influye el sexo en el hábito de fumar? ¿Tienen más posibilidades los de un cierto grupo sanguíneo de rechazar un trasplante? El resultado nos permitirá afirmar con un nivel de confianza que nosotros determinaremos si los niveles de una variable influyen en los niveles de la otra

5.1 TABLAS DE CONTINGENCIA 5.2 CONTRASTE DE HIPÓTESIS V 5.1 TABLAS DE CONTINGENCIA 5.2 CONTRASTE DE HIPÓTESIS 5.3 MEDIDAS DE ASOCIACIÓN RAZONAMIENTO El razonamiento para contrastar si existe o no asociación entre dos variables cualitativas se basa en: calcular cuál serían los valores de frecuencia esperados para cada una de las celdas en el caso de que efectivamente las variables fuesen independientes y compararlos con los valores realmente observados

5.1 TABLAS DE CONTINGENCIA 5.2 CONTRASTE DE HIPÓTESIS V 5.1 TABLAS DE CONTINGENCIA 5.2 CONTRASTE DE HIPÓTESIS 5.3 MEDIDAS DE ASOCIACIÓN ¿QUÉ CONCLUSIONES SE OBTIENEN? Si no existe mucha diferencia entre ambos valores… no hay razones para dudar de que las variables sean independientes

5.1 TABLAS DE CONTINGENCIA 5.2 CONTRASTE DE HIPÓTESIS V 5.1 TABLAS DE CONTINGENCIA 5.2 CONTRASTE DE HIPÓTESIS 5.3 MEDIDAS DE ASOCIACIÓN ¿QUÉ CONCLUSIONES SE OBTIENEN? Una vez que hayamos hecho los cálculos, obtendremos un nivel de significación probabilidad de equivocarnos si rechazamos la hipótesis nula Si es p<0.05 rechazamos la hipótesis nula y decimos que las variables son dependientes Si es p>0.05 no podríamos rechazar H0 porque la probabilidad de equivocarnos sería muy alta

5.1 TABLAS DE CONTINGENCIA 5.2 CONTRASTE DE HIPÓTESIS V 5.1 TABLAS DE CONTINGENCIA 5.2 CONTRASTE DE HIPÓTESIS 5.3 MEDIDAS DE ASOCIACIÓN PROBLEMAS La Chi-cuadrado está influenciada por el tamaño muestral Si la muestra es excesivamente grande será más fácil que rechacemos la hipótesis nula de independencia cuando a lo mejor podrían ser independientes A mayor número de casos analizados el valor de la Chi-cuadrado tiende a aumentar

5.1 TABLAS DE CONTINGENCIA 5.2 CONTRASTE DE HIPÓTESIS V 5.1 TABLAS DE CONTINGENCIA 5.2 CONTRASTE DE HIPÓTESIS 5.3 MEDIDAS DE ASOCIACIÓN PROBLEMAS En cada celda de la tabla deberá existir un mínimo de 5 observaciones esperadas Se agrupan filas o columnas (excepto tablas 2x2) Si no fuera así… Se elimina la fila que da la frecuencia <5

5.1 TABLAS DE CONTINGENCIA 5.2 CONTRASTE DE HIPÓTESIS V 5.1 TABLAS DE CONTINGENCIA 5.2 CONTRASTE DE HIPÓTESIS 5.3 MEDIDAS DE ASOCIACIÓN PROBLEMAS Para el ejemplo anterior “El sexo influye en el hábito de fumar”… HOMBRE MUJER MARGINAL SI 12 32 44 NO 18 10 28 OCASIONALMENTE 3 4 7

5.1 TABLAS DE CONTINGENCIA 5.2 CONTRASTE DE HIPÓTESIS V 5.1 TABLAS DE CONTINGENCIA 5.2 CONTRASTE DE HIPÓTESIS 5.3 MEDIDAS DE ASOCIACIÓN PROBLEMAS ¿Y si la tabla es de 2x2? Se aplica la corrección de Yates

5.1 TABLAS DE CONTINGENCIA 5.2 CONTRASTE DE HIPÓTESIS V 5.1 TABLAS DE CONTINGENCIA 5.2 CONTRASTE DE HIPÓTESIS 5.3 MEDIDAS DE ASOCIACIÓN PROBLEMAS La Chi-cuadrado permite contrastar la hipótesis de independencia pero… en el caso de que se rechace dicha hipótesis no dice nada sobre la fuerza de la asociación entre las variables estudiadas

5.1 TABLAS DE CONTINGENCIA 5.2 CONTRASTE DE HIPÓTESIS V 5.1 TABLAS DE CONTINGENCIA 5.2 CONTRASTE DE HIPÓTESIS 5.3 MEDIDAS DE ASOCIACIÓN Las MEDIDAS DE ASOCIACIÓN distinguen entre que las variables sean ordinales o nominales Las MEDIDAS DE ASOCIACIÓN NOMINALES sólo informan del grado de asociación existente pero no de la dirección Las MEDIDAS DE ASOCIACIÓN ORDINALES aportan información sobre la dirección de la relación, pudiendo tomar tanto valores positivos como negativos

5.1 TABLAS DE CONTINGENCIA 5.2 CONTRASTE DE HIPÓTESIS V 5.1 TABLAS DE CONTINGENCIA 5.2 CONTRASTE DE HIPÓTESIS 5.3 MEDIDAS DE ASOCIACIÓN Se pueden encontrar los intervalos de confianza para los riesgos relativos, lo cual alcanza la misma finalidad que la prueba de significancia, según contenga el 1 o no Los intervalos de confianza para riesgos relativos cada vez son más utilizados para las publicaciones en revistas médicas

5.1 TABLAS DE CONTINGENCIA 5.2 CONTRASTE DE HIPÓTESIS V 5.1 TABLAS DE CONTINGENCIA 5.2 CONTRASTE DE HIPÓTESIS 5.3 MEDIDAS DE ASOCIACIÓN MEDIDAS DE ASOCIACIÓN ORDINALES Valores altos de una se corresponden con valores altos de la otra y al contrario Existe una relación directa entre las variables VALORES POSITIVOS Valores altos de una se corresponden con valores bajos de la otra y al contrario Existe una relación inversa entre las variables VALORES NEGATIVOS

5.1 TABLAS DE CONTINGENCIA 5.2 CONTRASTE DE HIPÓTESIS V 5.1 TABLAS DE CONTINGENCIA 5.2 CONTRASTE DE HIPÓTESIS 5.3 MEDIDAS DE ASOCIACIÓN RESIDUOS ¿CÓMO SE CALCULAN? Diferencia entre la frecuencia observada y esperada en cada casilla ¿PARA QUÉ SIRVEN? Son muy útiles para interpretar las relaciones que se observan en la tabla ¿QUÉ INFORMACIÓN DAN? Indican que la diferencia entre las frecuencias es elevada cuando su valor es superior a 1.96 ó inferior a -1.96

5.1 TABLAS DE CONTINGENCIA 5.2 CONTRASTE DE HIPÓTESIS V 5.1 TABLAS DE CONTINGENCIA 5.2 CONTRASTE DE HIPÓTESIS 5.3 MEDIDAS DE ASOCIACIÓN RESIDUOS Un valor del residuo tipificado en una casilla… Hay más casos (si es positivo) o menos (si es negativo) de los que debería haber en esa casilla si las variables fueran independientes, por lo que las variables son dependientes Mayor a 1.96 en valor absoluto Comprendido entre ± 1.96 La diferencia es pequeña por lo que las variables son independientes

5.1 TABLAS DE CONTINGENCIA 5.2 CONTRASTE DE HIPÓTESIS V 5.1 TABLAS DE CONTINGENCIA 5.2 CONTRASTE DE HIPÓTESIS 5.3 MEDIDAS DE ASOCIACIÓN USO EXCESIVO Debido a que la prueba Chi-cuadrado es fácil de entender y calcular, en ocasiones se utiliza cuando es más apropiado otro método POR EJEMPLO Cuando se analizan dos grupos y las características de interés se miden en escala numérica LO CORRECTO Aplicar la prueba t-Student LO INCORRECTO Convertir la escala numérica en una ordinal o incluso binaria

5.1 TABLAS DE CONTINGENCIA 5.2 CONTRASTE DE HIPÓTESIS V 5.1 TABLAS DE CONTINGENCIA 5.2 CONTRASTE DE HIPÓTESIS 5.3 MEDIDAS DE ASOCIACIÓN USO EXCESIVO - EJEMPLO “ Se desea conocer los pacientes de una intervención que tienen mayor probabilidad de padecer complicaciones que otros” Los investigadores querían saber si existe relación entre la edad y la probabilidad de tener complicaciones

5.1 TABLAS DE CONTINGENCIA 5.2 CONTRASTE DE HIPÓTESIS V 5.1 TABLAS DE CONTINGENCIA 5.2 CONTRASTE DE HIPÓTESIS 5.3 MEDIDAS DE ASOCIACIÓN USO EXCESIVO - EJEMPLO ¡MAL! MÉTODO DE TRABAJO: Se recogen datos de pacientes que sufrieron complicaciones y de otros pacientes que no las sufrieron 1 Los investigadores formaron una tabla de contingencia 2x2 y agruparon la edad en ≤45 o >45 2 Emplearon la prueba de chi-cuadrado para la independencia y los resultados indicaron que no había relación entre la edad y la presencia de complicaciones 3

5.1 TABLAS DE CONTINGENCIA 5.2 CONTRASTE DE HIPÓTESIS V 5.1 TABLAS DE CONTINGENCIA 5.2 CONTRASTE DE HIPÓTESIS 5.3 MEDIDAS DE ASOCIACIÓN USO EXCESIVO - EJEMPLO ¿DÓNDE ESTÁ EL ERROR? En la selección arbitraria de los 45 años como punto de corte para la edad Y en usar una prueba de forma incorrecta

5.1 TABLAS DE CONTINGENCIA 5.2 CONTRASTE DE HIPÓTESIS V 5.1 TABLAS DE CONTINGENCIA 5.2 CONTRASTE DE HIPÓTESIS 5.3 MEDIDAS DE ASOCIACIÓN USO EXCESIVO Cuando las variables numéricas se analizan con métodos diseñados para variables categóricas u ordinales, se pierde la mayor especificidad de las mediciones numéricas Antes de hacerlo hay que investigar si las categorías son correctas

5.1 TABLAS DE CONTINGENCIA 5.2 CONTRASTE DE HIPÓTESIS V 5.1 TABLAS DE CONTINGENCIA 5.2 CONTRASTE DE HIPÓTESIS 5.3 MEDIDAS DE ASOCIACIÓN McNEMAR Una variante de las tablas longitudinales es medir una misma variable dicotómica (tratamiento-no tratamiento, rechazo-no rechazo) en dos momentos temporales distintos CONSEJO Resulta especialmente útil para medir el cambio

5.1 TABLAS DE CONTINGENCIA 5.2 CONTRASTE DE HIPÓTESIS V 5.1 TABLAS DE CONTINGENCIA 5.2 CONTRASTE DE HIPÓTESIS 5.3 MEDIDAS DE ASOCIACIÓN McNEMAR ¿CÓMO SE TRABAJA? Se toma una medida de una variable dicotómica, se aplica el tratamiento (o se deja pasar el tiempo) y se vuelve a tomar una medida de la misma variable en los mismos sujetos Se contrasta la hipótesis de igualdad de proporciones antes y después

6.1 Correlación 6.2 Regresión Lineal Simple VI SESIÓN 6 REGRESIÓN 6.1 Correlación 6.2 Regresión Lineal Simple

6.2 REGRESIÓN LINEAL SIMPLE VI 6.1 CORRELACIÓN 6.2 REGRESIÓN LINEAL SIMPLE DEFINICIÓN DE CORRELACIÓN Se considera que dos variables cuantitativas están relacionadas entre sí cuando los valores de una de ellas varían de forma sistemática conforme a los valores de la otra.

6.2 REGRESIÓN LINEAL SIMPLE VI 6.1 CORRELACIÓN 6.2 REGRESIÓN LINEAL SIMPLE EL COEFICIENTE DE CORRELACIÓN DE PEARSON El coeficiente de correlación de Pearson es un índice estadístico que permite definir de forma más concisa la relación entre las variables Es una medida de la relación lineal entre dos variables medidas con escala numérica

6.2 REGRESIÓN LINEAL SIMPLE VI 6.1 CORRELACIÓN 6.2 REGRESIÓN LINEAL SIMPLE EL COEFICIENTE DE CORRELACIÓN DE PEARSON Su resultado es un valor que fluctúa entre -1 y +1… Relación perfecta en sentido positivo +1 Cuanto más cercanos a 0 sean los valores significará una relación más débil o incluso ausencia de relación -1 Relación perfecta en sentido negativo

6.2 REGRESIÓN LINEAL SIMPLE VI 6.1 CORRELACIÓN 6.2 REGRESIÓN LINEAL SIMPLE El valor del coeficiente de correlación está muy influenciado por los valores extremos, igual que la desviación estándar. Por tanto la correlación no describe bien la relación entre dos variables cuando cada una de ellas tiene valores extremos En estos casos debe hacerse una transformación de los datos o usarse la correlación de Spearman

6.2 REGRESIÓN LINEAL SIMPLE VI 6.1 CORRELACIÓN 6.2 REGRESIÓN LINEAL SIMPLE Finalmente, correlación no es igual a causa Correlación = Causa El juicio de que una característica causa otra debe justificarse con argumentos, no sólo con el coeficiente de correlación

6.2 REGRESIÓN LINEAL SIMPLE VI 6.1 CORRELACIÓN 6.2 REGRESIÓN LINEAL SIMPLE EL COEFICIENTE DE CORRELACIÓN DE PEARSON Según su valor la relación entre las variables será: Perfecta 1 Excelente 0,9 Buena 0,8 Regular 0,5 Mala

6.2 REGRESIÓN LINEAL SIMPLE VI 6.1 CORRELACIÓN 6.2 REGRESIÓN LINEAL SIMPLE DIAGRAMAS DE DISPERSIÓN Un DIAGRAMA DE DISPERSIÓN ofrece una idea bastante aproximada sobre el tipo de relación existente entre dos variables Un DIAGRAMA DE DISPERSIÓN también puede utilizarse como una forma de cuantificar el grado de relación lineal existente entre dos variables

6.2 REGRESIÓN LINEAL SIMPLE VI 6.1 CORRELACIÓN 6.2 REGRESIÓN LINEAL SIMPLE COEFICIENTE DE PEARSON – REPRESENTACIÓN GRÁFICA

6.2 REGRESIÓN LINEAL SIMPLE VI 6.1 CORRELACIÓN 6.2 REGRESIÓN LINEAL SIMPLE COEFICIENTE DE PEARSON – REPRESENTACIÓN GRÁFICA

6.2 REGRESIÓN LINEAL SIMPLE VI 6.1 CORRELACIÓN 6.2 REGRESIÓN LINEAL SIMPLE COEFICIENTE DE PEARSON – REPRESENTACIÓN GRÁFICA

6.2 REGRESIÓN LINEAL SIMPLE VI 6.1 CORRELACIÓN 6.2 REGRESIÓN LINEAL SIMPLE COEFICIENTE DE PEARSON – REPRESENTACIÓN GRÁFICA

6.2 REGRESIÓN LINEAL SIMPLE VI 6.1 CORRELACIÓN 6.2 REGRESIÓN LINEAL SIMPLE DIAGRAMAS DE DISPERSIÓN El DIAGRAMA DE DISPERSIÓN permite formarse una primera impresión sobre el tipo de relación existente entre variables Intentar cuantificar esa relación tiene inconvenientes porque la relación entre dos variables no siempre es perfecta o nula Normalmente ni lo uno ni lo otro

6.2 REGRESIÓN LINEAL SIMPLE VI 6.1 CORRELACIÓN 6.2 REGRESIÓN LINEAL SIMPLE MODELOS DE REGRESIÓN Una vez que sabemos que dos variables están relacionadas… ¿Cómo averiguar qué tipo de relación tienen? Para esto utilizamos los modelos de regresión

6.2 REGRESIÓN LINEAL SIMPLE VI 6.1 CORRELACIÓN 6.2 REGRESIÓN LINEAL SIMPLE CONCEPTO DE REGRESIÓN ¿QUÉ ES? La regresión como técnica estadística analiza la relación de dos o más variables contínuas ¿PARA QUÉ SIRVE? La regresión se utiliza para inferir datos a partir de otros y hallar una respuesta a lo que pueda suceder

6.2 REGRESIÓN LINEAL SIMPLE VI 6.1 CORRELACIÓN 6.2 REGRESIÓN LINEAL SIMPLE DIFERENCIA ENTRE CORRELACIÓN Y REGRESIÓN: La correlación es independiente de la escala pero no la regresión La correlación entre estatura y peso es la misma sin importar que la estatura se mida en metros o centímetros EJEMPLO SIN EMBARGO… La ecuación de regresión entre el peso y la estatura depende de las unidades que utilicemos

6.2 REGRESIÓN LINEAL SIMPLE VI 6.1 CORRELACIÓN 6.2 REGRESIÓN LINEAL SIMPLE SIMILITUDES ENTRE CORRELACIÓN Y REGRESIÓN: La pendiente de la línea de regresión tiene el mismo signo que el coeficiente de correlación ¡OJO! La correlación y la regresión sólo describen relaciones lineales. Si los coeficientes de correlación y las ecuaciones de regresión se calculan a ciegas, sin examinar las gráficas, los investigadores pasarán por alto relaciones muy estrechas pero no lineales

6.2 REGRESIÓN LINEAL SIMPLE VI 6.1 CORRELACIÓN 6.2 REGRESIÓN LINEAL SIMPLE VARIABLES DE LA REGRESIÓN Las variables del modelo de regresión deben ser cuantitativas Dada la robustez de la regresión es frecuente encontrar incluidas como variable independiente variables nominales transformadas La variable dependiente debe ser siempre cuantitativa Robustez: un estadístico se dice que es robusto cuando es válido aunque no se cumpla alguno de sus supuestos

6.2 REGRESIÓN LINEAL SIMPLE VI 6.1 CORRELACIÓN 6.2 REGRESIÓN LINEAL SIMPLE TIPOS DE REGRESIÓN Se pueden encontrar distintos tipos de regresión 1 Regresión Lineal 2 Regresión Múltiple 3 Regresión Logística

6.2 REGRESIÓN LINEAL SIMPLE VI 6.1 CORRELACIÓN 6.2 REGRESIÓN LINEAL SIMPLE REGRESIÓN LINEAL Consideremos una variable aleatoria respuesta Y, relacionada con otra variable que llamaremos explicativa X Supongamos una muestra de n individuos para los que se conocen los valores de ambas variables Y Variable aleatoria Hacemos una representación gráfica: en el eje X la variable explicativa en el Y la respuesta X Variable explicativa n Muestra

6.2 REGRESIÓN LINEAL SIMPLE VI 6.1 CORRELACIÓN 6.2 REGRESIÓN LINEAL SIMPLE REGRESIÓN LINEAL OBJETIVO Encontrar una recta que se ajuste a la nube de puntos A partir de esa recta podemos usar los valores de X para predecir los de Y Normalmente se utiliza el “método de los mínimos cuadrados” que minimiza la distancia de las observaciones a la recta

6.2 REGRESIÓN LINEAL SIMPLE VI 6.1 CORRELACIÓN 6.2 REGRESIÓN LINEAL SIMPLE REPRESENTACIÓN GRÁFICA Una recta tiene una ecuación muy simple: Y=a+bX b Habría que calcular los coeficientes a,b. a b es la pendiente de la recta a es el punto en que la recta corta el eje vertical

6.2 REGRESIÓN LINEAL SIMPLE VI 6.1 CORRELACIÓN 6.2 REGRESIÓN LINEAL SIMPLE REGRESIÓN LINEAL Conociendo los valores de estos dos coeficientes podríamos reproducir la recta y describir con ella la relación entre las variables Además de representar la recta con su fórmula también es útil disponer de alguna información sobre el grado en que la recta se ajusta a la nube de puntos

6.2 REGRESIÓN LINEAL SIMPLE VI 6.1 CORRELACIÓN 6.2 REGRESIÓN LINEAL SIMPLE BONDAD DEL AJUSTE Una medida de ajuste muy aceptada es el coeficiente de determinación R2 Cuadrado del coeficiente de correlación lineal Se trata de una medida estandarizada que toma valores entre 0 y 1 R2=0.86 La recta explica un 86% de la variabilidad de Y en función de X