LA COVARIANZA Y EL COEFICIENTE DE CORRELACIÓN LINEAL DE PEARSON

Slides:



Advertisements
Presentaciones similares
Tema 5: Asociación. 1. Introducción. 2. Tablas y gráficas bivariadas.
Advertisements

Bloque III. Caracterización de la relación entre variables Tema. 8
Tema.11. Principales modelos de distribución de probabilidad en Psicología: Variables discretas: binomial y Poisson. Variables continuas: normal, chi.
Tema 22: Análisis de tablas de contingencia Prueba c2 como medida de asociación y como prueba de contraste. Coeficientes derivados de c2. Interpretación.
Métodos Cuantitativos de Análisis de Datos I. Puntuaciones Típicas Escalas Derivadas.
LEONARDO LÓPEZ C. ECONOMIA ESTADISTICA COMPUTARIZADA PARALELO: 261.
REPASANDO…………… ESTADISTICA APLICADA. ¿Qué hemos visto? Tipos de variables Niveles de medición de las variables Tabulación y representación gráfica de.
Tema 3: Distribuciones bidimensionales: Relación estre dos variables estadísticas Relación estadísca: Correlación Diagramas de dispersión.
TEMA 3. ESTADÍSTICA BIDIMENSIONAL. INDICE 1.- Relación estadística: correlación 2.- Diagramas de dispersión o nube de puntos 3.- Tablas de frecuencia.
ESTADÍSTICA DESCRIPTIVA MEDIDAS DE VARIABILIDAD Psic. Gerardo A. Valderrama M.
TEMA 2: PARÁMETROS ESTADÍSTICOS. ÍNDICE 1. Parámetros estadísticos. 2.Interpretación de la media y desviación típica. 3. Coeficiente de variación.
1. Relación estadística: correlación 2. Diagramas de dispersión o nube de puntos 3. Tablas de frecuencia simples o doble entrada 4. Distribuciones marginales.
TEMA 3: ESTADÍSTICA BIDIMENSIONAL. ÍNDICE: 1.- Relación estadística: correlación. 2.- Diagramas de dispersión o nube de puntos. 3.- Tablas de frecuencia.
TEMA 3: Estadística Bidimensional. ● Álvaro Fernández Romero y Luis Carlos Fernández herrezuelo.
1. Parámetros estadísticos: Medidas de Centralización: Medias, moda y Mediana Medidas de Posición:Cuartiles,Deciles,Centiles Medidas de Dispersión: Rango,
CORRELACIÓN.  La correlación es la forma numérica en la que la estadística ha podido evaluar la relación de dos o más variables, es decir, mide la dependencia.
Medidas de centralización:  Media aritmética, mediana y moda para: i) listas de datos ii) datos agrupados en una tabla de frecuencia iii) datos agrupados.
GENERALIDADES DEL TRABAJO ESTADÍSTICO La Estadística es una de las ramas de la Matemática de mayor universalidad, ya que muchos de sus métodos se han desarrollado.
1 Pronósticos, Series de Tiempo y Regresión Capítulo 3: Regresión Lineal Simple.
Ing. VITELIO ASENCIOS TARAZONA. Dentro de los modelos causales o asociativos encontramos el análisis de regresión o regresión lineal, que es un método.
Tema: Estadísticos no paramétricos CHI-Cuadrada Curso: Seminario de Estadística ESCUELA SUPERIOR POLITECNICA DE CHIMBORAZO FACULTAD DE INFORMATICA Y ELECTRONICA.
Prof. Dr. Luis Alberto Rubio Jacobo CURSO: “Estadística Aplicada al Marketing” MAESTRIA EN GERENCIA DE MARKETING.
TALLER DE SPSS APLICADA A LA INVESTIGACIÓN CIENTIFICA.
1 Ejemplo Consideremos los datos de un estudio donde se les mide la talla en centímetros a 20 jugadores del equipo Nacional de Handbol de EE. UU. seleccionados.
Introducción a las Estadísticas
MEDIDAS DE FORMA ASIMETRIA Y CURTOSIS..
ESTADÍSTICA UNIDIMENSIONAL
TEMA 3: Distribuciones bidimensionales: relación entre dos variables estadísticas. Cristhian Lopez.
UNIDAD 4: ESTADÍSTICA Y PROBABILIDAD
Estadística: conceptos básicos y definiciones.
Correlación Lineal de Pearson y Regresión Lineal Simple
ESTADÍSTICA BIDIMENSIONAL
PREDICCIÓN Y ESTIMACIÓN
CORRELACIÓN CAP 8 DE Peña y Romo.
ANALISIS DE DATOS CUANTITATIVOS
REGRESÍON LINEAL SIMPLE
Estimación de parámetros: Estimación puntual y por intervalos
Unidad VII y VIII Medidas de forma de la distribución de datos.
Medidas de tendencia central y dispersión
PROBABILIDAD Y ESTADÍSTICA
ESTADÍSTICA UNIDIMENSIONAL
MEDIDAS DE CORRELACIÓN.
1. DISTRIBUCIONES BIDIMENSIONALES En las distribuciones bidimensionales a cada individuo le corresponden los valores de dos variables que se representan.
ETAPA DE ANÁLISIS E INTERPRETACIÓN DE DATOS: MEDIDAS DE RESUMEN
Estadística para investigación 1. 2 Estadística Introducción ¿Qué es la estadística? Es una Ciencia que explica y provee de herramientas para trabajar.
Mg. Raúl Alberto Ruiz Arias UNIVERSIDAD NORBERT WIENER.
Excel Estadístico Medidas de Dispersión.
ESTADÍSTICA BIDIMENSIONAL
Correlación Relación no lineal Relación lineal positiva Relación
INTRODUCCION En esta base de datos, la variable “estrés ” es categórica (tiene estrés / no tiene estrés ) y querríamos saber si está relacionada.
Dr. Carlomagno Araya Alpízar
Dr. Alejandro Salazar – El Colegio de Sonora
Correlación Relación no lineal Relación lineal positiva Relación
Tema 6: Regresión lineal. 1. Introducción. 2. La ecuación de la recta. 3. El criterio de mínimos cuadrados. 4. Representación gráfica. 5. Coeficientes.
UNIVERSIDAD DE LOS ANDES CENTRO DE INVESTIGACIONES PSICOLÓGICAS
Regresión Lineal Simple
MEDIDAS DE DISPERSION absolutas y relativas. INTRODUCCION La estadística es la ciencia que se encarga de recolectar, organizar, resumir y analizar datos.
URBINA GUADARRAMA GILBERTO MORENO CONTRERAS TANGANXOAN ZUANGUA
1 Temario de la asignatura Introducción. Análisis de datos univariantes. Análisis de datos bivariantes. Series temporales y números índice. Probabilidad.
Correlación de Variables
CAPITULO 3: MEDIDAS DE VARIABILIDAD Y ASIMETRÍA
MEDIDAS DE DISPERSIÓN “Medidas de dispersión”. Miden qué tanto se dispersan las observaciones alrededor de su media. MEDIDAS DE DISPERSIÓN.
Tema 5: Asociación. 1. Introducción. 2. Tablas y gráficas bivariadas.
METODOLOGÍA Y TÉCNICAS DE INVESTIGACIÓN EN CIENCIAS SOCIALES
Regresión lineal Electivo Estadística IV°Medio 2019.
ESTADÍSTICA DESCRIPTIVA Mg. JHON FREDY SABI ROJAS.
ESTADÍSTICA APLICADA  ZEUS DE JESÚS RODRÍGUEZ BUDA  GABRIELA MÁRQUEZ TORRES  MARÍA ENRIQUETA GIL CÓRDOVA  ELIÁN ANTONIO GONZALEZ GARCÍA  CRISTELL.
VARIABILIDAD La variabilidad está presente en todo nuestro entorno, ejemplo: Un paciente tarda en recuperarse de depresión 8 meses, otro 6 meses y un.
Estadística Aplicada a las Ciencias Políticas Hemos visto que había una relación aproximadamente lineal entre población y escaños. Buscamos una medida.
VARIANZA Y Y COVARIANZA DE VARIABLES ALEATORIAS Estadística II MI. MARTHA PAMELA RAMÍREZ VELA ITESM CAMPUS SALTILLO 1.
Transcripción de la presentación:

LA COVARIANZA Y EL COEFICIENTE DE CORRELACIÓN LINEAL DE PEARSON

Introducción Hasta ahora nos hemos centrado en medidas de tendencia central, variabilidad, asimetría y curtosis de una única variable. No obstante, en la práctica es común examinar dos o más variables conjuntamente (v.g., relación entre inteligencia y rendimiento) En este particular nos centraremos en la relación entre dos variables (a partir de n observaciones apareadas) y calcularemos (en especial) un índice que nos dará el grado de relación/asociación entre ambas variables: el coeficiente de correlación lineal de Pearson.

Representación gráfica de una relación rendimiento rendimiento rendimiento inteligencia inteligencia inteligencia Relación lineal negativa Sin relación Relación lineal positiva El coeficiente de correlación de Pearson mide relación LINEAL.

Representación gráfica de una relación rendimiento rendimiento inteligencia inteligencia Relación no lineal Relación lineal El coeficiente de correlación de Pearson mide relación LINEAL.

Representación gráfica de una relación rendimiento rendimiento rendimiento inteligencia inteligencia inteligencia Relación lineal casi perfecta Relación lineal moderada a fuerte Relación lineal débil Ahora necesitamos un coeficiente que nos informe tanto del grado en que X e Y están relacionadas así como si la relación es positiva o negativa

Covarianza y coeficiente de correlación lineal de Pearson Observa que cuando la relación lineal es positiva, las puntuaciones diferenciales de X son positivas, las puntuaciones diferenciales de Y suelen ser positivas. rendimiento Caso 1 inteligencia Observa que cuando la relación lineal es negativa, las puntuaciones diferenciales de X son positivas, las puntuaciones diferenciales de Y suelen ser negativas. rendimiento Caso 2 inteligencia

Covarianza La covarianza aprovecha esta característica señalada en la lámina anterior al emplear el producto de las puntuaciones diferencias de X e Y. He aquí la fórmula: En el caso 1, la covarianza será un valor positivo, y en el caso 2, la covarianza será un valor negativo. Por tanto la covarianza nos da una idea de si la relación entre X e Y es positiva o negativa,es decir directa o inversa. Problema: La covarianza no es un índice acotado (v.g., cómo interpretar una covarianza de 6 en términos del grado de asociación) y no tiene en cuenta la variabilidad de las variables. Por eso se emplea el siguiente índice.

Coeficiente de correlación lineal de Pearson El coeficiente de correlación lineal de Pearson parte de la covarianza: Ahora veremos varias propiedades del índice.

Coeficiente de correlación lineal de Pearson Propiedad 1. El coeficiente de correlación lineal de Pearson no puede valer menos de -1 ni más de +1. Un valor de correlación de Pearson de -1 indica una relación lineal negativa perfecta Un valor de correlación de Pearson de +1 indica una relación lineal positiva perfecta. Un valor de correlación de Pearson de 0 indica ausencia de relación lineal. Observa que un valor cercano a 0 no implica que no haya algún tipo de relación no lineal: el coeficiente de Pearson mide relación lineal.

Coeficiente de correlación lineal de Pearson Propiedad 2. El coeficiente de correlación lineal de Pearson (en valor absoluto) no varía cuando se transforman linealmente las variables. Por ejemplo, la correlación de Pearson entre la temperatura en grados Celsius y el nivel de depresión, es la misma que la correlación entre la temperatura en grados Fahrenheit y el nivel de depresión. Evidentemente, el coeficiente de correlación lineal de Pearson es el mismo entre las puntaciones directas de X e Y o entre las puntuaciones diferenciales de X e Y o entre las puntuaciones típicas de X e Y. Recuerda que las puntuaciones diferenciales y las puntuaciones típicas son transformaciones lineales de las puntuaciones directas.

Coeficiente de correlación lineal de Pearson Interpretación Hemos de tener en cuenta qué es lo que estamos midiendo para poder interpretar cuán fuerte es la relación entre las variables involucradas. En muchos casos, depende del área en estudio. En todo caso, es muy importante efectuar el diagrama de dispersión. Por ejemplo, en el caso de la izquierda, es claro que no hay relación entre inteligencia y rendimiento. Sin embargo, si calculamos el coeficiente de correlación lineal de Pearson nos dará un valor muy elevado, causado por la puntuación atípica en la esquina superior derecha. rendimiento inteligencia

Coeficiente de correlación lineal de Pearson Interpretación Es importante indicar que “CORRELACIÓN NO IMPLICA RELACIÓN CAUSAL”. El que dos variables estén altamente correlaciones no implica que X causa Y ni que Y causa X. Esa es una de las razones empleadas por las tabaqueras en el tema de la correlación entre cáncer de pulmón y el hecho de fumar.

Coeficiente de correlación lineal de Pearson Interpretación Es importante indicar que el coeficiente de correlación LINEAL de Pearson puede verse afectado por la influencia de terceras variables. Por ejemplo, si fuésemos a un colegio y medimos la estatura y pasamos una prueba de habilidad verbal, saldrá que los más altos también tienen más habilidad verbal.Claro, eso puede ser debido simplemente a que en el colegio los niños más altos serán mayores en edad que los más bajos. Si se parcializa esta “tercera” variable mediante “correlación parcial”, difícilmente habrá una relación de importancia entre estatura y habilidad numérica. Hay muchos casos en que es la tercera variable la causante de una alta relación entre X e Y y ello muchas veces es difícil de identificar.Relación concomitante. 14 a Habilidad numérica 12 a 10 a 8 a 6 años Estatura

Coeficiente de correlación lineal de Pearson Interpretación Por otra parte, el valor del coeficiente de correlación lineal de Pearson depende en parte de la variabilidad del grupo. Si calculamos el coeficiente de correlación lineal de Pearson entre inteligencia y rendimiento con todos los sujetos, el valor del coeficiente de Pearson será bastante elevado.Sin embargo, si empleamos únicamente los individuos con C I bajo (o C I alto) y calculamos la correlación con rendimiendo, el valor del coeficiente de Pearson será claramente menor. Rendimiento Un grupo heterogéneo daría un mayor grado de relación entre variables que un grupo homogéneo. CI bajo CI alto inteligencia

Otros coeficientes: variables cualitativas Claro está, es posible obtener medidas del grado de relación de variables cuando éstas no sean cuantitativas. El caso en que las variables X e Y sean ordinales Recuerda, cuando tenemos variables con escala ordinal, podemos establecer el orden entre los valores, pero no sabemos las distancias entre los valores. Si supiéramos la distancia entre los valores ya estaríamos al menos en una escala de intervalo. Podemos calcular el coeficiente de correlación por rango de Spearman

Coeficiente de correlación por rango de Spearman Lo que tenemos ahora son dos sucesiones de valores ordinales. El coeficiente de Spearman es un caso especial del coeficiente de correlación lineal de Pearson aplicado a dos series de los n primeros números naturales es la diferencia entre el valor ordinal en X y el valor ordinal en Y del sujeto i

Coeficiente de correlación por rango de Spearman: propiedades Primera. Se encuentra acotado, como el coeficiente de correlación lineal de Pearson entre -1 y +1. Un coeficiente de Spearman de +1 quiere decir que el que es primero en X es primero en Y, el que es segundo en X es segundo en Y, etc. Un coeficiente de Sperman de -1 quiere decir que el que es primero en X es último en Y, el segundo en X es el penúltimo en Y, etc. Segunda. Su cálculo es muy sencillo, más que el coeficiente de correlación lineal de Pearson. No obstante, con los ordenadores y un programa estadístico, esto es irrelevante en estos días.

Variables cualitativas Variables cualitativas. Prueba c2 como medida de asociación y como prueba de contraste La prueba chi-cuadrado es una prueba no paramétrica que se emplea para medir la asociación entre dos variables cuando tenemos tablas de contingencia. También es empleada, de manera general, para evaluar la divergencia entre unas puntuaciones observadas (empíricas) y unas puntuaciones esperadas (teóricas). De manera general, el estadístico chi-cuadrado se obtiene así: Donde fe representa las frecuencias observadas o empíricas y ft representa las frecuencias esperadas o teóricas

Prueba c2 como medida de asociación: El caso de independencia de dos variables cualitativas Las frecuencias observadas o empíricas son las que tenemos en la tabla de contingencia. Ahora bien, ¿cómo determinar las frecuencias esperadas o teóricas?. Tal proceso es simple: Si ambas variables son independientes, la frecuencia esperada o teórica de cada casilla será el resultado de multiplicar la suma de frecuencias de la fila por la suma de frecuencia de la columna respectivas y ese resultado se divide por N.

Prueba c2 como medida de asociación Prueba c2 como medida de asociación. Coeficientes derivados e interpretación A partir de la prueba chi-cuadrado, se han propuesto ciertas medidas de asociación entre variables cuando tenemos frecuencias en tablas de contingencia. Se busca por lo tanto cuantificar la fuerza de la relación entre dos variables. En caso de tener tablas 2x2: Coeficiente phi Este índice se interpreta de manera análoga al coeficiente de correlación lineal de Pearson (observa que phi no puede ser negativo,sólo de 0 a 1)

Prueba c2 como medida de asociación: Coeficientes derivados e interpretación En caso de tener más de dos filas o columnas: Prueba de Cramer m es el número menor entre el número de filas - 1 y columnas - 1 Este coeficiente se interpreta análogamente al de correlación lineal de Pearson (excepto por el tema del signo). Observa que si la tabla es 2x2 este coeficiente coincide con el phi