Tema 3: Caracterización de grupos

Tema 3: Caracterización de grupos
1. Introducción. 2. Tendencia central. 2.1. Concepto. 2.2. Moda, mediana y media aritmética. Definición, cálculo y principales características. 2.3. Otras medias. 2.4. Criterios de uso. 3. Variabilidad. 3.1. Concepto. 3.2. Amplitud, Varianza y Desviación Típica (muestral y poblacional). 3.3. Otras medidas: Amplitud intercuartílica y Coeficiente de Variación. 3.4. Criterios de uso. 4. Asimetría: Introducción y principales medidas. 5. Curtosis: Introducción y medidas 6. Representación gráfica: diagramas de caja y barras de error.

2. Tendencia central Nos indican un valor representativo del grueso de los datos, de la referencia de los mismos –un valor central. Ejemplo: con las calificaciones 4,7,5,6,5,4,5,5,5,6,5,4,4, es claro que (a ojo) están en torno a cinco, que podría ser tomado como índice de tendencia central. Veremos primero los 3 índices de tendencia central más comunes (moda, media y mediana). Después veremos otros índices que han sido propuestos.

Media aritmética Fórmula:
Simplemente se trata de sumar todos los valores y dicha cantidad se divide por el número de valores que tengamos. Si tenemos los datos: 4,6,5,3,7 La media será ( )/5=4 Nota: se pueden emplear medias aritméticas ponderadas. Pensemos que hay 2 datos, uno (5) pesa 0’6 y el otro (6) pesa 0’4. Entonces, la media será (5*0’6+6*0’4)/(0’6+0’4)=5’4

Propiedades de la Media aritmética
-La suma de diferencias (de todos los valores) respecto a la media es siempre 0 -Si sumamos una constante a cada uno de los valores, la nueva media aritmética resultante será la original más la constante. -Si multiplicamos cada uno de los valores por una constante, la nueva media aritmética será la original por la constante. Minimiza la suma de diferencias en términos cuadráticos.

Mediana La Mediana (Mdn o Md) se define como el valor que tiene la propiedad de que el número de observaciones menores que él es igual al número de observaciones mayores que él. Por ejemplo, en la secuencia (ordenada) 3,4,5,6,7,8,9 la mediana será 6 En la secuencia (ordenada) 2,3,4,6,7,9 la mediana será 5 (la media aritmética entre los dos valores centrales; observad que n es par; en el ejemplo de arriba era impar)

Propiedades de la mediana
No utiliza todos los elementos Se puede calcular con datos ordinales Se ve menos afectada por datos atípicos que la media aritmética. Minimiza la suma de diferencias en valor absoluto (recordad que la media aritmética minimizaba la suma de diferencias en términos cuadráticos)

Ejemplo uso de la mediana
Los 9 empleados de una nueva empresa viven al lado de la Nacional 340 en diferentes kilómetros: 3 2 1 2 1 Núm. Emp. Km Dado que todos viajan en coche, y sabiendo que quieres minimizar el coste en gasolina, ¿en qué lugar pondrías la empresa para minimizar tal coste?

La moda Se define como Moda (Mo) aquel valor de la variable al que corresponde mayor frecuencia. En el conjunto de datos: 4,5,6,6,3,6,4,5 la Mo=6 Propiedades: -No es necesariamente única (puede haber varias modas) -Se puede calcular con datos en escala nominal -En su cálculo no intervienen todos los elementos

¿Cuál elegir? Media Moda Mediana

Resistencia y robustez
Estadísticos resistentes: Son aquellos que no se ven influidos (o solo ligeramente) por pequeños cambios en los datos. Evidentemente, la media es un estadístico muy poco resistente a cambios en los datos, dado que se ve influida por todos y cada uno de ellos. La mediana, en cambio, es un estadístico altamente resistente.

La media no es un estimador robusto.
Estadísticos (Estimadores) robustos (ESTADÍSTICA INFERENCIAL): Son aquellos estadísticos (estimadores) que funcionan bien para varios tipos distintos de distribuciones teóricas, aunque pueden no ser el mejor estimador para ningún tipo concreto de distribución. Es decir, son el “mejor compromiso”. La media no es un estimador robusto. La mediana es un estimador más robusto que la media, si bien hay otros estimadores más robustos que veremos en el punto siguiente del temario.

Medidas robustas de tendencia central
1. Medias Recortadas Consiste en calcular la media aritmética sobre un subconjunto central del conjunto de datos, no considerándose una determinada proporción p por cada extremo. (p se expresa normalmente como porcentaje). Por ejemplo, una media recortada al 40% en una secuencia de 10 datos implica no tener en cuenta ni los 4 valores menores ni los 4 valores mayores. Observar que la media recortada al 0% es la media aritmética. A la media recortada al 25% se la denomina centrimedia.

1. Medias Recortadas (cont) Calcula la media recortada al 5% de los siguientes datos: 3, 4, 4, 5, 5, 6, 7, 8, 9, 11 El valor debe ser 6.11 Calcula la media recortada al 10% de los datos anteriores (da 6) Calcula la centrimedia (da 5.8)

2. Media Winsorizada Es análogo a las medias recortadas excepto en que las puntuaciones eliminadas, ya no lo son sino que se sustituyen por los valores menor y mayor que quedan para el cómputo de la media winsorizada. Así, en la media recortada a nivel 2 implicaría eliminar las dos puntuaciones mayores y las 2 menores: 3, 4, 4, 5, 5, 6, 7, 8, 9, 11 Y quedan los datos: 4, 5, 5, 6, 7, 8 y se calcula la media de los mismos En la media winsorizada, los datos 3 y 4 (los dos menores) y el 9 y 11 (los dos mayores) se sustituyen por 4 y 8 respectivamente. Es decir, 4, 4, 4, 5, 5, 6, 7, 8, 8, 8 y se calcula la media de los mismos, que será la media winsorizada a nivel 2 (debe de dar 5.9)

3. Otros tipos de media en la que se recortan datos En muchas ocasiones lo que se hace es emplear un valor mínimo y uno máximo más allá del cual se eliminan los datos que sobrepasen tales valores. Por ejemplo, en experimentos de tiempo de reacción para discriminar palabras/pseudopalabras se pueden eliminar datos menores de 200 ms y mayores de 1500 ms. (Menos de 200 ms es demasiado rápido; más de 1500 ms es demasiado lento.) De esta manera, si todos los datos están en el rango ms no se elimina ningún dato

4. Trimedia Es un índice de tendencia central que consiste en calcular una media aritmética ponderada de tres medidas, la Mediana (con peso doble) y el primer y tercer cuartil. Pensemos que en un conjunto de datos, el primer cuartil es 51, la mediana es 55 y el tercer cuartil es 63. La trimedia es:

5. Otras medidas robustas El estimador-M de Huber, el estimador biponderado de Tukey, el estimador M-redescendente de Hampel y el estimador en onda de Andrew. Estos estimadores se diferencian entre sí por el tipo de ponderación aplicada sobre los datos. Por ejemplo, en el Estimador-M de Huber (Estimador M de posición): Las puntuaciones típicas que sean menores que una constante, reciben un peso de 1. Los casos que tienen los mayores valores absolutos tienen pesos tanto más pequeños cuanto mayor es su distancia respecto a cero. La constante es Cálculo: lo da el SPSS.

3. Variabilidad En el punto anterior vimos las medidas de tendencia central (media, mediana, etc). Claramente, para saber cuán representativo es el valor de tal medida de tendencia central es necesario tener una medida de variabilidad. Por ejemplo, alguien puede tener una media de 5 con los siguientes datos (5, 4, 6, 5, 5) y otro tener una media de 5 con los datos (10, 0, 5, 9, 1). Evidentemente el primer sujeto es mucho más consistente, muestra menos variabilidad.

¿Cómo podemos medir la variabilidad?
Una primera estrategia sería emplear la fórmula El problema es que siempre vale cero.... Una segunda estrategia es emplear valores absolutos Esta es la llamada “Desviación Media”, cuyo problema es que lo problemático del uso de valores absolutos. ¿qué nos queda, pues? Emplear la suma de diferencias al cuadrado....Es el primer paso para la varianza

Varianza Fórmula Como veremos en el segundo semestre (Estadística inferencial), la varianza es un estimador sesgado de la varianza poblacional; por ello se prefiere el uso de la “cuasivarianza” que es igual que la varianza excepto en que se divide por n-1; la cuasivarianza es un estimador insesgado de la varianza poblacional¨:

Desviación típica y cuasidesviación típica
Fórmulas Una ventaja obvia de la desviación típica sobre la varianza es que la desviación típica viene dada en las mismas unidades de medida que los datos originales (en la varianza las unidades están al cuadrado). Por eso, en estadística descriptiva se suele dar la media acompañada de la (cuasi)desv.típica, más que con la (cuasi)varianza. NOTA: El SPSS cuando indica varianzas o desviaciones típicas, en realidad calcula cuasivarianzas y cuasidesviaciones típicas

Algunas propiedades de la varianza y desviación típica
La varianza y la desv. Típica son valores esencialmente positivos. (Observad que las diferencias sobre la media están al cuadrado) 2. Ni la varianza ni la desv.típica se alteran cuando a los datos se les añade una constante a. Entonces, sabemos que

Entonces, sabemos que Claro está que lo mismo se aplica a la desv.típica (y a la cuasivarianza y la cuasidesv.típica

3. Si los datos se multiplican por una constante a cualquiera, la desv
3. Si los datos se multiplican por una constante a cualquiera, la desv.típica queda multiplicada por el valor absoluto de dicha constante, y la varianza por el cuadrado de dicha constante

Otras medidas de variabilidad
1. Amplitud total (AT) Es la diferencia entre los valores extremos Su ventaja es la sencillez de cálculo; el problema es que es únicamente sensible a los valores extremos (e insensible a los intermedios). 2. Desviación media (DM) El problema del empleo de la DM es la dificultad que tiene trabajar con valores absolutos. La DM es poco frecuente encontrarla en la práctica.

Otras medidas de variabilidad
3. Amplitud semi-intercuartil (Q) Está basada en el primer y tercer cuartil, lo que la hace un estadístico resistente Se emplea relativamente en alguna áreas de la psicología; se suele emplear cuando la mediana sea el índice de tendencia central. 4. Coeficiente de variación (CV) Observa: Escala de razón… Indica el número de veces que la desviación ontiene a la media: cuanto mayor es el CV CV mayor es la variabilidad y menor la representatividad de la media. típica c Al no tener unidades permite la comparación entre variables diferentes.

Medidas robustas de variabilidad
1. La MEDA (Mediana de las diferencias absolutas frente a la mediana) Ejemplo de cálculo: 3,4,4,5,5,6,7,8,9,11 (Md=5.5) MEDA=1.5 Es la Mediana de 0’5, 0’5, 0’5, 1’5, 1’5, 1’5, 2’5, 2’5, 3’5, 5’5

Medidas robustas de variabilidad
2. La desviación pseudotípica Es un índice de variabilidad que permite estimar la desviación típica (que como sabemos es muy susceptible a la influencia de puntuaciones atípicas, como también ocurre con la media aritmética) que cabría esperar de la muestra si ésta perteneciera a una población en el que la distribución subyacente sea la normal.

4. Asimetría En los dos puntos anteriores hemos visto las medidas de tendencia central y las medidas de variabilidad. Si bien la obtención de tales medidas es clave para describir una muestra y efectuar inferencias sobre la población de origen, es también fundamental saber la forma de una distribución para obtener una caracterización adecuada de los datos.

Asimetría Si bien es fácil tener una idea de si la distribución es simétrica o no tras ver la representación gráfica (p.e., un histograma o un diagrama de caja y bigotes), es importante cuantificar la posible asimetría de una distribución. Recordemos que cuando la distribución de los datos es simétrica, la media, la mediana y la moda coinciden. (Y la distribución tiene la misma forma a la izquierda y la derecha del centro) Si bien muchas distribuciones psicológicas se asume que tienden a ser simétricas y unimodales, en muchos casos la distribución que encontramos es asimétrica (v.g., las distribuciones de los Tiempos de Reacción en casi cualquier tarea es asimétrica positivo).

Asimetría positiva Asimetría negativa Examen difícil Salarios
Tiempos de Reacción Moda Media Mediana Asimetría negativa Examen fácil Media Moda Mediana

Índices de asimetría 1. Índice de asimetría de Pearson
Muy sencillo de calcular. Está basado en la relación entre la media y la moda en distribuciones simétricas y asimétricas (ver transparencia anterior): Si la distribución es simétrica As será 0 Si la distribución es asimétrica positiva, As será mayor que 0 Si la distribución es asimétrica negativa, As será menor que 0

Índices de asimetría 2. Índice de asimetría de Fisher
Está basado en la diferencia de los datos sobre la media, como la varianza, si bien esta vez se elevan los coeficientes al cubo Si la distribución es simétrica As será 0 Si la distribución es asimétrica positiva, As será mayor que 0 Si la distribución es asimétrica negativa, As será menor que 0 Desventaja: Muy influida por puntuaciones atípicas-

5. Curtosis o apuntamiento
Hace referencia al apuntamiento de la distribución en relación a un estándar, que es la distribución normal. Este estándar es la distribución normal: distribución mesocúrtica. Si la distribución es más apuntada que la distribución normal tenemos una distribución leptocúrtica. Si la distribución es más achatada que la distribución normal tenemos una distribución platicúrtica.

Curtosis o apuntamiento
IMPORTANTE: Curtosis es independiente de la variabilidad (en el sentido de “varianza”). Es decir, no es que una distribución leptocúrtica tenga menos varianza y por eso es más apuntada. Una distribución leptocúrtica es muy apuntada en el centro (más que la normal), decae muy rápidamente en un primer momento, pero en los extremos es algo más alta que la distribución normal. Eso quiere decir que una distribución leptocúrtica es más probable que ofrezca más valores extremos que la distribución normal.

Ejemplo de curtosis (dist. Mesocúrtica)

Índice de curtosis (veremos un solo índice)
Para una distribución normal (mesocúrtica) sabemos que Y esta va a ser la referencia para el índice de curtosis que vamos a emplear Si la distribución es normal (mesocúrtica), el índice vale 0 Si la distribución es leptocúrtica, el índice es superior a 0 Si la distribución es platicúrtica, el índice es inferior a 0

Más ejemplos de curtosis

6. Cómo ver la tendencia, variabilidad y asimetría en un gráfico
Si bien es posible emplear diferentes gráficos para evaluar la variabilidad (y tendencia central, asimetría, etc), es interesante el uso de los diagramas de caja y bigotes. La caja viene definida por el primer cuartil y el tercer cuartil, con la mediana también indicada. Esto lo veremos en detalle en las prácticas. Pero mejor veamos un ejemplo (Ratcliff, Perea, Colangelo y Buchanan, 2004, Brain & Cognition), en el que se examinan ciertas características en una tarea de decisión léxica (decidir si un estímulo era palabra o no; se mide el Tiempo de Reacción) con un grupo de controles y un grupo de personas con daño cerebral (afásicos). Lo que se medía era un índice de cuán conservador eran las personas en la tarea (“boundary separation”) un índice correspondiente a procesos “no-decisionales” (“non-decision component”). un índice correspondiente a la calidad de información (“drift rate)

Cómo ver la variabilidad en un gráfico
La Mediana es el trazo grueso dentro de las cajas (entre los cuartiles primero y tercero). Las puntuaciones “atípicas” están presentadas individualmente (ver que hay dos tipos de datos atípicos). Observad que los controles son claramente diferentes a los pacientes en “boundary separation” y en el “non-decision component”, mientras que hay bastante más solapamiento en la “calidad de información”.

Cómo ver la asimetría en un gráfico
En el caso del “drift rate” (pacientes), la distancia entre el P75 y P50 es mucho menor que ente el P50 y el P25, lo que sugiere que hay asimetría positiva. P25 P50 P75 En el caso del “non-decision component” (pacientes), la distancia entre el P75 y P50 es mucho menor que ente el P50 y el P25, lo que sugiere que hay asimetría negativa.

Tema 3: Caracterización de grupos

Presentaciones similares

Presentación del tema: "Tema 3: Caracterización de grupos"— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback

Iniciar la sesión

Autorizarse a través de una red social:

Tema 3: Caracterización de grupos

Presentaciones similares

Presentación del tema: "Tema 3: Caracterización de grupos"— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback