T IPIFICACIÓN – ASIMETRÍA - APUNTAMIENTO Pedro Godoy Gómez Profesor Bioestadística
Tipificación Se conoce por tipificación al proceso de restar la media y dividir por su desviación típica a una variable X. De este modo se obtiene una nueva variable de media y viación típica, que denominamos variable tipificada.
Esta nueva variable carece de unidades y permite hacer comparables dos medidas que en un principio no lo son. Así por ejemplo nos podemos preguntar si un elefante es más grueso que una hormiga determinada, cada uno en relación a su población. También es aplicable al caso en que se quieran comparar individuos semejantes de poblaciones diferentes. Por ejemplo si deseamos comparar el nivel académico de dos estudiantes de diferentes Universidades para la concesión de una beca de estudios, en principio sería injusto concederla directamente al que posea una nota media más elevada, ya que la dificultad para conseguir una buena calificación puede ser mucho mayor en un lugar que en el otro, lo que limita las posibilidades de uno de los estudiante y favorece al otro. En este caso, lo más correcto es comparar las calificaciones de ambos estudiantes, pero tipificadas cada una de ellas por las medias y desviaciones típicas respectivas de las notas de los alumnos de cada Universidad
Ejemplo Supongamos que un médico en España cobra $ 2300 y otro de China cobra $1400, ¿Qué médico cobra más? Como no es posible saber quien cobra más solo por los valores anteriores, ya que no sabemos lo que equivalen cada uno de estos montos en sus respectivos países. Para poder compararlos necesitamos los sueldos medios de cada uno de los países y sus desviaciones estándar. Supongamos que el sueldo medio en España es de $1250 con = 320, mientras que en China el sueldo medio es de $620 con = 110 Esto nos indica que el médico Chino cobra más que el médico Español.
En el cuarto medio A quien obtiene 672 puntos está 0,39 veces bajo la mientras que en el cuarto medio B está 0,027 veces sobre . alumnopuntajevalor Z alumnopuntajevalor Z , , , , , , , , , , , , , , , , , , , , media701,3 media670,6 desv estand74, desv estand50, cv0, cv0, El valor Z es el número de a la izquierda o la derecha.
alumnopuntajevalor Zcomparacion alumnopuntajevalor Zcomparacion , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , media701,3 media670,6 desv estand74, desv estand50, cv0, cv0, La columna de comparación nos indica que 532 puntos en A equivalen a 555 puntos en B. Permite comparar un puntaje con otro.
edadZ edadsexo presion sistolica Z presion sistolica presion diostólica Z presion diestolica colesterol Z colesterol alturaZ alturamasaZ masa ataque ( 0 no, 1 si) estado de salud 45-0,07mujer124-0,0480-0, ,131760,3086,181, ,91mujer110-0,8270-1, ,431830,6197,982, ,71hombre114-0,680-0, ,591710,0880,740, ,05hombre100-1,3880-0, ,491710,0867,59-0, ,07mujer1903,661102,513150,181710,0882,550, ,24mujer1300,3880, ,211760,3083,910, ,57mujer1300,3941, ,191710,0873,03-0, ,72hombre110-0,8274-0,743841, ,0579,380, ,26mujer120-0,2680-0,203100, ,2265,32-1, ,91hombre120-0,2680-0,203370, ,0158,97-1, ,38mujer1300,380-0,203671,291740,2173,48-0, ,07mujer120-0,26900, ,721710,0879,380, ,07hombre1300,375-0, , ,1470,31-0, ,72hombre120-0,2680-0,203140,151860,7470,76-0, ,4mujer115-0,5470-1, ,3665-4,5568,49-0, ,05mujer1400,86900,703410,731860,7476,20, ,05mujer1380,7580-0, ,321760,3083,910, ,24hombre115-0,5482-0, ,11740,2170,36-0, ,59mujer1481,311102, ,11740,2168,12-0, ,07hombre120-0,2670-1,103861, ,1466,23-1, ,24mujer110-0,8270-1,103120,111790,4377,110, ,38mujer1320,41900, ,11740,2173-0, ,26hombre112-0,7180-0,203941,861740,2175,750, ,57hombre114-0,670-1,103581,091740,2189,711,580 media45,21124,6782,21306,79169,1375,77 disv estand3,0517,8511,0546,8222,898,83
Los valores atípicos en un conjunto de datos son aquellos que son mucho mayores o mucho menores que el resto de valores. Hay diferentes criterios para definir que se entiende por mucho mayor o mucho menor, pero aquí en el curso utilizaremos un criterio basado en los cuartiles. VALORES ATIPICOS Consideraremos valores atípicos por exceso a aquellos que sean mayores al tercer cuartíl ( Q3) mas 1;5 veces el rango intercuartílico ( R:I:C:) y valores atípicos por defecto a aquellos que sean menores al primer cuartíl ( Q1) menos 1;5 veces el rango intercuartílico (R:I:C:). Así, en general, podemos decir que son valores atípicos son todos los que no se encuentren en el intervalo:
A continuación se muestra un conjunto de datos. Determine si tiene o no valores atípicos No hay valores fuera del intervalo, por lo que no hay valores atípicos.
Diagrama de cajas: Aun así nos puede ser suficiente con una representación todavía mas esquemática de como se distribuyen los datos, en ese caso se puede optar por un Diagrama de cajas. En este aparece en la parte central una caja cuyos extremos están delimitados por el primer y tercer cuartíl, mientras que la mediana aparece como una línea que divide la caja anterior. A su vez los llamados bigotes de la caja, aparecen unidos por un segmento que cruza la caja anterior y que da una idea aproximada del rango de los datos. Hay diferentes criterios para representar los bigotes, pero el que estudiaremos en este curso sera el que se detalla a continuación:
el bigote inferior representara o bien 1;5 veces el R.I.C. por debajo del primer cuartíl o bien el valor mínimo si este no es un valor atípico; y el bigote superior representara o bien 1;5 veces el R.I.C. por encima del tercer cuartíl o bien el valor máximo si este no es un valor atípico. Si hay valores atípicos en el conjunto de datos, se representan mediante puntos aislados fuera del diagrama. Nuevamente, los detalles de cada uno de las representaciones anteriores (orientación horizontal/vertical de la representación, colores,...) se dejan a la elección del usuario en función de las características de los datos y los requerimientos de la información que se quiera representar.
A continuación representaremos los datos anteriores ( estaturas) en un diagrama de cajas.
Asimetría