“Exploración de datos” Asignatura: Metodologías de investigación Tema 6 “Exploración de datos”
Etapas de una investigación Análisis : tests estadísticos, ajuste de curvas , análisis multivariante Exploración de datos Obtención datos, calibrados, etc. Para hacer un buen análisis de datos hay que seguir sistematicamente unos pasos que no se deben omitir. Lo primero de todo es el diseño del experimento (plantearlo correctamente), viene luego la exploración exhaustiva de los datos y por último el análisis propiamente dicho. Veremos brevemente algunas ideas sobre el diseño de experimentos y luego nos centraremos en la exploración de datos que es el tema principal de esta charla. Diseño del experimento Antecedentes Bibliográficos
Reconocer los tipos de variables Variable cualitativa (categórica) Variable cuantitativa (de escala) Dolor ( 1= leve 2=moderado 3=severo ) Grupo sanguíneo (0, A, B, AB) Ordinal Nominal Continua Discreta Nº de fracturas (1 ,2 , 3,...,7,...) De intervalo (Temp. ºC) (-20, -10, 0, 10, 20) De razón (Temp. K) (0, 100, 200) En cuanto a las variables, éstas puede ser de dos tipos: Variable cuantitativa Dependiendo del tipo de variable podremos usar unas gráficas y tests stadísticos u otros.
Matriz de datos Exploración de datos Sexo Grup.S. P.Sistol. P. Diast. Nº fracturas Dolor Colesterol H A 13.5 8.8 2 1 140 M B 13.4 7.2 3 170 AB 16.3 7.8 120 13.8 6.8 4 135 14.7 8.3 270 9.3 7.3 240 12.8 7.9 150 O 10.8 8.2 210 350 …. Después de medir una serie de variables en una muestra, sus valores se recopilan en lo que se llama la matriz de datos. Los datos así presentados no nos dicen practicamente nada, habrá que tabularlos según su frecuencia, representarlos graficamente…etc. Todo esto dependerá del tipo de variable como se verá a continuación.
Tabulación frecuencias Exploración de datos Diagrama de barras (Con variables cualitativas: nominales u ordinales) Grupo Sanguineo Frecuencia absoluta Frecuencia relativa (%) Frecuencia acumulativa (%) 25 50 A 17 34 84 B 5 10 94 AB 3 6 100 (Nº sujetos) (Nº sujetos / Nº total)x100 Diagrama de sectores Y si la variable es cualitativa, ya sea ordinal o nominal (por ej. la nominal de “Grupo Sanguíneo”), los diagramas preferidos son también el de barras y sectores.
Tabulación frecuencias Exploración de datos (Con variables cuantitativas discretas) Nº Fracturas Frecuencia absoluta Frecuencia relativa (%) Frecuencia acumulativa (%) 11 22 1 13 26 48 2 9 18 66 3 7 14 80 4 10 20 100 Nº Fracturas 1 2 3 4 Si la variable es de tipo cuantitativa discreta, el procedimiento que se sigue es análogo, construyéndose
Barras y sectores Exploración de datos (Con variables cuantitativa discretas) Diagrama de barras Diagrama de sectores En el caso de que la variable sea cuantitativa discreta (por ej. Nº de fracturas) las gráficas que se utilizan son el diagrama de barras y el diagrama de sectores
Tabulación de frecuencias Exploración de datos (Con variable cuantitativa continua (de intervalo o razón)) (50 pacientes) Valores Se ordenan Intervalo de clase Centro intervalo Frecuencia absoluta Frecuencia relativa (en %) Frecuencia acumulada (en %) 9.30-10.13 9.72 1 2 10.13-10.96 10.55 4 10.96-11.79 11.38 3 6 10 11.79-12.62 12.21 8 16 26 12.62-13.45 13.04 11 22 48 13.45-14.28 13.87 9 18 66 14.28-15.11 14.7 12 78 15.11-15.94 15.53 7 14 92 15.94-16.77 16.36 96 16.77-17.60 17.19 100 P. Sist. 13.5 13.4 16.3 13.8 14.7 9.3 12.8 10.8 ….etc P. Sist. 9.3 10.8 11.0 11.1 11.8 12.1 12.3 ….etc Si la variable es cuantitativa continua
Histogramas Exploración de datos (Con variable cuantitativa continua (de intervalo o razón)) Histograma acumulado 7.5 12.5 20 Histograma normal Diagrama frecuencias acumulativas Mas ilustrativo incluso que la tabla de frecuencias por intervalos puede resultar algún tipo de gráfica, como es la representación de las frecuencias en un histograma normal, en un histograma acumulativo o en un diagrama de frecuencias acumulativas en escalones de escalera.
Índices de una distribución Exploración de datos (Con variable cuantitativa continua medida en la población) De tendencia central Mediana Mitad inferior Mitad superior De dispersión Para caracterizar una distribución de frecuencias existen varios índices. En el caso de una variable continua estos pueden ser de cuatro tipos: de tendencia central, de dispersión, de posición y de forma. Los de tendencia central son los conocidos como media, mediana y moda. Los de dispersión
Índices de una distribución Exploración de datos Índices de una distribución (Con variable cuantitativa continua medida en una muestra) De tendencia central Mediana Mitad inferior Mitad superior de la muestra De dispersión de la muestra o cuasi varianza de la muestra de la muestra o cuasi desviación estándar Para caracterizar una distribución de frecuencias existen varios índices. En el caso de una variable continua estos pueden ser de cuatro tipos: de tendencia central, de dispersión, de posición y de forma. Los de tendencia central son los conocidos como media, mediana y moda. Los de dispersión
Indices de una distribución Exploración de datos Indices de una distribución Índices de posición : 9.3,10.8,11.0,....12.6….13.0,13.3,13.3…..13.5,….14.0,14.1,14.3,…14.7….16.3,17.5,17.6 Cuartiles: valores que dividen a los datos en 4 partes iguales Se ordenan los valores de menor a mayor Q1=12.8 Q2=13.8 Q3=14.9 Recorrido intercuartílico: IQR = (Q3-Q1) Percentiles: son los valores que dividen a los datos en 100 partes iguales ( P20 significa que el 20 % de los valores están por debajo de ese valor) Hincapié : Q2 = Mediana = P50
Indices de una distribución Exploración de datos Indices de forma Coeficiente de Asimetría: (mide el sesgo (skew) de la distribución) Asimetría negativa Asimetría positiva Simetría Coeficiente de Curtosis: (mide el grado de aplanamiento) Platicúrtica Mesocúrtica (normal) Leptocúrtica (Basado en Domenech 1982, “Bioestadística”, Ed. Herder)
Diagramas de caja sencillos (Box-Whisker) Extremo superior mediana Extremo inferior Q1 Q3 Mas ilustrativo incluso que la tabla de frecuencias por intervalos puede resultar algún tipo de gráfica, como es la representación de las frecuencias en un histograma normal, en un histograma acumulativo o en un diagrama de frecuencias acumulativas en escalones de escalera.
Box-Whisker sirven ver sesgo distribución mediana Mas ilustrativo incluso que la tabla de frecuencias por intervalos puede resultar algún tipo de gráfica, como es la representación de las frecuencias en un histograma normal, en un histograma acumulativo o en un diagrama de frecuencias acumulativas en escalones de escalera. mediana
Diagramas de caja detallados Exploración de datos Diagramas de caja detallados Valores atípicos superiores (más de 1.5 IQR desde Q3) Valores atípicos inferiores (más de 1.5 IQR desde Q1) P. Sistólica 13.5 12.5 11.5 14.5 15.5 IQR = Q3-Q1 1.5 IQR Q1 Q3 Mediana Caja contiene el 50 % casos centrales Valor superior que no llega a ser atípico (adyacente superior) Valor inferior que no llega a ser atípico (adyacente inferior) (Whisker)
Densidad de frecuencia relativa Exploración de datos Densidad de frecuencia relativa Variable cuantitativa continua Intervalo de clase Centro intervalo Frecuencia absoluta Frecuencia relativa (en tanto por uno) Densidad Frecuencia relativa 9.30-10.13 9.72 1 0.02 0.024 0.83 10.13-10.96 10.55 1 0.02 0.024 10.96-11.79 11.38 3 0.06 0.072 11.79-12.62 12.21 8 0.16 0.19 12.62-13.45 13.04 11 0.22 0.27 13.45-14.28 13.87 9 0.18 0.22 Hasta ahora hemos hablado de histogramas, veamos como se pasa de un histograma a la llamada función de densidad de probabilidad. 14.28-15.11 14.7 6 0.12 0.14 15.11-15.94 15.53 7 0.14 0.17 15.94-16.77 16.36 2 0.04 0.048 16.77-17.60 17.19 2 0.04 0.048
De histograma a función de densidad de probabilidad Exploración de datos De histograma a función de densidad de probabilidad uno Densidad de frecuencia relativa Densidad de frecuencia relativa Curva o función de densidad de probabilidad (pdf) : uno Hasta ahora hemos hablado de histogramas, veamos como se pasa de un histograma a la llamada función de densidad de probabilidad. Densidad de frecuencia relativa
Funciones pdf y cdf pdf a/2 a/2 cdf Exploración de datos Area bajo la curva = 1 pdf probability density fuction comulative density fuction a/2 a/2 cdf
¿Cómo saber qué distribución siguen mis datos? SIMFIT > Statistics > Standard statistical tests > 1-sample Kolmogorov-Smirnov test Entre las funciones de distribución de probabilidad, la más importante es la distribución normal o Gaussiana. Se
Prueba de que unos datos siguen una distribución normal P > 0.05 (2 colas) Datos sí que siguen una distribución normal Entre las funciones de distribución de probabilidad, la más importante es la distribución normal o Gaussiana. Se
Cálculo de límites de confianza (SIMFIT) Statistics > Statistical calculations > Estimate parameter confidence limits
Cálculo de límites de confianza (SIMFIT) Número de sujetos: n = 20 Media en la muestra: Desviación estandar muestra: % de confianza: 95 Ejemplo: 13.1-------15.0------16.9 15.0 1.9 O también:
Tabla de frecuencias con 2 variables de 50 pacientes de Salamanca Análisis de 2 variables Exploración de datos Tabla de frecuencias con 2 variables de 50 pacientes de Salamanca P.Dias. P.Sist. 5.95-6.54 6.54-7.12 7.12-7.71 7.71-8.29 8.29-8.88 8.88-9.46 9.46-10.05 10.45-11.46 + 11.46-12.48 ++ 12.48-13.49 +++ 13.49-14.51 ++++++ 14.51-15.52 ++++ 15.52-16.54 16.54-17.55 Hasta ahora nos hemos referido siempre a datos de frecuencia de una variable. En el caso de 2 variables el tratamiento sería análogo. Un ejemplo podría ser las presiones diastólica y sistólica de un grupo de pacientes. Se podría construir una tabla de frecuencias bivariante como la que aparece en la diapositiva. Esta tabla muestra claramente que hay una correlación entre las dos presiones.
Análisis de 2 variables Exploración de datos Diagrama de dispersión con 2 variables cuantitativas ¿Están asociadas las 2 variables? Otro método de analizar 2 variables es hacer un gráfico de dispersión como el que aparece en la figura adjunta. De nuevo se aprecia aquí una clara correlación entre las 2 variables.
Diferencia entre correlación y regresión Aborda la relación entre dos variables cuantitativas (y, x), las dos aleatorias (ej: altura y peso de una persona). El grado de relación lineal se mide con el coeficiente de correlación de Pearson (r) y las líneas que mejor describen la relación entre las dos variables son la recta de regresión de “y” sobre “x” y la de “x” sobre “y”. Correlación Aborda el problema de la relación entre dos variables cuantitativas (y, x), pero ahora una variable es aleatoria (y) y la otra controlada (x) (ej. Absorbancia-[patrón]) (Se considera que [patrón] no lleva error) En este caso la importante es la recta de regresión de “y” sobre “x”, ya que permite evaluar el valor de la variable aleatoria en función del valor de la variable controlada y viceversa (predicción inversa). Regresión Otro método de analizar 2 variables es hacer un gráfico de dispersión como el que aparece en la figura adjunta. De nuevo se aprecia aquí una clara correlación entre las 2 variables.
Definición coeficiente de correlación La correlación lineal entre 2 variables se mide con el llamado coeficiente de correlación de Pearson, que se calcula con la expresión:
Dos rectas de regresión Exploración de datos Recta de regresión de y sobre x: Recta de regresión de x sobre y: Coeficiente de correlación Pearson: Y así otras muchas distribuciones como la distribución de Poisson, Ji-cuadrado…etc Test de independencia (no correlación):
Interpretación gráfica del coeficiente de correlación Correlación positiva Cuanto más cerca de 1 mayor correlación positiva Correlación nula Cuanto más cerca de 0 menor correlación Correlación negativa Cuanto más cerca de -1 mayor correlación negativa Otro método de analizar 2 variables es hacer un gráfico de dispersión como el que aparece en la figura adjunta. De nuevo se aprecia aquí una clara correlación entre las 2 variables.
Coeficiente de determinación (r2) Coeficiente de correlación en una recta: Coeficiente de determinación en una recta: (Va de 0 a 1) (Va de -1 a 1) Otro método de analizar 2 variables es hacer un gráfico de dispersión como el que aparece en la figura adjunta. De nuevo se aprecia aquí una clara correlación entre las 2 variables. r2 es la fracción de la varianza total de “y” que es explicada por “x”. Por ejemplo: una r2 de 0.82 significa que un 82 % de la varianza total en “y” es explicada por la recta de regresión lineal de y sobre x.
Existen correlaciones no lineales Obviamente los puntos no están relacionados linealmente radio2
Caso práctico de exploración de datos 50 pacientes de Salamanca antes y después de tratamiento P. sist. antes P.diast.antes P. sist. después P. diast. después 14.0 6.5 6.0 12.5 8.0 16.0 9.0 15.0 7.5 7.0 18.0 12.0 11.0 11.5 13.0 ….etc …etc Veamos como analizar los datos de una matriz de varios casos y varias variables, por ejemplo una matriz de datos de una muestra de 50 pacientes de Salamanca
Exploración de datos Resumen por columnas (caso práctico 6)
Análisis de una matriz (caso práctico 6) Exploración de datos Diagrama de barras y errores Diagrama de caja
Correlación entre variables Exploración de datos Correlación entre variables (caso práctico 6) 1 con 2 Triángulo superior = r Inferior = valor "p" de 2 colas 1 2 3 4 1 ..... 0.3354 0.5351 0.1511 2 0.0173 ..... 0.2089 0.5040 3 0.0001 0.1454 ..... 0.5047 4 0.2948 0.0002 0.0002 ..... 2 con 4 3 con 4 1 con 3
Análisis exhaustivo de una columna (caso práctico 6) Análisis exhaustivo de una columna (50 ancianos) Presión Sistólica 14.0 12.5 16.5 15.0 12.0 13.5 …. Desde un punto de vista práctico veamos por ejemplo como analiza SIMFIT un vector de datos, por ejemplo las presiones sistólicas de una muestra de ancianos
Histograma de una columna (caso práctico 6) Histograma de una columna (50 pacientes) Presión Sistólica 14.0 12.5 16.5 15.0 12.0 13.5 …. Desde un punto de vista práctico veamos por ejemplo como analiza SIMFIT un vector de datos, por ejemplo las presiones sistólicas de una muestra de ancianos
Tests de normalidad p > 0.05 p > 0.05 (ejemplo) Exploración de datos Tests de normalidad (ejemplo) Kolmogorov-Smirnov test p > 0.05 Acepte normalidad p > 0.05 Acepte normalidad
Histogramas y normalidad Exploración de datos Histogramas y normalidad (caso práctico 6) Histograma y pdf normal Escalones y cdf normal
Tests de igualdad de varianzas Exploración de datos Tests de igualdad de varianzas (caso práctico 6)
Tests de igualdad de varianzas Exploración de datos Tests de igualdad de varianzas (caso práctico 6)
Tests de igualdad de varianzas Exploración de datos Tests de igualdad de varianzas (caso práctico 6) Utilizando “paste” de Simfit se importan las 2 columnas deseadas (por ej. 1 y 2) y se obtiene el siguiente resultado: