“Exploración de datos”

Slides:



Advertisements
Presentaciones similares
Un criterio para detectar outliers. Otro criterio para detectar errores groseros (outliers)
Advertisements

“ENLACE UNET - HOSPITAL CENTRAL A TRAVÉS DEL ÁREA DE ESTADÍSTICA” San Cristóbal 27 de Mayo del 2005.
JESUS MELENDEZ SUAREZ. ESTADISTICA Recoge ordena y agrupa datos para plasmarlos en graficas o tablas para ser analízalas finalmente ESTADISTICA DESCRIPTIVA:
BIOESTADÍSTICA Y ESTADÍSTICA BÁSICA CHILLÁN, SEGUNDO SEMESTRE PROF. SOC. M© KEVIN VILLEGAS.
Rodrigo Ferrer Urbina Universidad de Tarapacá.  Una distribución (empírica) son todos los valores que aparecen en la medición realizada (todas las observaciones).
ESTADÍSTICA ÍNDICE 1.Introducción.Introducción. 2.Población y muestra.Población y muestra. 3.Variables estadísticas:Variables estadísticas: Cualitativas.
Capítulo 1.4: Distribución de frecuencias unidimensionales Introducción Descripción numérica Representación gráfica.
TEMA 1: TEMA 1: INTRODUCCIÓN A LA ESTADÍSTICA Por: Denise Muñoz Belmonte Claudia Morales Cerezuela.
ESTADÍSTICAS DESCRIPTIVAS TEORÍA DE LA CORRELACIÓN Psic. Gerardo A. Valderrama M.
Bioestadística Escala Cuantitativa.. Trabajadores en una fábrica. RegistroSexoEdad (años)Talla (m)Peso (kg) 1Fem Masc Masc
TEMA 3. ESTADÍSTICA BIDIMENSIONAL. INDICE 1.- Relación estadística: correlación 2.- Diagramas de dispersión o nube de puntos 3.- Tablas de frecuencia.
Estadística inferencial. ¿Qué es? La Estadística inferencial o Inferencia estadística estudia cómo sacar conclusiones generales para toda la población.
TEMA 2: PARÁMETROS ESTADÍSTICOS. INDICE 1. Parámetros estadísticos: 1.1 Definición 1.2 Medidas de Centralización: Medias, moda y Mediana 1.3 Medidas de.
ESTADÍSTICAS DESCRIPTIVAS REPRESENTACIONES GRÁFICAS Psic. Gerardo A. Valderrama M:
PPTCES046MT22-A16V1 Clase Medidas de tendencia central y posición MT-22.
Tipo de frecuencia que indica el número de veces que la variable toma un valor determinado. absoluta.
Tema 2. Parámetros estadísticos. Indice 1. Parámetros estadísticos. Tipos: 1.1 Medidas de centralización(medias y moda) 1.2 Medidas de posición(mediana,
PERCENTILES, CUARTILES Y DECILES. Un percentil es una de las llamadas medidas de posición no central (cuartiles, deciles, percentiles, etc) que se puede.
Carrera de Administración Área Recursos Humanos Diseñó: Arturo Corona PeguerosEne-abr 17 Medidas de Medidas de Tendencia Central Tendencia Central Medidas.
Epidemiología y estadística descriptivas e indicadores
METODOLOGÍA DE INVESTIGACIÓN SOCIAL
Distribuciones bidimensionales: Relación entre dos variables estadísticas Tema 3:
Facultad de Ciencias Sociales
02 - Estudio Exploratorio de Datos: Univariable y Multivariable
MEDIDAS DE FORMA ASIMETRIA Y CURTOSIS..
EMPRESA PEVISA GASKETS
UNIVERSIDAD DE COSTA RICA Sistema de Estudios de Posgrado
ESTADÍSTICA UNIDIMENSIONAL
METODOLOGÍA Y TÉCNICAS DE INVESTIGACIÓN EN CIENCIAS SOCIALES
METODOLOGÍA Y TÉCNICAS DE INVESTIGACIÓN EN CIENCIAS SOCIALES
ANÁLISIS E INTERPRETACIÓN DE DATOS
TEMA 6 : DISTRIBUCIONES ESTADÍSTICAS.
Análisis y diseño de experimentos
Clase 2: Organización y Representación de Datos
Clase 5: Medidas de Variación
ESTADÍSTICA UNIDIMENSIONAL
ASIMETRÍA.
REGRESIÓN LINEAL SIMPLE
GRÁFICOS EN ESTADÍSTICA
Estadística social fundamental
VARIABLE INDEPENDIENTE Cualitativa dicotómica
Aplicaciones Estadísticas a las Finanzas
UNIVERSIDAD DE GUAYAQUIL FACULTAD DE CIENCIAS ADMINISTRATIVAS
ESTADÍSTICA BÁSICA.
Cuartiles, deciles, percentiles.
Introducción a la Estadística Descriptiva
Análisis descriptivo A.F.C. Naturaleza de las variables VARIABLES ESCALARES (CUANTITATIVAS) CONTINUAS T°: 36.5°C Utiliza decimales DISCRETAS 1 SUJETO.
ESTADÍSTICA DESCRIPTIVA
DISEÑO Y ANALISIS DE EXPERIMENTOS
ADMINISTRACION DE LA PRODUCCION Y CALIDAD
PROBABILIDAD Y ESTADISTICA APLICADA A LOS NEGOCIOS
DISEÑO Y ANALISIS DE EXPERIMENTOS
EQUIPO 5.
Estadística Administrativa II
REGRESIÓN LINEAL SIMPLE
Bioestadística Francisco Javier Barón López Dpto. Medicina Preventiva
Estadística Descriptiva
Dr. Carlomagno Araya Alpízar
Dr. Alejandro Salazar – El Colegio de Sonora
MATEMÁTICAS APLICADAS A LAS CIENCIAS SOCIALES I 1º BTO A
Tema 7b Tests estadísticos habituales (con variable cualitativa)
ESTADISTICA DESCRIPTIVA
DOCTORADO EN EDUCACION
Contraste de hipótesis
Estadística Descriptiva
Regresión Logística App4stats © Todos los derechos reservados.
METODOLOGÍA Y TÉCNICAS DE INVESTIGACIÓN EN CIENCIAS SOCIALES
ANALISIS DE REGRESION SIMPLE
DISEÑO Y ANALISIS DE EXPERIMENTOS
REGRESION LINEAL SIMPLE
Transcripción de la presentación:

“Exploración de datos” Asignatura: Metodologías de investigación Tema 6 “Exploración de datos”

Etapas de una investigación Análisis : tests estadísticos, ajuste de curvas , análisis multivariante Exploración de datos Obtención datos, calibrados, etc. Para hacer un buen análisis de datos hay que seguir sistematicamente unos pasos que no se deben omitir. Lo primero de todo es el diseño del experimento (plantearlo correctamente), viene luego la exploración exhaustiva de los datos y por último el análisis propiamente dicho. Veremos brevemente algunas ideas sobre el diseño de experimentos y luego nos centraremos en la exploración de datos que es el tema principal de esta charla. Diseño del experimento Antecedentes Bibliográficos

Reconocer los tipos de variables Variable cualitativa (categórica) Variable cuantitativa (de escala) Dolor ( 1= leve 2=moderado 3=severo ) Grupo sanguíneo (0, A, B, AB) Ordinal Nominal Continua Discreta Nº de fracturas (1 ,2 , 3,...,7,...) De intervalo (Temp. ºC) (-20, -10, 0, 10, 20) De razón (Temp. K) (0, 100, 200) En cuanto a las variables, éstas puede ser de dos tipos: Variable cuantitativa Dependiendo del tipo de variable podremos usar unas gráficas y tests stadísticos u otros.

Matriz de datos Exploración de datos Sexo Grup.S. P.Sistol. P. Diast. Nº fracturas Dolor Colesterol H A 13.5 8.8 2 1 140 M B 13.4 7.2 3 170 AB 16.3 7.8 120 13.8 6.8 4 135 14.7 8.3 270 9.3 7.3 240 12.8 7.9 150 O 10.8 8.2 210 350 …. Después de medir una serie de variables en una muestra, sus valores se recopilan en lo que se llama la matriz de datos. Los datos así presentados no nos dicen practicamente nada, habrá que tabularlos según su frecuencia, representarlos graficamente…etc. Todo esto dependerá del tipo de variable como se verá a continuación.

Tabulación frecuencias Exploración de datos Diagrama de barras (Con variables cualitativas: nominales u ordinales) Grupo Sanguineo Frecuencia absoluta Frecuencia relativa (%) Frecuencia acumulativa (%) 25 50 A 17 34 84 B 5 10 94 AB 3 6 100 (Nº sujetos) (Nº sujetos / Nº total)x100 Diagrama de sectores Y si la variable es cualitativa, ya sea ordinal o nominal (por ej. la nominal de “Grupo Sanguíneo”), los diagramas preferidos son también el de barras y sectores.

Tabulación frecuencias Exploración de datos (Con variables cuantitativas discretas) Nº Fracturas Frecuencia absoluta Frecuencia relativa (%) Frecuencia acumulativa (%) 11 22 1 13 26 48 2 9 18 66 3 7 14 80 4 10 20 100 Nº Fracturas 1 2 3 4 Si la variable es de tipo cuantitativa discreta, el procedimiento que se sigue es análogo, construyéndose

Barras y sectores Exploración de datos (Con variables cuantitativa discretas) Diagrama de barras Diagrama de sectores En el caso de que la variable sea cuantitativa discreta (por ej. Nº de fracturas) las gráficas que se utilizan son el diagrama de barras y el diagrama de sectores

Tabulación de frecuencias Exploración de datos (Con variable cuantitativa continua (de intervalo o razón)) (50 pacientes) Valores Se ordenan Intervalo de clase Centro intervalo Frecuencia absoluta Frecuencia relativa (en %) Frecuencia acumulada (en %) 9.30-10.13 9.72 1 2 10.13-10.96 10.55 4 10.96-11.79 11.38 3 6 10 11.79-12.62 12.21 8 16 26 12.62-13.45 13.04 11 22 48 13.45-14.28 13.87 9 18 66 14.28-15.11 14.7 12 78 15.11-15.94 15.53 7 14 92 15.94-16.77 16.36 96 16.77-17.60 17.19 100 P. Sist. 13.5 13.4 16.3 13.8 14.7 9.3 12.8 10.8 ….etc P. Sist. 9.3 10.8 11.0 11.1 11.8 12.1 12.3 ….etc Si la variable es cuantitativa continua

Histogramas Exploración de datos (Con variable cuantitativa continua (de intervalo o razón)) Histograma acumulado 7.5 12.5 20 Histograma normal Diagrama frecuencias acumulativas Mas ilustrativo incluso que la tabla de frecuencias por intervalos puede resultar algún tipo de gráfica, como es la representación de las frecuencias en un histograma normal, en un histograma acumulativo o en un diagrama de frecuencias acumulativas en escalones de escalera.

Índices de una distribución Exploración de datos (Con variable cuantitativa continua medida en la población) De tendencia central Mediana Mitad inferior Mitad superior De dispersión Para caracterizar una distribución de frecuencias existen varios índices. En el caso de una variable continua estos pueden ser de cuatro tipos: de tendencia central, de dispersión, de posición y de forma. Los de tendencia central son los conocidos como media, mediana y moda. Los de dispersión

Índices de una distribución Exploración de datos Índices de una distribución (Con variable cuantitativa continua medida en una muestra) De tendencia central Mediana Mitad inferior Mitad superior de la muestra De dispersión de la muestra o cuasi varianza de la muestra de la muestra o cuasi desviación estándar Para caracterizar una distribución de frecuencias existen varios índices. En el caso de una variable continua estos pueden ser de cuatro tipos: de tendencia central, de dispersión, de posición y de forma. Los de tendencia central son los conocidos como media, mediana y moda. Los de dispersión

Indices de una distribución Exploración de datos Indices de una distribución Índices de posición : 9.3,10.8,11.0,....12.6….13.0,13.3,13.3…..13.5,….14.0,14.1,14.3,…14.7….16.3,17.5,17.6 Cuartiles: valores que dividen a los datos en 4 partes iguales Se ordenan los valores de menor a mayor Q1=12.8 Q2=13.8 Q3=14.9 Recorrido intercuartílico: IQR = (Q3-Q1) Percentiles: son los valores que dividen a los datos en 100 partes iguales ( P20 significa que el 20 % de los valores están por debajo de ese valor) Hincapié : Q2 = Mediana = P50

Indices de una distribución Exploración de datos Indices de forma Coeficiente de Asimetría: (mide el sesgo (skew) de la distribución) Asimetría negativa Asimetría positiva Simetría Coeficiente de Curtosis: (mide el grado de aplanamiento) Platicúrtica Mesocúrtica (normal) Leptocúrtica (Basado en Domenech 1982, “Bioestadística”, Ed. Herder)

Diagramas de caja sencillos (Box-Whisker) Extremo superior mediana Extremo inferior Q1 Q3 Mas ilustrativo incluso que la tabla de frecuencias por intervalos puede resultar algún tipo de gráfica, como es la representación de las frecuencias en un histograma normal, en un histograma acumulativo o en un diagrama de frecuencias acumulativas en escalones de escalera.

Box-Whisker sirven ver sesgo distribución mediana Mas ilustrativo incluso que la tabla de frecuencias por intervalos puede resultar algún tipo de gráfica, como es la representación de las frecuencias en un histograma normal, en un histograma acumulativo o en un diagrama de frecuencias acumulativas en escalones de escalera. mediana

Diagramas de caja detallados Exploración de datos Diagramas de caja detallados Valores atípicos superiores (más de 1.5 IQR desde Q3) Valores atípicos inferiores (más de 1.5 IQR desde Q1) P. Sistólica 13.5 12.5 11.5 14.5 15.5 IQR = Q3-Q1 1.5 IQR Q1 Q3 Mediana Caja contiene el 50 % casos centrales Valor superior que no llega a ser atípico (adyacente superior) Valor inferior que no llega a ser atípico (adyacente inferior) (Whisker)

Densidad de frecuencia relativa Exploración de datos Densidad de frecuencia relativa Variable cuantitativa continua Intervalo de clase Centro intervalo Frecuencia absoluta Frecuencia relativa (en tanto por uno) Densidad Frecuencia relativa 9.30-10.13 9.72 1 0.02 0.024 0.83 10.13-10.96 10.55 1 0.02 0.024 10.96-11.79 11.38 3 0.06 0.072 11.79-12.62 12.21 8 0.16 0.19 12.62-13.45 13.04 11 0.22 0.27 13.45-14.28 13.87 9 0.18 0.22 Hasta ahora hemos hablado de histogramas, veamos como se pasa de un histograma a la llamada función de densidad de probabilidad. 14.28-15.11 14.7 6 0.12 0.14 15.11-15.94 15.53 7 0.14 0.17 15.94-16.77 16.36 2 0.04 0.048 16.77-17.60 17.19 2 0.04 0.048

De histograma a función de densidad de probabilidad Exploración de datos De histograma a función de densidad de probabilidad uno Densidad de frecuencia relativa Densidad de frecuencia relativa Curva o función de densidad de probabilidad (pdf) : uno Hasta ahora hemos hablado de histogramas, veamos como se pasa de un histograma a la llamada función de densidad de probabilidad. Densidad de frecuencia relativa

Funciones pdf y cdf pdf a/2 a/2 cdf Exploración de datos Area bajo la curva = 1 pdf probability density fuction comulative density fuction a/2 a/2 cdf

¿Cómo saber qué distribución siguen mis datos? SIMFIT > Statistics > Standard statistical tests > 1-sample Kolmogorov-Smirnov test Entre las funciones de distribución de probabilidad, la más importante es la distribución normal o Gaussiana. Se

Prueba de que unos datos siguen una distribución normal P > 0.05 (2 colas) Datos sí que siguen una distribución normal Entre las funciones de distribución de probabilidad, la más importante es la distribución normal o Gaussiana. Se

Cálculo de límites de confianza (SIMFIT) Statistics > Statistical calculations > Estimate parameter confidence limits

Cálculo de límites de confianza (SIMFIT) Número de sujetos: n = 20 Media en la muestra: Desviación estandar muestra: % de confianza: 95 Ejemplo: 13.1-------15.0------16.9 15.0 1.9 O también:

Tabla de frecuencias con 2 variables de 50 pacientes de Salamanca Análisis de 2 variables Exploración de datos Tabla de frecuencias con 2 variables de 50 pacientes de Salamanca P.Dias. P.Sist. 5.95-6.54 6.54-7.12 7.12-7.71 7.71-8.29 8.29-8.88 8.88-9.46 9.46-10.05 10.45-11.46 + 11.46-12.48 ++ 12.48-13.49 +++ 13.49-14.51 ++++++ 14.51-15.52 ++++ 15.52-16.54 16.54-17.55 Hasta ahora nos hemos referido siempre a datos de frecuencia de una variable. En el caso de 2 variables el tratamiento sería análogo. Un ejemplo podría ser las presiones diastólica y sistólica de un grupo de pacientes. Se podría construir una tabla de frecuencias bivariante como la que aparece en la diapositiva. Esta tabla muestra claramente que hay una correlación entre las dos presiones.

Análisis de 2 variables Exploración de datos Diagrama de dispersión con 2 variables cuantitativas ¿Están asociadas las 2 variables? Otro método de analizar 2 variables es hacer un gráfico de dispersión como el que aparece en la figura adjunta. De nuevo se aprecia aquí una clara correlación entre las 2 variables.

Diferencia entre correlación y regresión Aborda la relación entre dos variables cuantitativas (y, x), las dos aleatorias (ej: altura y peso de una persona). El grado de relación lineal se mide con el coeficiente de correlación de Pearson (r) y las líneas que mejor describen la relación entre las dos variables son la recta de regresión de “y” sobre “x” y la de “x” sobre “y”. Correlación Aborda el problema de la relación entre dos variables cuantitativas (y, x), pero ahora una variable es aleatoria (y) y la otra controlada (x) (ej. Absorbancia-[patrón]) (Se considera que [patrón] no lleva error) En este caso la importante es la recta de regresión de “y” sobre “x”, ya que permite evaluar el valor de la variable aleatoria en función del valor de la variable controlada y viceversa (predicción inversa). Regresión Otro método de analizar 2 variables es hacer un gráfico de dispersión como el que aparece en la figura adjunta. De nuevo se aprecia aquí una clara correlación entre las 2 variables.

Definición coeficiente de correlación La correlación lineal entre 2 variables se mide con el llamado coeficiente de correlación de Pearson, que se calcula con la expresión:

Dos rectas de regresión Exploración de datos Recta de regresión de y sobre x: Recta de regresión de x sobre y: Coeficiente de correlación Pearson: Y así otras muchas distribuciones como la distribución de Poisson, Ji-cuadrado…etc Test de independencia (no correlación):

Interpretación gráfica del coeficiente de correlación Correlación positiva Cuanto más cerca de 1 mayor correlación positiva Correlación nula Cuanto más cerca de 0 menor correlación Correlación negativa Cuanto más cerca de -1 mayor correlación negativa Otro método de analizar 2 variables es hacer un gráfico de dispersión como el que aparece en la figura adjunta. De nuevo se aprecia aquí una clara correlación entre las 2 variables.

Coeficiente de determinación (r2) Coeficiente de correlación en una recta: Coeficiente de determinación en una recta: (Va de 0 a 1) (Va de -1 a 1) Otro método de analizar 2 variables es hacer un gráfico de dispersión como el que aparece en la figura adjunta. De nuevo se aprecia aquí una clara correlación entre las 2 variables. r2 es la fracción de la varianza total de “y” que es explicada por “x”. Por ejemplo: una r2 de 0.82 significa que un 82 % de la varianza total en “y” es explicada por la recta de regresión lineal de y sobre x.

Existen correlaciones no lineales Obviamente los puntos no están relacionados linealmente radio2

Caso práctico de exploración de datos 50 pacientes de Salamanca antes y después de tratamiento P. sist. antes P.diast.antes P. sist. después P. diast. después 14.0 6.5 6.0 12.5 8.0 16.0 9.0 15.0 7.5 7.0 18.0 12.0 11.0 11.5 13.0 ….etc …etc Veamos como analizar los datos de una matriz de varios casos y varias variables, por ejemplo una matriz de datos de una muestra de 50 pacientes de Salamanca

Exploración de datos Resumen por columnas (caso práctico 6)

Análisis de una matriz (caso práctico 6) Exploración de datos Diagrama de barras y errores Diagrama de caja

Correlación entre variables Exploración de datos Correlación entre variables (caso práctico 6) 1 con 2 Triángulo superior = r Inferior = valor "p" de 2 colas 1 2 3 4 1 ..... 0.3354 0.5351 0.1511 2 0.0173 ..... 0.2089 0.5040 3 0.0001 0.1454 ..... 0.5047 4 0.2948 0.0002 0.0002 ..... 2 con 4 3 con 4 1 con 3

Análisis exhaustivo de una columna (caso práctico 6) Análisis exhaustivo de una columna (50 ancianos) Presión Sistólica 14.0 12.5 16.5 15.0 12.0 13.5 …. Desde un punto de vista práctico veamos por ejemplo como analiza SIMFIT un vector de datos, por ejemplo las presiones sistólicas de una muestra de ancianos

Histograma de una columna (caso práctico 6) Histograma de una columna (50 pacientes) Presión Sistólica 14.0 12.5 16.5 15.0 12.0 13.5 …. Desde un punto de vista práctico veamos por ejemplo como analiza SIMFIT un vector de datos, por ejemplo las presiones sistólicas de una muestra de ancianos

Tests de normalidad p > 0.05 p > 0.05 (ejemplo) Exploración de datos Tests de normalidad (ejemplo) Kolmogorov-Smirnov test p > 0.05 Acepte normalidad p > 0.05 Acepte normalidad

Histogramas y normalidad Exploración de datos Histogramas y normalidad (caso práctico 6) Histograma y pdf normal Escalones y cdf normal

Tests de igualdad de varianzas Exploración de datos Tests de igualdad de varianzas (caso práctico 6)

Tests de igualdad de varianzas Exploración de datos Tests de igualdad de varianzas (caso práctico 6)

Tests de igualdad de varianzas Exploración de datos Tests de igualdad de varianzas (caso práctico 6) Utilizando “paste” de Simfit se importan las 2 columnas deseadas (por ej. 1 y 2) y se obtiene el siguiente resultado: