La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

ANÁLISIS EXPLORATORIO DE DATOS

Presentaciones similares


Presentación del tema: "ANÁLISIS EXPLORATORIO DE DATOS"— Transcripción de la presentación:

1 ANÁLISIS EXPLORATORIO DE DATOS
JOSÉ LUIS CUELLAR TRUJILLO

2 COMPARACIÓN DE LOS ENFOQUES DE ANALISIS (BERTRAND)
ANÁLISIS EXPLORATIVO ANÁLISIS CONFIRMATIVO Enfoque descriptivo. Indica la hipotesis a probar. Usa Eestadisticos. Plan de investigación flexible y poco definido. Usa los datos definidos. Privilegia la representación grafica. Tiene vision intuitiva de los datos. Semeja una investigación policial. Enfoque inferencial. Prueba hipotesis. Usa estadisticos. Plan de investigación riguroso y bien definido. Usa datos sin error (ideal). Poca importancia a la representación grafica. Tiene una visión precisa de los datos. Semeja a un juicio.

3 Concepto DE ANÁLISIS EXPLORATIVO DE DATOS
Conjunto de herramientas estadisticas que permiten una visualización previa al análisis definitivo de los datos en un estudio. Este análisis tiene los siguientes objetivos: Evaluar la calidad y la consistencia de los datos. Determinar la distribución de las variables en estudio. Aplicar el tratamiento de datos ausentes. Detectar datos atípicos.

4 El análisis explorativo de datos puede ser:
Univariado: Hace referencia al valor de un solo indicador. Bivariado: Relaciona dos o más variables , de manera que se pueda estudiar una variable en función de la otra. (Clasificación cruzada, análisis de varianza y regresiones simples). Aborda todos los indicadores disponible para un fenómeno determinado Multivariado:

5 Análisis explorativo de datos univariado
HISTOGRAMA: Muestra la forma de distribución de los datos. Revela la presencia o no de simetria. Proporciona información respecto a la variabilidad de los datos. Ejemplo: Edades de un grupo de pacientes que participaron en la investigación. Se observa asimetria. Identifica datos extremos.

6 Análisis explorativo de datos univariado
DIAGRAMA DE TALLO Y HOJAS Permite obsevar al conjunto de datos como un todo y destacar algunas carcteristicas, tales como: La simetria del conjunto de datos. La variabilidad de los datos. La presencia o no de “outliers”. Concentración de los datos. Brechas en el conjunto de datos. Ejemplo: Edades de 100 pacientes que participaron en una investigación. Simetria. Normalidad. Valor Extremo alto (89)

7 Análisis explorativo de datos univariado
GRÁFICO DE CAJAS (BOXPLOT) Es una presentación simple de la información que permite conocer: La localización del centro de los datos. Dispersión. Simetria. La extensión: Limite Superior = (Q3 +1.5*dQ) Limite Inferior = (Q3 -1.5*dQ) La existencia de los valores extremos (outliers).

8 ANÁLISIS EXPLORATIVO DE DATOS BIVARIADO
El conjunto de técnicas estadísticas bivariadas difiere en función del tipo de datos de los que se dispone (niveles de medida: nominal, ordinal, intervalo, razón), adaptándose en todo momento al contexto de análisis aplicado en el que nos encontremos. De esta manera, disponemos de la Prueba de Chi-cuadrado cuando las variables son de tipo nominal o categórico, la Correlación o la Regresión Lineal cuando ambas variables son, como mínimo, de carácter ordinal, la Prueba T de Student o el ANOVA de 1 Factor cuando se persigue medir diferencias entre medias a partir de una variable categórica sobre una variable continua, etc.

9 ANÁLISIS EXPLORATIVO DE DATOS MULTIVARIADO
El análisis multivariante es un método estadístico utilizado para determinar la contribución de varios factores en un simple evento o resultado. Los factores de estudio son los llamados factores de riesgo (bioestadística), variables independientes o variables explicativas. El resultado estudiado es el evento, la variable dependiente o la variable respuesta. El análisis multivariante mediante técnicas de proyección sobre variables latentes tiene muchas ventajas sobre los métodos de regresión tradicionales: se puede utilizar la información de múltiples variables de entrada, aunque éstas no sean linealmente independientes puede trabajar con matrices que contengan más variables que observaciones puede trabajar con matrices incompletas, siempre que los valores faltantes estén aleatoriamente distribuidos y no superen un 10% puesto que se basan en la extracción secuencial de los factores, que extraen la mayor variabilidad posible de la matriz de las X (variables explicativas, tienen que ser dependientes) pueden separar la información del ruido. Se asume que las X se miden con ruido.

10 Normalidad Se considera que los datos son normales si la distribución de la población de la cual ha sido extraída la muestra se aproxima a la distribución teorica. Se puede verificar esta propiedad por: metodos graficos par ver normalidad o contrastes de normalidad. Heteroscedasticidad Se comprueba mediante el método gráfico, y se analiza los residuos respecto las variables endógenas y exógenas que permita determinar cuál es la variable con mayor heteroscedasticidad. Autocorrelación Se evalúa mediante el análisis gráfico, si hay una estructura aleatoria de libre de tendencia. El supuesto de que el error es una variable aleatoria con esperanza nula y matriz de covarianza constante es una hiotesis de autocorrelación Linealidad Los gráficos que no son lineales , es decir hay dispersión de las variables y residuos con secuencias no aleatorios. Detecta la falta de Linealidad

11 Gracias por la Atención Prestada


Descargar ppt "ANÁLISIS EXPLORATORIO DE DATOS"

Presentaciones similares


Anuncios Google