ANÁLISIS EXPLORATORIO DE DATOS

Slides:



Advertisements
Presentaciones similares
ANOVA DE UN FACTOR.
Advertisements

ANALISIS PARAMÉTRICOS
ANALISIS DE DATOS CUANTITATIVOS
Lic. Cristian R. Arroyo López
Regresión mínimo cuadrada (I)
Técnicas para el análisis de datos en el enfoque cuantitativo
Técnicas para el análisis de datos en el enfoque cuantitativo
Introducción En toda investigación, y antes de extraer conclusiones acerca de los objetivos e hipótesis planteados, es necesario llevar a cabo un análisis.
Estadísticas Inferenciales Capítulo 10
ANÁLISIS MULTIVARIADO APLICADO A LA INVESTIGACIÓN DE MERCADOS
Pronósticos, Series de Tiempo y Regresión
ANÁLISIS PREELIMINAR DE LOS DATOS
Bivariadas y Multivariadas
UNIVERSIDAD AUTÓNOMA DEL CARIBE
Ingeniería Industrial II CicloEducativo 2011
MODELO DE REGRESIÓN MÚLTIPLE
ESTRATEGIAS Y DISEÑOS AVANZADOS DE INVESTIGACIÓN SOCIAL
Modelo básico de regresión Lineal
ALGUNOS CONCEPTOS PREVIOS
Correlación 1.
Bioestadística Aplicada I
Ps. Rafael Cendales Reyes Universidad Nacional de Colombia
CONTENIDO GENERAL EN UN PROTOCOLO
UNIVERSIDAD NACIONAL DEL SANTA
Estadística Descriptiva: 4. Correlación y Regresión Lineal
Tema 1- Regresión lineal simple.
CURSO DE ESTADÍSTICA BÁSICA
Regresión lineal Es un modelo matemático para predecir el efecto de una variable sobre otra, ambas cuantitativas. Una variable es la dependiente y otra.
Análisis de Correlación y de Regresión lineal simple
ANÁLISIS EXPLORATORIO DE DATOS
Análisis no paramétricos
Regresión lineal. Definición del problema Evaluar la capacidad explicativa de un conjunto de características socio demográficas que inciden en los ingresos.
Clases 4 Pruebas de Hipótesis
ANALISIS EXPLORATORIO
Mt. Martín Moreyra Navarrete.
Curso de Geoestadística 2. Análisis Exploratorio Ramón Giraldo H. PhD Estadística Profesor Departamento de Estadística Universidad Nacional de Colombia.
ESTADÍSTICA BÁSICA EN ECOLOGÍA EVOLUTIVA Juan J. Soler Cruz Estación Experimental de Zonas Áridas Almería.
H.Ilarraza, Jun Inicio Dr Hermes Ilarraza Lomelí Adaptación y traducción Algoritmo para elección de Pruebas diagnósticas Junio 2004 Fin Lista de.
Titular: Agustín Salvia
Normalidad, Variabilidad y estimación del Modelo de Regresión
Introducción a la Inferencia Estadística
EMA-602 Tema IX: Análisis de datos/Reporte Investigación
Herramientas básicas.
Analisis exploratorio INGRID TATIANA RODRIGUEZ GUZMAN DIANA COSTANZA BERMUDEZ GORDILLO.
Diseño de EXPERIMENTOS
Ramón Giraldo H MSc. Estadística. Profesor Universidad Nacional
USO DEL “ANÁLISIS DE VARIANZA UNA-VÍA”, PARA:
METODOLOGÍA Y TÉCNICAS DE INVESTIGACIÓN EN CIENCIAS SOCIALES
Titular: Agustín Salvia
SELECCIÓN DE UNA PRUEBA ESTADÍSTICA
MAYRA ALEJANDRA GRACIA WENDY LIZETH SUAREZ ANGELA MARIA TAMAYO.
Análisis de los Datos Cuantitativos
Titular: Agustín Salvia
Regresión Lineal Simple
Ejercicios Dado un conjunto de datos, aplicar el Criterio de Fourier para desechar los posibles valores atípicos.
Unidad 4 Análisis de los Datos.
CONFIRMATORIO EXPLORATORIO  Enfoque descriptivo  Indica hipótesis  Plan de investigación flexible y poco definido  Privilegia la representación grafica.
20. Comparación de promedios entre grupos Módulo IV: Análisis de datos numéricos Análisis de Datos Aplicado a la Investigación Científica
Supuestos en el análisis de regresión Miles, J. & Shervin, M. (2011). Applyng regression & correlation. A guide for students and researchers. London: Sage.
22. Correlación como prueba de hipótesis Módulo IV: Análisis de datos numéricos Análisis de Datos Aplicado a la Investigación Científica
16. Asociación estadística y test de independencia
Departamento de Informática Universidad Técnica Federico Santa María EconometríaEconometría Capitulo II.
19. Prueba de hipótesis para promedios Módulo IV: Análisis de datos numéricos Análisis de Datos Aplicado a la Investigación Científica
ESTADISTICA DESCRIPTIVA BIVARIADA MEDIDAS DE RELACIÓN ENTRE VARIABLES CUANTITATIVAS.
Estadística descriptiva
Introducción a la Estadística Inferencial con SPSS Juan José Igartua Perosanz Universidad de Salamanca
MÁS DE DOS MUESTRAS Procedimientos paramétricos. Pruebas de diferencias entre más de dos muestras *Con cálculos diferentes de SC y gl, según el caso.
Bioestadística Inferencia estadística y tamaño de muestra
UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS (Universidad del Perú, Decana de América) FACULTAD DE MEDICINA - UPG MAESTRÍA EN NEUROCIENCIAS Curso: Bioestadística.
4. Métodos psicofísicos de medida en clínica
Transcripción de la presentación:

ANÁLISIS EXPLORATORIO DE DATOS JOSÉ LUIS CUELLAR TRUJILLO

COMPARACIÓN DE LOS ENFOQUES DE ANALISIS (BERTRAND) ANÁLISIS EXPLORATIVO ANÁLISIS CONFIRMATIVO Enfoque descriptivo. Indica la hipotesis a probar. Usa Eestadisticos. Plan de investigación flexible y poco definido. Usa los datos definidos. Privilegia la representación grafica. Tiene vision intuitiva de los datos. Semeja una investigación policial. Enfoque inferencial. Prueba hipotesis. Usa estadisticos. Plan de investigación riguroso y bien definido. Usa datos sin error (ideal). Poca importancia a la representación grafica. Tiene una visión precisa de los datos. Semeja a un juicio.

Concepto DE ANÁLISIS EXPLORATIVO DE DATOS Conjunto de herramientas estadisticas que permiten una visualización previa al análisis definitivo de los datos en un estudio. Este análisis tiene los siguientes objetivos: Evaluar la calidad y la consistencia de los datos. Determinar la distribución de las variables en estudio. Aplicar el tratamiento de datos ausentes. Detectar datos atípicos.

El análisis explorativo de datos puede ser: Univariado: Hace referencia al valor de un solo indicador. Bivariado: Relaciona dos o más variables , de manera que se pueda estudiar una variable en función de la otra. (Clasificación cruzada, análisis de varianza y regresiones simples). Aborda todos los indicadores disponible para un fenómeno determinado Multivariado:

Análisis explorativo de datos univariado HISTOGRAMA: Muestra la forma de distribución de los datos. Revela la presencia o no de simetria. Proporciona información respecto a la variabilidad de los datos. Ejemplo: Edades de un grupo de pacientes que participaron en la investigación. Se observa asimetria. Identifica datos extremos.

Análisis explorativo de datos univariado DIAGRAMA DE TALLO Y HOJAS Permite obsevar al conjunto de datos como un todo y destacar algunas carcteristicas, tales como: La simetria del conjunto de datos. La variabilidad de los datos. La presencia o no de “outliers”. Concentración de los datos. Brechas en el conjunto de datos. Ejemplo: Edades de 100 pacientes que participaron en una investigación. Simetria. Normalidad. Valor Extremo alto (89)

Análisis explorativo de datos univariado GRÁFICO DE CAJAS (BOXPLOT) Es una presentación simple de la información que permite conocer: La localización del centro de los datos. Dispersión. Simetria. La extensión: Limite Superior = (Q3 +1.5*dQ) Limite Inferior = (Q3 -1.5*dQ) La existencia de los valores extremos (outliers).

ANÁLISIS EXPLORATIVO DE DATOS BIVARIADO El conjunto de técnicas estadísticas bivariadas difiere en función del tipo de datos de los que se dispone (niveles de medida: nominal, ordinal, intervalo, razón), adaptándose en todo momento al contexto de análisis aplicado en el que nos encontremos. De esta manera, disponemos de la Prueba de Chi-cuadrado cuando las variables son de tipo nominal o categórico, la Correlación o la Regresión Lineal cuando ambas variables son, como mínimo, de carácter ordinal, la Prueba T de Student o el ANOVA de 1 Factor cuando se persigue medir diferencias entre medias a partir de una variable categórica sobre una variable continua, etc.

ANÁLISIS EXPLORATIVO DE DATOS MULTIVARIADO El análisis multivariante es un método estadístico utilizado para determinar la contribución de varios factores en un simple evento o resultado. Los factores de estudio son los llamados factores de riesgo (bioestadística), variables independientes o variables explicativas. El resultado estudiado es el evento, la variable dependiente o la variable respuesta. El análisis multivariante mediante técnicas de proyección sobre variables latentes tiene muchas ventajas sobre los métodos de regresión tradicionales: se puede utilizar la información de múltiples variables de entrada, aunque éstas no sean linealmente independientes puede trabajar con matrices que contengan más variables que observaciones puede trabajar con matrices incompletas, siempre que los valores faltantes estén aleatoriamente distribuidos y no superen un 10% puesto que se basan en la extracción secuencial de los factores, que extraen la mayor variabilidad posible de la matriz de las X (variables explicativas, tienen que ser dependientes) pueden separar la información del ruido. Se asume que las X se miden con ruido.

Normalidad Se considera que los datos son normales si la distribución de la población de la cual ha sido extraída la muestra se aproxima a la distribución teorica. Se puede verificar esta propiedad por: metodos graficos par ver normalidad o contrastes de normalidad. Heteroscedasticidad Se comprueba mediante el método gráfico, y se analiza los residuos respecto las variables endógenas y exógenas que permita determinar cuál es la variable con mayor heteroscedasticidad. Autocorrelación Se evalúa mediante el análisis gráfico, si hay una estructura aleatoria de libre de tendencia. El supuesto de que el error es una variable aleatoria con esperanza nula y matriz de covarianza constante es una hiotesis de autocorrelación Linealidad Los gráficos que no son lineales , es decir hay dispersión de las variables y residuos con secuencias no aleatorios. Detecta la falta de Linealidad

Gracias por la Atención Prestada