Análisis de datos Introducción al análisis de datos UNIVERSIDAD INDUSTRIAL DE SANTANDER ESCUELA DE ECONOMÍA Y ADMINISTRACIÓN Maestría en Gestión y Políticas Públicas Análisis de datos Introducción al análisis de datos Prof.: Hector Mauricio Rojas B.
SIEMPRE SON DE CARÁCTER PROVISIONAL HIPÓTESIS DE INVESTIGACIÓN Explicaciones tentativas del fenómeno investigado, formuladas a manera de proposiciones que caracterizan una o más variables o sus relaciones y que se apoyan en conocimientos organizados y sistematizados. SIEMPRE SON DE CARÁCTER PROVISIONAL FUNCIONES: A. Sirven como guía de investigaciones, necesita contrastación, construcción de información y técnicas adecuadas de manejo de datos. B. Especifica cuáles hechos se observan y qué relación se establecerá entre ellos. C. Ofrecen una explicación previa pues están relacionadas con el marco teórico-conceptual lo que facilita en análisis de datos.
TIPOS DE HIPÓTESIS SEGÚN LA FORMA NIVEL DE LA HIPÓTESIS 1. Descriptiva 2. Correlacional 3. De comparación de grupos 4. De causalidad: Univariadas · Multivariadas · Con variables modificantes. 1. Hipótesis de investigación 2. Hipótesis descompuesta en hipótesis nula e hipótesis alternativas 3. Hipótesis estadísticas Maestría en Educación
Ejemplos de hipótesis de causalidad Univariadas El ritmo de contratación pública se incrementa hacia el final de la vigencia presupuestal Multivariadas: La baja legitimidad del proceso de paz en Colombia, sumado a las trayectorias de violencia de muchos colombianos y a los fracasos del pasado en negociaciones, provocan una baja motivación de la población general hacia la participación en los foros temáticos del proceso.
Con variables modificantes: Los niños y niñas de Bucaramanga no escolarizados tienen mayor riesgo de ser explotados sexualmente, especialmente aquellos que viven en familias disfuncionales. Con variables modificantes: Fumar aumenta el riesgo de cáncer, más aún en personas con algún grado de desnutrición. Maestría en Educación
Ejemplos según tipo De Investigación Los estudiantes de pregrado UIS tienen menor rendimiento en SABER-PRO, 2015, que los estudiantes de la UN. Hipótesis nula: Los estudiantes de Trabajo Social UIS no presentan menor rendimiento en SABER-PRO, 2015, que los estudiantes de la UN. Hipótesis alternativa: Los estudiantes de Trabajo Social UIS presentan menor rendimiento en SABER-PRO, 2015, que los estudiantes de la UN. Hipótesis estadísticas: Sea X el Rendimiento estudiantes UIS en SABER-PRO y sea M[X] la "media teórica" o "valor esperado" de X, Ho: M[X] > 100 Ha: M[X] < 100
Pruebas de hipótesis – Distribución Normal (Gauss-Laplace) Zona de aceptación Ho Zona de aceptación Ho Zona Crítica Margen de Error Error tipo II Beta Zona de rechazo Ho S2 Zona crítica Margen de Error Error tipo I Alfa Zona de rechazo Ho Zona de rechazo Ho X-Me-Mo
Pruebas de hipótesis – Distribución Normal (Gauss-Laplace) Es un procedimiento para, a partir de una muestra aleatoria y significativa, extraer conclusiones que permitan aceptar o rechazar una hipótesis previamente emitida sobre el valor de un parámetro desconocido de una población. La hipótesis emitida se designa por H0 y se llama hipótesis nula. La hipótesis contraria se designa por H1 y se llama hipótesis alternativa.
Nivel de significancia Análisis estadístico para prueba de hipótesis de investigación Análisis Paramétrico (supuestos): La distribución poblacional de la variable dependiente es normal –En el universo está normalmente distribuido- El nivel de medición de la variable dependiente es por intervalos o razón En dos poblaciones la varianza y la dispersión son homogéneas (Wiersma y Jurs, 2005) Prueba Resultado Aplicación Coeficiente Pearson -1.00 a +1.00 Prueba de correlación –dos variables continuas- A partir de ello se hace Regresión Lineal Prueba t Nivel de significancia Diferencias de grupos respecto a la X y la S2, se usan grados de libertad ANOVA (Prueba F) Prueba de comparación de diferencias entre grupos e intragrupos: evalúa el efecto de una (one way) o varias (factorial) variables independientes sobre una dependiente. Hernández, 2006
Análisis No Paramétricos (supuestos): Prueba Resultado Aplicación No requieren distribución normal –muestras-. El nivel de medición de las variables es de cualquier tipo Prueba Resultado Aplicación Chi cuadrada o X2 Significancia Prueba para evaluar hipótesis acerca de la relación entre dos variables categóricas Coeficiente Phi 0 a 1 Tablas 2X2: el 0 indica ausencia de correlación y el 1 correlación perfecta. V de Cramer Tablas de cualquier tamaño Goodman-Kruskal Lambda Tablas de cualquier tamaño y asume causalidad Gamma de Goodman y Kruskal -1 a +1 -1 es una relación negativa perfecta y +1 positiva perfecta, variables ordinales Kappa Datos categorizados por intervalos, cualquier tamaño. Hernández, 2006
Elección de procedimientos estadísticos 1. Preguntas de investigación: Descriptivas Datos nominales Datos ordinales Datos intervalos o de razón Moda Moda, Mediana Media, Mediana, moda, desviación estándar, varianza y rango 2. Preguntas de investigación: Diferencia de grupos 1. Muestras correlacionadas (dos variables) Datos nominales Datos ordinales Datos intervalos o de razón Prueba de McNemar Prueba de Wilcoxon para pares de rangos Prueba t para muestras correlacionadas 2. Muestras independientes (dos variables) Chi cuadrada Prueba Mann-Whitney U o Kolmogorov-Smirnov Prueba t para muestras independientes 1. Muestras correlacionadas (más de dos variables) Prueba Q de Cochran Análisis de Varianza de Friedman en dos vías ANOVA
3. Preguntas de investigación: Correlacional Continuación 2. Muestras independientes (más de dos variables) Datos nominales Datos ordinales Datos intervalos o de razón Chi cuadrada para K muestras independientes Chi cuadrada de Friedman, ANOVA ANOVA 3. Preguntas de investigación: Correlacional 1. Muestras correlacionadas (dos variables) Datos nominales Datos ordinales Datos intervalos o de razón Una variable independiente y una dependiente Coeficiente de contingencia o Phi Spearman o Kendall Pearson (producto-momento) Regresión lineal 2. Más de dos variables Análisis discriminante Análisis de correlación parcial Kendall R2 3. Preguntas de investigación: Causal o predictiva Diversas independientes y una dependiente Regresión múltiple Agrupamiento (membrecía de todos los datos) Análisis discriminante (una vía o factorial) Mertens, 2005