ANALISIS DE DATOS EN CIENCIAS SOCIALES MANEJO DEL PAQUETE SPSS Mercedes Fernández Liporace Alejandro Castro Solano Colaboradora Docente: Ma. Alejandra Carreras Universidad de Buenos Aires
Investigación científica Planteo de problemas de investigación Descubrimiento de la organización de los fenómenos, relaciones entre ellos, leyes que las regulan Procedimiento para alcanzar un conocimiento riguroso y objetivo de la realidad: replicable, contrastable empíricamente y comunicable Relevancia y transferencia
Circuito de una investigación Problema Teoría Conceptos Hipótesis Datos (empiria)
Fases de una investigación Planteo del problema Búsqueda de antecedentes teóricos y empíricos Formulación de objetivos e hipótesis Diseño Recogida y análisis de datos Interpretación, discusión y generalización de resultados Transferencia de conocimientos y de tecnología
Planteo del problema Pregunta para la que no hay respuesta Requisitos: Resoluble Claro, sin ambigüedades Circunscripto Contrastable empíricamente Implica apelar a conocimientos anteriores (marco teórico y antecedentes empíricos)
Objetivos Son el “qué” de la investigación “¿Qué se va a hacer?” Generales y específicos Determinan el tipo de estudio desde el principio Exploratorio Descriptivo Correlacional De diferencias entre grupos Explicativo
Hipótesis “¿Qué resultado se espera obtener?” Afirmaciones que establecen relaciones entre variables Posible explicación o descripción del problema. Debe ser contrastable empíricamente Hipótesis de trabajo e hipótesis nula Hipótesis alternativa e hipótesis rival plausible No siempre se dispone de HIPÓTESIS (según tipo de estudio)
Diseño Plan estructurado de acción para intentar responder al problema Aspectos que intervienen: objetivos, naturaleza del problema y de las hipótesis, variables, universo, unidades de análisis, muestreo, instrumentos, procedimiento y análisis de datos Tiene que ver con la estrategia científica de partida: Observacional Selectiva Cuasiexperimental Experimental
Recogida y análisis de datos Determinada por el diseño (procedimiento) Estadística: amplio cuadro de herramientas al servicio del método científico Estadística Descriptiva e Inferencial Paso previo: Análisis Exploratorio Elección de la prueba estadística: nº de variables, papel, nivel de medición, distribución
Interpretación de resultados En ciencia no hay verdades absolutas: los resultados deben expresarse en términos probabilísticos Margen de error .......Significación () Deben relacionarse con los antecedentes y preverse sus implicaciones prácticas. Actitud prospectiva y predictiva Aceptación o rechazo de la hipótesis de trabajo A LA LUZ DEL MARCO TEORICO
Generalización de resultados Determinar a qué población es posible generalizar los resultados (muestreo) Problema de la representatividad de la muestra: * Sujetos * Contexto Validez Externa Validez Ecológica
Redacción del informe Oportunidad de replicación Requisitos: completo, conciso, preciso, claro, gramaticalmente correcto y ameno Responder breve y claramente a los objetivos planteados
Apartados de una comunicación científica Marco Teórico y antecedentes General y específicos Si corresponde Estudio y diseño Variables e instrumentos Sujetos y muestreo Procedimiento y análisis de datos Hallazgos en detalle Relectura de resultados a la luz del marco teórico Introducción Planteo del problema Objetivos Hipótesis Método Resultados Discusión Referencias y Anexos
Estadística
Variables Toda característica o dimensión de un sujeto (u objeto) susceptible de adoptar distintos valores o nombres Criterios clasificatorios Nivel de medida (Stevens, 1951): Nominales o cualitativas Ordinales o semicuantitativas Intervalo Razón Cuantitativas Su papel en la investigación Independientes (predictores) Dependientes (criterio)
Variables nominales o cualitativas Los números no implican cantidad ni orden o jerarquía, sino cualidad, categorías, función identificatoria (sexo, estado civil, lugar de residencia). Dicotómicas o politómicas Ejemplos: nacionalidad sexo 1. argentino 1. masc 2. boliviano 2. fem 3. chileno 4. peruano
Variables ordinales Los números reflejan jerarquía, no cantidad del atributo Establecen relaciones de orden (mayor o menor) No existe una unidad de medida objetiva Es un nivel semicuantitativo Ejemplo: En su opinión, la calidad pedagógica de este docente es….. * Totalmente inadecuada (1) * Algo inadecuada (2) * Bastante adecuada (3) * Muy adecuada (4) * Totalmente adecuada (5)
Variables cuantitativas, métricas o de escala Intervalos Unidad de medida objetiva pero no cero absoluto o “ausencia de atributo” Ejemplos: TEMPERATURA o C.I. Razones Existencia de un cero absoluto Ejemplo: NIVEL DE INGRESOS Niveles de medida débiles y fuertes
Análisis de datos Análisis descriptivo Análisis inferencial Análisis exploratorio
Análisis exploratorio
Razones para examinar los datos Seguridad activa: Procedimiento de recogida de datos Seguridad pasiva: Problema I: los datos no son buenos Archivo de datos: depuración de errores e incoherencias. Problema II: falta de respuesta Tamaño de la muestra (potencia de los contrastes) y sesgo de los resultados (no se distribuyen al azar) Problema III: casos anómalos Elección de la prueba o estadístico adecuado; tratamiento de outliers Problema IV: herramientas estadísticas adecuadas Comprobación de supuestos paramétricos: pruebas paramétricas vs. no paramétricas.
Depuración de errores e incoherencias Estimación de la calidad de los datos Cálculo de la cantidad de errores que pueden contener, antes de proceder a su análisis ¿CÓMO? Selección de una muestra de datos Comprobación de cuántos errores existen en ella Estimación del total de errores en la muestra total Decidir si es preciso revisar la matriz total o asumir el error encontrado
Valores perdidos o missings Se corre grave riesgo en dos sentidos: Reducción excesiva del tamaño de la muestra (disminución de la potencia de los contrastes) Sesgo en los resultados si los missings no se distribuyen aleatoriamente (ingresos) Si la ausencia de información es pequeña y al azar, es posible analizar los datos directamente
Identificación de missings Identificar los sujetos con muchos missings Identificar las variables con muchos missings
Pertinencia de la sustitución EN VARIABLES CLAVE: Dividir la muestra en dos grupos: los que responden (1) y los que no responden a esa variable (2) (Recodificar en una nueva variable) Eliminar los casos missing de manera completa EN VARIABLES SECUNDARIAS: Mantener los missings si no exceden un porcentaje razonable Imputación de missings
El boxplot
Comprobación de supuestos Elegir la prueba estadística adecuada en cada caso Pruebas paramétricas y no paramétricas Ejemplos: t de Student y Anova U de Mann-Withney y 2
¿Cuáles son esos SUPUESTOS? LINEALIDAD: relación lineal entre las variables analizadas ALEATORIEDAD o independencia de las medidas: que los sujetos hayan sido seleccionados al azar NORMALIDAD: que la VD se distribuya normalmente HOMOCEDASTICIDAD u homogeneidad de varianzas: que los distintos grupos posean una variabilidad similar
Comprobación de supuestos NORMALIDAD: prueba K-S HOMOCEDASTICIDAD: prueba de Levenne ALEATORIEDAD: prueba de las Rachas LINEALIDAD: gráfico de dispersión y correlación Se asume que se cumplen los supuestos, salvo que las pruebas sean significativas (p< 0.05)
Normalidad
Si los supuestos no se cumplen DOS ALTERNATIVAS: Recurrir a una prueba no paramétrica o TRANSFORMAR LA VARIABLE
Análisis estadístico Tipo de estudio OBJETIVOS Descriptivo Inferencial Exploratorio Descriptivo Correlacional De diferencias entre grupos Explicativos
Estadística descriptiva Objetivo: resumir e ilustrar en forma sencilla el comportamiento de un conjunto de datos Frecuencias (f, f% y fa) Descriptivos Medidas de tendencia central Medidas de variabilidad Medidas de posición Medidas de distribución Tablas con descriptivos y/o % Gráficos
Frecuencias
Edades y estudios
Descriptivos más utilizados (tendencia central, dispersión, posición)
Comparación de medias
Estadística inferencial Objetivos: Estimación de parámetros Contrastes de hipótesis Correlacionales De diferencias entre grupos Paramétricos No paramétricos
Regresión Permite la predicción del comportamiento de una variable (criterio), basándonos en otra variable (predictor) R2: C.Determinación (proporción de la variación de Y explicada por la variación de x; utilidad del modelo) Sig: signif del modelo de predicción
Correlación Cuantifica la intensidad y sentido de la relación entre dos variables No implica causalidad Implica asociación Afectada por los errores de medición
Supuestos cumplidos
Prueba t para grupos independientes
ANOVA One Way
VD ordinal nominal o cuantitativa sin supuestos
Prueba t para grupos independientes
Mann - Whitney
X2
Kruskall Wallis One Way