Introducción En toda investigación, y antes de extraer conclusiones acerca de los objetivos e hipótesis planteados, es necesario llevar a cabo un análisis.

Introducción En toda investigación, y antes de extraer conclusiones acerca de los objetivos e hipótesis planteados, es necesario llevar a cabo un análisis previo y exploratorio de los datos con objeto de detectar errores en la codificación de las variables, eliminar inconsistencias, evaluar la magnitud y tipo de datos perdidos (ausentes), conocer características básicas de la distribución de las variables (normalidad, igualdad de varianzas, presencia de valores atípicos, linealidad, etc) y avanzar acerca de las relaciones entre ellas.

Análisis univariable La mayoría de estos objetivos se alcanzan realizando un análisis descriptivo de las variables. Concretamente utilizaremos medidas de tendencia central y de dispersión para describir las características de las variables cuantitativas y tablas de frecuencias y porcentajes para las variables cualitativas. Para ello utilizaremos, esencialmente, los procedimiento de SPSS que aparecen en la última columna de la siguiente tabla: Tipo de variable Índices analíticos Representaciones gráficas Procedimientos de SPSS Cuantitativa media, mediana, moda, desviación típica, rango, amplitud intercuartílica, prueba de normalidad histograma, gráfico de caja Descriptivos, Explorar, Tablas Cualitativa frecuencias, porcentajes, moda, etc. diagrama de barras, diagrama de líneas, diagrama de sectores Frecuencias, Tablas Media aritmética: · Moda: valor(es) de la variable que más se repite(n). · Mediana: es que deja el mismo número de observaciones a su derecha que a su izquierda. · Cuantiles: valores que dividen a la distribución, una vez ordenada ésta de menor a mayor, en intervalos de igual frecuencia. Los más usuales son los cuartiles, C1, C2 y C3, que dividen a la distribución en cuatro intervalos, cada uno de ellos con el 25% de las observaciones; los deciles, D1, D2, ….D9, que dividen la distribución en diez partes iguales, y los percentiles, P1, P2, … P99, que la dividen en cien partes iguales. · Media truncada: es la media de la variable eliminando el 5% de las colas inferior y superior de la distribución, de esta forma se eliminan valores extremos y es por tanto un estadístico robusto. · M-estimadores: son estadísticos robustos pues se definen ponderando cada valor de la distribución en función de su distancia al centro de la misma. Las observaciones centrales se ponderan por el máximo valor (la unidad) disminuyendo los coeficientes de ponderación a medida que las observaciones se alejan del centro. Existen distintas formas de ponderar lo cual clasifica a los M-estimadores en: Humbert (pondera con valor uno los valores situados a menos de 1´339 de la mediana), Tukey (pondera con cero los valores situados a 4´385 de la mediana), Andrews (pondera con cero los situados a 4´2066 de la mediana), etc. De todas las medidas de posición, sólo la moda y los cuantiles (de los cuales la mediana es un caso particular) podrían calcularse para atributos en escala ordinal, y únicamente la moda si la escala fuera nominal. Media aritmética. · Mediana: es aquel valor tal que, una vez ordenadas las observaciones de menor a mayor, deja el mismo número de observaciones a su derecha que a su izquierda.

Introducción Para llevar a cabo el análisis previo y exploratorio de datos disponemos de un conjunto de procedimientos estadísticos –numéricos y gráficos- que vamos a describir a lo largo del presente curso y que están implementados en la mayoría de los programas estadísticos (SPSS, SAS, S-PLUS, LISREL, EQS, etc).

Detectar errores en la codificación de las variables cualitativas y cuantitativas:
vamos a entender por errores de codificación a todos aquellos valores que están fuera del rango de las variables cuantitativas y a códigos numéricos o no numéricos no definidos para representar a categorías de las variables cualitativas. Ejemplo: Estamos interesados en estudiar si la opinión acerca de la ley de matrimonios entre parejas del mismo sexo depende de la edad y del sexo. Para ello seleccionamos una muestra de sujetos mayores de edad y les pedimos que nos den su opinión acerca de la ley eligiendo una de las opciones de una escala que va desde 1 (muy desfavorable) hasta 7 (muy favorable). Los datos los hemos escrito en una archivo de spss y hemos realizado un análisis descriptivo básico utilizando el procedimiento frecuencias para las todas las variables incluidas en el archivo y el procedimiento descriptivos para las cuantitativas

Para realizar el análisis descriptivo hemos seleccionado las opciones que aparecen en los cuadros siguientes y hemos obtenido las siguientes tablas. A partir de la información que nos proporcionan las tablas ¿podemos identificar errores de codificación en las variables medidas?

2. Caracterizar las distribuciones de las variables en cuanto a su tendencia central, dispersión y forma (normalidad). Para ello utilizaremos tanto índices numéricos como gráficos. Estadísticos de tendencia central Media aritmética. Mediana: una vez ordenados los datos, es el valor que deja el mismo número de observaciones a su derecha que a su izquierda. Media truncada: es la media de la variable eliminando el 5% de las colas inferior y superior de la distribución, de esta forma se eliminan valores extremos y es por tanto un estadístico robusto. M-estimadores: son estadísticos robustos pues se definen ponderando cada valor de la distribución en función de su distancia al centro de la misma. Las observaciones centrales se ponderan por el máximo valor (la unidad) disminuyendo los coeficientes de ponderación a medida que las observaciones se alejan del centro. Existen distintas formas de ponderar: Humbert (pondera con valor uno los valores situados a menos de 1´339 de la mediana), Tukey (pondera con cero los valores situados a 4´385 de la mediana), Andrews (pondera con cero los situados a 4´2066 de la mediana), etc.

2. Caracterizar las distribuciones de las variables en cuanto a su tendencia central, dispersión y forma (normalidad). Estadísticos de dispersión: Rango Varianza Desviación tipo Amplitud intercuartílica (AI) Estadísticos de forma: Asimetría. Curtosis Prueba de normalidad de Kolmogorov

2. Caracterizar las distribuciones de las variables en cuanto a su tendencia central, dispersión y forma (normalidad). Histograma Gráfico de caja Gráfico Q-Q Gráfico Q-Q: permite comparar los cuantiles obtenidos de la muestra con los de la distribución teórica. Este gráfico sirve para determinar si un conjunto de datos se ajusta a una distribución normal. La normalidad de los datos será perfecta cuando los puntos estén sobre la línea recta Gráfico P-P: Este gráfico sirve para determinar si un conjunto de datos se ajusta a una distribución normal. Se representa en el eje de abscisas los valores de la variable (Xi) y en el eje de ordenadas las frecuencias relativas acumuladas de dichos valores (Fi). La normalidad de los datos será perfecta cuando el gráfico de los puntos (Xi, Fi) resulte ser una línea recta situadas sobre la diagonal del primer cuadrante. A veces, cuando el tamaño de la muestra es grande, aunque la muestra proceda de una población normal, se rechaza la hipótesis nula es por ello que tendremos que evaluar por inspección visual de gráfico P-P si este alejamiento es o no grande.

2. Caracterizar las distribuciones de las variables en cuanto a su tendencia central, dispersión y forma (normalidad). Figura 1. Tipologías de histogramas Figura 2. Tipologías de gráficos Q-Q Cuando las distribuciones no son normales se puede recurrir a alguna de las transformaciones anteriores. Aunque esta no es una recomendación universal por la dificultad de interpretar las variables transformadas y porque algunos modelos son robustos ante la ausencia de normalidad en muestras relativamente grandes. En distribuciones con sesgo moderado y severo positivo se recomiendan las transformaciones de la izquierda. En sesgo negativo El hecho de sumarle 1 al valor máximo y crear una nueva variable a partir de las diferencia con respecto a esta constantes nos transformar el seso negativo en positivo y aplicar la misma transformación que las de la columna de la derecha. Recomendado por Fidell y Tabachnick.

2. Caracterizar las distribuciones de las variables en cuanto a su tendencia central, dispersión y forma (normalidad). Para caracterizar a las variables cuantitativas utilizaremos el procedimiento Explorar de SPSS con las variables cansancio emocional, despersonalización, realización personal y depresión total medidas en una muestra de odontólogos. Los cuadros de diálogo con las opciones básicas recomendadas son:

2. Caracterizar las distribuciones de las variables en cuanto a su tendencia central, dispersión y forma (normalidad). Con las opciones seleccionadas hemos obtenido información que nos permite responder a las siguientes cuestiones de las variables analizadas: Identificar las medidas de tendencia central y de dispersión Comparar la media con la mediana y con los estimadores robustos Evaluar mediante inspección visual la normalidad de las variables Evaluar utilizando la prueba de significación la normalidad de las variables

3. Detectar datos atípicos:
Llamamos datos atípicos a aquellas observaciones que se encuentran alejadas del resto de las observaciones en una variable (atípico univariable) o en la distribución conjunta de dos o más variables (atípico multivariable). Los valores atípicos multivariantes resultan de combinaciones de valores muy inusuales. Las consecuencias de una sola observación atípica pueden ser graves pues pueden distorsionar las medias y desviaciones típicas de las variables y destruir o construir relaciones entre ellas. Ejemplo Los valores atípicos pueden deberse a 2.1. Errores en la codificación de los valores de las variables, errores en la codificación de valores perdidos, errores de medida, errores en la transcripción Observaciones que no proceden de la población de la que se ha extraído la muestra. 2.3. Observaciones atípicas debidas a que la distribución de la variable en la población tiene valores más extremos que los de una distribución normal. Los valores atípicos debidos a 2.1. y 2.2., una vez detectados deben ser eliminados o recodificados como valores perdidos. En el caso 2.3 suelen retenerse y analizar su incidencia en los análisis posteriores. Un ejemplo de multivariante atípico descrito en Fidel y Tabachnick: un chico de 15 años con un salario anual € resulta una observación inusual en la distribución conjunta de edad y salario. En el caso de que valores atípicos no sean eliminados, se puede analizar que merece la pena modelar mal todos los datos o modelar bien un subconjunto de ellos. Otra posibilidad es realizar los análisis con todos los datos y con los datos eliminando una porcentaje (20%, 10%) de casos extremos en ambos lados de la distribución y en caso de inconsistencias informarlas adecuadamente. Una opción para saber a qué se deben los atípicos consiste en crear una variable dummy (0 no atípico, 1 atípico y analizar el perfil diferencias de los dos grupos en el conjunto de variables.

Para considerar a una observación como atípica existen diferentes criterios: Se consideran atípica aquellas observaciones que están, en valores absolutos, a más de 3 desviaciones tipo de la media (Z>3 o Z<-3) pero la aplicación de este para criterio depende del tamaño de la muestra. En el gráfico de caja, como ya hemos vistos, son atípicos observaciones con puntuaciones superiores o inferiores a 1,5*AI. A partir de 3*AI se califican de extremos. Otra regla simple es considerar sospechosas aquellas observaciones tales que: donde Med(x) es la mediana y MEDA(x) es la mediana de las desviaciones absolutas de x con respeto a la mediana

Los criterios para detectar atípicos a nivel univariante no tienen porque identificar atípicos multivariantes. Para ello se puede utilizar, aunque no exenta de problemas, la distancia de Mahalanobis. La distancia de Mahalanobis es la distancia al centro de gravedad ponderada por la matriz de varianzas covarianzas. Una observación multivariante resultará sospechosa si su distancia supera el valor de chi-cuadrado para k (número de variables) y un nivel de significación de 0,001. Algunos de los gráficos disponibles en SPSS implementan los criterios anteriores para detectar datos atípicos. Los siguientes cuadros de diálogo corresponden a los gráficos recomendados para detectar atípicos: aunque si hubiera un conjunto de puntos atípicos también afectarían al cálculo de las medias desviaciones y puede enmascarar atípicos y detectar como tales algunos que no son. Una posibildad es utlizar un test de hipótesis a partir de la distancia de mahalanobis.

Valor medio de la variable y dos líneas horizontales llamadas límite superior e inferior de control (LSC, LIC). Si los valores se encuentran entre los limites de control, se considera que no hay atípicos. Estos límites se suelen fijar a 3 desviaciones típicas. (En la distribución normal el intervalo a 1, 2, 3 y 4 sigmas incluye el 68.26%, 95.46%, 99.73%, 99.99% de los valores). Con la secuencia de cuadros de diálogo sobre la matriz obtenemos los siguientes gráficos

Caras de Chernoff

Gráficos de estrella Gráficos de linea

4. Linealidad Muchos procedimientos de análisis se basan en el patrón de correlaciones de Pearson entre variables cuantitativas. El coeficiente de correlación mide el grado de asociación lineal entre variables y no es adecuado utilizarlo cuando el patrón de covariación no es lineal. Es importante también que los coeficientes de correlación sean fiables y, bajo determinadas circunstancias, los coeficientes de correlación pueden ser mucho más grandes o mucho más pequeños de lo que deberían ser. Variables compuestas: En muchas investigaciones es frecuente utilizar variables compuestas (sumas, promedios, etc) que se obtienen a partir de varios items, las correlaciones entre variables compuestas que comparten items individuales en su definición suelen estar infladas. La presencia de valores atípicos: los valores atípicos como ya hemos demostrado pueden inflar o reducir significativamente las correlaciones entre variables. Restricción de rango: las correlaciones muestrales pueden ser inferiores a las poblacionales cuando en la muestra el rango de respuestas de uno o ambas de las variables analizadas está restringido. La correlación entre una variable continua y una dicotómica, o entre dos variables dicotómicas es también pequeña si la mayoría de las respuestas se concentran en una categoría.

4. Linealidad La herramienta más útil para obtener información, a nivel exploratorio, de la relación entre dos variables cuantitativas es el diagrama de dispersión, o nube de puntos. Se construye representando, en el plano cartesiano, los valores de las variables medidas. La inspección visual del gráfico de dispersión nos permite identificar valores atípicos y el tipo de relación entre las variables.

4. Linealidad

4. Linealidad Gráfico a) Diagrama de dispersión por defecto

Análisis exploratorio de datos (II)
Análisis exploratorio de datos (II). Análisis de dos variables cuantitativas. Diagrama de dispersión con SPSS Gráfico

4. Linealidad

análisis previo y exploratorio
Univariable Bivariado Multivariado Dos Variables Cualitativas: Tablas de contingencia y gráficos de barras b) Una Variable Cuantitativa y otra Cualitativa: Explorar c) Dos Variables Cuantitativa: correlaciones bivariadas, gráficos de dispersión a) Variable Cualitativa b) Variable Cuantitativa

Bibliografía Escobar, M. (2000). Análisis gráfico/Exploratorio. Cuadernos de Estadística. Madrid: Editorial La Muralla. Figueras, M y Gargallo, P. (2003): Análisis Exploratorio de Datos", [en línea]. [y añadir fecha consulta] Palmer, A. (1995). El análisis exploratorio de datos. Madrid: Eudema Peña, D. (2002). Análisis de datos multivariantes. Madrid: McGraw Hill. Rial, A.; Varela, J. y rojas, A. (2001). Depuración y análisis preliminares de datos en SPSS. Sistemas informatizados para la investigación del comportamiento. Madrid: RA-MA.

Introducción En toda investigación, y antes de extraer conclusiones acerca de los objetivos e hipótesis planteados, es necesario llevar a cabo un análisis.

Presentaciones similares

Presentación del tema: "Introducción En toda investigación, y antes de extraer conclusiones acerca de los objetivos e hipótesis planteados, es necesario llevar a cabo un análisis."— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback

Iniciar la sesión

Autorizarse a través de una red social:

Introducción En toda investigación, y antes de extraer conclusiones acerca de los objetivos e hipótesis planteados, es necesario llevar a cabo un análisis.

Presentaciones similares

Presentación del tema: "Introducción En toda investigación, y antes de extraer conclusiones acerca de los objetivos e hipótesis planteados, es necesario llevar a cabo un análisis."— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback