La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

ANÁLISIS EXPLORATORIO DE DATOS

Presentaciones similares


Presentación del tema: "ANÁLISIS EXPLORATORIO DE DATOS"— Transcripción de la presentación:

1 ANÁLISIS EXPLORATORIO DE DATOS
Ángel M. Ramos Domínguez

2 Análisis Exploratorio de Datos
La exploración de los datos puede ayudar a determinar si las técnicas estadísticas que estamos considerando utilizar en el análisis son apropiadas. El procedimiento EXPLORAR de SPSS proporciona una variedad de resúmenes númericos y visuales de los datos, tanto para todos los datos en su conjunto, como para grupos de casos separadamente. La variable dependiente debe estar medida en una escala cuantitativa, mienstras que las variables de grupo pueden ser ordinales o nominales. Con el procedimiento EXPLORAR de SPSS podemos: Escrutar los datos Identificar casos atípicos (outliers) Revisar los supuestos Caracterizar las diferencias entre grupos de casos

3 Análisis Exploratorio de Datos
Queremos explorar la variable gasto por turista y día, para el conjunto de la muestra, cumple los supuestos exigidos para la mayoría de las técnicas estadísticas, así como, para cada uno de los grupos de turistas definidos según sexo. Haremos uso de la base de datos Base Turistas.sav que se encuentra en la carpeta \\Escritorio\Asignaturas\Empresariales\Métodos\ de nuestro PC. El fichero recoge la información referida a una muestra de 797 turistas entrevistados al término de sus vacaciones en Tenerife.

4 Análisis Exploratorio de Datos
Para empezar el análisis, de la barra de menús elegimos: Analizar Estadísticos Descriptivos Explorar

5 Análisis Exploratorio de Datos
Elegimos como variable dependiente el gasto por turista y día, y como factor la variable sexo. Elegimos los estadísticos: descriptivos, intervalo de confianza para la media al 95%, estimadores robustos centrales, valores atípicos y percentiles. Elegimos los gráficos: diagrama de cajas, tallos y hojas, histograma, y gráficos con prueba de normalidad Estimación de la potencia Elegimos que nos muestre los valores perdidos.

6 Resultados del AED La tabla de resumen del procesamiento de los casos muestra tres secciones: la primera recoge el número de casos válidos según sexo, la segunda muestra el número de casos perdidos según sexo, y por último, el número total de casos, también según sexo.

7 Resultados del AED La tabla de Descriptivos proporciona estadísticos de resumen para variables numéricas continuas, en nuestro caso “gasto por turista y día”. Los estadísticos resumen incluyen medidas de tendencia central como la media y la mediana. Medidas de dispersión (dispersión de la distribución) tales como la desviación típica. Y medidas de forma, tales como asimetría ( y curtósis, que indican en qué medida la distribución se aleja de la distribución normal. En general, un valor de asimetría mayor que 1 indica una distribución que difiere significativamente de una normal, distribución simétrica. Transformaciones tales como una transformación logarítmica pueden hacer que la distribución se acerque a la simetría y a la normalidad. Dado que muchos tests estadísticos asumen la normalidad de los datos, sería conveniente revisar la distribución de la variable, y en caso de incumplimiento, plantearnos algún tipo de transformación de la variable o bien plantearnos el uso de contrastes no parámetricos que no exigen el cumplimiento de la normalidad de los datos.

8 Resultados del AED En nuestro caso si comparamos el contraste de la normalidad de la variable original “gasto por turista y día” y de la variable resultante de la transformación logarítmica, se observa que conseguimos que ésta última variable se acerque más a la normalidad.

9 Resultados del AED Los estimadores-M son medidas robustas de tendencia central que se pueden usar como alternativas a la media y la mediana.

10 Resultados del AED Los percentiles indican el porcentaje de casos que están por debajo de los valores mostrados.

11 Resultados del AED La tabla de valores extremos muestra los casos con los 5 valores mayores y menores.

12 Resultados del AED El estadístico de Kolmogorov-Smirnov contrasta la hipótesis de que los datos se distribuyen normalmente.

13 Resultados del AED El estadístico de Levene contrasta la hipótesis de igualdad de varianzas de la variable dependiente para los grupos definidos por la variable factor categórica.

14 Resultados del AED

15 Resultados del AED

16 Resultados del AED GAsto por turista y día Stem-and-Leaf Plot for
Sexo= femenino Frequency Stem & Leaf 32, 61, 59, 31, 34, 30, 23, & 13, 22, 15, 12, 2, 12, , 1, & 13,00 Extremes (>=292) Stem width: ,00 Each leaf: case(s) LNgtd Stem-and-Leaf Plot for Sexo= masculino Frequency Stem & Leaf 3,00 Extremes (=<1,5) 2, & 11, & 13, & 46, 63, 73, 75, 52, 8, & 4, & 1, & Stem width: ,00 Each leaf: case(s) & denotes fractional leaves. El gráfico de tallo y hojas utiliza los valores de los datos originales para mostra la forma de la distribución. El gráfico para el gasto por turista y día de sexo femenino muestra la asimetría a la derecha que habíamos visto a través de los coeficientes correspondientes; los valores se agrupan en un rango que va desde los 10 € hasta los 100 €, mientras que si crece el valor la frecuencia va descendiendo gradualmente.

17 Resultados del AED El gráfico de tallo y hojas utiliza los valores de los datos originales para mostra la forma de la distribución. El gráfico para el gasto por turista y día de sexo femenino muestra la asimetría a la derecha que habíamos visto a través de los coeficientes correspondientes; los valores se agrupan en un rango que va desde los 10 € hasta los 100 €, mientras que si crece el valor la frecuencia va descendiendo gradualmente.

18 Resultados del AED El gráfico de tallo y hojas utiliza los valores de los datos originales para mostra la forma de la distribución. El gráfico para el gasto por turista y día de sexo femenino muestra la asimetría a la derecha que habíamos visto a través de los coeficientes correspondientes; los valores se agrupan en un rango que va desde los 10 € hasta los 100 €, mientras que si crece el valor la frecuencia va descendiendo gradualmente.

19 Resultados del AED El diagrama de cajas nos permite comparar cada grupo utilizando cinco valores resumen: la mediana, los percentiles 25 y 75, y los valores mínimo y máximo que no son estadísticamente atípicos. Los valores atípicos y extremos se les da una atención especial. La línea negra que está dentro de la caja marca el percentil 50 o mediana dicha distribución. Nótese que las medianas varían muy poco entre grupos de turistas según su sexo. Los bordes de las cajas marcan los percentiles 25 y 75 de cada distribución. Los bigotes que aparecen por encima y por debajo de cada caja, señalan los valores mínimo y máximo no considerados estadísticamente atípicos. Los valores atípicos se representan con un círculo y los extremos con un asterisco. El gráfico de tallo y hojas utiliza los valores de los datos originales para mostra la forma de la distribución. El gráfico para el gasto por turista y día de sexo femenino muestra la asimetría a la derecha que habíamos visto a través de los coeficientes correspondientes; los valores se agrupan en un rango que va desde los 10 € hasta los 100 €, mientras que si crece el valor la frecuencia va descendiendo gradualmente.


Descargar ppt "ANÁLISIS EXPLORATORIO DE DATOS"

Presentaciones similares


Anuncios Google