ANÁLISIS EXPLORATORIO DE DATOS

Slides:



Advertisements
Presentaciones similares
ANOVA DE UN FACTOR.
Advertisements

El diagrama de cajas (box-plot)
Base de datos de pacientes obesos: Estudio obesidad.sav
ANALISIS DE DATOS CUANTITATIVOS
UNIVERSIDAD DE QUINTANA ROO Investigación de Mercado 2
Técnicas para el análisis de datos en el enfoque cuantitativo
Técnicas para el análisis de datos en el enfoque cuantitativo
Introducción En toda investigación, y antes de extraer conclusiones acerca de los objetivos e hipótesis planteados, es necesario llevar a cabo un análisis.
ESTADÍSTICA.
“Estadística Descriptiva”
ANÁLISIS EXPLORATORIO DE DATOS
ANÁLISIS PREELIMINAR DE LOS DATOS
UNIVERSIDAD TECNICA DE AMBATO
Análisis exploratorio de datos
FRANCISCO JAVIER RODRÍGUEZ
ALGUNOS CONCEPTOS PREVIOS
El Informe Estadístico
ANÁLISIS EXPLORATORIO DE DATOS
Laura López, Marta de Juan, Laura Mallo. Grupo 72. LADE.
ANALISIS DE DATOS CON EXCEL
MAESTRÍA EN DESARROLLO EDUCATIVO ESTADÍSTICA DESCRIPTIVA GRAFICO DE BARRAS ASESOR: JOSÉ LUIS VILLEGAS VALLE PRESENTA RODOLFO DOMÍNGUEZ RODRÍGUEZ.
ANALISIS EXPLORATORIO
Mt. Martín Moreyra Navarrete.
DISTRIBUCION DE FRECUENCIAS DESPUES DE LA RECOPILACION DE LOS DATOS,
Introducción a la Estadística Informática
Curso de Geoestadística 2. Análisis Exploratorio Ramón Giraldo H. PhD Estadística Profesor Departamento de Estadística Universidad Nacional de Colombia.
Representaciones gráficas
Seminario de TesisUnidad I. Marco Metodológico“Estadística Descriptiva” Dr. Javier Moreno Tapia.
TUTORIAL SPSS Análisis descriptivos con el Paquete Estadístico para las Ciencias Sociales Unidad 3.
GRÁFICOS ESTADÍSTICOS
Coeficiente de Variación
Laboratorio de Estadística administrativa
Maestría en Transporte Estadística Capítulo 1. Objetivos ¿Cómo se determinan las magnitudes para planificación de transporte, operación de transporte,
Construcción de gráficas: Forma manual y con programados
Gráfico de tallos y hojas Diagrama de cajas
ANÁLISIS DE LA INFORMACIÓN Descripción de los datos
Analisis exploratorio INGRID TATIANA RODRIGUEZ GUZMAN DIANA COSTANZA BERMUDEZ GORDILLO.
Divisiones de la Estadística
¿QUÉ ES LA ESTADÍSTICA? La estadística es una disciplina que diseña los procedimientos para la obtención de los datos, como asimismo proporciona las herramientas.
Divisiones de la Estadística
Ramón Giraldo H MSc. Estadística. Profesor Universidad Nacional
USO DEL “ANÁLISIS DE VARIANZA UNA-VÍA”, PARA:
METODOLOGÍA Y TÉCNICAS DE INVESTIGACIÓN EN CIENCIAS SOCIALES
Titular: Agustín Salvia
Tipos de Variables.- Cualitativas. Describen cualidades de los elementos de la muestra. Nominales. Categorías excluyentes y sin orden. (Ej. Sexo) Ordinales.
SPSS FOR WINDOWS Profesor: Msp Leopoldo Bejarano Benites.
DIANA YICELA ALDANA LORENA RAMIREZ YUNDA JHONATAN ANDRES GRACIA
ESTADÍSTICA Seminario V 15/04/2015. PUNTO 1  Abrimos el fichero y vamos a la vista variable.  cambiamos las escalas de los datos que nos dan.
Análisis de los Datos Cuantitativos
Universidad autónoma san francisco
SEMINARIO 5: GRÁFICAS EN SPSS Marta Rodríguez Sánchez 1º Enfermería B Subgrupo: 8.
BASES PARA LA SELECCIÓN DE UNA PRUEBA ESTADÍSTICA DRA. MA
Veamos brevemente algunos conceptos…
Ejercicios Dado un conjunto de datos, aplicar el Criterio de Fourier para desechar los posibles valores atípicos.
Diagrama de Tallos Y Hojas
INTRODUCCIÓN A SPSS Statistic Package for Social Sciencies.
CONFIRMATORIO EXPLORATORIO  Enfoque descriptivo  Indica hipótesis  Plan de investigación flexible y poco definido  Privilegia la representación grafica.
Características de las distribuciones estadísticas
¿Qué es la Estadística? Guayaquil, 20 de Octubre del 2015
Seminario EJERCICIO.  Realizar las tablas de contingencia para obtener información acerca de: 1.1 – ¿Existe relacion entre el tipo de centro educativo.
Pruebas paramétricas y no paramétricas
26. La Homocedasticidad y la prueba de Levene
19. Prueba de hipótesis para promedios Módulo IV: Análisis de datos numéricos Análisis de Datos Aplicado a la Investigación Científica
Análisis de tablas y gráficos IV medio
ESTADISTICA DESCRIPTIVA BIVARIADA MEDIDAS DE RELACIÓN ENTRE VARIABLES CUANTITATIVAS.
UNIVERSIDAD DE COSTA RICA Sistema de Estudios de Posgrado Escuela de Salud Pública I Ciclo lectivo 2003 Epidemiología – (SP – 2216) Profesora: Carmen.
Estadística descriptiva
Estadística descriptiva
TAMAÑO DE LA MUESTRA. Para definir el tamaño de la muestra se debe tener en cuenta los recursos disponibles y las necesidades del plan de análisis, el.
UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS (Universidad del Perú, Decana de América) FACULTAD DE MEDICINA - UPG MAESTRÍA EN NEUROCIENCIAS Curso: Bioestadística.
Transcripción de la presentación:

ANÁLISIS EXPLORATORIO DE DATOS Ángel M. Ramos Domínguez

Análisis Exploratorio de Datos La exploración de los datos puede ayudar a determinar si las técnicas estadísticas que estamos considerando utilizar en el análisis son apropiadas. El procedimiento EXPLORAR de SPSS proporciona una variedad de resúmenes númericos y visuales de los datos, tanto para todos los datos en su conjunto, como para grupos de casos separadamente. La variable dependiente debe estar medida en una escala cuantitativa, mienstras que las variables de grupo pueden ser ordinales o nominales. Con el procedimiento EXPLORAR de SPSS podemos: Escrutar los datos Identificar casos atípicos (outliers) Revisar los supuestos Caracterizar las diferencias entre grupos de casos

Análisis Exploratorio de Datos Queremos explorar la variable gasto por turista y día, para el conjunto de la muestra, cumple los supuestos exigidos para la mayoría de las técnicas estadísticas, así como, para cada uno de los grupos de turistas definidos según sexo. Haremos uso de la base de datos Base Turistas.sav que se encuentra en la carpeta \\Escritorio\Asignaturas\Empresariales\Métodos\ de nuestro PC. El fichero recoge la información referida a una muestra de 797 turistas entrevistados al término de sus vacaciones en Tenerife.

Análisis Exploratorio de Datos Para empezar el análisis, de la barra de menús elegimos: Analizar Estadísticos Descriptivos Explorar

Análisis Exploratorio de Datos Elegimos como variable dependiente el gasto por turista y día, y como factor la variable sexo. Elegimos los estadísticos: descriptivos, intervalo de confianza para la media al 95%, estimadores robustos centrales, valores atípicos y percentiles. Elegimos los gráficos: diagrama de cajas, tallos y hojas, histograma, y gráficos con prueba de normalidad Estimación de la potencia Elegimos que nos muestre los valores perdidos.

Resultados del AED La tabla de resumen del procesamiento de los casos muestra tres secciones: la primera recoge el número de casos válidos según sexo, la segunda muestra el número de casos perdidos según sexo, y por último, el número total de casos, también según sexo.

Resultados del AED La tabla de Descriptivos proporciona estadísticos de resumen para variables numéricas continuas, en nuestro caso “gasto por turista y día”. Los estadísticos resumen incluyen medidas de tendencia central como la media y la mediana. Medidas de dispersión (dispersión de la distribución) tales como la desviación típica. Y medidas de forma, tales como asimetría ( y curtósis, que indican en qué medida la distribución se aleja de la distribución normal. En general, un valor de asimetría mayor que 1 indica una distribución que difiere significativamente de una normal, distribución simétrica. Transformaciones tales como una transformación logarítmica pueden hacer que la distribución se acerque a la simetría y a la normalidad. Dado que muchos tests estadísticos asumen la normalidad de los datos, sería conveniente revisar la distribución de la variable, y en caso de incumplimiento, plantearnos algún tipo de transformación de la variable o bien plantearnos el uso de contrastes no parámetricos que no exigen el cumplimiento de la normalidad de los datos.

Resultados del AED En nuestro caso si comparamos el contraste de la normalidad de la variable original “gasto por turista y día” y de la variable resultante de la transformación logarítmica, se observa que conseguimos que ésta última variable se acerque más a la normalidad.

Resultados del AED Los estimadores-M son medidas robustas de tendencia central que se pueden usar como alternativas a la media y la mediana.

Resultados del AED Los percentiles indican el porcentaje de casos que están por debajo de los valores mostrados.

Resultados del AED La tabla de valores extremos muestra los casos con los 5 valores mayores y menores.

Resultados del AED El estadístico de Kolmogorov-Smirnov contrasta la hipótesis de que los datos se distribuyen normalmente.

Resultados del AED El estadístico de Levene contrasta la hipótesis de igualdad de varianzas de la variable dependiente para los grupos definidos por la variable factor categórica.

Resultados del AED

Resultados del AED

Resultados del AED GAsto por turista y día Stem-and-Leaf Plot for Sexo= femenino Frequency Stem & Leaf 32,00 0 . 000011111111111 61,00 0 . 222222222222222333333333333333 59,00 0 . 44444444444444444444555555555 31,00 0 . 666666666777777 34,00 0 . 8888888888999999 30,00 1 . 00000000001111 23,00 1 . 22222222222& 13,00 1 . 444445 22,00 1 . 6667777777 15,00 1 . 8888889 12,00 2 . 01111 2,00 2 . 3 12,00 2 . 445555 ,00 2 . 1,00 2 . & 13,00 Extremes (>=292) Stem width: 100,00 Each leaf: 2 case(s) LNgtd Stem-and-Leaf Plot for Sexo= masculino Frequency Stem & Leaf 3,00 Extremes (=<1,5) 2,00 1 . & 11,00 2 . 1333& 13,00 2 . 7899& 46,00 3 . 000000001222334444444 63,00 3 . 555555666666777777788889999999 73,00 4 . 00001122222222222333333344444444444 75,00 4 . 555555666666666666677788888888889999 52,00 5 . 000111111122222333333334 8,00 5 . 557& 4,00 6 . 2& 1,00 6 . & Stem width: 1,00 Each leaf: 2 case(s) & denotes fractional leaves. El gráfico de tallo y hojas utiliza los valores de los datos originales para mostra la forma de la distribución. El gráfico para el gasto por turista y día de sexo femenino muestra la asimetría a la derecha que habíamos visto a través de los coeficientes correspondientes; los valores se agrupan en un rango que va desde los 10 € hasta los 100 €, mientras que si crece el valor la frecuencia va descendiendo gradualmente.

Resultados del AED El gráfico de tallo y hojas utiliza los valores de los datos originales para mostra la forma de la distribución. El gráfico para el gasto por turista y día de sexo femenino muestra la asimetría a la derecha que habíamos visto a través de los coeficientes correspondientes; los valores se agrupan en un rango que va desde los 10 € hasta los 100 €, mientras que si crece el valor la frecuencia va descendiendo gradualmente.

Resultados del AED El gráfico de tallo y hojas utiliza los valores de los datos originales para mostra la forma de la distribución. El gráfico para el gasto por turista y día de sexo femenino muestra la asimetría a la derecha que habíamos visto a través de los coeficientes correspondientes; los valores se agrupan en un rango que va desde los 10 € hasta los 100 €, mientras que si crece el valor la frecuencia va descendiendo gradualmente.

Resultados del AED El diagrama de cajas nos permite comparar cada grupo utilizando cinco valores resumen: la mediana, los percentiles 25 y 75, y los valores mínimo y máximo que no son estadísticamente atípicos. Los valores atípicos y extremos se les da una atención especial. La línea negra que está dentro de la caja marca el percentil 50 o mediana dicha distribución. Nótese que las medianas varían muy poco entre grupos de turistas según su sexo. Los bordes de las cajas marcan los percentiles 25 y 75 de cada distribución. Los bigotes que aparecen por encima y por debajo de cada caja, señalan los valores mínimo y máximo no considerados estadísticamente atípicos. Los valores atípicos se representan con un círculo y los extremos con un asterisco. El gráfico de tallo y hojas utiliza los valores de los datos originales para mostra la forma de la distribución. El gráfico para el gasto por turista y día de sexo femenino muestra la asimetría a la derecha que habíamos visto a través de los coeficientes correspondientes; los valores se agrupan en un rango que va desde los 10 € hasta los 100 €, mientras que si crece el valor la frecuencia va descendiendo gradualmente.