La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Que es el Análisis Exploratorio de Datos.

Presentaciones similares


Presentación del tema: "Que es el Análisis Exploratorio de Datos."— Transcripción de la presentación:

1 Que es el Análisis Exploratorio de Datos.
El Análisis Exploratorio de Datos (A.E.D.) es un conjunto de técnicas estadísticas cuya finalidad es conseguir un entendimiento básico de los datos y de las relaciones existentes entre las variables analizadas. Para conseguir este objetivo el A.E.D. proporciona métodos sistemáticos sencillos para organizar y preparar los datos, detectar fallos en el diseño y recogida de los mismos, tratamiento y evaluación de datos ausentes (missing), identificación de casos atípicos (outliers) y comprobación de los supuestos subyacentes en la mayor parte de las técnicas multivariantes (normalidad, linealidad, homocedasticidad).

2 ETAPAS DEL A.E.D. 1) Preparar los datos para hacerlos accesibles a cualquier técnica estadística. 2) Realizar un examen gráfico de la naturaleza de las variables individuales a analizar y un análisis descriptivo numérico que permita cuantificar algunos aspectos gráficos de los datos. 3) Realizar un examen gráfico de las relaciones entre las variables analizadas y un análisis descriptivo numérico que cuantifique el grado de interrelación existente entre ellas. 4) Evaluar, si fuera necesario, algunos supuestos básicos subyacentes a muchas técnicas estadísticas como, por ejemplo, la normalidad, linealidad y homocedasticidad. 5) Identificar los posibles casos atípicos (outliers) y evaluar el impacto potencial que puedan ejercer en análisis estadísticos posteriores. 6) Evaluar, si fuera necesario, el impacto potencial que pueden tener los datos ausentes (missing) sobre la representatividad de los datos analizados.

3 PREPARACIÓN DE LOS DATOS
El primer paso en un A.E.D. es hacer accesible los datos a cualquier técnica estadística. Ello conlleva la selección del método de entrada (por teclado o importados de un archivo) y codificación de los datos así como la de un paquete estadístico adecuado para procesarlos. - Combinar conjuntos de datos de dos archivos distintos - Seleccionar subconjuntos de los datos - Dividir el archivo de los datos en varias partes - Transformar variables - Ordenar casos - Agregar nuevos datos y/o variables - Eliminar datos y/o variables - Guardar datos y/o resultados

4 Variables Cualitativas:
se refiere a que indica cualidad o características no numerables directamente. Dentro de estas es posible identificar tres categorías. Dicotómicas: indica que solo tiene dos posibilidades de respuesta. Nominales: indica solo una correspondencia entre un atributo y un valor numérico. Ordinales: al igual que la anterior categoría es una equivalencia entre un atributo y un valor numérico, en esta ocasión, es de importancia el orden en que se hace esta equivalencia.

5 Variables Cuantitativas: indicativa de cantidad, es una de las variables más encontradas en las investigaciones. Esta se divide en dos tipos: Discretas: Tipo de variable cuantitativa, relacionada a la categoria de conteo, matemáticamente hablando, no es posible encontrar entre dos enteros consecutivos otro número. Continuas: ha diferencia de la anterior, y que la hace más potente, es que es posible encontrar infinitos números entre dos enteros consecutivos.

6 Variables Dicotomicas Cualitativas Nominales Ordinales Variables
Cuantitativas Discreta Continua

7 Los Datos Una vez que hemos reconocido, las variables, la población o muestra; viene la toma de los datos y por cierto registrarlos. La tabulación es un paso importante en el análisis de los datos, es como se hace la equivalencia, en el caso de una variable cualitativa entre lo registrado y un valor numérico y obviamente su significado. Para una variable continua, es recomendable saber cuales son los limites de la variable.

8 ¿dónde registrar...? La pregunta actual, es donde se realiza el registro de los datos. En la actualidad, esto es fácil de decidir. Obviamente es hacerlo en un computador y por cierto la experiencia ha desarrollado una especie de convenio, en que todo converge desde una planilla electrónica llamada Excel de Microsoft. Por lo general, se ingresa o se registra los datos en esta planilla, pero en la actualidad la mayoría de los softwares estadísticos, traen un módulo de ingreso de datos de tipo planilla.

9 ¿cómo registrar...? Da lo mismo la versión de Excel. Pero hay que tener las siguientes consideraciones: -Cantidad de decimales -Nombre de los campos Ordenamiento de los campos En el 99% de los software, tienen un particular forma de registrar los campos y por supuesto los datos.

10 ¿Cómo hacer...? deberemos conocer como serán medidos los objetivos, en consideracón a esto debemos analizar los siguientes aspectos: Tipo de medida: como recopilar los datos Duración de la medición: cuanto nos demoramos en una recopilación Cantidad de mediciones: cuantas veces se repetira el mismo tipo de medida Factibilidad de las mediciones Estas son las que en la mayoría de las ocasiones uno debe tomar en cuenta para el posterior análisis. De acuerdo a lo anterior, se encuentran las siguientes posibilidades en las cuales uno debe encasillar el estudio. ¿Es Cualitativo o Cuantitativo?

11 ¿qué hacer ahora? En la etapa inicial, hemos reconocido, lo necesario para saber donde estamos posicionados. Pero ahora ¿que se hace?; veamos algunas posibilidades. Graficar. Hacer alguna agrupación de los datos. Obtener algunas medidas.

12 Graficar Las técnicas gráficas ayudan a descubrir los patrones de distribución ocultos en un conjunto de datos. Aunque parece que es llegar y hacer, existen ciertas reglas que uno debe mantener:

13 Graficar Dentro de la gama de gráficos encontramos:
Barras Simples, Agrupadas, Compuesta, Histograma, Circular, Area, Lineas o Tendencia, Dispersión, Pictograma. Reglas: Mantener una escala entre la el eje vertical y la horizontal. Algunos hablan de una escala 1:1,5 y otros que el eje vertical debe ser entre un 75% o un 80% del eje horizontal. Si tiene colores, úselos. Los tachados son influyentes en la forma de lo que se esta usando.

14 Graficar

15 Graficar Otras consideraciones
El tipo de variable es decisivo en la elección del tipo de gráfico. La cantidad de resultados por variable.

16 Graficar

17 Graficar Consideraciones extras: Todo Gráfico tiene un Título.
El título del gráfico, nunca es, por ejemplo: Gráfico de las edades. La interpretación es esencialmente importante, recordando la base de los datos y su relación con otras variables.

18 Agrupación de datos. Otra manera de tener un percepción acerca de la distribución de los datos, es hacer una agrupación de estos. Variados diagramas dan una visión de lo que podría estar pasando con los datos, Tablas de Frecuencias. Tablas de Frecuencias Agrupadas. Tablas de Contingencia.

19 Agrupación de Datos Tabla de Frecuencias
Como su nombre lo indica es una tabla en la cual se agrupan los datos dependiendo de la cantidad de veces que se repite dentro de los datos el mismo valor.

20 Agrupación de Datos -Tabla de Frecuencias Agrupadas
A diferencia de la anterior tabla, uno debe trabajar un poco los datos. ¿Cuando se utiliza?, bueno básicamente, cuando la necesidad de información con respecto a la calidad de ella no es tan preponderantemente importante. Obviamente lo que recien hemos mencionado es la calidad de la información, es decir, para este caso, se pierde información al trabajar con agrupación de datos.

21 Agrupación de Datos Tabla de Frecuencia Pasos.
Ordenar los datos de menor a mayor Obtener el Máximo y el mínimo, obtener el Intervalo como el valor máximo menos el valor mínimo de los datos. Obtener el número de intervalos a agrupar los datos como I=3,3*log(n) +1, luego aproximar a entero el I. Obtenga el intervalo interclase como el Rango dividido por el I

22 Agrupación de Datos ¿cómo interpretar?, siempre lo más importante es saber que significan los números que uno encuentra para poder explicarlos.

23 Agrupación de Datos Tablas de Contingencia
Usadas básicamente cuando se quiere mostrar el comportamiento de los datos con respecto a las distintas categorías de dos variables relacionadas. Por ejemplo, tomamos la “edad” de los estudiantes del Diplomado en Estadística y queremos saber como se distinguen entre Hombre y Mujeres, o las personas que son de Temuco versus las que no, o según tendencia política se tiene una tabla de doble entrada o de contingencia.

24 Agrupación de Datos Lo importante, es como determinar la explicación de los datos que aparecen en la tabla. Además se debe tener claro, los objetivos que el estudio esta tratando de aclarar. Esto es de real importancia para determinar la base de los porcentajes que deberán obtenerse.

25 Agrupación de Datos Leamos.....Interpretemos.... Consideraciones:
-Recordar en la aplicación de los porcentajes cual es la base de importancia. -

26 Estadística Descriptiva
Si el conjunto es una muestra aleatoria de una población y el último objetivo es hacer inferencia estadística, las estadísticas descriptivas que veremos a continuación serán utilizadas como base para hacer inferencias acerca de la población. Estas estadísticas ayudan en primera instancia a tener un conocimiento cuantitativo de los datos que se están analizando. Pero como todo lo visto anteriormente, también tienen reglas para su utilización.

27 Estadística Descriptiva
Parámetros Estadísgrafos

28 Estadística Descriptiva
La estadística descriptiva cuantitativa, se puede dividir en tres temas: Medidas de Tendencia Central Medidas de Dispersión Medidas de Posición Relativa

29 Medidas de Tendencia Central
A menudo en el comportamiento de los datos se acumulan alrededor de un valor central situado entre los dos valores extremos de la variable que se estudia. Como también los datos pueden tender a dispersarse y distribuirse alrededor del valor en forma tal que esta tendencia puede ser especificada cuantitativamente. La posibilidad de localizar un punto de tendencia central, particularmente cuando al mismo tiempo existe una descripción de la dispersión de los datos con respecto a este punto.

30 Medidas de Tendencia Central
Dentro de las medidas de tendencia central se encuentran: Media Aritmética Mediana Moda Media Geométrica Media Armónica

31 Medidas de Tendencia Central
Media Aritmética. Más conocida como el Promedio, es una de las estadísticas más utilizadas para describir el comportamiento de una población. El cálculo Representa el valor que tendrían todas los datos, si no existiese variabilidad. Consideraciones: Solo trabaja con variable de tipo Cuantitativa Continua. Sensible a valores extremos.

32 Medidas de Tendencia Central
Mediana. Sin duda también es una estadística muy importante, como representante del comportamiento de la población, como variante de la media aritmética. Cálculo: Representa el valor que divide a la población en 50%, por arriba y por debajo de este. Consideraciones -Trabaja sin problemas con Variables cuantitativas.

33 Medidas de Tendencia Central
Moda Una estadística comúnmente usada sin saber que lo es, Cálculo: Mo: Buscar el valor que más se repite dentro de una tabla de frecuencia (pueden ser varios dentro de la misma variable). Consideraciones: Regularmente utilizada para describir patrones dentro de una variable de tipo cualitativa, también puede ser utilizada en variables de tipo cuantitativa.

34 Medidas de Tendencia Central
Media Geométrica Una estadística casi ignorada por las implicaciones que tiene, y con respecto a su forma de cálculo. Calculo: Consideraciones: Muy sensible al valor 0 Solo trabaja con variables de tipo Cuantitativa Continua

35 Medidas de Tendencia Central
Media Armónica Otra estadística muy poco utilizada, Cálculo Consideraciones: Muy útil cuando se trabaja con índices o porcentajes. Trabaja básicamente con variables de tipo cuantitativa continua.

36 Medidas de Dispersión ¿como están diseminados los datos?, Las medidas de tendencia central son valores de una distribución y las medidas de variabilidad son intervalos, los cuales designan distancias o un número de unidades en la escala de medición. Las medidas más utilizadas son: Intervalo Varianza Desviación Estándar

37 Medidas de Dispersión Intervalo
También llamado recorrido, es utilizado en pocas ocasiones dado que el valor que arroja es demasiado amplio en cuanto a su apreciación. Cálculo: Diferencia entre la puntuación mayor y la puntuación menor; indica el número de unidades en la escala de medida.

38 Medidas de Dispersión Varianza
Una medida muy utilizada, basada en que muchas de las pruebas se basan en esta medida. Cálculo: Representa La distancia de promedio de los valores con respecto a la media al cuadrado. Consideraciones: -se utiliza siempre con variables de tipo continua.

39 Medidas de Dispersión Desviación Estándar El valor más importante dentro de las medidas de dispersión, ya que es el valor más representativo para indicar la variabilidad con respecto a la media, más aún esta en la misma medida de la variable de estudio. Representa el promedio de las distancias con respecto a la media.

40 Medidas de Posición Relativa
Como hemos visto hasta el momento, encontramos medidas que generalmente explican el comportamiento de variables de tipo continua. Estas medidas ayudan a encontrar una descripción de la población,tanto en variables de tipo Cualitativa, como Cuantitativa. Percentiles. Deciles. Cuartiles.

41 Medidas de Posición relativa
Percentiles. Supongamos que un alumno llega a su casa gritando –”obtuve un 4,9……en la prueba de la Universidad”. Obviamente quien escucha tendrá un reacción favorable, dado que no tiene más información. Debe quedar claro que dentro de ciertas unidades de medición, el puntaje carece por si misma de importancia, si no se tiene un Patrón o Base de consideración. Entonces si dijese ahora, “ el 70% de los estudiantes obtuvo puntajes mayores que la mía”

42 Medidas de Posición Relativa
El Cálculo: Una vez que los datos están ordenados: Donde i corresponde al posición del p-ésimo percentil que se esta solicitando. Los Percentiles más importantes son el 25, 50 y 75, conocidos también como cuartiles. n es el número de datos de la base de datos.

43 Medidas de Posición Relativa
Al calcular los cuartiles 25 y 75, se debe tener en claro la siguiente regla. Q25:al encontrar el índice i, Ud.. deberá redondear el índice al entero siguiente, independiente del número del decimal. Q75:al encontrar el índice i, Ud. deberá truncar el número. Estas reglas hacen un poco más fácil el tomar las decisiones acerca de los valores a investigar.

44 Medidas Descriptivas En la estadística, siempre buscamos que la distribución de la población sea NORMAL, o al menos tenga una distribución conocida, dado que ya sabemos cuales son los comportamientos, es decir, sabemos que esperar de los datos. Por tanto nos interesa poder descubrir cual es la forma que tiene la distribución de la población. Para esto contamos con la gráfica y con otras estadísticas que nos ayudan a saber como es el comportamiento de los datos.

45 Medidas Descriptivas Hasta el momento vivimos como una serie de cálculos nos da las herramientas para entender el comportamiento de la Población. Paralelo a lo anterior existen las siguientes estadísticas, que ayudan a saber acerca del comportamiento de los datos. Curtosis Skewness

46 Medidas Descriptivas La asimetría o Skewness nos da que tanto se aproximan los datos que se están trabajando a la distribución Normal y constituye un indicador del lado de la curva donde se agrupan las frecuencias. La Curtosis es un indicador de la forma de la distribución de la población, es decir, que tan plana o picuda es.

47 Medidas Descriptivas Asimetría =0 con curtosis positiva con desviación estándar media Asimetría positiva, curtosis positiva y desviación estándar grande Asimetría positiva con curtosis negativa y desviación estándar considerable.

48 Medidas Descriptivas Asimetría negativa curtosis positiva y desviación estándar chica Asimetría 0, curtosis positiva y desviación estándar chica Asimetría 0, curtosis =0 y desviación estándar 1


Descargar ppt "Que es el Análisis Exploratorio de Datos."

Presentaciones similares


Anuncios Google