Sesión 8 Tema: Estadística descriptiva Objetivo:

Slides:



Advertisements
Presentaciones similares
Lic. Cristian R. Arroyo López
Advertisements

ESTADÍSTICA DESCRIPTIVA
MÉTODOS ESTADÍSTICOS.
Capítulo 4: Medidas de dispersión
CENTRAL Y DE DISPERSIÓN
CLASE 1: Recordando algunos conceptos previos de Estadística
FRANCISCO JAVIER RODRÍGUEZ
Metodología De las Ciencias Sociales III
ESTADÍSTICA UNIDIMENSIONAL
MATEMÁTICAS 2º ESO UD8 ESTADÍSTICA.
Medidas de Dispersión Estadística E.S.O.
MEDIDAS DE TENDENCIA CENTRAL
1º BACHILLERATO | Matemáticas © Oxford University Press España, S.A Hacer clic en la pantalla para avanzar VARIABLE ESTADÍSTICA UNIDIMENSIONAL Población:
Facultad: Turismo Y Hotelería
ESTADISTICA 3 ro. SECUNDARIA.
Introducción a la estadística
Medidas de resumen.
REPASO BLOQUE I: TEMAS 1-4
DEPARTAMENTO DE MATEMÁTICA APLICADA
Estadística Descriptiva
La Estadística se encarga de dar solución a este y otros problemas.
Estadística Descriptiva continuación
Datos: Estadística.
Bioestadística Tema 2: Estadísticos Bioestadística. U. Málaga.
Tema 2: Parámetros Estadísticos
ESTADÍSTICAS DESCRIPTIVA
Coeficiente de Variación
Fundamentos Matemáticos Medidas de tendencia central
Laboratorio de Estadística administrativa
Medidas de Posición y Centralización Estadística E.S.O.
ESTADÍSTICA DESCRIPTIVA
Tratamiento de datos y azar
TABLAS DE FRECUENCIAS Una vez recopilados, tendremos un conjunto de datos que será necesario organizar para extraer información. Lo primero que se hace.
Page 1 ESCUELA SUPERIOR POLITECNICA DE CHIMBORAZO FACULTAD DE INFORMATICA Y ELECTRONICA ESCUELA DE DISEÑO GRAFICO ESTADISTICA TEMA: estadista, entendimiento.
MEDIDAS DE DISPERSIÓN. La dispersión es la variación en un conjunto de datos que proporciona información adicional y permite juzgar la confiabilidad de.
ESTADÍSTICA.
¿QUÉ ES LA ESTADÍSTICA? La estadística es una disciplina que diseña los procedimientos para la obtención de los datos, como asimismo proporciona las herramientas.
Profesora: Daniela Gaete Pino
ESTADISTICA PARA RELACIONES LABORALES
Estadística Descriptiva: 2. Medidas de Tendencia y Dispersión
Estadística Al hacer Un sondeo de opinión
Qué es una Variable Aleatoria??????????
Describir una variable numérica
Bioestadística Tema 2: Estadísticos Bioestadística. U. Málaga.
Descripción de los datos: medidas de dispersión
Estadística Aplicada a la Sesión 04: Medidas de Posición
LA ESTADÍSTICA.
ANALISIS ,GRAFICOS Y MEDIDAS ESTADISTICAS
ANÁLISIS E INTREPRETACIÓN DE DATOS
PARÁMETROS ESTADÍSTICOS
Tipos de Variables.- Cualitativas. Describen cualidades de los elementos de la muestra. Nominales. Categorías excluyentes y sin orden. (Ej. Sexo) Ordinales.
Métodos Cuantitativos
ESTADÍSTICA UNIDIMENSIONAL
MEDIDAS DE TENDENCIA CENTRAL
Objetivo: Recordar elementos presentes en el estudio de la estadística
Estadística descriptiva
MEDIDAS DE TENDENCIA CENTRAL
Coeficiente de variación
Historia de la Estadística
Análisis de tablas y gráficos IV medio
DIPLOMADO DE POSTGRADO
Estadística descriptiva
MEDIDAS DE DISPERSIÓN Pedro Godoy Gómez. Miden qué tanto se dispersan las observaciones alrededor de su media. MEDIDAS DE DISPERSIÓN.
Estadística descriptiva
Estadística y probabilidad aplicada a los negocios
CONCEPTOS BÁSICOS, TABULACIÓN, GRÁFICOS
PROBABILIDAD Y ESTADISTICA.
CAPÍTULO 4 Introducción a la Estadística. Modelos de regresión.
Medidas de tendencia central
Estadística y probabilidad
Transcripción de la presentación:

Sesión 8 Tema: Estadística descriptiva Objetivo: Carrera: TNS de Electricidad en Potencia Objetivo: Resolver situaciones que puedan se explicadas en términos de funciones trigonométricas Profesor: Víctor Manuel Reyes Asignatura: Matemática II Sede: Osorno

Contenidos Estadística descriptiva: Técnicas que tratan de describir conjuntos de datos resumiendo la información que éstos proporcionan utilizando como herramientas: Tablas de frecuencias Gráficos Medidas numéricas: Posición o centralización Dispersión Forma o asimetría

Conceptos fundamentales Población: conjunto de elementos o individuos de los que interesa estudiar alguna característica. Variable : Es la característica que se desea estudiar. Puede ser cualitativas, cuando sus valores indican cualidad y no son numéricos, o cuantitativas, cuando sus valores son numéricos. Las variables cuantitativas también se llaman variables estadísticas.

Conceptos fundamentales Muestra: subconjunto finito de una población. Razones para estudiar una muestra: coste, tiempo, personal cualificado, procesos destructivos,... La estadística siempre trabaja con muestras: es decir, con un conjunto de datos x1, x2 ,..., xn que vienen del estudio de una característica o variable X.

Ejemplos Población: Estudiantes de la EUI Muestra: Alumnos de este grupo Variables cualitativas: Sexo, color de pelo, grado de satisfacción ante el funcionamiento de una instalación de la EUI,... Variables cuantitativas: Edad, nº de llamadas de móvil en un día, tiempo empleado en cada llamada, salario que se cobra mensualmente, nº de conexiones diarias a Internet...

Distribución de frecuencias Para estudiar una variable X se parte de una muestra de tamaño n, x1, x2 ,..., xn, entre los que suponemos que aparecen como valores distintos x1, x2 ,..., xk . Frecuencia absoluta de xi: Es el número, ni, de veces que se repite xi. Frecuencia relativa de xi: es el cociente entre la frecuencia absoluta y n.

Distribución de frecuencias Frecuencia absoluta(relativa) acumulada de xi: Si llamamos x*1, x*2 ,..., x*k a los valores ordenados de menor a mayor (sólo sentido variables cuantitativas o estadísticas): Frecuencia absoluta acumulada de x*i Frecuencia relativa acumulada de x*i

Propiedades de frecuencias La suma de las frecuencias absolutas es el número de datos. La suma de las frecuencias relativas es 1. Si la frecuencia relativa de un dato se multiplica por 100, tenemos el porcentaje que ese dato representa del total.

Propiedades de frecuencias La frecuencia absoluta acumulada del último dato coincide con el número de datos. La frecuencia relativa acumulada del último dato es 1. Si la frecuencia relativa acumulada de un dato se multiplica por 100, tenemos el porcentaje que ese dato y todos los menores representan sobre el total.

Tabla o distribución de Frecuencias Es el conjunto de valores distintos que toma la variable acompañados de sus respectivas frecuencias. Tiene sentido para variables cuantitativas y para variables cualitativas (en este caso, sólo las frecuencias absolutas y relativas)

Tabla de Frecuencias Ejemplo: Número de accesos de un procesador a un determinado módulo de memoria en una hora. Se toma una muestra de tamaño 14: 1, 2, 4, 8, 2, 1, 4, 4, 8, 3, 2, 2, 7, 3.

Tabla de Frecuencias Otras tablas de frecuencias

Tabla de Frecuencias Las tablas de frecuencia son útiles para resumir la información de una variable cuando se tiene una muestra con pocos valores distintos (orientativo, a lo sumo 20). Si el número de valores distintos de la muestra es grande (mayor que 20), se agrupan los datos en intervalos para construir la tabla de frecuencias. Llamaremos a estas últimas “Variables agrupadas”. Al resto nos referiremos como “Variables no agrupadas” o sin agrupar. Una regla usual para el número de intervalos es elegir un entero cercano a 1 + 3.3log10(n).

Tabla de Frecuencias Población: hogares osorninos Muestra: 40 familias osorninos Variable o característica: Consumo mensual de leche, en litros. Tenemos 22 valores distintos: vamos a agrupar en intervalos. Mínimo = 10, máximo = 103.3; 1 + 3.3log10(40) = 6.29 ≈ 6. Conviene trabaja con intervalos “fáciles”, por ejemplo, que tengan extremos enteros.

Tabla de Frecuencias Como puede observarse el primer intervalo contienen más del 30% (12) y el último menos del 5% (2) de los datos.

Representaciones Gráficas Diagrama de barras Histograma Se realiza cuando el número de datos distintos es pequeño (menos de 20 con Statgraphics). Sobre cada valor de los datos se levanta una barra cuya altura es igual o proporcional a su frecuencia. Se pueden representar las frecuencias absolutas o relativas.

Diagrama de barras

Histograma Es una representación que se usa cuando hay muchos datos distintos y, por tanto, hay que agrupar los datos en intervalos. En este caso, cada intervalo se representa mediante un rectángulo cuya altura es igual o proporcional a su frecuencia. Se pueden representar las frecuencias absolutas o relativas

Medidas de tendencia central O Medidas de centralización o posición Tienen sentido solamente para variables cuantitativas (valores numéricos) Son valores en torno a los cuales se agrupa la variable (Valores centrales). Las principales son: Moda Media aritmética Mediana Cuantiles

Moda Es el dato con mayor frecuencia absoluta (el que más se repite). Puede haber más de una moda o no haber moda (si todos los datos tienen frecuencia 1) Ejemplo: 2, 2, 3, 3, 4, 4, 4, 5, 6, 6, 6, 7, 7, 8, 8 (muestra tamaño 15) Este ejemplo tiene dos modas: 4 y 6

Media aritmética La media es la suma de todos los valores de la variable dividido entre el número total de datos (primera fórmula). Si se dispone de las frecuencias absolutas (relativas) de los datos, la media se puede calcular usando la segunda (tercera) expresión de la media donde representan los valores distintos de la variable. Todas las medidas que estudiemos tienen esta dos versiones.

Media aritmética Con los datos anteriores: 2, 2, 3, 3, 4, 4, 4, 5, 6, 6, 6, 7, 7, 8, 8 (muestra tamaño 15), se tiene:

Mediana Es un valor tal que, ordenados de menor a mayor los datos, el 50% es menor o igual que él y el 50% mayor o igual que él. Se denota como Me. Con los datos del ejemplo anterior: En este caso hay un valor central porque el número de datos es impar. En el caso de tener un número par de datos, la mediana es la semisuma de los dos datos centrales (en este caso no tiene porqué ser uno de los datos) Si añadimos a los datos anteriores el valor 8, la mediana es 5.5, que no es uno de los datos.

Comparación media-mediana La media contiene más información porque usa los valores de todos los datos. La mediana es más robusta frente a los cambios en los datos, es decir, es menos sensible a cambios en los datos. Ejemplo: si a los datos anteriores 2 2 3 3 4 4 4 5 6 6 6 7 7 8 8, le añadimos el dato 34, tenemos: Nueva media: = 6.8 (antes era 5) Nueva mediana: Me = 5.5 (antes era 5) La media es más sencilla de calcular y se presta mejor a los cálculos algebraicos. Deben calcularse ambas pues proporcionan información complementaria.

Percentiles Percentil de orden k = cuantil de orden k/100 La mediana es el percentil 50 El percentil de orden 15 deja por debajo al 15% de las observaciones. Por encima queda el 85% Cuartiles: Dividen a la muestra en 4 grupos con frecuencias similares. Primer cuartil = Percentil 25 = Cuantil 0,25 Segundo cuartil = Percentil 50 = Cuantil 0,5 = mediana Tercer cuartil = Percentil 75 = cuantil 0,75 Q1 es un valor tal que el 25% de los datos es menor o igual que él y el resto, mayor o igual que él. P18 es un valor tal que el 18% de los datos es menor o igual que él y el resto mayor o igual que él.

Percentiles En el calculo se ordenan los datos de menor a mayor. Ejemplo: 2,2,3,3,4,4,4,5,6,6,6,7,7,8,8 en este ejemplo n=15 Encontrar un valor tal que el 25% de los datos sea menor o igual que él nα = 15*0.25 = 3.75 Esto significa que el 25% de los datos son menores o iguales que 3 y el otro 75% son mayores o iguales que 3.

Medidas de dispersión Se calculan solamente para variables cuantitativas Las medidas de dispersión completan la información que dan las medidas de centralización e indican si éstas son más o menos representativas del conjunto de datos. A menor valor de la medida, menor dispersión en el conjunto de datos. Las más importantes son: Rango o recorrido Recorrido intercuartílico Varianza y Desviación típica Coeficiente de variación

Necesidad de medidas de Dispersión Las medidas de centralización proporcionan una información incompleta del conjunto de datos. Ejemplo: sean X e Y las notas de dos grupos de cuarenta alumnos, con distribuciones de frecuencias: Para ambas variables la media es 5, pero en el segundo caso 5 es un valor más representativo de los datos que en el primero. Intuitivamente los datos de X están más dispersos (más separados) que los de Y, entre ellos y respecto de la media.

Rango o recorrido & Recorrido intercuartílico El rango o recorrido y el recorrido intercuartílico miden la amplitud de los datos. Se definen como: Rango o recorrido: R = xmayor –xmenor Recorrido intercuartílico: RQ = Q3 - Q1 En el ejemplo de las notas de las dos clases X e Y, se observa que X es más dispersa que Y al calcular R y RQ :

Varianza y desviación típica Ambas son medidas de dispersión asociadas a la media. Miden, entonces, la representatividad de la media en el conjunto de datos. Varianza: Representa una especie de distancia media de los datos a la media aritmética. A mayor varianza, mayor distancia de los datos a la media y por tanto, menor representatividad de la media. La varianza siempre es mayor o igual que 0 y está medida en unidades al cuadrado.

Varianza y desviación típica medida en las mismas unidades que los datos Desviación típica: En el ejemplo de las notas de los dos grupos de cuarenta alumnos, con distribuciones de frecuencias: Para ambas variables la media es 5, pero en el segundo caso 5 es un valor más representativo de los datos que en el primero como se puede observar al calcular la varianza.

Coeficiente de variación de Pearson La varianza NO sirve como medida si lo que se quiere es comparar, de entre varios conjuntos de datos, cual es el más disperso respecto de la media salvo si todos los conjuntos de datos tiene la misma media (ejemplo de las notas). Coeficiente de variación de Pearson: (asociado a la media) Este coeficiente es adimensional y elimina la influencia de la de la magnitud y unidades de medida de los datos. Multiplicado por 100 se interpreta como un porcentaje.

Ejemplo de cómo la varianza NO sirve para comparar la dispersión de dos conjuntos de datos cuando la media es diferente: Se tienen datos del peso de varios lagartos (X) y del peso de una población de tiburones (Y), en Kg. Para X: media = 0.473, V = 0.026, CV = 0.34 Para Y: media = 404, V= 9.846, CV = 0.0076 La varianza de Y es mayor que la de X pero está influenciado por la magnitud de los datos y por las unidades de medida. No podemos comparar la dispersión de los datos con la varianza porque las medias son distintas.

Coeficiente de asimetría de Fisher Si al calcular este valor con nuestros datos sucede que: CAF > 0, la distribución es asimétrica a la derecha. CAF = 0, la distribución es simétrica. CAF < 0, la distribución es simétrica a la izquierda.