DEPARTAMENTO DE MATEMÁTICA APLICADA

Slides:



Advertisements
Presentaciones similares
Lic. Cristian R. Arroyo López
Advertisements

Epidemiología Clínica y Estadística Aplicada
ESTADÍSTICA.
MÉTODOS ESTADÍSTICOS.
UNIVERSIDAD TECNICA DE AMBATO
CLASE 1: Recordando algunos conceptos previos de Estadística
FRANCISCO JAVIER RODRÍGUEZ
4ºESO Matemáticas B Colegio Divina Pastora (Toledo)
ESTADÍSTICA UNIDIMENSIONAL
MATEMÁTICAS 2º ESO UD8 ESTADÍSTICA.
Medidas de Dispersión Estadística E.S.O.
Representaciones Gráficas
1º BACHILLERATO | Matemáticas © Oxford University Press España, S.A Hacer clic en la pantalla para avanzar VARIABLE ESTADÍSTICA UNIDIMENSIONAL Población:
ESTADISTICA 3 ro. SECUNDARIA.
Introducción a la estadística
Medidas de resumen.
REPASO BLOQUE I: TEMAS 1-4
La Estadística se encarga de dar solución a este y otros problemas.
Introducción a la Estadística Informática
ESTADÍSTICA 2ºESO Mariano Benito.
ESTADÍSTICA 4° MEDIO
Datos: Estadística.
Tema 2: Parámetros Estadísticos
Medidas de resumen.
ESTADÍSTICAS DESCRIPTIVA
Laboratorio de Estadística administrativa
Medidas de Posición y Centralización Estadística E.S.O.
ESTADÍSTICA DESCRIPTIVA
Tratamiento de datos y azar
Estadísticas Datos y Azar
Page 1 ESCUELA SUPERIOR POLITECNICA DE CHIMBORAZO FACULTAD DE INFORMATICA Y ELECTRONICA ESCUELA DE DISEÑO GRAFICO ESTADISTICA TEMA: estadista, entendimiento.
ANÁLISIS DE LA INFORMACIÓN Descripción de los datos
MEDIDAS DE DISPERSIÓN. La dispersión es la variación en un conjunto de datos que proporciona información adicional y permite juzgar la confiabilidad de.
Analisis exploratorio INGRID TATIANA RODRIGUEZ GUZMAN DIANA COSTANZA BERMUDEZ GORDILLO.
ESTADÍSTICA.
Profesora: Daniela Gaete Pino
Estadística 1. Recuento de datos. Tablas de frecuencias
Estadística Descriptiva: 2. Medidas de Tendencia y Dispersión
Estadística Al hacer Un sondeo de opinión
1.5. Representaciones gráficas
Bioestadística Tema 2: Estadísticos Bioestadística. U. Málaga.
INTRODUCCIÓN A LA ESTADÍSTICA
ANALISIS ,GRAFICOS Y MEDIDAS ESTADISTICAS
ESTADÍSTICA Conceptos Básicos Pf. F.Abad.
Tipos de Variables.- Cualitativas. Describen cualidades de los elementos de la muestra. Nominales. Categorías excluyentes y sin orden. (Ej. Sexo) Ordinales.
Métodos Cuantitativos
ESTADISTICA DESCRIPTIVA
Sesión 8 Tema: Estadística descriptiva Objetivo:
ANALISIS DE VARIABLES CUANTITATIVAS EN EL PROCESO DE INVESTIGACIÓN
ESTADÍSTICA UNIDIMENSIONAL
Aplicaciones Estadísticas a las Finanzas Clase 1
Estadística Reporte Ejecutivo
JUAN LUIS CHAMIZO BLÁZQUEZ
MEDIDAS DE TENDENCIA CENTRAL
Veamos brevemente algunos conceptos…
Características de las distribuciones estadísticas
Objetivo: Recordar elementos presentes en el estudio de la estadística
Estadística descriptiva
MEDIDAS DE TENDENCIA CENTRAL
ESTADÍSTICA Conceptos Básicos Carmen Liliana Cadenillas Montenegro
Análisis de tablas y gráficos IV medio
Estadística descriptiva
Estadística descriptiva
CONCEPTOS BÁSICOS, TABULACIÓN, GRÁFICOS
ESTADÍSTICA DOCENTE :JUDITH PATRICIA MARTÍN HERMOSILLO MULTIVERSIDAD LATINOAMERICANA CAMPUS TONALÁ BLOQUE IX. APLICA LA ESTADÍSTICA ELEMENTAL.
CAPÍTULO 4 Introducción a la Estadística. Modelos de regresión.
LOGO Medidas de posición Pedro Godoy G. Media Aritmética Valor representativo de un conjunto de datos Para datos no agrupados 1, x2, x3, x4,…………………………,
Medidas de tendencia central
ELEMENTOS DE ESTADÍSTICA DESCRIPTIVA MIE. GRACIELA ROMERO MERCADO.
Estadística y probabilidad
Transcripción de la presentación:

DEPARTAMENTO DE MATEMÁTICA APLICADA ESTADÍSTICA DEPARTAMENTO DE MATEMÁTICA APLICADA

TEMA 1: ESTADÍSTICA DESCRIPTIVA 1.1 CONCEPTOS GENERALES. 1.2 DISTRIBUCIÓN DE FRECUENCIAS. 1.3 REPRESENTACIONES GRÁFICAS. 1.4 MEDIDAS DE TENDENCIA CENTRAL. 1.5 MEDIDAS DE DISPERSIÓN. 1.6 MEDIDAS DE ASIMETRÍA. 1.7 EL MODELO DE REGRESIÓN SIMPLE. PRÁCTICAS 1. ESTADÍSTICA DESCRIPTIVA. 2. MODELOS DE REGRESIÓN.

ESTADÍSTICA DESCRIPTIVA PLANTEAMIENTO DEL PROBLEMA OBTENCIÓN DE LA MUESTRA TEORÍA DE MUESTRAS TRATAMIENTO DE LA INFORMACIÓN ESTADÍSTICA DESCRIPTIVA PLANTEAMIENTO DEL MODELO CÁLCULO DE PROBABILIDADES ESTIMACIÓN Y CONTRASTE INFERENCIA ESTADÍSTICA CRÍTICA DE RESULTADOS TOMA DE DECISIONES

ESTADÍSTICA DESCRIPTIVA TRATA DE DESCRIBIR CONJUNTOS DE DATOS RESUMIENDO LA INFORMACIÓN QUE ESTOS PROPORCIONAN, UTILIZANDO: • TABLAS DE FRECUENCIAS •TÉCNICAS GRÁFICAS •TÉCNICAS ANALÍTICAS: MEDIDAS DE POSICIÓN, DISPERSIÓN Y FORMA

CONCEPTOS FUNDAMENTALES POBLACIÓN: conjunto de elementos o individuos de los que interesa estudiar alguna característica. MUESTRA: subconjunto de elementos de una población. RAZONES PARA ESTUDIAR UNA MUESTRA Coste Tiempo Personal cualificado Procesos destructivos

Llamamos CARÁCTER a la cualidad objeto de nuestro estudio Llamamos CARÁCTER a la cualidad objeto de nuestro estudio. Los caracteres pueden ser: Cuantitativos: la característica toma valores numéricos (número de peticiones a un servidor, tiempo entre peticiones consecutivas,etc) Cualitativos:la característica no toma valores numéricos (sexo, color de pelo, etc) Los caracteres cuantitativos se llaman VARIABLES ESTADÍSTICAS. Los caracteres cualitativos se llaman VARIABLES CUALITATIVAS. Las variables estadísticas pueden ser de dos tipos: Discretas: si la característica toma valores aislados (finitos o infinito numerable). Continuas: si toma cualquier valor de uno o varios intervalos.

1.2 DISTRIBUCIÓN DE FRECUENCIAS Sea una muestra de tamaño n; supongamos que X toma como valores distintos x1, x2 ,..., xk . FRECUENCIA ABSOLUTA DE xi: Es el número, ni , de veces que se repite xi. FRECUENCIA RELATIVA DE xi: es el cociente entre la frecuencia absoluta y n. FRECUENCIA ABSOLUTA(RELATIVA) ACUMULADA DE xi. Si llamamos x*1, x*2 ,..., x*k a los valores ordenados de menor a mayor: Frecuencia absoluta acumulada de x*i Frecuencia relativa acumulada de x*i

Se llama tabla o distribución de frecuencias al conjunto de valores que toma la variable acompañados de sus respectivas frecuencias.

Estas tablas son útiles para resumir la información de una variable cuando: El estudio está basado en pocas observaciones, a lo sumo 20 El estudio está basado en muchas observaciones de una variable que toma pocos valores distintos, a lo sumo 20. Si el número de valores distintos que toma la variable es grande (mayor que 20), se agrupan los datos en intervalos para construir la tabla de frecuencias. Llamaremos a estas variables VARIABLES AGRUPADAS. Al resto nos referiremos como VARIABLES NO AGRUPADAS o sin agrupar.

VARIABLES AGRUPADAS EN INTERVALOS A estos intervalos se les llama intervalos de clase. Al punto medio de cada clase se le denomina marca de clase. El número de intervalos de clase lo determina la persona que está realizando el estudio, aunque una posibilidad razonable es tomar el entero más próximo a 1+3.3log10(n). Si los valores que toma la variable están repartidos de manera homogénea, todos los intervalos se toman con la misma amplitud; en otro caso se tomarán intervalos de amplitud variable, procurando que no queden intervalos con menos del 5% de los datos ni con más del 30%.

Los datos siguientes corresponden al consumo mensual de litros de leche de 40 familias: N=40, 1+3’3log40=6’29, luego tomamos 6 intervalos. Como R=103’3-10=93’3 y 93’3:6=15’55, podemos tomar 6 intervalos de amplitud 16 repartiendo el exceso (2’7) entre el primer intervalo y el último. De este modo la agrupación en intervalos quedaría: Como podemos observar hay intervalos con menos del 5% de los datos y con más del 30%, por lo que habría que optar por una agrupación en intervalos de amplitud variable.

Una posible agrupación en intervalos de amplitud variable es la siguiente: Como puede observarse todos los intervalos contienen más del 5% y menos del 30% de los datos.

1.3 MÉTODOS GRÁFICOS VARIABLES CUANTITATIVAS: Diagrama de barras Histograma Polígono de frecuencias Diagrama de caja o box-plot Diagrama de sectores VARIABLES CUALITATIVAS: Diagrama de rectángulos Diagrama de sectores OTRAS REPRESENTACIONES.

DIAGRAMA DE BARRAS Sobre cada valor de la variable se levanta una barra cuya altura es proporcional a su frecuencia (absoluta o relativa) Número de llamadas 40 30 frecuencias 20 10 1 2 3 4 5 6 La suma de las alturas de las barras es 90 porque hemos representado frecuencias absolutas

HISTOGRAMA Cada clase se representa mediante un rectángulo cuyo área es proporcional a su frecuencia (absoluta o relativa) La altura de cada rectángulo es el cociente entre el área (frecuencia) y la base (amplitud del intervalo) o proporcional a dicho cociente

En el ejemplo del Consumo de litros de leche, si agrupamos en intervalos de la misma amplitud: 22 20 18 16 14 12 10 8 6 4 2 10 20 30 40 50 60 70 80 90 100 110

Y si los intervalos son de amplitud variable, el histograma queda: 2.2 2.0 1.8 1.6 1.4 1.2 1.0 0.8 0.6 0.4 0.2 10 20 30 40 50 60 70 80 90 100 110

POLÍGONO DE FRECUENCIAS Si la variable es sin agrupar, el polígono de frecuencias se obtiene uniendo los extremos superiores de las barras en el diagrama de barras Número de llamadas 40 30 frecuencias 20 10 2 4 1 3 5 6

POLÍGONO DE FRECUENCIAS Si la variable está agrupada en intervalos, el polígono de frecuencias se obtiene uniendo los puntos medios de las bases superiores de cada rectángulo 2.2 2.0 1.8 1.6 1.4 1.2 1.0 0.8 0.6 0.4 0.2 10 20 30 40 50 60 70 80 90 100 110

POLÍGONO DE FRECUENCIAS ACUMULADAS Se obtiene levantando sobre el extremo superior de cada intervalo de clase una perpendicular al eje de abscisas cuya altura sea proporcional a la frecuencia acumulada (absoluta o relativa) del intervalo. Sobre el diagrama de barras que se forma se construye el polígono de frecuencias acumuladas partiendo del extremo inferior del primer intervalo y uniendo los extremos de las barras del diagrama de barras 4.4 4.0 3.6 3.2 2.8 2.4 2.0 1.6 1.2 0.8 0.4 10 20 30 40 50 60 70 80 90 100 110

DIAGRAMA DE SECTORES El total de una característica se representa en un círculo. El área de cada sector circular representa el porcentaje sobre el total de cada categoría.

DIAGRAMA DE RECTÁNGULOS Cada categoría o modalidad se representa por un rectángulo cuya altura es proporcional a su frecuencia. Todos los rectángulos tienen la misma base. Si se ordenan las categorías o clases por sus frecuencias (de mayor a menor frecuencia) se suele llamar a este gráfico diagrama de Pareto

DIAGRAMA DE SECTORES

Otras representaciones gráficas

Ingresos Polígonos de frecuencias porcentuales correspondientes a las distribuciones de ingresos en familias de población blanca y negra en los EE.UU. (1970) Población negra Población blanca Indice de integración = 0.71 Ingresos 1000 2000 5000 10000 15000 25000 50000

Diagrama de estrella llave o perfil radial

Comparación de diagramas llave de distintos países

LA CAMPAÑA DE RUSIA DE NAPOLEÓN. (E.J. Marey. 1885)

MÉTODOS ANALÍTICOS MEDIDAS DE TENDENCIA CENTRAL Moda Media Mediana Cuantiles: cuartiles, deciles y percentiles MEDIDAS DE DISPERSIÓN Rango o recorrido Recorrido intercuartílico Varianza y desviación típica Desviación media Coeficientes de variación MEDIDAS DE FORMA Coeficientes de asimetría

1.4 MEDIDAS DE TENDENCIA CENTRAL MODA, Mo: Es el dato que más se repite. Puede haber más de una moda. Por ejemplo, con los datos muestrales: 2,2,3,3,4,4,4,5,6,6,6,7,7,8,8 se tienen dos modas: 4 y 6. MEDIA ARITMÉTICA: Con los datos anteriores, se tiene:

MEDIANA Me: Es un valor tal que, ordenados en magnitud los datos, el 50% es menor que él y el 50% mayor. 2 2 3 3 4 4 4 5 6 6 6 7 7 8 8 CUANTIL DE ORDEN , C: Es un valor tal que, ordenados en magnitud los datos, el 100% es menor que él y el resto mayor. Utilizaremos los cuartiles Q1, Q2, Q3 , los deciles D1,...,D9 y los percentiles P1,...,P99 que corresponden a cuantiles con = 0.25, 0.5,0.75, = 0.1,...,0.9 y = 0.01,...,0.99 respectivamente.

Cálculo de cuantiles: (mediana, cuartiles y percentiles) Se ordenan los datos de menor a mayor. Se determina el valor n. Donde n es el numero de datos  el orden del cuantil que queremos calcular Si n no es entero, se redondea al siguiente entero y el dato que ocupe ese lugar es el cuantil buscado. Si n = k es entero el cuantil buscado es la media entre xk y xk+1. 2,2,3,3,4,4,4,5,6,6,6,7,7,8,8 en este ejemplo n=15 La mediana será: Me = C0.5, es decir n=15*0.5 = 7.5, luego la mediana ocupa el lugar 8, x8 =Me=5 El segundo decil D2 = C0.2, es decir n=15*0.2=3, luego D2 es la media entre x3 y x4, D2=3

ROBUSTEZ DE LA MEDIANA Consideremos los datos del ejemplo anterior: 2 2 3 3 4 4 4 5 6 6 6 7 7 8 8 Si añadimos un nuevo dato x16 = 34 y calculamos de nuevo la media y la mediana, obtenemos: Nueva media: = 6.8 Nueva mediana: Me = 5.5

COMPARACIÓN MEDIA-MEDIANA La media contiene más información porque usa los valores de todos los datos. La mediana es más robusta frente a los cambios en los datos. La media es más sencilla de calcular y se presta mejor a los cálculos algebraicos. Deben calcularse ambas pues proporcionan información complementaria.

1.5 MEDIDAS DE DISPERSIÓN Las medidas de centralización proporcionan una información incompleta del conjunto de datos. Ejemplo: sean X e Y las notas de dos grupos de cuarenta alumnos, con distribuciones de frecuencias: Para ambas variables la media es 5, pero en el segundo caso 5 es un valor más representativo de los datos que en el primero. Las medidas de dispersión nos permiten valorar si el valor de la medida de tendencia central es , o no es , representativo.

MEDIDAS DE DISPERSIÓN Partimos de una muestra de tamaño n=15, 2 2 3 3 4 4 4 5 6 6 6 7 7 8 8 RANGO O RECORRIDO: R = Max-Min = 8 - 2 = 6 RECORRIDO INTERCUARTÍLICO: RQ = Q3 - Q1 = 7 -3 = 4 VARIANZA: 3.87 CUASIVARIANZA: 4.14 DESVIACIÓN TÍPICA: = 1.97 CUASIDESVIACIÓN TÍPICA: = 2.04

DESVIACIÓN MEDIA: = 1.73 COEFICIENTE DE VARIACIÓN DE PEARSON: = 0.394 COEFICIENTE DE VARIACIÓN MEDIA: = 0.347

Ejemplo de cómo la varianza no sirve para comparar la dispersión de dos variables distintas: Sea X el peso en Kg de una población de lagartos Sea Y el peso en Kg de una población de tiburones = = x = . 473 , V = y 404, V 9.846 0.026 = = CV 0.0076 CV 0.34

DESIGUALDAD DE CHEBYCHEV Entre la media y k veces la desviación típica se encuentran, como mínimo el de los datos. Por ejemplo, si la media es 500 y la desviación típica es 20, en el intervalo: estarán, como mínimo, el de las observaciones.

1.6 MEDIDAS DE ASIMETRÍA COEFICIENTE DE ASIMETRÍA DE FISHER: COEFICIENTE DE ASIMETRÍA DE PEARSON:

Para ambos coeficientes, si: CAF>0 o CAP>0, la distribución es asimétrica a la derecha. CAF=0 o CAP=0, la distribución es simétrica. CAF<0 o CAP<0, la distribución es asimétrica a la izquierda. CAF>0, CAP>0 CAF=0, CAP=0 CAF<0, CAP<0

Información que se puede extraer de un histograma:

Renta familiar Longitud de piezas A B Longitud de piezas Tiempo entre accidentes Gasto en transporte Tamaño de partículas

DIAGRAMA DE CAJA (BOX-PLOT) Se construye del siguiente modo: Con los datos ordenados se obtienen los tres cuartiles Se dibuja un rectángulo cuyos extremos son Q1 y Q3 y se indica la posición de la mediana mediante una línea. Se calculan los límites de admisión ( los valores que queden fuera se consideran atípicos) Se dibuja una línea desde cada extremo del rectángulo hasta el valor más alejado no atípico. Se marcan todos los datos considerados como atípicos.

DIAGRAMA DE CAJA (BOX-PLOT) Media Dato menor no atípico Mediana Dato mayor no atípico Dato atípico Dato atípico Q3 Q1

EJEMPLO: P.I.B.

Distintos diagramas de dispersión

ESTUDIO DE REGRESIÓN: INFLUENCIA DE LA EDAD DE LA MUJER EN LA TASA DE ACIERTO EN LA REPRODUCCIÓN ASISTIDA Tasa de acierto Tasa de acierto Edad Edad 30 25 33 26 32,5 27 30 28 34 29 31 30 34,5 31 32 32 31 33 30 34 29 35 28 36 27 37 24 38 21 39 20,5 40 18 41 15 42 11 43 8 44 7 45 3 46 2 47 0 48 0 49