La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

09/06/2014 IPFA de Cádiz Ámbito Científico 1 Definición y conceptos básicos Organizando los datos: Tablas y Gráficas Parámetros estadísticos: De centralización:

Presentaciones similares


Presentación del tema: "09/06/2014 IPFA de Cádiz Ámbito Científico 1 Definición y conceptos básicos Organizando los datos: Tablas y Gráficas Parámetros estadísticos: De centralización:"— Transcripción de la presentación:

1 09/06/2014 IPFA de Cádiz Ámbito Científico 1 Definición y conceptos básicos Organizando los datos: Tablas y Gráficas Parámetros estadísticos: De centralización: media, moda y mediana De dispersión: rango, varianza y desviación típica

2 09/06/2014 IPFA de Cádiz Ámbito Científico 2 La Estadística es la Ciencia de la Descriptiva Probabilidad Inferencia –Sistematización, recogida, ordenación y presentación de los datos referentes a un fenómeno que presenta variabilidad o incertidumbre para su estudio metódico, con objeto de –deducir las leyes que rigen esos fenómenos, –y poder de esa forma hacer previsiones sobre los mismos, tomar decisiones u obtener conclusiones. En este curso sólo veremos Estadística Descriptiva

3 09/06/2014 IPFA de Cádiz Ámbito Científico 3 Pasos en un estudio estadístico Plantear hipótesis sobre una población Los fumadores tienen más bajas laborales que los no fumadores ¿En qué sentido? ¿Mayor número? ¿Tiempo medio? Decidir qué datos recoger (diseño de experimentos) –Qué individuos pertenecerán al estudio (muestras) Fumadores y no fumadores en edad laboral. Criterios de exclusión ¿Cómo se eligen? ¿Descartamos los que padecen enfermedades crónicas? –Qué datos recoger de los mismos (variables) Número de bajas Tiempo de duración de cada baja ¿Sexo? ¿Sector laboral? ¿Otros factores? Recoger los datos (muestreo) Describir (resumir) los datos obtenidos tiempo medio de baja en fumadores y no (estadísticos) % de bajas por fumadores y sexo (frecuencias), gráficos,...

4 09/06/2014 IPFA de Cádiz Ámbito Científico 4 Población y muestra Conceptos básicos: Población es el conjunto sobre el que estamos interesados en obtener conclusiones (hacer inferencia). Normalmente es demasiado grande para poder abarcarlo. Muestra es un subconjunto suyo al que tenemos acceso y sobre el que realmente hacemos las observaciones (mediciones). Debe ser representativa y aleatoria. Si vamos a hacer un estudio sobre la educación de adultos y sabemos que el 60% del alumnado son mujeres, cuando elijamos la muestra debemos procurar que el 60 % de la misma sean mujeres. Por ejemplo: Llamaremos individuo a cada elemento de la población, aunque no sea persona.

5 09/06/2014 IPFA de Cádiz Ámbito Científico 5 Actividad: Con el dato anterior (60% de alumnado de adultos son mujeres) y suponiendo que el 30% del alumnado de adultos está empleado, completar la tabla siguiente si hemos elegido una muestra de 400 alumnos: EmpleadosDesempleadosTotal Mujeres Hombres Total Como la muestra es de alumnos 400 Como el 60% de alumnado es mujer: Como el 40% de alumnado es hombre: 160 El 30% de alumnado (tanto mujer como hombre) está empleado: 48 Las mujeres desempleadas: Los hombres desempleados: Para completar las celdas que nos faltan, basta con sumar las dos de arriba de cada una.

6 09/06/2014 IPFA de Cádiz Ámbito Científico 6 El tamaño de la muestra N Número de individuos que forman la muestra. Carácter estadístico Cada una de las propiedades o cualidades que nos permite clasificar a los individuos de una población. Variable estadística x i : Conjunto de valores que puede tomar un carácter estadístico. La edad, el número de hijos, sexo, mes del año en el que prefiere las vacaciones, el estado civil, día de la semana que libra de trabajar, el número de aprobados en una asignatura ….. Conceptos básicos (Cont.): Ejemplos: la edad en años: 20, 23, 24,45, …. el número de hijos: 0, 1, 2, 3, ………. sexo: mujer, hombre. mes del año que prefiere las vacaciones: enero, febrero, marzo, abril, …… el estado civil: casado/a, soltero/a, divorciado/a, …… los días de la semana : lunes, martes, miércoles, ….. el número de aprobados en una asignatura: 30, 25, 0, 2, ….

7 09/06/2014 IPFA de Cádiz Ámbito Científico 7 Continuas: Tipos de variables Cualitativas Cuantitativas o Numéricas Si sus valores (modalidades) no se pueden asociar naturalmente a un número (no se pueden hacer operaciones algebraicas con ellos). Se asocian con palabras. Dia de la semana Estado de satisfacción ( muy bueno, bueno, regular, malo,…) Se pueden medir y expresar con números (tiene sentido hacer operaciones algebraicas con ellos) Pueden ser: Discretas: Son las que pueden tomar solamente un número finito de valores numéricos aislados. Número de hermanos Edad en años Si entre dos valores, son posibles infinitos valores intermedios Altura Frutos de un árbol Peso de los frutos de un árbol Generalmente se utiliza el término modalidad cuando hablamos de caracteres cualitativos y el término valor cuando estudiamos caracteres cuantitativos. Por ejemplo el carácter cualitativo puede adoptar las modalidades : casado, soltero, viudo. El carácter cuantitativo puede tomar los valores : 10, 12, 25, 43 años,...

8 09/06/2014 IPFA de Cádiz Ámbito Científico 8 En los individuos de la población española, de uno a otro es variable: –El grupo sanguíneo {A, B, AB, O} Variable Cualitativa –Su nivel de felicidad declarado {Deprimido, Ni fu ni fa, Muy Feliz} Variable cualitativa –El número de hijos {0,1,2,3,...} Variable cuantitativa discreta –La altura {162 ; 174;...} Variable cuantitativa continua Por ejemplo: Una vez que tenemos los datos de la muestra es necesario organizarlos, ordenarlos ……

9 09/06/2014 IPFA de Cádiz Ámbito Científico 9 Presentación ordenada de datos: Tablas y Gráficas Las tablas de frecuencias y las representaciones gráficas son dos maneras equivalentes de presentar la información. Las dos exponen ordenadamente la información recogida en una muestra. GéneroFrecuencia Hombre4 Mujer6 Muestra ¡¡¡ Vamos a conocerlas!!! Tabla de frecuencia Gráfica

10 09/06/2014 IPFA de Cádiz Ámbito Científico 10 Exponen la información recogida en la muestra, de forma que no se pierda nada de información (o poca). Suelen contener los siguientes datos: –Variable estadística x i : La pondremos en la primera columna por la izquierda. En las siguientes columnas pondremos todos o algunos de los siguientes valores: –Frecuencias absolutas f i : Contabilizan el número de individuos de cada valor (modalidad) –Frecuencias relativas h i : Idem, pero dividido por el total de individuos –Frecuencias acumuladas F i : Acumulan el valor de las filas de arriba. Tablas de frecuencia – Porcentajes: Se pueden poner acumulado o sin acumular Ejemplos: 30,8 88,3 11,7 100,0

11 09/06/2014 IPFA de Cádiz Ámbito Científico 11 Ejemplo ¿Cuántos individuos tienen menos de 2 hijos? –frec. indiv. sin hijos + frec. indiv. con 1 hijo = = 674 individuos ¿Qué porcentaje de individuos tiene 6 hijos o menos? –97,3% ¿Qué cantidad de hijos es tal que al menos el 50% de la población tiene una cantidad inferior o igual? –2 hijos 50% Frecuencia absoluta Porcentaje Porcentaje acumulado

12 09/06/2014 IPFA de Cádiz Ámbito Científico 12 Actividad: En la tabla siguiente: ¿Qué porcentaje de individuos tienen menos de tres hijos Solución : 27,6 % + 16,8 % + 24,7 % = 69,1 % 27,6 44,4 69,1 83,3 91,7 95,3 1,9 1,7 97,2 98,9 100,0 ¿Qué porcentaje de individuos tienen más de tres y menos de siete? Solución : 8,4 % + 3,6 % + 1,9 % = 13,9 %

13 09/06/2014 IPFA de Cádiz Ámbito Científico 13 Frecuencia absoluta f i Hemos preguntado la edad a los 30 alumnos de una clase de adultos,obteniendo las siguientes respuestas: 20, 21, 19, 23, 25, 23, 21, 20, 23, 18 22, 24, 18, 21, 20, 20, 24, 19, 22, 23 21, 23, 20, 23, 25, 23, 22, 23, 24, 18 Realizamos un recuento: Ya tenemos la Tabla de frecuencias absolutas: Edad x i F.Absoluta (Nº de alumnos) f i Comprobamos que la suma es 30 (tamaño de la muestra N = 30 alumnos)

14 09/06/2014 IPFA de Cádiz Ámbito Científico 14 Frecuencia absoluta acumulada F i La tabla anterior nos mostraba las frecuencias absolutas de cada valor de la variable estadística tabulada, pero en ocasiones necesitamos saber la frecuencia absoluta de un conjunto de valores ( frecuencia acumulada F i ). Edad x i F.Absoluta ( Nº de alumnos ) f i Edad x i F.Absoluta (Nº de alumnos) f i F.Absoluta acumulada F i Para ello, añadimos a la tabla una nueva columna. Rellenamos esta columna poniendo en cada celda la frecuencia absoluta de ese valor sumada a la frecuencia absoluta de los anteriores: A partir de la tabla de frecuencias absolutas obtenemos la de frecuencias absolutas acumuladas sin más que sumar a la frecuencia absoluta de cada valor las de los valores anteriores. Total:30 El valor de la última celda de esta columna tiene siempre que coincidir con el tamaño de la muestra N

15 09/06/2014 IPFA de Cádiz Ámbito Científico 15 Frecuencia relativa h i A veces no basta con conocer la frecuencia absoluta: 10 alumnos en una muestra de 30 no tienen el mismo peso que 10 alumnos en una muestra de 20. Para tener en cuenta esta circunstancia, en la tabla de frecuencias absolutas introducimos la columna de frecuencia relativa h i, que calculamos dividiendo la frecuencia absoluta entre el tamaño de la muestra (nº total de datos) N: Edad x i F. Absoluta f i F. Relativa h i

16 09/06/2014 IPFA de Cádiz Ámbito Científico 16 Edad x i F.absoluta f i F. Relativa h i ,100 0,067 0,167 0,133 0,100 0,267 0,100 0,067 Seguimos con la tabla anterior. Total:301 La suma de las frecuencias absolutas tiene que coincidir con el tamaño de la muestra N La suma de las frecuencias relativas nos tiene que dar siempre 1. Vamos a expresar la frecuencia relativa en notación decimal:

17 09/06/2014 IPFA de Cádiz Ámbito Científico 17 Porcentajes En ocasiones, en las tablas de datos nos piden que incluyamos una columna con los porcentajes (tanto por ciento) de cada valor de la variable estadística, por ser éste una magnitud de uso muy común y de fácil cuantificación. A partir de una tabla que tenga las frecuencias relativas, basta con multiplicar éstas por 100 para obtener la columna de porcentajes: Edad x i F.absoluta f i F. Relativa h i Porcentajes % Edad x i F.absoluta f i F. Relativa h i

18 09/06/2014 IPFA de Cádiz Ámbito Científico 18 Actividad: Se ha preguntado a los 25 alumnos de una clase por el número de hermanos que tiene cada uno, obteniéndose el siguiente resultado: Organiza los datos en una tabla de frecuencias absolutas y relativas. 2,21,,,,,,,,,,,, ,1,4,3,5,2,6,3,1,024,, Nº hermanos x i Frecuencia absoluta f i Frecuencia Relativa h i Analizando los datos vemos que los valores de la variable x i número de hermanos van desde el 0 al 7. Dibujamos la tabla y añadimos estos valores Contamos en la lista el número de veces que aparece cada uno de estos valores y colocamos ese número en la columna de la frecuencia absoluta Debemos comprobar que la suma de las frecuencias absolutas nos tiene que dar 25, que es el tamaño de la muestra N. Total : 25 La columna de frecuencia relativa h i la completamos dividiendo la frecuencia absoluta f i por el tamaño de la muestra N : 3.. Debemos comprobar que la suma de las frecuencias relativas nos tiene que dar ,12 0,16 0,24 0,16 0,12 0,04 0,12 0,04

19 09/06/2014 IPFA de Cádiz Ámbito Científico 19 Actividad: Completa la tabla anterior con las frecuencias acumuladas, tanto las absolutas como las relativas. Nº hermanos x i Frecuencia absoluta f i F. Absoluta acumulada F i Frecuencia Relativa h i F. Relativa acumulada H i Total : Hemos añadimos dos nuevas columnas, una para las f.absolutas acumuladas y otra para las relativas acumuladas

20 09/06/2014 IPFA de Cádiz Ámbito Científico 20 En estos casos, los datos deben agruparse en clases o intervalos. La primera columna de las tablas anteriores se divide en dos, una para los intervalos y otra para la marca de clase, que es el valor medio de cada intervalo y que se toma como valor de la variable estadística x i. Tablas de frecuencia de variables cuantitativas continuas En las tablas que hasta ahora hemos visto, la variable era cuantitativa discreta, que sólo tomaba unos cuantos valores diferentes ( en concreto, ocho valores), pero si la variable cuantitativa a tabular fuera contínua (o discreta con muchos valores diferentes) necesitaríamos una tabla con muchas filas, lo que no sería eficaz. Consideremos el caso siguiente: En una academia se ha medido la altura (en metros) de un grupo de 20 alumnos, obteniéndose el siguiente resultado: 175,169170,,,,,,,,,, ,176,174,186,171,184,167,174 Vemos que casi cada valor es diferente. Tendríamos una tabla con casi 20 filas y la frecuencia absoluta de cada uno sería 1. Como la altura menor es 1,62 m y la mayor 1,89 m, elegiremos los siguientes intervalos, tomados de 5cm en 5 cm ( intervalos de igual amplitud): La marca de clase se calcula como la semisuma de los extremos del intervalo. Por ejemplo si un intervalo fuera: [40-80) la marca de clase sería: [ ) la marca de clase sería:

21 09/06/2014 IPFA de Cádiz Ámbito Científico ,169170,,,,,,,,,, ,176,174,186,171,184,167,174 Altura (m) Marca de clase Frecuencia Absoluta Frecuencia relativa Clasesxixi fifi hihi [ ) [ ) [ ) [ ) [ ) [ ) Calculamos las marcas de clase. La frecuencia absoluta de cada intervalo es: Dibujamos la tabla con los intervalos Total : 20 Finalmente, calculamos las frecuencias relativas dividiendo cada frecuencia absoluta por el tamaño de la muestra N (20 alumnos) [ ) Intervalo cerrado por la izquierda [, nos indica que 1,65 pertenece a este intervalo. Intervalo abierto por la derecha ), nos indica que 1,70 pertenece al intervalo siguiente.

22 09/06/2014 IPFA de Cádiz Ámbito Científico 22 Actividad: Un alumno de Bachillerato realiza exámenes durante un trimestre con los siguientes resultados : 5, 9, 5, 6, 5, 8, 8, 5, 6, 5, 8, 6, 5, 6, 8, 9, 7, 6, 7, 8, 7, 8, 6 ¿Cuál es el carácter (variable) estadístico de estos datos? Las calificaciones de los exámenes de un trimestre ¿Qué valores toma la variable estadística?5, 6, 7, 8 y 9 ¿Cuál es la frecuencia relativa del valor 8? ¿Cuál es el tamaño de la muestra? 23 Construye la tabla de frecuencias absoluta y relativa, de porcentajes y acumuladas. xixi fifi FiFi hihi HiHi pipi PiPi Total : ¿Cuál es la frecuencia absoluta del valor 6 ? 6

23 09/06/2014 IPFA de Cádiz Ámbito Científico 23 GRÁFICOS Además de la tablas de frecuencias, para apreciar con una simple mirada la magnitud o posición de las variables, se suelen efectuar una representación gráfica de los datos. Los sistemas de gráficos más usuales son:

24 09/06/2014 IPFA de Cádiz Ámbito Científico 24 Gráficos para variables cualitativas Diagramas de barras –Alturas proporcionales a las frecuencias (abs. o rel.) –Se pueden aplicar también a variables discretas Diagramas de sectores (ciclogramas) –El área de cada sector es proporcional a su frecuencia (absoluta o relativa) Pictogramas –Fáciles de entender. –El área de cada modalidad debe ser proporcional a la frecuencia.

25 09/06/2014 IPFA de Cádiz Ámbito Científico 25 Son diferentes en función de que las variables sean discretas o continuas. Valen con frecuencia absolutas o relativas. –Diagramas de barras para variables discretas Se deja un hueco entre barras para indicar los valores que no son posibles –Histogramas para variables continuas El área que hay bajo el histograma entre dos puntos cualesquiera indica la cantidad (porcentaje o frecuencia) de individuos en el intervalo. Gráficos para variables numéricas En las diapositivas que siguen vamos a ver uno a uno los gráficos más representativos.

26 09/06/2014 IPFA de Cádiz Ámbito Científico 26 Diagrama de barras: se utiliza para frecuencias absolutas o relativas, acumuladas o no, de una VARIABLE DISCRETA. (Diagrama de barras elaborado con el programa Excel) En el eje de abcisas (eje horizontal), situaremos los diferentes valores de la variable. Levantaremos barras o columnas SEPARADAS de altura correspondiente a la frecuencia adecuada. En el eje de ordenadas ( eje vertical ) la frecuencia de cada valor.

27 09/06/2014 IPFA de Cádiz Ámbito Científico 27 Edad x i f i Vamos a dibujar el diagrama de barras de la tabla edad de los alumnos (Diapositiva 13) 1..Dibujamos dos ejes perpendiculares: En el eje horizontal representaremos la variable estadística x i ( en este caso, la edad de los alumnos), y marcamos el eje con los valores que toma la variable Como la primera división de la escala es 18 y cada marca representa un año, cambiamos el eje x por este otro, para romper la escala. Edad de los alumnos xixi 2.. En el eje vertical representaremos las frecuencias absolutas f i, para lo cual marcamos el eje con los valores de estas: 3.. Finalmente dibujamos las barras verticales de frecuencia, centradas en las marcas del eje horizontal fifi Opcionalmente, se puede poner el nombre de la variable estadística como Título del gráfico)

28 09/06/2014 IPFA de Cádiz Ámbito Científico 28 Histogramas: diagrama de barras para distribuciones cuantitativas continuas Levantaremos barras o columnas AGRUPADAS igual de anchas que los intervalos y de altura correspondiente a la frecuencia de cada valor. En el eje de abcisas (eje horizontal), situaremos los intervalos o las marcas de clase de la variable. En el eje de ordenadas ( eje vertical ) la frecuencia. (Histograma elaborado con el programa Excel)

29 09/06/2014 IPFA de Cádiz Ámbito Científico 29 Vamos a dibujar el histograma de la tabla altura de los alumnos (Diapositiva 21) [ ) [ ) [ )[ ) [ )[ ) Altura de los alumnos xixi Altura (m) Marca de clase Frecuencia Absoluta Clasesxixi fifi [ )1632 [ )1685 [ )1736 [ )1782 [ )1832 [ ) Dibujamos dos ejes perpendiculares: En el eje horizontal representaremos los intervalos de la variable estadística x i ( en este caso, la altura de los alumnos). 2.. En el eje vertical representaremos las frecuencias absolutas f i, para lo cual marcamos el eje con los valores de estas: Finalmente dibujamos las barras verticales de frecuencia, con una anchura como la del intervalo. 4..

30 09/06/2014 IPFA de Cádiz Ámbito Científico 30 Diagrama de sectores (Ciclogramas): también conocido como diagrama de "tartas. Se divide un círculo en tantas porciones como valores o modalidades tenga la variable (cualitativa o cuantitativa), de modo que a cada uno le corresponde un arco de círculo proporcional a su frecuencia absoluta o relativa. (Diagrama de sectores elaborado con el programa Excel)

31 09/06/2014 IPFA de Cádiz Ámbito Científico 31 Polígono de frecuencias: Son gráficos lineales que se utilizan en el caso de una variable cuantitativa. Para realizar estos polígonos unimos los puntos medios de las bases superiores del diagrama de barras o del histograma según la variable sea agrupada o no agrupada. Un ejemplo sería el gráfico que nos muestra la evolución de la temperatura de un enfermo.

32 09/06/2014 IPFA de Cádiz Ámbito Científico 32 Pictogramas: Son gráficos en los que se utilizan unos dibujos relacionados con el carácter estadístico que se representa y que tienen unos tamaños proporcionales a la frecuencia de cada valor o modalidad. Por ejemplo, para representar el censo de varias ciudades, podemos presentar la figura de una persona con diferentes tamaños, en proporción al número de habitantes de cada ciudad. También hay pictogramas que consisten en diagrama de barras en los que las barras se sustituyen por dibujos alusivos a la variable ( como el de la derecha) (Pictograma de barras elaborado con el programa Excel) San Fernando AlgecirasCádizJerez (Datos Censo 2001)

33 09/06/2014 IPFA de Cádiz Ámbito Científico 33 Cartogramas: Consisten en representar sobre un mapa cada valor o modalidad del carácter estadístico objeto de estudio con un color. Llevan adjunto una leyenda en la que nos indican el significado de los colores. Otros gráficos:

34 09/06/2014 IPFA de Cádiz Ámbito Científico 34 Climogramas (Climograma elaborado con el programa Excel) Un climograma o diagrama ombrotérmico es un gráfico en el que representamos simultáneamente los valores de la temperatura media mensual, mediante una línea, y los de precipitaciones mensuales medias, mediante barras verticales, para los doce meses del año de una zona geográfica determinada.

35 09/06/2014 IPFA de Cádiz Ámbito Científico 35 Pirámides de población (Pirámide elaborado con el programa Excel) Cuando se realizan representaciones correspondientes a edades de población, cambiamos el eje Y por el eje X para obtener las llamadas pirámides de población, que no son más que 2 histogramas a izquierda y derecha, para hombres y mujeres

36 09/06/2014 IPFA de Cádiz Ámbito Científico 36 Las tablas y gráficos no son base suficiente en la que asentar las conclusiones de un estudio estadístico. Para tratar de hacer lo más objetiva posible la interpretación de datos se recurre a ciertos números extraídos de los datos llamados parámetros o medidas estadísticas. Estos parámetros, de alguna manera, nos permite resumir y sintetizar un gran número de datos y nos proporcionan una idea lo más aproximada posible a alguna característica de toda la distribución. Parámetros estadísticos Casi en su totalidad, sólo tienen sentido para variables estadísticas cuantitativas y se dividen en cuatro tipos de los cuales sólo estudiaremos los dos más importantes: Parámetros estadísticos Parámetros de centralizaciónParámetros de dispersión Proponen un representante que ejemplifique al resto de la población y tienden a situarse hacia el centro del conjunto ordenado de los datos. Indican si los valores tienden a agruparse en torno a un valor o están separados entre sí. La media La mediana La moda El rango o recorrido La varianza La desviación típica Los más importantes son:

37 09/06/2014 IPFA de Cádiz Ámbito Científico 37 La media De los tres parámetros que vamos a estudiar, es el de uso más cotidiano y conocido La media aritmética de una variable estadística es la suma de los valores de dicha variable dividido por el número de valores. Se representa por. Si las calificaciones de un alumno en una determinada materia durante el primer trimestre fueron: 36, 8, 55, 6 Fácilmente obtenemos la nota media: Si los datos los tenemos agrupados en una tabla de frecuencias, procederemos del siguiente modo: xixi fifi Añadimos una nueva columna en la que pondremos el resultado de multiplicar cada valor x i por su frecuencia f i, para ahorrarnos tener que sumar,por ejemplo, 12 veces el número 14. xixi fifi x i ·f i Calculamos los totales de las dos últimas columnas. Total : Finalmente, calculamos la media dividiendo el total de la 3ª columna (suma de todos los valores) entre el total de la 2ª (número de valores)

38 09/06/2014 IPFA de Cádiz Ámbito Científico 38 Para el cálculo anterior, hemos aplicado la misma fórmula que para el cálculo de la nota media, hemos sumado todos los valores y hemos dividido por el número total de todos ellos, sólo que en este segundo caso, como sabíamos que el valor 12 se repetía 3 veces, el valor 13 se repetía 8 veces, …. en vez de sumar tres veces 12 hemos sumado 36 ( 3·12) y en vez de sumar ocho veces el valor 13 hemos sumado 104 ( 8·13), …… Podemos expresar todo mediante la fórmula: ¿Y si los datos están agrupados en intervalos? Procederemos como en el caso anterior, sólo que como valores x i tomaremos las marcas de clase de los intervalos. Peso (g)xixi fifi x i · f i [0-100)10 [ )45 [ )30 [ )15 Calculamos las marcas de clase x i de cada intervalo, tal como vimos en las diapositivas 20 y 21, esto es, sumamos los dos extremos del intervalo y dividimos por Completamos la última columna multiplicado la 2ª por la 3ª Calculamos los totales de las dos últimas columnas. Total : Finalmente, calculamos la media dividiendo el total de la 4ª columna entre el total de la 3ª:

39 09/06/2014 IPFA de Cádiz Ámbito Científico 39 Actividad: Las calificaciones en la asignatura de historia del arte de los 40 alumnos de una clase viene dada por la siguiente tabla: Calificaciones N º de alumnos Hallar la calificación media de la clase. A la tabla que nos dan,con xi y fi, le añadimos una tercera columna x i · f i : xixi fifi x i · f i Total 40 Aplicamos la fórmula que nos permite calcular la media:

40 09/06/2014 IPFA de Cádiz Ámbito Científico 40 Actividad: Calcular la media de la siguiente distribución. xixi fifi x i · f i A partir de la gráfica, construimos la tabla de frecuencias correspondiente: Completamos la tercera columna: Total : Finalmente, aplicamos la fórmula que nos permite calcular la media:

41 /06/2014 IPFA de Cádiz Ámbito Científico 41 La mediana Si tenemos un conjunto de datos, por ejemplo las edades de los componentes de un equipo de fútbol-sala: 20, 22, 18, 19, 18, 21, 20 y queremos saber cúal de esos datos es el mediano, los ordenamos de menor a mayor: 18, 18, 19, 20, 20, 21, 22 Vemos que el de en medio tiene tiene 20 años. Bien, pues a este valor se le llama en Estadística la mediana de ese conjunto de datos y lo representaremos así: M e = 20 Se llama mediana de una variable estadística a un valor de la variable, tal que el número de observaciones menores que él es igual al número de observaciones mayores que él. En el ejemplo anterior, la mediana es única, ya que el número de datos es impar. Pero ¿cuál sería la mediana del siguiente conjunto de datos ?: 20 18, 19, 19, 20, 21, 21, 22, 22 Cuando el número de datos es par, tendremos dos valores centrales y tomaremos como mediana la media aritmética de esos dos valores: Aunque este valor no pertenezca al conjunto de datos

42 09/06/2014 IPFA de Cádiz Ámbito Científico 42 La mediana (Cont1.) Supongamos que los datos los tenemos agrupados en una tabla de frecuencia como esta: xixi fifi xixi fifi FiFi Podríamos calcular la mediana como en los casos anteriores, ordenándolos de menor a mayor, pero como son muchos datos (62) sería muy tedioso. Debemos buscar un método más cómodo. Para ello, le añadimos a la tabla una nueva columna en la que vamos a calcular las frecuencias absolutas acumuladas: Sabemos que el número contenido en la última celda de esta columna (Ver diapositiva 14) coincide con el número total de datos N. Y como estamos buscando la mediana, calculamos : Con esta cálculo hemos averiguado que el valor que estamos buscando ocupa el lugar número 31 en la lista de todos los valores. Vemos en la tabla que la primera frecuencia acumulada que supera esa cifra es la que corresponde a x 2 = 4 y en consecuencia la mediana vale: M e = 4 En estos casos, la mediana viene dada por el primer valor de la variable cuya frecuencia absoluta acumulada excede a la mitad del número de datos. Vamos a calcular la mediana de la siguiente distribución de datos:

43 09/06/2014 IPFA de Cádiz Ámbito Científico 43 La mediana (Cont.2) xixi fifi FiFi Como estamos buscando la mediana, calculamos : N Comprobamos que la mitad del número de datos, 20, coincide ( y no excede ) con la frecuencia absoluta acumulada correspondiente a un valor, x 3 =14 En estos casos, la mediana es la semisuma entre este valor y el siguiente de la tabla: Finalmente, trataremos el caso de una distribución contínua de datos, con intervalos de clase: alturas xixi fifi FiFi [1,60-1,65)16322 [1,65-1,70)16857 [1,70-1,75) [1,75-1,80) [1,80-1,85) [1,85-1,90) N Como estamos buscando la mediana, calculamos : La frecuencia acumulada que excede a esta cantidad es 13, a la que le corresponde el intervalo mediano [ ) En las distribuciones contínuas de datos sólo calcularemos el intervalo mediano, el correspondiente a una frecuencia acumulada que excede a la mitad del número de datos N

44 09/06/2014 IPFA de Cádiz Ámbito Científico 44 Actividad: xixi fifi FiFi La tabla siguiente nos muestra el resultado de la evaluación (número de suspensos) de un grupo de alumnos. Determinar la mediana. En primer lugar, calcularemos las frecuencias acumuladas N Calculamos : La frecuencia acumulada que excede este valor es la que corresponde al cuarto valor x 4 = 3, en consecuencia la mediana de este conjunto de datos es: M e = 3 > 16

45 09/06/2014 IPFA de Cádiz Ámbito Científico 45 La moda En la vida social y cultural, lo que está de moda es lo que más se lleva o lo que más se ve o se oye. Con este mismo significado se utiliza en Estadística. Se llama moda de una variable estadística al valor de dicha variable que presenta mayor frecuencia absoluta. Se representa por M o. Por ejemplo en la siguiente distribución de datos: xixi fifi Frecuencia absoluta más alta Moda M o = 10 En consecuencia : Puede suceder que haya dos valores con igual frecuencia absoluta más alta. Por ejemplo: xixi fifi Hay dos valores : x 2 = 4 x 4 = 6 con la frecuencia más alta, 24. Hay dos modas: M 0 = 4 M 0 = 6 Se dice que es una distribución bimodal.

46 09/06/2014 IPFA de Cádiz Ámbito Científico 46 Actividad: Las calificaciones de un alumno en los exámenes realizados durante un mes han sido: 74, 2, 65, 5, 67, 65, 9 Determinar la moda. Como debemos de localizar al valor ( la nota en esta caso) que aparece un mayor número de veces, la moda es: M o = 65 Actividad: xixi fifi Calcular la moda de la siguiente distribución discreta de valores: El valor con mayor frecuencia absoluta, y por tanto la moda, es: M o = 8 Actividad: En el gráfico que se muestra,¿ cúal es la moda? La moda es 1 suspenso, ya que es el valor (modalidad) con mayor porcentaje y, por tanto, mayor frecuencia absoluta.

47 09/06/2014 IPFA de Cádiz Ámbito Científico 47 La moda (Cont.) Cuando los datos los tengamos agrupados en intervalos de clases sólo calcularemos el intervalo en el que se encuentra la moda. Supongamos la siguiente tabla: Intervalos de clase xixi fifi [0-4)220 [4-8)636 [8-12)1077 [12-16)1451 [16-20)1828 [20-24)2249 Vemos que la frecuencia absoluta mayor, 77, corresponde al intervalo de clase [8-12). Diremos que la clase modal de esta distribución de datos es [8-12). Cuando los datos de la variable estadística estén agrupados en intervalos de clase, llamaremos clase modal de la distribución al intervalo de clase al que le corresponde una mayor frecuencia absoluta. En realidad sólo hemos calculado el intervalo donde está la moda M o. Podríamos calcular la moda aplicando la siguiente fórmula: = Límite inferior del intervalo modal = Amplitud del intervalo = Diferencia entre la frecuencia absoluta de la clase modal y la anterior = Diferencia entre la frecuencia absoluta de la clase modal y la posterior OPCIONAL

48 09/06/2014 IPFA de Cádiz Ámbito Científico 48 Rango o Recorrido La investigación acerca de una distribución queda incompleta si sólo se estudian las medidas de centralización, siendo imprescindible conocer si los datos numéricos están agrupados o no alrededor de los valores centrales y de lo separado que están los datos entre sí. A esto es a lo que se le llama dispersión. El primer parámetro de este tipo que veremos es el rango o recorrido. Los datos que siguen se refieren al peso en kg de dos grupos de personas: Grupo A : 45, 20, 75, 81, 55, 62 Grupo B : 66, 63, 80, 72, 61, 58 En el grupo A los valores extremos son: 20 y 81 En el grupo B los valores extremos son: 58 y 80 Diremos que en el Grupo A el recorrido es: 81 kg – 20 kg = 61 kg Y en el Grupo B el recorrido vale: 80 kg – 58 kg = 22 kg Como ambos grupos tienen el mismo número de datos, podemos decir que en el Grupo B los datos están más concentrados por tener un recorrido menor. Se llama rango o recorrido de una distribución a la diferencia entre el mayor valor de la variable y el menor valor de la misma. Para calcular este parámetro, sólo tenemos en cuenta dos valores ( los extremos) de la distribución y si pretendemos obtener una medida más fiable de la dispersión, deberíamos de tener en cuenta a todos los datos. Esto es lo que haremos en los siguientes parámetros.

49 09/06/2014 IPFA de Cádiz Ámbito Científico 49 Varianza Si tenemos un conjunto de datos, una manera de saber lo alejado o lo centrado que está un dato x i será compararlo con la media. Así, definiremos la desviación respecto a la media de un dato x i como: xixi fifi Veamoslo con un ejemplo. Tenemos la siguiente tabla de frecuencias: 36 xixi fifi x i ·f i Calculamos la media, tal como vimos en la diapositiva 37: Le añadimos una nueva columna para calcular las desviaciones: xixi fifi x i ·f i xi-xi – 5 – 2 4 – 5 – 1 5 – – – 5 2 En principio, si calculáramos la media aritmética de todas las desviaciones, obtendríamos un dato que nos permitiría cuantificar la dispersión global de este conjunto de datos, pero podemos comprobar que la suma de todas las desviaciones es cero, ya que las positivas se compensarán con las negativas. xixi fifi x i ·f i xi-xi-f i ·(x i - ) – Para evitar esto, añadiremos una nueva columna, con las desviaciones al cuadrado y otra con la suma: xixi fifi x i ·f i xi-xi-f i ·(x i - )(x i - ) xixi fifi x i ·f i xi-xi-f i ·(x i - )(x i - ) 2 f i ·(x i - ) Pues bien, la media de los cuadrados de las desviaciones es la varianza σ 2 :

50 09/06/2014 IPFA de Cádiz Ámbito Científico 50 Varianza (Cont.) La expresión anterior de la varianza σ 2 se puede poner de esta otra manera, sacando el factor común : xixi fifi xixi fifi x i ·f i xixi fifi x i ·f i xi-xi – 5 – 2 4 – 5 – 1 5 – – – 5 2 xixi fifi x i ·f i xi-xi-f i ·(x i - ) – xixi fifi x i ·f i xi-xi-f i ·(x i - )(x i - ) xixi fifi x i ·f i xi-xi-f i ·(x i - )(x i - ) 2 f i ·(x i - ) Podemos comprobar que aplicada a la tabla anterior, nos conduce al mismo resultado: xixi fifi x i ·f i xi-xi-f i ·(x i - )(x i - ) 2 f i ·(x i - ) 2 f i ·x i Añadimos una nueva columna: 5 · · · ·6 2 8 · Aplicamos la fórmula anterior: Podemos comprobar que aplicada a la tabla anterior, nos conduce al mismo resultado: Se llama varianza de una variable a la media aritmética de los cuadrados de las desviaciones respecto a la media. Se representa por σ 2 o por s 2 La varianza, al obtenerse a partir de los cuadrados de las desviaciones, no tiene la misma unidad que los datos. Para subsanar esto, se introduce un nuevo parámetro, la desviación típica.

51 09/06/2014 IPFA de Cádiz Ámbito Científico 51 Desviación típica Se llama desviación típica de una variable a la raíz cuadrada positiva de la varianza. Se representa por σ o por s Siguiendo con la tabla anterior: xixi fifi xixi fifi x i ·f i xixi fifi x i ·f i xi-xi – 5 – 2 4 – 5 – 1 5 – – – 5 2 xixi fifi x i ·f i xi-xi-f i ·(x i - ) – xixi fifi x i ·f i xi-xi-f i ·(x i - )(x i - ) xixi fifi x i ·f i xi-xi-f i ·(x i - )(x i - ) 2 f i ·(x i - ) La varianza era: Para obtener la desviación típica, basta con extraer la raiz cuadrada del resultado anterior: También podemos escribir las fórmulas que siguen para calcular la desviación típica: (Lógicamente, se trata de las mismas fórmulas que hemos visto para la varianza, pero con la raíz cuadrada)

52 09/06/2014 IPFA de Cádiz Ámbito Científico 52 Actividad: Dada la siguiente distribución de datos, calcular: xixi fifi X i (g)fifi Total 46 a) El recorrido a) El valor máximo que toma la variable es 9 g y el mínimo 4 g, por tanto el recorrido vale: 9 g – 4 g = 5 g b) La varianza b) Para calcular la varianza, necesitamos conocer antes la media: Ya podemos calcular la varianza: c) La desviación típica c) Conocida la varianza, fácilmente calculamos la desviación típica :

53 Utilización conjunta de la media y la desviación típica La media aritmética, de un conjunto de datos se encuentra, aproximadamente, hacia el centro de la distribución. En el intervalo ( – σ, + σ ) se encuentra el 68% de los datos En el intervalo ( – 2 σ, + 2 σ ) se encuentra el 95% de los datos En el intervalo ( – 3 σ, + 3 σ ) se encuentra el 99% de los datos Desigualdad de Tchebicheff en las distribuciones unimodales, simétricas o ligeramente asimétricas La desviación típica σ nos informa sobre la dispersión de los datos respecto a la media. Utilizando ambos parámetros conjuntamente podemos obtener resultados muy importantes sobre la distribución.

54 Medidas relativas Coeficiente de variación de Pearson La desviación típica es un término absoluto del que se pueden sacar conclusiones erróneas sobre la dispersión de la muestra ( por ejemplo cuando las medias no tienen la misma escala). Por ello se recurre al coeficiente de variación de Pearson C.V. que mide la dispersión relativa de la muestra. Por ejemplo, se han medido las temperaturas máximas en tres localidades. En la siguiente tabla se muestran las respectivas medias y desviaciones típicas: σ Localidad A25°7° Localidad B33°7° Localidad C40°8° ¿En cuál de las tres localidades las temperaturas son más variables en relación a su media? Coeficiente de variación de Pearson Se calcula mediante la siguiente fórmula: Desviación típica Media Si nos fijamos únicamente en la desviación típica, responderíamos que más dispersas son las temperaturas de la localidad C, teniendo las localidades A y B una dispersión semejante. Nos equivocaríamos, pues no hemos tenido en cuenta las temperaturas medias de cada localidad. Para responder correctamente, debemos calcular el coeficiente de variación de Pearson para cada localidad La dispersión de los datos será tanto mayor cuanto más grande sea el coeficiente de variación de Pearson Es la localidad A la que tiene las temperaturas más variable respecto de sus 25° de media, ya que es la que tiene mayor coeficiente de variación.

55 Tipificación de variables. Variables normalizadas Dadas dos series de datos estadísticos, para la misma muestra, nos interesa con frecuencia comparar los datos de cada una. Para no producir errores, se crea una nueva variable estadística Z a partir de la variable X a través de la relación: Por ejemplo, una empresa textil A tiene unos beneficios netos de 6 millones de euros en un año y otra empresa B del sector químico tiene unos beneficios de 12 millones de euros anuales. Variable tipificada Desviación típica Media Variable a tipificar (en millones) σ (en millones) Empresa textil 51 Empresa química 103 Según esto, la empresa B está mejor gestionada que la A, pero si tenemos en cuenta que la media de beneficios y la desviación típica en cada sector es: Al tipificar los beneficios de ambas empresas: Comprobamos que la empresa A se desvió por encima de la media una unidad de su desviación típica y la empresa B sólo 2/3 de la suya, lo que nos indica que dentro de su sector la empresa A ha tenido más rendimiento que la B en el suyo.

56 INICIO


Descargar ppt "09/06/2014 IPFA de Cádiz Ámbito Científico 1 Definición y conceptos básicos Organizando los datos: Tablas y Gráficas Parámetros estadísticos: De centralización:"

Presentaciones similares


Anuncios Google