La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

IPFA de Cádiz Ámbito Científico

Presentaciones similares


Presentación del tema: "IPFA de Cádiz Ámbito Científico"— Transcripción de la presentación:

1 IPFA de Cádiz Ámbito Científico
ESTADÍSTICA ■ Definición y conceptos básicos ■ Organizando los datos: Tablas y Gráficas ■ Parámetros estadísticos:  De centralización: media, moda y mediana  De dispersión: rango, varianza y desviación típica 01/04/2017 1 IPFA de Cádiz Ámbito Científico

2 IPFA de Cádiz Ámbito Científico
La Estadística es la Ciencia de la Sistematización, recogida, ordenación y presentación de los datos referentes a un fenómeno que presenta variabilidad o incertidumbre para su estudio metódico, con objeto de Descriptiva deducir las leyes que rigen esos fenómenos, Probabilidad y poder de esa forma hacer previsiones sobre los mismos, tomar decisiones u obtener conclusiones. Inferencia En este curso sólo veremos Estadística Descriptiva 01/04/2017 IPFA de Cádiz Ámbito Científico

3 Pasos en un estudio estadístico
Plantear hipótesis sobre una población Los fumadores tienen “más bajas” laborales que los no fumadores ¿En qué sentido? ¿Mayor número? ¿Tiempo medio? Decidir qué datos recoger (diseño de experimentos) Qué individuos pertenecerán al estudio (muestras) Fumadores y no fumadores en edad laboral. Criterios de exclusión ¿Cómo se eligen? ¿Descartamos los que padecen enfermedades crónicas? Qué datos recoger de los mismos (variables) Número de bajas Tiempo de duración de cada baja ¿Sexo? ¿Sector laboral? ¿Otros factores? Recoger los datos (muestreo) Describir (resumir) los datos obtenidos tiempo medio de baja en fumadores y no (estadísticos) % de bajas por fumadores y sexo (frecuencias), gráficos,... 01/04/2017 IPFA de Cádiz Ámbito Científico

4 IPFA de Cádiz Ámbito Científico
Conceptos básicos: Población y muestra Población es el conjunto sobre el que estamos interesados en obtener conclusiones (hacer inferencia). • Normalmente es demasiado grande para poder abarcarlo. • Llamaremos individuo a cada elemento de la población, aunque no sea persona. Muestra es un subconjunto suyo al que tenemos acceso y sobre el que realmente hacemos las observaciones (mediciones). • Debe ser representativa y aleatoria . Por ejemplo: Si vamos a hacer un estudio sobre la educación de adultos y sabemos que el 60% del alumnado son mujeres, cuando elijamos la muestra debemos procurar que el 60 % de la misma sean mujeres . 01/04/2017 IPFA de Cádiz Ámbito Científico

5 IPFA de Cádiz Ámbito Científico
Actividad: Con el dato anterior (60% de alumnado de adultos son mujeres) y suponiendo que el 30% del alumnado de adultos está empleado, completar la tabla siguiente si hemos elegido una muestra de 400 alumnos: Empleados Desempleados Total Mujeres Hombres 120 280 Como la muestra es de alumnos 400 Como el 60% de alumnado es mujer: 240 160 Como el 40% de alumnado es hombre:  El 30% de alumnado (tanto mujer como hombre) está empleado: 72 48  Las mujeres desempleadas: 168  Los hombres desempleados: 112  Para completar las celdas que nos faltan, basta con sumar las dos de arriba de cada una. 01/04/2017 IPFA de Cádiz Ámbito Científico

6 IPFA de Cádiz Ámbito Científico
Conceptos básicos (Cont.): El tamaño de la muestra N Número de individuos que forman la muestra. Carácter estadístico Cada una de las propiedades o cualidades que nos permite clasificar a los individuos de una población. La edad , el número de hijos, sexo, mes del año en el que prefiere las vacaciones, el estado civil , día de la semana que libra de trabajar, el número de aprobados en una asignatura ….. Variable estadística xi : Conjunto de valores que puede tomar un carácter estadístico. Ejemplos: la edad en años: 20, 23, 24 ,45 , …. el número de hijos: 0, 1 , 2, 3, ………. sexo: mujer , hombre. mes del año que prefiere las vacaciones: enero, febrero, marzo, abril, …… el estado civil: casado/a, soltero/a, divorciado/a, …… los días de la semana : lunes, martes, miércoles, ….. el número de aprobados en una asignatura: 30, 25, 0, 2 , …. 01/04/2017 IPFA de Cádiz Ámbito Científico

7 IPFA de Cádiz Ámbito Científico
Tipos de variables Cualitativas Cuantitativas o Numéricas Si sus valores (modalidades) no se pueden asociar naturalmente a un número (no se pueden hacer operaciones algebraicas con ellos). Se asocian con palabras. Se pueden medir y expresar con números (tiene sentido hacer operaciones algebraicas con ellos) Pueden ser: ■Discretas: Son las que pueden tomar solamente un número finito de valores numéricos aislados.  Dia de la semana  Estado de satisfacción ( muy bueno, bueno, regular, malo,…)  Número de hermanos  Edad en años  Frutos de un árbol ■Continuas: Si entre dos valores, son posibles infinitos valores intermedios  Altura  Peso de los frutos de un árbol Generalmente se utiliza el término modalidad cuando hablamos de caracteres cualitativos y el término valor cuando estudiamos caracteres cuantitativos. Por ejemplo el carácter cualitativo <Estado Civil> puede adoptar las modalidades : casado, soltero, viudo. El carácter cuantitativo <Edad> puede tomar los valores : 10, 12, 25, 43 años, ... 01/04/2017 IPFA de Cádiz Ámbito Científico

8 IPFA de Cádiz Ámbito Científico
Por ejemplo: En los individuos de la población española, de uno a otro es variable: El grupo sanguíneo {A, B, AB, O}  Variable Cualitativa Su nivel de felicidad “declarado” {Deprimido, Ni fu ni fa, Muy Feliz}  Variable cualitativa El número de hijos {0,1,2,3,...}  Variable cuantitativa discreta La altura {1’62 ; 1’74; ...}  Variable cuantitativa continua Una vez que tenemos los datos de la muestra es necesario organizarlos, ordenarlos …… 01/04/2017 IPFA de Cádiz Ámbito Científico

9 Presentación ordenada de datos: Tablas y Gráficas
Muestra Tabla de frecuencia Género Frecuencia Hombre 4 Mujer 6 Las tablas de frecuencias y las representaciones gráficas son dos maneras equivalentes de presentar la información. Las dos exponen ordenadamente la información recogida en una muestra. ¡¡¡ Vamos a conocerlas!!! 01/04/2017 IPFA de Cádiz Ámbito Científico

10 IPFA de Cádiz Ámbito Científico
Tablas de frecuencia Exponen la información recogida en la muestra, de forma que no se pierda nada de información (o poca). Suelen contener los siguientes datos: Variable estadística xi : La pondremos en la primera columna por la izquierda. En las siguientes columnas pondremos todos o algunos de los siguientes valores: Frecuencias absolutas fi: Contabilizan el número de individuos de cada valor (modalidad) Frecuencias relativas hi : Idem, pero dividido por el total de individuos Frecuencias acumuladas Fi: Acumulan el valor de las filas de arriba. Porcentajes: Se pueden poner acumulado o sin acumular Ejemplos: 30,8 88,3 11,7 100,0 01/04/2017 IPFA de Cádiz Ámbito Científico

11 IPFA de Cádiz Ámbito Científico
Ejemplo ¿Cuántos individuos tienen menos de 2 hijos? frec. indiv. sin hijos + frec. indiv. con 1 hijo = = 674 individuos ¿Qué porcentaje de individuos tiene 6 hijos o menos? 97,3% ¿Qué cantidad de hijos es tal que al menos el 50% de la población tiene una cantidad inferior o igual? 2 hijos Frecuencia absoluta Porcentaje Porcentaje acumulado ≥50% 01/04/2017 IPFA de Cádiz Ámbito Científico

12 IPFA de Cádiz Ámbito Científico
Actividad: En la tabla siguiente: 27,6 44,4 69,1 83,3 91,7 95,3 1,9 1,7 97,2 98,9 100,0 ■ ¿Qué porcentaje de individuos tienen menos de tres hijos Solución : 27,6 % + 16,8 % + 24,7 % = 69,1 % ■ ¿Qué porcentaje de individuos tienen más de tres y menos de siete? Solución : 8,4 % + 3,6 % + 1,9 % = 13,9 % 01/04/2017 IPFA de Cádiz Ámbito Científico

13 IPFA de Cádiz Ámbito Científico
Frecuencia absoluta fi Hemos preguntado la edad a los 30 alumnos de una clase de adultos,obteniendo las siguientes respuestas: 20 , 21 , 19 , 23 , 25 , 23 , 21 , 20 , 23 , 18 22 , 24 , 18 , 21 , 20 , 20 , 24 , 19 , 22 , 23 21 , 23 , 20 , 23 , 25 , 23 , 22 , 23 , 24 , 18 Realizamos un recuento: Ya tenemos la Tabla de frecuencias absolutas: 18 3 19 2 Edad xi F.Absoluta (Nº de alumnos) fi 18 3 19 2 20 5 21 4 22 23 8 24 25 20 5 21 4 22 3 23 8 24 3 25 2 30 Comprobamos que la suma es 30 (tamaño de la muestra N = 30 alumnos) 01/04/2017 IPFA de Cádiz Ámbito Científico

14 IPFA de Cádiz Ámbito Científico
Frecuencia absoluta acumulada Fi La tabla anterior nos mostraba las frecuencias absolutas de cada valor de la variable estadística tabulada , pero en ocasiones necesitamos saber la frecuencia absoluta de un conjunto de valores ( frecuencia acumulada Fi ) . A partir de la tabla de frecuencias absolutas obtenemos la de frecuencias absolutas acumuladas sin más que sumar a la frecuencia absoluta de cada valor las de los valores anteriores. Edad xi F.Absoluta (Nº de alumnos) fi 18 3 19 2 20 5 21 4 22 23 8 24 25 Edad xi F.Absoluta (Nº de alumnos) fi F.Absoluta acumulada Fi 18 3 19 2 20 5 21 4 22 23 8 24 25 3 Para ello, añadimos a la tabla una nueva columna. 5 3 +2 5 +5 10 Rellenamos esta columna poniendo en cada celda la frecuencia absoluta de ese valor sumada a la frecuencia absoluta de los anteriores: 10 +4 14 17 14+3 17+8 25 25+3 28 28+2 30 Total: 30 El valor de la última celda de esta columna tiene siempre que coincidir con el tamaño de la muestra N 01/04/2017 IPFA de Cádiz Ámbito Científico

15 IPFA de Cádiz Ámbito Científico
Frecuencia relativa hi A veces no basta con conocer la frecuencia absoluta: 10 alumnos en una muestra de 30 no tienen el mismo “peso” que 10 alumnos en una muestra de 20. Edad xi F. Absoluta fi F. Relativa hi 18 3 19 2 20 5 21 4 22 23 8 24 25 Para tener en cuenta esta circunstancia, en la tabla de frecuencias absolutas introducimos la columna de frecuencia relativa hi , que calculamos dividiendo la frecuencia absoluta entre el tamaño de la muestra (nº total de datos) N: 01/04/2017 IPFA de Cádiz Ámbito Científico

16 IPFA de Cádiz Ámbito Científico
Seguimos con la tabla anterior. Edad xi F.absoluta fi F. Relativa hi 18 3 19 2 20 5 21 4 22 23 8 24 25 Vamos a expresar la frecuencia relativa en notación decimal: 0,100 La suma de las frecuencias absolutas tiene que coincidir con el tamaño de la muestra N 0,067 0,167 0,133 0,100 La suma de las frecuencias relativas nos tiene que dar siempre 1. 0,267 0,100 0,067 Total: 30 1 01/04/2017 IPFA de Cádiz Ámbito Científico

17 IPFA de Cádiz Ámbito Científico
Porcentajes En ocasiones, en las tablas de datos nos piden que incluyamos una columna con los porcentajes (tanto por ciento) de cada valor de la variable estadística, por ser éste una magnitud de uso muy común y de fácil cuantificación. A partir de una tabla que tenga las frecuencias relativas, basta con multiplicar éstas por 100 para obtener la columna de porcentajes: Edad xi F.absoluta fi F. Relativa hi 18 3 0’100 19 2 0’067 20 5 0’167 21 4 0’133 22 23 8 0’267 24 25 Edad xi F.absoluta fi F. Relativa hi 18 3 0’100 19 2 0’067 20 5 0’167 21 4 0’133 22 23 8 0’267 24 25 Porcentajes % 10 6’7 16’7 13’3 10 26’7 10 6’7 01/04/2017 17 IPFA de Cádiz Ámbito Científico

18 IPFA de Cádiz Ámbito Científico
Actividad: Se ha preguntado a los 25 alumnos de una clase por el número de hermanos que tiene cada uno, obteniéndose el siguiente resultado: 2 , 2 , 1 , , 3 , , 2 , 6 , 4 , 3 , 1 , 6 , 2 , 1 , 4 , 3 , 5 , 2 , 6 , 3 , 1 , , 7 , 2 , 4 Organiza los datos en una tabla de frecuencias absolutas y relativas. Nº hermanos xi Frecuencia absoluta fi Frecuencia Relativa hi 1.. Analizando los datos vemos que los valores de la variable xi número de hermanos van desde el 0 al 7. Dibujamos la tabla y añadimos estos valores. 3 0,12 2.. Contamos en la lista el número de veces que aparece cada uno de estos valores y colocamos ese número en la columna de la frecuencia absoluta. 1 4 0,16 Debemos comprobar que la suma de las frecuencias absolutas nos tiene que dar 25, que es el tamaño de la muestra N. 2 6 0,24 3 4 0,16 3.. La columna de frecuencia relativa hi la completamos dividiendo la frecuencia absoluta fi por el tamaño de la muestra N : 4 3 0,12 5 1 0,04 6 3 0,12 Debemos comprobar que la suma de las frecuencias relativas nos tiene que dar 1. 7 1 0,04 Total : 25 1 01/04/2017 IPFA de Cádiz Ámbito Científico

19 IPFA de Cádiz Ámbito Científico
Actividad: Completa la tabla anterior con las frecuencias acumuladas, tanto las absolutas como las relativas. Nº hermanos xi Frecuencia absoluta fi F. Absoluta acumulada Fi Relativa hi F. Relativa Hi Hemos añadimos dos nuevas columnas, una para las f.absolutas acumuladas y otra para las relativas acumuladas. 3 3 0’12 0’12 1 4 7 3 + 4 0’16 0’12+0’16 0’28 2 6 13 7 + 6 0’24 0’28+0’24 0’52 3 4 13 + 4 17 0’16 0’52+0’16 0’68 4 3 17 + 3 20 0’12 0’68+0’12 0’80 5 1 20 + 1 21 0’04 0’80+0’04 0’84 6 3 21 + 3 24 0’12 0’84+0’12 0’96 7 1 24 + 1 25 0’04 0’96+0’04 1’00 Total : 25 1 01/04/2017 IPFA de Cádiz Ámbito Científico

20 IPFA de Cádiz Ámbito Científico
Tablas de frecuencia de variables cuantitativas continuas En las tablas que hasta ahora hemos visto, la variable era cuantitativa discreta, que sólo tomaba unos cuantos valores diferentes ( en concreto , ocho valores), pero si la variable cuantitativa a tabular fuera contínua (o discreta con muchos valores diferentes) necesitaríamos una tabla con muchas filas, lo que no sería eficaz. Consideremos el caso siguiente: En una academia se ha medido la altura (en metros) de un grupo de 20 alumnos, obteniéndose el siguiente resultado: 1’75 , 1’69 , 1’70 , 1’63 , 1’72 , 1’82 , 1’62 , 1’66 , 1’73 , 1’89 1’87 , 1’64 , 1’68 , 1’76 , 1’86 , 1’74 , 1’71 , 1’84 , 1’67 , 1’74 Vemos que casi cada valor es diferente. Tendríamos una tabla con casi 20 filas y la frecuencia absoluta de cada uno sería 1. En estos casos, los datos deben agruparse en clases o intervalos. La primera columna de las tablas anteriores se divide en dos, una para los intervalos y otra para la marca de clase, que es el valor medio de cada intervalo y que se toma como valor de la variable estadística xi. La marca de clase se calcula como la semisuma de los extremos del intervalo. Por ejemplo si un intervalo fuera: [4’0-8’0) la marca de clase sería:  [1’65-1’70) la marca de clase sería: Como la altura menor es 1,62 m y la mayor 1,89 m, elegiremos los siguientes intervalos , tomados de 5cm en 5 cm ( intervalos de igual amplitud): 01/04/2017 IPFA de Cádiz Ámbito Científico

21 IPFA de Cádiz Ámbito Científico
1’75 1’75 , 1’69 1’69 , 1’70 1’70 , 1’63 1’63 , 1’72 1’72 , 1’82 1’82 , 1’62 1’62 , 1’66 1’66 , 1’73 1’73 , 1’89 1’89 ▪Dibujamos la tabla con los intervalos. 1’87 1’87 , 1’65 1’65 , 1’68 1’68 , 1’76 1’76 , 1’86 1’86 , 1’74 1’74 , 1’71 1’71 , 1’84 1’84 , 1’67 1’67 , 1’74 1’74 Altura (m) Marca de clase Frecuencia Absoluta relativa Clases xi fi hi [1’60-1’65) [1’65-1’70) [1’70-1’75) [1’75-1’80) [1’80-1’85) [1’85-1’90) ▪Calculamos las marcas de clase. ▪La frecuencia absoluta de cada intervalo es: ▪Finalmente, calculamos las frecuencias relativas dividiendo cada frecuencia absoluta por el tamaño de la muestra N (20 alumnos) 1’63 2 0’10 1’68 5 0’25 1’73 6 0’30 1’78 2 0’10 1’83 2 0’10 1’88 3 0’15 Total : 20 [1’65-1’70) Intervalo cerrado por la izquierda [ , nos indica que 1,65 pertenece a este intervalo. Intervalo abierto por la derecha ) , nos indica que 1,70 pertenece al intervalo siguiente. 01/04/2017 21 IPFA de Cádiz Ámbito Científico

22 IPFA de Cádiz Ámbito Científico
Actividad: Un alumno de Bachillerato realiza exámenes durante un trimestre con los siguientes resultados: 5 , 9 , 5 , 6 , 5 , 8 , 8 , 5 , 6 , 5 , 8 , 6 , 5 , 6 , 8 , 9 , 7, 6 , 7, 8 , 7 , 8 , 6 ¿Cuál es el carácter (variable) estadístico de estos datos? Las calificaciones de los exámenes de un trimestre ¿Qué valores toma la variable estadística? 5 , , , y 9 ¿Cuál es el tamaño de la muestra? 23 ¿Cuál es la frecuencia absoluta del valor 6 ? 6 ¿Cuál es la frecuencia relativa del valor 8? Construye la tabla de frecuencias absoluta y relativa , de porcentajes y acumuladas. xi fi Fi hi Hi pi Pi 5 6 7 8 9 6 6 0’26 0’26 26 26 6 12 0’26 0’52 26 52 3 15 0’13 0’65 13 65 6 21 0’26 0’91 26 91 2 23 0’09 1 9 100 Total : 23 1’00 100 01/04/2017 IPFA de Cádiz Ámbito Científico

23 IPFA de Cádiz Ámbito Científico
 GRÁFICOS  Además de la tablas de frecuencias, para apreciar con una simple mirada  la magnitud o posición de las variables, se suelen efectuar una representación gráfica de los datos. Los sistemas de gráficos más usuales son: 01/04/2017 IPFA de Cádiz Ámbito Científico

24 Gráficos para variables cualitativas
Diagramas de barras Alturas proporcionales a las frecuencias (abs. o rel.) Se pueden aplicar también a variables discretas Diagramas de sectores (ciclogramas) El área de cada sector es proporcional a su frecuencia (absoluta o relativa) Pictogramas Fáciles de entender. El área de cada modalidad debe ser proporcional a la frecuencia. 01/04/2017 IPFA de Cádiz Ámbito Científico

25 IPFA de Cádiz Ámbito Científico
Gráficos para variables numéricas Son diferentes en función de que las variables sean discretas o continuas. Valen con frecuencia absolutas o relativas. Diagramas de barras para variables discretas Se deja un hueco entre barras para indicar los valores que no son posibles Histogramas para variables continuas El área que hay bajo el histograma entre dos puntos cualesquiera indica la cantidad (porcentaje o frecuencia) de individuos en el intervalo. En las diapositivas que siguen vamos a ver uno a uno los gráficos más representativos. 01/04/2017 IPFA de Cádiz Ámbito Científico

26 IPFA de Cádiz Ámbito Científico
Diagrama de barras:  se utiliza para frecuencias absolutas o relativas, acumuladas o no, de una VARIABLE DISCRETA. En el eje de abcisas (eje horizontal), situaremos los diferentes valores de la variable. En el eje de ordenadas ( eje vertical ) la frecuencia de cada valor. Levantaremos barras o columnas SEPARADAS de altura correspondiente a la frecuencia adecuada. (Diagrama de barras elaborado con el programa Excel) 01/04/2017 IPFA de Cádiz Ámbito Científico

27 IPFA de Cádiz Ámbito Científico
Vamos a dibujar el diagrama de barras de la tabla edad de los alumnos (Diapositiva 13) 1..Dibujamos dos ejes perpendiculares: Edad xi fi 18 3 19 2 20 5 21 4 22 23 8 24 25 2.. En el eje horizontal representaremos la variable estadística xi ( en este caso, la edad de los alumnos), y marcamos el eje con los valores que toma la variable. Como la primera división de la escala es 18 y cada marca representa un año, cambiamos el eje x por este otro, para “romper” la escala. 3.. En el eje vertical representaremos las frecuencias absolutas fi , para lo cual marcamos el eje con los valores de estas: 4.. Finalmente dibujamos las barras verticales de frecuencia, centradas en las marcas del eje horizontal. fi 8 Opcionalmente, se puede poner el nombre de la variable estadística como Título del gráfico) 6 4 2 18 19 20 21 22 23 24 25 xi Edad de los alumnos 01/04/2017 27 IPFA de Cádiz Ámbito Científico

28 IPFA de Cádiz Ámbito Científico
Histogramas: diagrama de barras para distribuciones cuantitativas continuas En el eje de abcisas (eje horizontal), situaremos los intervalos o las marcas de clase de la variable. En el eje de ordenadas ( eje vertical ) la frecuencia. Levantaremos barras o columnas AGRUPADAS igual de anchas que los intervalos y de altura correspondiente a la frecuencia de cada valor. (Histograma elaborado con el programa Excel) 01/04/2017 IPFA de Cádiz Ámbito Científico

29 IPFA de Cádiz Ámbito Científico
Vamos a dibujar el histograma de la tabla altura de los alumnos (Diapositiva 21) 1..Dibujamos dos ejes perpendiculares: Altura (m) Marca de clase Frecuencia Absoluta Clases xi fi [1’60-1’65) 1’63 2 [1’65-1’70) 1’68 5 [1’70-1’75) 1’73 6 [1’75-1’80) 1’78 [1’80-1’85) 1’83 [1’85-1’90) 1’88 3 2.. En el eje horizontal representaremos los intervalos de la variable estadística xi ( en este caso, la altura de los alumnos). 3.. En el eje vertical representaremos las frecuencias absolutas fi , para lo cual marcamos el eje con los valores de estas: 4.. Finalmente dibujamos las barras verticales de frecuencia, con una anchura como la del intervalo. 8 7 6 5 4 3 2 1 [1’60-1’65) xi [1’65-1’70) [1’70-1’75) [1’75-1’80) [1’80-1’85) [1’85-1’90) Altura de los alumnos 01/04/2017 29 IPFA de Cádiz Ámbito Científico

30 IPFA de Cádiz Ámbito Científico
Diagrama de sectores (Ciclogramas): también conocido como diagrama de "tartas“. Se divide un círculo en tantas porciones como valores o modalidades tenga la variable (cualitativa o cuantitativa), de modo que a cada uno le corresponde un arco de círculo proporcional a su frecuencia absoluta o relativa. (Diagrama de sectores elaborado con el programa Excel) 01/04/2017 IPFA de Cádiz Ámbito Científico

31 IPFA de Cádiz Ámbito Científico
Polígono de frecuencias: Son gráficos lineales que se utilizan en el caso de una variable cuantitativa. Para realizar estos polígonos unimos los puntos medios de las bases superiores del diagrama de barras o del histograma según la variable sea agrupada o no agrupada. Un ejemplo sería el gráfico que nos muestra la evolución de la temperatura de un enfermo. 01/04/2017 IPFA de Cádiz Ámbito Científico

32 IPFA de Cádiz Ámbito Científico
Pictogramas: Son gráficos en los que se utilizan unos dibujos relacionados con el carácter estadístico que se representa y que tienen unos tamaños proporcionales a la frecuencia de cada valor o modalidad. Por ejemplo, para representar el censo de varias ciudades , podemos presentar la figura de una persona con diferentes tamaños, en proporción al número de habitantes de cada ciudad. 88.073 San Fernando Algeciras Cádiz Jerez (Datos Censo 2001) (Pictograma de barras elaborado con el programa Excel) También hay pictogramas que consisten en diagrama de barras en los que las barras se sustituyen por dibujos alusivos a la variable ( como el de la derecha) 01/04/2017 IPFA de Cádiz Ámbito Científico

33 IPFA de Cádiz Ámbito Científico
Otros gráficos: Cartogramas: Consisten en representar sobre un mapa cada valor o modalidad del carácter estadístico objeto de estudio con un color . Llevan adjunto una leyenda en la que nos indican el significado de los colores. 01/04/2017 IPFA de Cádiz Ámbito Científico

34 IPFA de Cádiz Ámbito Científico
Climogramas Un climograma o diagrama ombrotérmico es un gráfico en el que representamos simultáneamente los valores de la temperatura media mensual, mediante una línea, y los de precipitaciones mensuales medias, mediante barras verticales, para los doce meses del año de una zona geográfica determinada. (Climograma elaborado con el programa Excel) 01/04/2017 IPFA de Cádiz Ámbito Científico

35 IPFA de Cádiz Ámbito Científico
Pirámides de población Cuando se realizan representaciones correspondientes a edades de población, cambiamos el eje Y por el eje X para obtener las llamadas pirámides de población, que no son más que 2 histogramas a izquierda y derecha, para hombres y mujeres (Pirámide elaborado con el programa Excel) 01/04/2017 IPFA de Cádiz Ámbito Científico

36 IPFA de Cádiz Ámbito Científico
Parámetros estadísticos Las tablas y gráficos no son base suficiente en la que asentar las conclusiones de un estudio estadístico. Para tratar de hacer lo más objetiva posible la interpretación de datos se recurre a ciertos números extraídos de los datos llamados parámetros o medidas estadísticas. Estos parámetros, de alguna manera, nos permite resumir y sintetizar un gran número de datos y nos proporcionan una idea lo más aproximada posible a alguna característica de toda la distribución. Casi en su totalidad, sólo tienen sentido para variables estadísticas cuantitativas y se dividen en cuatro tipos de los cuales sólo estudiaremos los dos más importantes: Parámetros estadísticos Parámetros de centralización Parámetros de dispersión Proponen un representante que ejemplifique al resto de la población y tienden a situarse hacia el centro del conjunto ordenado de los datos. Indican si los valores tienden a agruparse en torno a un valor o están separados entre sí. Los más importantes son: Los más importantes son: El rango o recorrido La desviación típica La media La moda La varianza La mediana 01/04/2017 36 IPFA de Cádiz Ámbito Científico

37 IPFA de Cádiz Ámbito Científico
La media De los tres parámetros que vamos a estudiar, es el de uso más cotidiano y conocido La media aritmética de una variable estadística es la suma de los valores de dicha variable dividido por el número de valores. Se representa por . Si las calificaciones de un alumno en una determinada materia durante el primer trimestre fueron: 3’6 , , 5’5 , 6 Fácilmente obtenemos la nota media: Si los datos los tenemos agrupados en una tabla de frecuencias, procederemos del siguiente modo: Añadimos una nueva columna en la que pondremos el resultado de multiplicar cada valor xi por su frecuencia fi , para ahorrarnos tener que sumar ,por ejemplo, 12 veces el número 14. xi fi 12 3 13 8 14 15 9 16 10 xi fi 12 3 13 8 14 15 9 16 10 xi ·fi 36 Calculamos los totales de las dos últimas columnas. 104 168 Finalmente, calculamos la media dividiendo el total de la 3ª columna (suma de todos los valores) entre el total de la 2ª (número de valores) 135 160 Total : 42 603 01/04/2017 37 IPFA de Cádiz Ámbito Científico

38 IPFA de Cádiz Ámbito Científico
Para el cálculo anterior , hemos aplicado la “misma fórmula” que para el cálculo de la nota media, hemos sumado todos los valores y hemos dividido por el número total de todos ellos, sólo que en este segundo caso, como sabíamos que el valor 12 se repetía 3 veces, el valor 13 se repetía 8 veces, …. en vez de sumar tres veces 12 hemos sumado 36 ( 3·12) y en vez de sumar ocho veces el valor 13 hemos sumado 104 ( 8·13), …… Podemos expresar todo mediante la fórmula: ¿Y si los datos están agrupados en intervalos? Procederemos como en el caso anterior, sólo que como valores xi tomaremos las marcas de clase de los intervalos. Calculamos las marcas de clase xi de cada intervalo, tal como vimos en las diapositivas 20 y 21, esto es, sumamos los dos extremos del intervalo y dividimos por 2. Peso (g) xi fi xi· fi [0-100) 10 [ ) 45 [ ) 30 [ ) 15 50 500 150 6750 Completamos la última columna multiplicado la 2ª por la 3ª. 250 7500 Calculamos los totales de las dos últimas columnas. 350 5250 Total : 100 20000 Finalmente, calculamos la media dividiendo el total de la 4ª columna entre el total de la 3ª: 01/04/2017 38 IPFA de Cádiz Ámbito Científico

39 IPFA de Cádiz Ámbito Científico
Actividad: Las calificaciones en la asignatura de historia del arte de los 40 alumnos de una clase viene dada por la siguiente tabla: Calificaciones Nº de alumnos Hallar la calificación media de la clase. A la tabla que nos dan ,con xi y fi , le añadimos una tercera columna xi· fi : xi fi xi· fi 1 2 3 4 5 8 6 9 7 Total 40 2 Aplicamos la fórmula que nos permite calcular la media: 4 12 20 40 54 21 32 27 212 01/04/2017 39 IPFA de Cádiz Ámbito Científico

40 IPFA de Cádiz Ámbito Científico
Actividad: Calcular la media de la siguiente distribución. A partir de la gráfica , construimos la tabla de frecuencias correspondiente: xi fi xi· fi 30 1 20 2 50 3 80 4 40 5 6 10 Completamos la tercera columna: 20 100 240 160 Finalmente, aplicamos la fórmula que nos permite calcular la media: 150 60 Total : 260 730 01/04/2017 40 IPFA de Cádiz Ámbito Científico

41 IPFA de Cádiz Ámbito Científico
La mediana Si tenemos un conjunto de datos, por ejemplo las edades de los componentes de un equipo de fútbol-sala: 20 , , , , , , 20 y queremos saber cúal de esos datos es el mediano, los ordenamos de menor a mayor: 18 , , , , , , 22 20 Vemos que el de en medio tiene tiene 20 años. Bien, pues a este valor se le llama en Estadística la mediana de ese conjunto de datos y lo representaremos así: Me = 20 Se llama mediana de una variable estadística a un valor de la variable, tal que el número de observaciones menores que él es igual al número de observaciones mayores que él. En el ejemplo anterior, la mediana es única , ya que el número de datos es impar. Pero ¿cuál sería la mediana del siguiente conjunto de datos ?: 18 , , , , , , , 22 20 21 Cuando el número de datos es par, tendremos dos valores centrales y tomaremos como mediana la media aritmética de esos dos valores: Aunque este valor no pertenezca al conjunto de datos 01/04/2017 41 IPFA de Cádiz Ámbito Científico

42 IPFA de Cádiz Ámbito Científico
La mediana (Cont1.) Supongamos que los datos los tenemos agrupados en una tabla de frecuencia como esta: Podríamos calcular la mediana como en los casos anteriores, ordenándolos de menor a mayor, pero como son muchos datos (62) sería muy tedioso. Debemos buscar un método más cómodo. xi fi Fi 3 16 4 19 5 10 6 13 7 xi fi 3 16 4 19 5 10 6 13 7 16 16+19 35 Para ello, le añadimos a la tabla una nueva columna en la que vamos a calcular las frecuencias absolutas acumuladas: 35+10 45 45+13 Sabemos que el número contenido en la última celda de esta columna (Ver diapositiva 14) coincide con el número total de datos N. 58 58+4 62 Y como estamos buscando la mediana, calculamos : Con esta cálculo hemos averiguado que el valor que estamos buscando ocupa el lugar número 31 en la lista de todos los valores. Vemos en la tabla que la primera frecuencia acumulada que supera esa cifra es la que corresponde a x2 = 4 y en consecuencia la mediana vale: Me = 4 En estos casos, la mediana viene dada por el primer valor de la variable cuya frecuencia absoluta acumulada excede a la mitad del número de datos. Vamos a calcular la mediana de la siguiente distribución de datos: 01/04/2017 42 IPFA de Cádiz Ámbito Científico

43 IPFA de Cádiz Ámbito Científico
La mediana (Cont.2) Como estamos buscando la mediana, calculamos : xi fi Fi 12 4 13 6 10 14 20 15 32 16 8 40 Comprobamos que la mitad del número de datos , 20 , coincide ( y no excede ) con la frecuencia absoluta acumulada correspondiente a un valor, x3 =14 En estos casos, la mediana es la semisuma entre este valor y el siguiente de la tabla: N Finalmente, trataremos el caso de una distribución contínua de datos, con intervalos de clase: Como estamos buscando la mediana, calculamos : alturas xi fi Fi [1,60-1,65) 1’63 2 [1,65-1,70) 1’68 5 7 [1,70-1,75) 1’73 6 13 [1,75-1,80) 1’78 15 [1,80-1,85) 1’83 17 [1,85-1,90) 1’88 3 20 La frecuencia acumulada que excede a esta cantidad es 13 , a la que le corresponde el intervalo mediano [1’70-1’75) En las distribuciones contínuas de datos sólo calcularemos el intervalo mediano, el correspondiente a una frecuencia acumulada que excede a la mitad del número de datos N N 01/04/2017 43 IPFA de Cádiz Ámbito Científico

44 IPFA de Cádiz Ámbito Científico
Actividad: La tabla siguiente nos muestra el resultado de la evaluación (número de suspensos) de un grupo de alumnos. Determinar la mediana. xi fi Fi 4 1 5 2 6 3 7 En primer lugar , calcularemos las frecuencias acumuladas. 4 9 4 + 5 Calculamos : 15 9 + 6 15 + 7 22 > 16 22 + 4 26 La frecuencia acumulada que excede este valor es la que corresponde al cuarto valor x4 = 3 , en consecuencia la mediana de este conjunto de datos es: 26 + 3 29 29 + 1 30 Me = 3 N 30 + 2 32 01/04/2017 44 IPFA de Cádiz Ámbito Científico

45 IPFA de Cádiz Ámbito Científico
La moda En la vida social y cultural, lo que está de moda es lo que más se lleva o lo que más se ve o se oye. Con este mismo significado se utiliza en Estadística. Se llama moda de una variable estadística al valor de dicha variable que presenta mayor frecuencia absoluta. Se representa por Mo . Por ejemplo en la siguiente distribución de datos: xi fi 5 7 10 12 15 20 9 25 4 Frecuencia absoluta más alta Moda En consecuencia : Mo = 10 Puede suceder que haya dos valores con igual frecuencia absoluta más alta. Por ejemplo: xi fi 3 12 4 24 5 17 6 7 21 x2 = 4 Hay dos valores : con la frecuencia más alta , 24. x4 = 6 M0 = 4 Hay dos modas: M0 = 6 Se dice que es una distribución bimodal. 01/04/2017 45 IPFA de Cádiz Ámbito Científico

46 IPFA de Cádiz Ámbito Científico
Actividad: Las calificaciones de un alumno en los exámenes realizados durante un mes han sido: 7’4 , , 6’5 , , 6’7 , 6’5 , 9 Determinar la moda. Como debemos de localizar al valor ( la nota en esta caso) que aparece un mayor número de veces, la moda es: Mo = 6’5 Actividad: Calcular la moda de la siguiente distribución discreta de valores: xi 3 6 7 8 9 fi 15 20 40 10 El valor con mayor frecuencia absoluta, y por tanto la moda , es: Mo = 8 Actividad: En el gráfico que se muestra ,¿ cúal es la moda? La moda es 1 suspenso, ya que es el valor (modalidad) con mayor porcentaje y, por tanto, mayor frecuencia absoluta. 01/04/2017 46 IPFA de Cádiz Ámbito Científico

47 IPFA de Cádiz Ámbito Científico
La moda (Cont.) Cuando los datos los tengamos agrupados en intervalos de clases sólo calcularemos el intervalo en el que se encuentra la moda. Supongamos la siguiente tabla: Intervalos de clase xi fi [0-4) 2 20 [4-8) 6 36 [8-12) 10 77 [12-16) 14 51 [16-20) 18 28 [20-24) 22 49 Vemos que la frecuencia absoluta mayor , 77 , corresponde al intervalo de clase [8-12). Diremos que la clase modal de esta distribución de datos es [8-12). Cuando los datos de la variable estadística estén agrupados en intervalos de clase, llamaremos clase modal de la distribución al intervalo de clase al que le corresponde una mayor frecuencia absoluta. OPCIONAL En realidad sólo hemos calculado el intervalo donde está la moda Mo . Podríamos calcular la moda aplicando la siguiente fórmula: = Límite inferior del intervalo modal = Amplitud del intervalo = Diferencia entre la frecuencia absoluta de la clase modal y la anterior = Diferencia entre la frecuencia absoluta de la clase modal y la posterior 01/04/2017 47 IPFA de Cádiz Ámbito Científico

48 IPFA de Cádiz Ámbito Científico
Rango o Recorrido La investigación acerca de una distribución queda incompleta si sólo se estudian las medidas de centralización, siendo imprescindible conocer si los datos numéricos están agrupados o no alrededor de los valores centrales y de lo separado que están los datos entre sí . A esto es a lo que se le llama dispersión. El primer parámetro de este tipo que veremos es el rango o recorrido. Los datos que siguen se refieren al peso en kg de dos grupos de personas: Grupo A : 45 , 20 , 75 , 81 , 55 , 62 Grupo B : 66 , 63 , 80 , 72 , 61 , 58 En el grupo A los valores extremos son: En el grupo B los valores extremos son: 20 y 81 58 y 80 Diremos que en el Grupo A el recorrido es: Y en el Grupo B el recorrido vale: 81 kg – 20 kg = 61 kg 80 kg – 58 kg = 22 kg Como ambos grupos tienen el mismo número de datos , podemos decir que en el Grupo B los datos están más concentrados por tener un recorrido menor. Se llama rango o recorrido de una distribución a la diferencia entre el mayor valor de la variable y el menor valor de la misma. Para calcular este parámetro, sólo tenemos en cuenta dos valores ( los extremos) de la distribución y si pretendemos obtener una medida más fiable de la dispersión , deberíamos de tener en cuenta a todos los datos. Esto es lo que haremos en los siguientes parámetros. 01/04/2017 48 IPFA de Cádiz Ámbito Científico

49 IPFA de Cádiz Ámbito Científico
Varianza Si tenemos un conjunto de datos , una manera de saber lo alejado o lo centrado que está un dato xi será compararlo con la media . Así, definiremos la desviación respecto a la media de un dato xi como: Veamoslo con un ejemplo. Tenemos la siguiente tabla de frecuencias: Calculamos la media, tal como vimos en la diapositiva 37: xi fi xi ·fi xi- fi·(xi- ) (xi- )2 fi·(xi- )2 3 5 4 10 9 6 7 8 xi fi xi ·fi xi- 3 5 4 10 9 6 7 8 xi fi xi ·fi 3 5 4 10 9 6 7 8 xi fi xi ·fi xi- fi·(xi- ) (xi- )2 3 5 4 10 9 6 7 8 xi fi xi ·fi xi- fi·(xi- ) 3 5 4 10 9 6 7 8 xi fi 3 5 4 10 9 6 7 8 15 3 – 5 – 2 –10 4 20 40 4 – 5 – 1 –10 1 10 45 5 – 5 24 6 – 5 1 4 1 4 Le añadimos una nueva columna para calcular las desviaciones: 56 7 – 5 2 16 4 32 36 180 66 En principio, si calculáramos la media aritmética de todas las desviaciones, obtendríamos un dato que nos permitiría cuantificar la dispersión global de este conjunto de datos, pero podemos comprobar que la suma de todas las desviaciones es cero , ya que las positivas se compensarán con las negativas. Para evitar esto, añadiremos una nueva columna, con las desviaciones al cuadrado y otra con la suma: Pues bien , la media de los cuadrados de las desviaciones es la varianza σ2: 01/04/2017 49 IPFA de Cádiz Ámbito Científico

50 IPFA de Cádiz Ámbito Científico
Varianza (Cont.) La expresión anterior de la varianza σ2 se puede poner de esta otra manera, sacando el factor común : Podemos comprobar que aplicada a la tabla anterior, nos conduce al mismo resultado: Podemos comprobar que aplicada a la tabla anterior, nos conduce al mismo resultado: xi fi xi ·fi xi- 3 5 4 10 9 6 7 8 xi fi xi ·fi 3 5 4 10 9 6 7 8 xi fi xi ·fi xi- fi·(xi- ) (xi- )2 fi·(xi- )2 fi ·xi2 3 5 4 10 9 6 7 8 xi fi 3 5 4 10 9 6 7 8 xi fi xi ·fi xi- fi·(xi- ) (xi- )2 3 5 4 10 9 6 7 8 xi fi xi ·fi xi- fi·(xi- ) 3 5 4 10 9 6 7 8 xi fi xi ·fi xi- fi·(xi- ) (xi- )2 fi·(xi- )2 3 5 4 10 9 6 7 8 Añadimos una nueva columna: 15 3 – 5 – 2 –10 4 20 5 ·32 45 Aplicamos la fórmula anterior: 40 4 – 5 – 1 –10 1 10 10 ·42 160 45 5 – 5 225 9 ·52 24 6 – 5 1 4 1 4 4 ·62 144 56 2 7 – 5 16 4 32 392 8 ·72 36 180 66 966 Se llama varianza de una variable a la media aritmética de los cuadrados de las desviaciones respecto a la media. Se representa por σ2 o por s2 La varianza, al obtenerse a partir de los cuadrados de las desviaciones, no tiene la misma unidad que los datos. Para subsanar esto, se introduce un nuevo parámetro, la desviación típica. 01/04/2017 50 IPFA de Cádiz Ámbito Científico

51 IPFA de Cádiz Ámbito Científico
Desviación típica Se llama desviación típica de una variable a la raíz cuadrada positiva de la varianza. Se representa por σ o por s Siguiendo con la tabla anterior: La varianza era: xi fi xi ·fi 3 5 4 10 9 6 7 8 xi fi xi ·fi xi- fi·(xi- ) 3 5 4 10 9 6 7 8 xi fi xi ·fi xi- fi·(xi- ) (xi- )2 fi·(xi- )2 3 5 4 10 9 6 7 8 xi fi 3 5 4 10 9 6 7 8 xi fi xi ·fi xi- 3 5 4 10 9 6 7 8 xi fi xi ·fi xi- fi·(xi- ) (xi- )2 3 5 4 10 9 6 7 8 15 3 – 5 – 2 –10 4 20 Para obtener la desviación típica , basta con extraer la raiz cuadrada del resultado anterior: 40 4 – 5 – 1 –10 1 10 45 5 – 5 24 6 – 5 1 4 1 4 56 7 – 5 2 16 4 32 36 180 66 También podemos escribir las fórmulas que siguen para calcular la desviación típica: (Lógicamente , se trata de las mismas fórmulas que hemos visto para la varianza , pero con la raíz cuadrada) 01/04/2017 51 IPFA de Cádiz Ámbito Científico

52 IPFA de Cádiz Ámbito Científico
Actividad: Dada la siguiente distribución de datos, calcular: Xi (g) fi 4 5 10 6 8 7 12 9 Total 46 xi fi 4 5 10 6 8 7 12 9 a) El recorrido b) La varianza c) La desviación típica a) El valor máximo que toma la variable es 9 g y el mínimo 4 g , por tanto el recorrido vale: 9 g – 4 g = 5 g b) Para calcular la varianza, necesitamos conocer antes la media: Ya podemos calcular la varianza: c) Conocida la varianza, fácilmente calculamos la desviación típica : 01/04/2017 52 IPFA de Cádiz Ámbito Científico

53 Utilización conjunta de la media y la desviación típica
La media aritmética,  de un conjunto de datos se encuentra, aproximadamente, hacia el centro de la distribución. La desviación típica σ nos informa sobre la dispersión de los datos respecto a la media. Utilizando ambos parámetros conjuntamente podemos obtener resultados muy importantes sobre la distribución. Desigualdad de Tchebicheff ■ En el intervalo ( – σ , σ ) se encuentra el 68% de los datos ■ En el intervalo ( – 2σ , σ ) se encuentra el 95% de los datos en las distribuciones unimodales, simétricas o ligeramente asimétricas ■ En el intervalo ( – 3σ , σ ) se encuentra el 99% de los datos

54 Medidas relativas σ Coeficiente de variación de Pearson
La desviación típica es un término absoluto del que se pueden sacar conclusiones erróneas sobre la dispersión de la muestra ( por ejemplo cuando las medias no tienen la misma escala). Por ello se recurre al coeficiente de variación de Pearson C.V. que mide la dispersión relativa de la muestra. Se calcula mediante la siguiente fórmula: Desviación típica La dispersión de los datos será tanto mayor cuanto más grande sea el coeficiente de variación de Pearson Coeficiente de variación de Pearson Media Por ejemplo, se han medido las temperaturas máximas en tres localidades. En la siguiente tabla se muestran las respectivas medias y desviaciones típicas: ¿En cuál de las tres localidades las temperaturas son más variables en relación a su media? σ Localidad A 25° Localidad B 33° Localidad C 40° Si nos fijamos únicamente en la desviación típica, responderíamos que más dispersas son las temperaturas de la localidad C , teniendo las localidades A y B una dispersión semejante. Nos equivocaríamos , pues no hemos tenido en cuenta las temperaturas medias de cada localidad. Para responder correctamente, debemos calcular el coeficiente de variación de Pearson para cada localidad Es la localidad A la que tiene las temperaturas más variable respecto de sus 25° de media , ya que es la que tiene mayor coeficiente de variación.

55 σ (en millones) Tipificación de variables. Variables normalizadas
Dadas dos series de datos estadísticos, para la misma muestra, nos interesa con frecuencia comparar los datos de cada una. Para no producir errores, se crea una nueva variable estadística Z a partir de la variable X a través de la relación: Variable a tipificar Media Variable tipificada Desviación típica Por ejemplo, una empresa textil A tiene unos beneficios netos de 6 millones de euros en un año y otra empresa B del sector químico tiene unos beneficios de 12 millones de euros anuales. Según esto, la empresa B está mejor gestionada que la A, pero si tenemos en cuenta que la media de beneficios y la desviación típica en cada sector es: (en millones) σ (en millones) Empresa textil 5 1 Empresa química 10 3 Al tipificar los beneficios de ambas empresas: Comprobamos que la empresa A se desvió por encima de la media una unidad de su desviación típica y la empresa B sólo 2/3 de la suya , lo que nos indica que dentro de su sector la empresa A ha tenido más rendimiento que la B en el suyo.

56 F I N INICIO


Descargar ppt "IPFA de Cádiz Ámbito Científico"

Presentaciones similares


Anuncios Google