La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

¿ Nos enga ñ an las estad í sticas? Nora Gatica Universidad Nacional de San Luis - Argentina.

Presentaciones similares


Presentación del tema: "¿ Nos enga ñ an las estad í sticas? Nora Gatica Universidad Nacional de San Luis - Argentina."— Transcripción de la presentación:

1

2 ¿ Nos enga ñ an las estad í sticas? Nora Gatica Universidad Nacional de San Luis - Argentina

3 - Elegimos la pasta de dientes X porque la publicidad dice que nos va a disminuir en 20% de las caries - El candidato a elecciones cambia su campaña en vista de los resultados de una encuesta de opinión - El médico prescribe un tratamiento porque las estadísticas le informan que el tratamiento cura su enfermedad en 70 % de los casos - Una muestra de sangre es suficiente para decir miles de cosas sobre la totalidad de la sangre en tu cuerpo

4 Los métodos y los términos estadísticos son necesarios para informar sobre los datos masivos de las tendencias sociales y económicas, las situaciones de los negocios, las encuestas de opinión y los censos. Pero muchas veces se emplea para causar sensación, deformar confundir y simplificar en demasía.

5 Si quieres demostrar algo absurdo toma un montón de datos, tortúralos hasta que digan lo que quieres demostrar, y a la confesión así obtenida llámalo “Estadística” (Darrel Huff: How to lie with statistics) Si se reúnen suficientes datos, se puede demostrar cualquier cosa con ayuda de la Estadística. (Ley de Williams y Holland) Recelo de la Estadística; un buen amigo mío murió ahogado en un río cuya profundidad media era de 40 cm. (Pío Baroja)

6 Según acaba de publicar una reciente estadística, más del 80 % de los hombres obesos del mundo están gordos. Según las últimas estadísticas, de cada tres niños que nacen en el mundo, dos son chinos. Menos en China que son los tres. El 100 % de las personas que realizaron una encuesta declaró haber participado en dicha encuesta. Según la últimas estadísticas, tomando medio litro de leche todas las mañanas durante 1200 meses se consigue vivir más de 100 años. Según las últimas estadísticas un alto porcentaje de españoles son padres. Lo que es seguro es que el 100% son hijos

7 En la práctica hay tres razones para utilizar las estadísticas: Para resumir: digamos que queremos saber cuánto calor hace en un sitio (por ejemplo en Valladolid) comparado con otro sitio (Málaga). Podemos medir la temperatura cada día y compararla, haciendo largas listas durante un año. Estamos utilizando estadística. Para apostar. Si tiramos una moneda no podemos saber de qué lado caerá. Podemos hablar de las "posibilidades" de que salga cara. O de las "probabilidades" de que salga cara. Estamos utilizando estadísticas otra vez. Para mentir. Algo muy común en todos los medios. Esta es la utilización de las estadísticas que nos concierne hoy.

8 -¿Cómo se ha hecho para graficar los resultados? - ¿Quién lo dice? ¿Cuáles pueden ser sus intenciones? ¿Las autoridades citadas realmente dicen lo que se afirma? - ¿Cómo lo saben? ¿Qué pruebas realizaron para llegar a esos resultados? Aún sabiendo que en ocasiones la estadística es manipulada de manera engañosa, la actitud menos apropiada sería la de ignorar los datos. De nada sirve percibir la artimaña, si no somos capaces de identificar en donde radica la trampa. Un aspecto interesante consiste en desmenuzar la metodología, constatar que lo que dice es pertinente o, de lo contrario, encontrar los argumentos para invalidar

9 Histograma: representa el n ú mero de "visitas" que ha tenido un hipertexto de acuerdo a la hora de la visita.

10 Gráfico que representa el comportamiento de las calificaciones parciales de cuatro alumnos de preparatoria Gráfico que representa el porcentaje del PIB gastado en docencia e investigación por cinco países en el lapso de 1988 a 1999 (fuente: Revista "Ciencia y Desarrollo", 1994, XIX(114):12).

11 Comparaci ó n del total de las especies de las familias del orden Carnivora y las que est á n amenazadas, en M é xico, (fuente: Revista "Ciencia y Desarrollo", 1994, XIX(114):58):

12 Matrícula en licenciatura (en México) por áreas de conocimiento en el año de 1992 (Fuente: ANUIES,1995):

13 Circular con subgráfico de barras Circular con subgráfico circular Datos: 200 – 300 – 400 - 12 – 15

14 Pirámide de edades del país X Gráfico de líneas: comportamiento del peso corporal (en kilogramos) de dos individuos a lo largo de cinco observaciones anuales.

15

16 Dispersión que se presenta al comparar el número de tesis doctorales en ciencias exactas contra el número de total de tesis doctorales (todo en México) en observaciones anuales entre 1984 y 1990 (fuente: Revista "Ciencia y Desarrollo", 1994, XIX(114):12) Este diagrama compara la distancia que existe en cada uno de los planetas interiores de nuestro sistema solar al Sol contra el tiempo que necesitan para recorrer sus órbitas, y el tamaño de las burbujas indica la masa de cada planeta

17 Población de los Estados Unidos (cada hombrecillo representa a dos millones de habitantes ) PICTOGRAMA

18 Diagrama de caja y bigotes o bloxplot: Se realizó una prueba de velocidad al inicio del semestre a un grupo de atletas del área especial de atletismo, donde se obtuvieron malos resultados. Luego de un entrenamiento de 3 meses se repitió la prueba en igualdad de condiciones.

19 Representación gráfica de tronco y hojas Un m é todo para iniciar el an á lisis exploratorio de los datos, previo al uso de los m é todos estad í sticos tradicionales, y que adem á s proporciona informaci ó n r á pida, visual y es relativamente nueva, es la representaci ó n gr á fica de tronco y hoja. Esta representaci ó n se basa en la ordenaci ó n de los datos a manera de gr á fico, pero sin llegar a ello, utilizando las decenas y las unidades. 78, 93, 61, 100, 70, 83, 88, 74, 97, 72, 66, 73, 76, 81, 83, 64, 91, 70, 77, 86 61 6 4 78 0 4 2 3 6 0 7 83 8 1 3 6 93 7 1 10 0

20 6 1 4 6 7 0 0 2 3 4 6 7 8 8 1 1 3 6 8 9 1 3 7 10 0 6- 1 4 6+ 6 7- 0 0 2 3 4 7+ 6 7 8 8- 1 3 3 8+ 6 8 9- 1 3 9+ 7 10- 0 Representación gráfica de doble tronco

21 Diagrama de Pareto : Herramienta Básica para la mejora de la Calidad Se utiliza para priorizar los problemas o las causas que los generan. El nombre de Pareto fue dado por el Dr. Juran en honor del economista italiano VILFREDO PARETO (1848-1923) quien realizó un estudio sobre la distribución de la riqueza, en el cual descubrió que la minoría de la población poseía la mayor parte de la riqueza y la mayoría de la población poseía la menor parte de la riqueza. El Dr. Juran aplicó este concepto a la calidad, obteniéndose lo que hoy se conoce como la regla 80/20. Se recomienda su uso: Para identificar oportunidades para mejorar Para identificar un producto o servicio para el análisis de mejora de la calidad. Cuando existe la necesidad de llamar la atención a los problemas o causas Para analizar las diferentes agrupaciones de datos. Al buscar las causas principales de los problemas y establecer la prioridad de las soluciones Para evaluar los resultados de los cambos efectuados a un proceso comparando sucesivos diagramas obtenidos en momentos diferentes, (antes y después) Cuando los datos puedan clasificarse en categorías Cuando el rango de cada categoría es importante Para comunicar fácilmente a otros miembros de la organización las conclusiones sobre causas, efectos y costes de los errores.

22 Gráfica de Pareto: Un fabricante de accesorios plásticos desea analizar cuáles son los defectos más frecuentes que aparecen en las unidades al salir de la línea de producción. Para esto, empezó por clasificar todos los defectos posibles en sus diversos tipos:

23 Ahora resulta evidente cuales son los tipos de defectos más frecuentes. Podemos observar que los 2 primeros tipos de defectos se presentan en el 79,8 % de los accesorios con fallas. Por el Principio de Pareto, concluimos que: La mayor parte de los defectos encontrados en el lote pertenece sólo a 2 tipos de defectos (los "pocos vitales"), de manera que si se eliminan las causas que los provocan desaparecería la mayor parte de los defectos.

24 Howard Wainer, en su libro “Visual Revelations” expresa tres principios - No muestres los datos (en todo caso que sean pocos). Los que muestres, que sea de forma imprecisa. Ofusca la interpretación de los datos. 1.Minimiza la densidad de datos (muestra pocos datos en mucho espacio). 2.Minimiza la razón datos/tinta (poca tinta para datos y mucha para accesorios, ejes, retículos, títulos, adornos...). 3.Ignora la metáfora visual (las magnitudes no tienen por que corresponderse con su representación). 4.Maximiza el factor de mentira 5.Haz el gráfico fuera de contexto (para qué enseñar el trozo de gráfica en que nos iba mejor...) 6.Cambia la escala en medio del eje, normalmente nadie se dará cuenta y puedes cambiar el significado de lo que muestras a tu gusto. 7.Enfatiza lo trivial y despista la atención de lo que interesa. 8.Dificulta la comparación, al fin y al cabo lo que muestran los gráficos son diferencias, por tanto, que no se noten... 9.Ordena alfabéticamente, seguramente será más difícil detectar patrones que si los ordenas por los valores crecientes de alguna de las variables. 10.Etiqueta lo peor que puedas, de forma ilegible, incompleta, incorrecta y ambigua, nada mejor para confundir a propios y extraños. 11.Añade información inútil: más decimales y más dimensiones de lo necesario contribuyen a la confusión.

25

26 De acuerdo al gráfico se crearon 100.000 empleos en el año 1996. 200.000 en 1998 y así siguiendo. Dice: “creación de empleo”... ¿No se perdieron empleos en esos años? Debería estar la palabra “neto”. ¿Es empleo acumulado? El eje de la derecha representa cientos de miles de trabajos creados. ¿cuál es el nivel inicial? Manipulando el nivel inicial se pueden lograr que los cambios chicos parezcan grandes. Tampoco hay información de los desempleados porque si los desempleados son varios millones, no es significativa la creación de empleo. Debería dar evidencia de la tasa de desempleo para poder establecer si bajó un 10%, un 20 % etc. OBSERVACIONES

27 Miremos al otro eje. La tasa del impuesto a las ganancias baj ó del 58% al 40% en cuatro a ñ os. ¿ 58% de impuesto a las ganancias? No es la tasa del impuesto a las ganancias. Es "impuesto a las ganancias como porcentaje del impuesto federal b á sico" ¿ Que significa eso? Parecer í a que el impuesto a las ganancias est á bajando comparado con el impuesto federal. ¿ Pero acaso esto no puede deberse a que el impuesto federal estaba aumentando? El eje del gr á fico s ó lo va de 40 a 60. Si el eje del gr á fico fuese de 0 a 100, la tendencia no parecer í a tan importante, quedar í a como una l í nea bastante horizontal. ¿ Qu é intentan hacer al poner dos tipos distintos de informaci ó n en el mismo gr á fico con diferentes unidades? Todo lo que muestran es que una estaba bajando mientras la otra sub í a. Podr í an haber manipulado los gr á ficos para hacer que la creaci ó n de empleo pareciese incluso m á s alta, o que el impuesto a las ganancias pareciese m á s bajo adelgazando el gr á fico.

28

29

30

31

32 HISTOGRAMA

33 Las visualizaciones no son neutras, dependen de nuestra elección y de lo que queramos mostrar a los demás y a nosotros mismos. Cultivar este sentido crítico respecto de lo que hacemos y de lo que se nos presenta es vital para evitar la confusión.

34 POBLACIÓN Y MUESTRA Población: Conjunto total que se pretende estudiar estadísticamente Muestra: Subconjunto de esa población. Debe ser representativa de la población. Muestreo al azar Muestreo al azar por estratos: se divide la población en partes y se toman grupos proporcionales a las mismas ¿Cómo se obtiene una muestra al azar dentro de la estratificación? Para averiguar si los individuos entre 20 y 30 años leen no es correcto tomar una muestra a los asistentes al Bar de la esquina de la Facultad de Letras

35 Hay más negros en prisión que en la Universidad Dos grupos Hombres negros en la Universidad Hombres negros en la cárcel Una persona va a la Universidad por cuatro años pero en prisión puede estar diez, quince o más años ¿Es una afirmación razonable? Los hombres negros en la Universidad están en edad de ir a la Universidad. Los hombres negros en la cárcel pueden tener cualquier edad. ¿Tiene lógica que la cifra de la prisión sea más alta? ¿Tendría más lógica examinar el número de hombres negros en prisión en edad de ir a la Universidad? Cuando se comparan grupos hay que preguntarse quien está en el grupo y quién queda fuera, y si es conveniente para la conclusión que se intenta convencer

36 “El promedio de los componentes de la promoción 1924 de la Universidad de Yale gana 25.111 dólares al año” - Normalmente no se recuerda exactamente los propios ingresos. - Esta cifra parte de lo que DIJERON los graduados. - Algunas personas exageran (vanidad, optimismo) otras miminizan (declaraciones de hacienda) - No es posible que se pueda tener contacto con todos los sobrevivientes de la promoción 1924, muchas direcciones son desconocidas, otros no contestarían el cuestionario. Muestra formada por los componentes de la promoción cuyas direcciones se conocen y que contestaron el cuestionario. ¿Es representativa esta muestra?

37 Hacer una encuesta telefónica en la que consultara a los suscriptores sobre la carencia de algunos servicios como electricidad, agua, recolección de basura, etc, sería totalmente absurdo. El método de recolección de datos sería tendencioso ya que se trata de individuos que tienen teléfono en sus casas, evidentemente tienen condiciones de bienestar y acceso a los servicios.

38

39 PROMEDIOS FamiliasIngresos A$ 2.000 B C D E$ 92.000 Barrio X FamiliasIngresos F$ 20.000 G H I J Barrio Y ¿Cuál es el ingreso promedio en el Barrio X? ¿Cuál es el ingreso promedio en el Barrio Y? Tienen el mismo promedio por lo que concluimos que a los dos barrios son muy similares económicamente

40 Moda: Es el valor de la variable que ocurre con mayor frecuencia Mediana: Es el valor de la variable que divide a la distribución de datos en dos partes iguales ¿cuál es el ingreso mediano en el Barrio X? ¿cuál es el ingreso modal en el Barrio X? ¿cuál utilizaríamos para mostrar altos ingresos en el Barrio X? ¿En realidad existe la familia promedio?

41 TENDENCIAS “Las mujeres ganan menos que los hombres” “Todas las mujeres ganan menos que los hombres” “Algunas mujeres ganan menos que los hombres” Las tendencias están relacionadas con los promedios. “Las mujeres tienden a ganar menos que los hombres” ¿Podemos llegar a la conclusión de que María tiende a ganar menos que Jose? No, María no tiende, es un individuo. Se puede comparar a María con la tendencia “María gana más que el promedio” pero en sentido estadístico no tiene tendencia propia ¿Podemos sacar alguna conclusión acerca de los individuos basándonos en tendencias? En sentido lógico, no.

42 CORRELACIONES Dados dos relojes que marcha perfectamente. Cuando “a” señala la hora, “b” toca la hora. ¿Fue “a” la causa de que “b” tocase? Estudio: averiguar si los fumadores sacaban notas más bajas que los no fumadores Correlación producida por la casualidad. Otras veces hay correlación real pero no se puede establecer cual de las variables es la causa y cual es el efecto. En algún caso la causa y el efecto pueden cambiar de posición o ambas variables pueden ser causa y efecto al mismo tiempo. Ejempo: Ingresos y propiedad. Correlación positiva y correlación negativa

43 ¿CÓMO SE HACEN DIGNAS DE CONFIANZA? Hay varios elementos a tener en cuenta: Representatividad de la muestra, tamaño de la misma, margen de error, diseño de las categorías, tratamiento numérico, temporalidad y consideraciones. Es lo que llamamos METODOLOGÍA Con un error involuntario o intencional, es cuando la estadística deja de ofrecernos información útil y apropiada para convertirse en algo que manipula o provoca equívocos

44 PROBABILIDADES ¿cuál es la probabilidad de lograr un cinco en un dado de seis lados? Todos los lados son igualmente probables: 1/6 Si arrojamos una moneda un millón de veces, obtendremos aproximadamente quinientas mil caras ¿Lo mismo ocurre su la arrojamos cuatro o cinco veces? ¿Obtendremos dos o dos caras y media? Es en este momento donde interviene la probabilidad

45 Distribución de probabilidades: distribución normal La idea es que si se tiene un gran número de muestras y la variación entre ellas es pequeña, tiene una distribución normal. La media, la mediana y la moda coinciden

46 Pero hay distintos tipos de distribuciones normales. La temperatura de dos ciudades pueden tener distribuciones normales con medias similares, pero el clima en una ciudad (Variable) puede ser mucho más variable que en otra (Estable), por lo que las distribuciones serían: Desviación estándar Significancia

47 Ejemplo: Una encuesta de opinión sobre si apoya o no al candidato A. Resultados: 60 % no y el 40 % si. “Resultados válidos dentro del 1 %, 19 de 20 veces” 1 % es la desviación. 19 de 20 veces es la significancia. Esto quiere decir que si se toma una nueva muestra habrá un 95 % (19 de 20 veces) de que la respuesta sea entre el 59 y 61 % No y entre 39 y 41 % SI Estos números son los que nos dicen cuanto se puede confiar en ese promedio. Rara vez se incluyen en las estadísticas, excepto que la gente que las hace no se ve perjudicada como ser las encuestas de opinión


Descargar ppt "¿ Nos enga ñ an las estad í sticas? Nora Gatica Universidad Nacional de San Luis - Argentina."

Presentaciones similares


Anuncios Google