La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Técnicas y Herramientas de Apoyo a la Investigación (THAI) Máster Universitario de Investigación en TIC Universidad de Valladolid Alejandra Martínez, Pedro.

Presentaciones similares


Presentación del tema: "Técnicas y Herramientas de Apoyo a la Investigación (THAI) Máster Universitario de Investigación en TIC Universidad de Valladolid Alejandra Martínez, Pedro."— Transcripción de la presentación:

1 Técnicas y Herramientas de Apoyo a la Investigación (THAI) Máster Universitario de Investigación en TIC Universidad de Valladolid Alejandra Martínez, Pedro Castrillo y César Palencia Página de la asignatura en www.tel.uva.es

2 THAI, Bloque 2 Técnicas de investigación cuantitativa ¿Cómo son los datos?: Análisis estadístico de datos (Tema 1) ¿Por qué son así? ¿cómo es el sistema?: Modelado del sistema (= comprensión, formulación, predicción) (Tema 2) ¿Cómo “imitarlo” numéricamente o predecir su comportamiento?: Simulación (Tema 3)

3 THAI, Bloque 2 Técnicas de investigación cuantitativa Puente entre: La realidad y los conceptos (“los experimentos” y “la teoría”) Los conceptos y el ordenador

4 THAI, Bloque 2 Técnicas de investigación cuantitativa Requisitos: Capacidad de razonamiento Capacidad de aprender Cierta creatividad No miedo a las matemáticas Valor para afrontar nuevos problemas Versatilidad: apertura a otras disciplinas

5 THAI, Bloque 2 Técnicas de investigación cuantitativa TEMARIO: Tema 1. Análisis estadístico de datos Tema 2. Formulación de modelos Tema 3. Simulación y optimización

6 Tema 1 Análisis de datos

7 Bibliografía recomendada: Para los que ya hayan estudiado estadística: la que usasteis Para los que no: W. NAVIDI. Estadística para ingenieros y científicos McGraw Hill. (Teleco-Informática; Industriales)

8 Recopilación y análisis de datos ¿Qué nos dicen los datos? ¿Puedo describir todos los datos con pocos parámetros? ¿Cuál es su valor más representativo?¿Con qué seguridad? ¿Cómo de “buenos” son los datos? ¿Pueden servirme para afirmar o descartar una hipótesis? ¿Cómo saber si las variaciones entre grupos son significativas? ¿Cómo distinguir si dos magnitudes guardan relación?  Análisis estadístico

9 Análisis de datos Ejemplos: El análisis estadístico de los datos vale para: –Describir los datos –Ver cómo son de significativos –Detectar relaciones entre subconjuntos de datos –Proporcionar “materia prima” (o semi-elaborada…) para conocimientos científico-técnicos

10 Estadística Objetivo: obtener conclusiones a partir de datos sujetos a variación o a error. Tareas:  Recopilar  Analizarlos datos  Interpretar Hoy se pueden captar ingentes cantidades de datos… (Ejemplos) ¿Cómo usarlos? Potencialidades: Los métodos estadísticos permiten  Diseñar experimentos válidos  Llegar a conclusiones fiables

11 Estadística Estadística descriptiva: ¿cómo son los datos? Estadística inferencial: ¿qué conclusiones o predicciones puedo obtener a partir de los datos?

12 Conceptos de estadística Población – colección completa de resultados o elementos de la información buscada Muestra - subconjunto de la población, o conjunto de observaciones de entre todas las posibles Muestra aleatoria simple de tamaño n – todas las posibles colecciones de n elementos de la población son igualmente probables Muestra de conveniencia Población conceptual

13 Conceptos de estadística Variable - Cantidad medida repetidamente y que no es la misma en todas las observaciones –Numéricos o categóricos –Discretas o continuas –Dependientes o independientes Ejemplos

14 Conceptos de estadística «Estadístico» – resumen numérico de una muestra Parámetro – resumen numérico de una población Los estadísticos se usan para estimar los parámetros

15 Resúmenes gráficos: histogramas Frecuencia: veces que ocurre. Frecuencia relativa: normalizar entre el nº total Densidad: normalizar entre la anchura del intervalo

16 Resúmenes gráficos: histogramas Los histogramas permiten presentar los datos de forma cualitativa y visual. Pero para cuantificar esos datos son deseables valores numéricos significativos que midan: (i) la tendencia central y (ii) la variabilidad.

17 Medidas de la tendencia central Media aritmética Ojo: no siempre es significativa Si hay medias de diferentes estudios: media ponderada (Otras medias:, geométrica, armónica, etc.) Mediana: Ordenar Moda: valor de máxima frecuencia (valor esperado) (relacionado con el valor más probable)

18 Medidas de variabilidad Varianza: (  2 ) Desviación estándar: (mismas unidades que los datos) Desviación media (penaliza menos que  los valores muy alejados) Otras: rango, anchura entre 25% y 75%... De una muestra:

19 Distribuciones Distribución de la muestra: frecuencia (o porcentaje) para cada valor (o intervalo) de la variable Distribución de frecuencias agrupadas → histograma Para muestras muy grandes, la distribución de la muestra coincidirá con la distribución de probabilidad → p(x)

20 Distribuciones Las distribución puede ser unimodal, bimodal,… (moda = valor donde está el pico de la distribución) ∫ p(x) dx = 1 Distrib. paramétrica: puede ser descrita con pocos parámetros

21 Distribuciones El tipo de distribución depende del caso que se estudie Distribuciones comunes: –Binomial –Exponencial –Normal –Log-normal –Poisson –Weibull –…

22 Parámetros en distribuciones continuas Análogos a los estadísticos de las muestras

23 Distribución exponencial p(x)= (1/μ )·exp(-x/μ). (Variable normalizada: Y =X/μ) Origen: “sistema sin memoria”, “sucesos independientes” Ejemplo:

24 Distribución normal Familia de distribuciones p(x) gaussiana Dos parámetros: μ y  Es simétrica y decrece “rápidamente” En el límite, la distribución binomial tiende a una normal Muy habitual… (normal! )

25 Combinación lineal de distribuciones normales Si X 1,…, X n son variables independientes con medias μ 1,…, μ n y varianzas  1 2,…,  n 2, la variable X =  c i X i tendrá: media: μ =  c i μ i varianza:  2 =  c i 2  i 2 Ejemplo: de Navidi, pag. 243, Prob.15

26 Distribución estandarizada: z La media de z es 0. La desviación estándar de z es 1 Ejemplo: z=5 es excepcional en una distribución normal (sea para vida útil de un coche o sea para el peso de una naranja…)

27 Distribución estandarizada: z La media de z es 0. La desviación estándar de z es 1 Ejemplo: z=5 es excepcional en una distribución normal (sea para vida útil de un coche o sea para el peso de una naranja…)

28 Percentiles Normaliza el valor (de x a z) Para z>0: percentil = 0.5 + área bajo la curva de 0 a z Para z<0: percentil = 0.5 - área bajo la curva de 0 a |z| z>0 Probabilidad de estar en un intervalo z<0

29 Distribución de muestras “Experimento mental”: Sea una distribución con media μ y desviación estándar . Elegimos una muestra “0” de tamaño N y se calcula su  x 0 y  0. Elegimos otra muestra “1” y se hace lo mismo, y así muchas veces. Tenemos una muestra de muestras… Se calculan entonces la media y la desviación estándar de  x i.  Si N es grande: y «Teorema del límite central» −Para variables aleatorias y N grande  x sigue una distribución normal (aunque X no siga una distrib. normal) −Si X es normal esto ocurre aun para N pequeño

30 Distribución de muestras ¿Para qué vale esto? Nos da una idea de cómo de fiables son los valores de  x obtenidos para una muestra de tamaño N, finita pero grande –La incertidumbre al estimar  es menor cuanto menor es  y mayor es N. Lo utilizaremos cuando manejemos muestras (N>1).  Análisis de grupos Importante: tomando muestras grandes (N grande) no reducimos  x (no estrechamos la distribución) pero sí disminuimos   x  (medimos mejor  x).  Intervalos de confianza.  Test de hipótesis

31 Análisis de grupos Dado un grupo, ver cómo es de atípico Ejemplo: –Supongamos que el ritmo cardiaco promedio en reposo es 65 puls./min y que la desviación estándar es  = 10. –Seleccionamos entonces una sub-población para ver si tiene cambios significativos respecto a la población total. –Elegimos, por ejemplo, una sub-población de “muy cafeteros” confesos, y supongamos que el tamaño de la muestra es15 –Y supongamos que nuestra muestra tiene una media de 70 puls./min –Como es una muestra: –z=1.93 tiene por encima un área de 0.0268 (2.68%), por lo que las 70 puls./min de nuestros cafeteros corresponde a un percentil de 97.32%. –¿Alguna conclusión?

32 Test de hipótesis “Hipótesis nula”: los muy cafeteros tienen un ritmo cardiaco como los demás. Valor p = probabilidad de que obtener nuestro resultado si la “hipótesis nula” fuera cierta: p= 0.0268 ¿p < α ? (¿es creible un valor p tan pequeño) Habitualmente se toma α=0.05

33 Suposiciones La población de la que se toma la muestra es normal (gaussiana) La muestra se ha elegido de forma aleatoria e independiente, con excepción de la característica distintiva que se quiere analizar de la sub-población – Aleatoria: cada individuo de la muestra es, a priori, como cualquiera de los otros de la población (o de la sub-población a analizar). (Ej.: No vale elegir a los muy cafeteros… en la cafetería de un club de triatlon) –Independiente: el que un individuo dado sea seleccionado para la muestra no influye en la probabilidad de que otro sea seleccionado o descartado (Ej.: no vale hacer los estudiar el genoma de los ratones con todos los ratones de la misma madriguera…).

34 Test z de una o de dos colas Si la hipótesis alternativa es direccional (“mayor que...” o “menor que...”)  una cola z > 1.65 (o z < -1.65) Si la hipótesis alternativa no es direccional (“diferente que...”)  dos colas  z  > 1.96 ( lógico: si no sospecho a priori por donde van los tiros, necesito más peso para convencerme…)

35 Tipos de errores en el test Error de tipo I: rechazar la “hipótesis nula” siendo verdadera. Ocurrirá un 5% (  ) de las veces. Error de tipo II: aceptar la “hipótesis nula” siendo falsa. Si p>  no tenemos evidencias para rechazar la “hipótesis nula”. Esto no demuestra que sea cierta  los datos no son concluyentes. (No nos da tiempo a hablar de la “Potencia estadística”, i. e. poder concluir algo… i. e. capacidad de evitar errores de tipo II) Cambiar  es un compromiso: si   errores tipo-I, pero  errores tipo-II Aumentar N siempre es bueno (menos por el trabajo que da…)

36 Distrib. normal y distribución de Student Para el test z, hemos supuesto que las media de muestras siguen una distribución normal Esto es cierto si: –Conocemos  (de la distribución de prob. o de la población) o –N es grande. (P.ej.: N>30 para distribución casi-normal; si no N>100) En los demás casos, las medias de muestras siguen una “distribución de Student”: “test t” –Argumento: t (como z en el “test z”) –df = N-1 = grados de libertad

37 Diferencias entre la distribución de Student y la distribución normal La forma funcional es distinta, con colas más largas, sobre todo para df pequeño La estadística del test tendrá que ser más extrema para conseguir el mismo valor p. Si  N   s  x y  df  discriminamos mejor (por partida doble)

38 Intervalos de confianza Queremos que la media de la muestra esté (por ejemplo con un 95% de prob.) en un determinado intervalo Análogo al test de dos colas z crit depende de α Se puede elegir N para conseguir el intervalo de confianza W deseado

39 ¿Y si no conocemos μ? Podemos usar la media de la muestra como una estimación de la media total Pero esto nos da problemas cuando tratamos de distinguir una sub-población de una población. ¿Cómo distinguir si dos sub-poblaciones presentan diferencias significativas?

40 Comparación de dos muestras Si N es grande: test-z La diferencia de medias de muestras es normal y su desviación estándar es: El valor de z para el test será:

41 Comparación de dos muestras Si N es pequeña: test-t entre muestras Test t para la diferencia de medias con df = n 1 +n 2 -2 y un valor t para el test: siendo s p la “varianza ponderada”:

42 Procedimiento estadístico básico 1.Formula una hipótesis 2.Selecciona un nivel significativo α 3.Selecciona la(s) muestra(s) y recoge los datos 4.Determina el valor crítico de z o t 5.Calcula z o t a partir de los datos 6.Haz la decisión estadística 7.Interpreta los resultados

43 Relación entre variables Queremos detectar posibles relaciones entre variables –Ej: ¿existe relación entre ‘número de cafés al día’ y ‘ritmo cardiaco’? –Otros ejemplos Relación básica: ‘cuando x i es grande y i es grande, y cuando x i es pequeña y i es pequeña’. La relación entre variables nos sirve para: (i) Recordar (ii) Comprender Que exista relación no implica: –Que sea la única (p. ej. que sabiendo el número de cafés sepamos el ritmo cardiaco) –Que sea lineal (  y  b  x + a ) –Que la relación sea de causa efecto (ya que pueden tener una causa común)

44 Correlación lineal Sea una muestra i = 0,…, N-1, y dos variables X e Y con valores {X i } e {Y i } ¿Cómo detectar (y cuantificar) si existe relación entre X e Y? “Correlación lineal” r: ( usando las medias y las varianzas de la muestra para la normalización) Si X i and Y i están emparejados aleatoriamente (sin correlación)  r =0. Si Y i = b X i + a (relación lineal exacta)  r =1 (si b>0, o r =-1 si b<0)

45 Limitaciones de r Algunas variables siguen relaciones no lineales. “r”, tal como la hemos definido, no será una buena medida (o incluso no detectará) esas correlaciones no lineales. Podríamos probar con X vs log(Y), X vs Y , etc…

46 ¿Cómo saber si r  0 implica que existe correlación? r  0 puede ocurrir por azar. Hipótesis nula: no hay correlación en la población   =0 Podemos hacer el test-t para ver cómo de probable era el r  0 obtenido. Los estadísticos nos dicen que df = N-2 y que

47 Resultados del análisis de datos 1.Entender lo que dicen (y lo que no) los datos a)Dar valores para modelos cuantitativos (sabiendo cómo de “buenos” o “malos” son) b)Dar parametrizaciones comprensibles 2.Dar información sobre correlaciones, que pueden ser pistas para explicaciones de causalidad


Descargar ppt "Técnicas y Herramientas de Apoyo a la Investigación (THAI) Máster Universitario de Investigación en TIC Universidad de Valladolid Alejandra Martínez, Pedro."

Presentaciones similares


Anuncios Google