Probabilidad Matemáticas Discretas Dr. Felipe Orihuela-Espina
Como lo indicaba el temario Probabilidad y estadística (10h) Definiciones básicas Principios fundamentales de conteo Reglas de suma y producto Permutaciones Generación de permutaciones Combinaciones Teorema del binomio Probabilidad Probabilidad condicional Teorema de Bayes Estadística descriptiva Variables aleatorias Valor esperado Principales distribuciones discretas y continuas Estadísticas muestrales Cambios solicitados por la academia Probabilidad (10h) Definiciones básicas Principios fundamentales de conteo Reglas de suma y producto Permutaciones Generación de permutaciones Combinaciones Teorema del binomio Probabilidad Eventos y espacios de probabilidad Variables aleatorias (en 1 y n- dimensiones) Probabilidad condicional e independiencia estadística Teorema de Bayes © Dr. Felipe Orihuela-Espina2 Contenidos
Probabilidad: Definición formal Probabilidad (en un proceso estocástico) es la razón entre el número de casos favorables y el número de casos posibles © Dr. Felipe Orihuela-Espina3
Lecturas recomendadas y otros recursos Cap. 1 y 2 de DeGroot, M- H. y Schervish, M.-J. Probability and Statistics. 4a Ed Glosario de estadística de la Universidad de Glasgow. Wolfram World of Maths Philip B Stark. SticiGUI, University of California, Berkeley Incluye muchos ejercicios con sus soluciones. Salazar González, JJ y López Yurda, M. Ejercicios Resueltos de Probabilidad. Universidad de La Laguna (España) © Dr. Felipe Orihuela-Espina4
Otros recursos MIT Course on Probability and Statisitcs introduction-to-probability-and-statistics-spring-2005/ introduction-to-probability-and-statistics-spring-2005/ MIT Course on Foundamentals of Probability computer-science/6-436j-fundamentals-of-probability-fall- 2008/ computer-science/6-436j-fundamentals-of-probability-fall- 2008/ Grinstead, CM and Snell, JL “Introduction to Probability” rticles/probability_book/book.html rticles/probability_book/book.html El libro completo está gratuito en formato.pdf Las soluciones a los problemas impares están disponibles. © Dr. Felipe Orihuela-Espina5
DEFINICIONES INICIALES Aprendiendo a contar © Dr. Felipe Orihuela-Espina6
Definiciones (informales) iniciales Determinista: Consecuencia inevitable (dados unos antecedentes) [The American Heritage Dictionary of the English Language] Aleatorio: Algo carente de un patrón, no predecible, o controlable; perteneciente a la suerte o azar. Aleatorio y estocástico son sinónimos Un valor aleatorio es un valor elegido al azar La contraparte de algo determinista. Incertidumbre: Falta de certeza dada por el conocimiento limitado. Diferencia estimada entre el valor estimado y el real. Error es la diferencia real entre el valor estimado y el real © Dr. Felipe Orihuela-Espina7
Sistema físico Un sistema físico es la porción del universo físico (toda la naturaleza*) elegida para análisis. Todo lo que queda fuera del Sistema se conoce como el entorno. La elección de lo que pertence al sistema y lo que pertence al entorno se hace de forma arbitraria por el analista o experimentador. Se dice que el Sistema está aislado si su interacción con el entorno es negligible a efectos del análisis. Fuente: [Wikipedia:Physical_system] © Dr. Felipe Orihuela-Espina8 *Física = Naturaleza; Universo = Todo.
Medición Una medición u observación es la asignación de una etiqueta (cuantitativa o cualitativa) a una característica de un objeto de forma que pueda ser comparado con otro. La etiqueta por se depende del tipo de objeto, la magnitud, la unidad y la incertidumbre, de forma que aunque puede no ser única (e.g. una distancia en metros o yardas, o una temperatura en grados Celsius o Fahrenheit), pero debe ser reproducible dada la incertidumbre. © Dr. Felipe Orihuela-Espina9
Propiedades Una propiedad es una característica (una cantidad o una cualidad) medible de un sistema Acorde a su relación con el entorno, las propiedades pueden ser: Intrínseca: algo inherente del sistema que existe de forma independiente al entorno e.g. masa Extrínseca; algo que el sistema posee en relación con el entorno. e.g. peso (depende del campo gravitacional) [self definition from several sources] © Dr. Felipe Orihuela-Espina10
Medida de un conjunto X: Función que asigna de forma sistemática un número real m ℝ a cada subconjunto de X. Esta definición cándida de medida implica que f:X ℝ y es útil para nuestros propósitos. Estrictamente, la definición de medida es un poco más general, permitiendo f:(X, ) (Y, ) con y -algebras* sobre X e Y respectivamente, y en particular permitiendo entre otras f:X ℝ n. [ able_function] © Dr. Felipe Orihuela-Espina11 Definiciones iniciales Figura de Wikipedia: [ *Un -algebra sobre un conjunto X es una colección de subconjuntos de X (léase un subconjunto del conjunto potencia) que incluye al conjunto vacío, es cerrado bajo el complemento y es cerrado bajo la unión o la intersección infinita contable de subconjuntos.
Medida de Distancia (o simplemente distancia) (sobre X): Función de longitud*, a menudo acorde a un criterio (similaridad, cercanía, etc), entre dos miembros de un conjunto X Definiciones iniciales © Dr. Felipe Orihuela-Espina12 *La longitud se define como la magnitud o tamaño de un objeto; longitud magnitud tamaño. Más formalmente, la longitud o magnitud de un objeto es un índice de orden (o ranking) del objeto (elemento) x dentro del conjunto al que pertenece X. Seguro conoces la longitud (magnitud) de un vector, la longitud (magnitud) de una curva, etc La figura no es mía, pero no recuerdo de donde la saqué
Definiciones iniciales Una métrica es aquella medida de distancia que cumple que: d(x,x)=0 d(x,y)=d(y,x)(Simétrica) d(x,y) 0 y además d(x,y)=0 x=y d(x,z) d(x,y)+d(y,z)(Inecualidad del triángulo) Con más o menos restricciones se llaman divergencias, pseudométricas, etc © Dr. Felipe Orihuela-Espina13
Medida de probabilidad (sobre ): Una medida de distancia que asigna a cada subconjunto A de un valor entre 0 y 1, y vale 0 para el conjunto vacio, y 1 para el conjunto . f: →[0,1] 0 P(A) 1 A P( ) =0 P( )=1 © Dr. Felipe Orihuela-Espina14 Definiciones iniciales Más adelante veremos que la definición de probabilidad impone estas propiedades de forma natural
Estructura sobre un conjunto: Conjunto de funciones (reglas y restricciones) que dan significado a una colección de objetos El significado depende del tipo de estructura Algunos tipos de estructuras: medidas, topologías, algebraicas, órdenes, geometrías, etc… © Dr. Felipe Orihuela-Espina15 Definiciones iniciales Ejemplo de estructura algebraica (un lattice conceptual). Figura reproducida de [WangL2010, InformationSciences 24(15): 4865–4876] * Las definiciones formales las podéis encontrar en libros, o en Wolfram World of Maths [
Espacio: Conjunto X con una estructura añadida. Espacio medible: Un espacio X junto con una medida entre los elementos del conjunto. Espacio métrico: Un espacio X junto con una métrica entre los elementos del conjunto. © Dr. Felipe Orihuela-Espina16 Definiciones iniciales * Las definiciones formales las podéis encontrar en libros, o en Wolfram World of Maths [ Figura de Wikipedia: [ Four-dimensional_space]
Espacio de probabilidad: Un espacio medible cuya medida es una medida de probabilidad © Dr. Felipe Orihuela-Espina17 Definiciones iniciales * Las definiciones formales las podéis encontrar en libros, o en Wolfram World of Maths [ Figura de Wikipedia: [ bability_measure]
Definiciones iniciales Operación: Función de una potencia del conjunto. Interna: Externa: Mapeo: Función que preserva las estructuras …a menudo se (ab)usa como sinónimo de función Función medible: Mapeo entre espacios medibles © Dr. Felipe Orihuela-Espina18 * Las definiciones formales las podéis encontrar en libros, o en Wolfram World of Maths [ Figura reproducida de [Roweis 2000, Science, 290: ]
Definiciones iniciales Variable: Informal: Característica representada por un símbolo x que en diferentes objetos es susceptible de tomar uno o distintos valores y. Formal: Sinónimo de función! ☞ El nombre de “variable” es por motivos históricos. En una función y=f(x) al argumento x se le permitía variar, por lo que la función f era variable. Variable determinista: Informal: Variable que aunque puede tomar diferentes valores, estos están carentes de aleatoriedad; es decir son predecibles Formal: y=f(x) Ejemplo: los parámetros de una distribución. Variable aleatoria o estocástica: Informal: Variable cuyo valor es en principio desconocido o tiene incertidumbre. Formal: y=f(x)+ Ejemplo: los valores de la distribución. © Dr. Felipe Orihuela-Espina19 * Las definiciones formales las podéis encontrar en libros, o en Wolfram World of Maths [
Definiciones iniciales Proceso matemático: Conjunto de funciones, o familia de variables, en un espacio Efectivamente, un conjunto (de relaciones) sobre otro conjunto (de objetos) con una estructura Proceso determinista: Familia de variables deterministas. Proceso estocástico o aleatorio: Familia de variables aleatorias …a menudo, sobre un espacio de probabilidad © Dr. Felipe Orihuela-Espina20 * Las definiciones formales las podéis encontrar en libros, o en Wolfram World of Maths [
© Dr. Felipe Orihuela-Espina21 Resumen Conjunto (Colección) Conjunto (Colección) Función (Relación) Estructura (Relación entre elementos de un conjunto) Estructura (Relación entre elementos de un conjunto) Medida (f:X → R) Medida de distancia Medida de probabilidad Espacio (Conjunto con una estructura) Espacio (Conjunto con una estructura) Espacio medible Espacio de probabilidad Mapeo (Conserva estructuras) Mapeo (Conserva estructuras) Función medible Variable determinista Variable determinista Variable aleatoria Variable aleatoria Proceso (Conjunto de funciones en un espacio) Proceso (Conjunto de funciones en un espacio) Proceso determinista Proceso determinista Proceso estocástico Proceso estocástico Relación es-un Definido sobre… Conjuntos Funciones
Experimentos y Desenlaces Experimento: En general: Prueba que consiste en repetir u observar un determinado fenómeno bajo determinadas circunstancias, a menudo en condiciones controladas, a fin de analizar sus efectos o verificar/refutar una hipótesis En probabilidad y estadística: Un proceso cuyos posibles resultados puede ser identificados (¡no necesariamente predichos!) antes de su ejecución Desenlace (a.k.a. resultado): El “resultado” de un experimento. © Dr. Felipe Orihuela-Espina22
Espacio de muestra Espacio de muestra (S): Listado exhaustivo de todos los posibles desenlaces de un experimento. También se le conoce como la población. Cada posible desenlace está representado por uno y sólo un punto en el espacio de muestra. © Dr. Felipe Orihuela-Espina23
PRINCIPIOS FUNDAMENTALES DE CONTEO © Dr. Felipe Orihuela-Espina24
Conteo Las mediciones pueden ser cuantitativas o cualitativas Cuantitativas: Asignan una etiqueta numérica o numeral. Cualitativas: Asignan una etiqueta no numérica. ¡Ojo! No confundir cualitativa con subjetiva, ni cuantitativa con objetiva. Contar cantidades (asignar una etiqueta a una propiedad) es la base de las mediciones cuantitativas. En teoría de conjuntos, enumerar o contar, permite determinar la cardinalidad de un conjunto. © Dr. Felipe Orihuela-Espina25
Experimentos por pares Considere un experimento que se ejecuta en varias partes (k) Estas partes pueden ocurrir de manera transversal (cross-sectional) o longitudinal En cada parte del experimento se puede tener un número n k de desenlaces. Cada desenlace se representa por la tupla Las diferentes partes pueden ser iguales (caso en que n i =n j ) o no. © Dr. Felipe Orihuela-Espina26
Experimentos por pares Ejemplos: Partes iguales: Lanzar dos dados; k=2. El subespacio de desenlaces de cada dado es igual al del otro dado. Partes desiguales (“independientes”): Un ensayo clínico donde se monitorea el ritmo cardíaco y la cantidad de azúcar en sangre. Cada una de las partes tiene un subconjunto de desenlaces diferente. ☞ Recuerda; esto se refiere a que los eventos son disjuntos. Partes desiguales (“dependientes”): Una biblioteca tiene 40 libros de sociología y 20 de álgebra. El subespacio de desenlaces no es igual en cada parte pero pueden compartir información. © Dr. Felipe Orihuela-Espina27
Regla de la suma En conjuntos: Sean S 1, S 2, …, S n conjuntos disjuntos por pares. La cardinalidad del conjunto suma es la cardinalidad del conjunto unión: |S 1 |+|S 2 |+ … +|S n | = |S 1 ⋃ S 2 ⋃ … ⋃ S n | Las implicaciones de la regla de la suma son brutales; sin ella no podrías contar; lo que te viene a decir es que… Sin importar como cuentes (lease no importa como hagas la partición del conjunto), si no cometes un error (contar dos veces lo mismo o saltarte un elemento), el resultado de la cuenta debe ser el mismo. A esta regla también se la conoce a veces como la del Primer Principio de Conteo (First Principle of Counting). © Dr. Felipe Orihuela-Espina28
Regla de la suma Primer principio de conteo © Dr. Felipe Orihuela-Espina29 El conteo de un conjunto de objetos no depende de la forma en que el proceso de contar se lleve a cabo.
Regla de la suma En combinatoria: Si en un experimento o tarea, cada parte k, puede dar lugar a n k desenlaces diferentes de las otras, entonces el espacio de muestra del experimento S contiene ∑n k =n 1 +n 2 +…+n k posibles desenlaces. La regla de la suma está relacionada con la unión y determina el tamaño del conjunto (i.e. cuanto) pero no indica como contarlos. Ejemplo: Si en una clase hay 23 varones y 7 mujeres, en la clase hay 30(=23+7) alumnos. © Dr. Felipe Orihuela-Espina30
Principio de inclusión-exclusión En conjuntos: Sean S 1 y S 2 dos conjuntos cualesquiera. La cardinalidad del conjunto unión se puede obtener incluyendo los elementos de los conjuntos y excluyendo los de la intersección de forma que no sean contados dos veces: |S 1 ⋃ S 2 | = |S 1 |+|S 2 |+|S 1 ⋂ S 2 | Esto es generalizable a n conjuntos. Lo veremos más adelante. Implicaciones: Relaja la necesidad de la regla de la suma de que los conjuntos sean disjuntos y generaliza a cualquier grupo de conjuntos. Por supuesto, si los son, entonces se reduce a la regla de la suma. Esta regla también se la conoce como de conteo por grupos (counting by grouping). © Dr. Felipe Orihuela-Espina31
Principio de Dirichlet El principio de Dirichlet, de la pichonera, o del palomar… Informal: Si m palomas se ponen en m pichoneras, quedan pichoneras vacías si y sólo si alguna pichonera tiene más de 1 paloma. Formal: Sea |A| la cardinalidad del conjunto finito A. Dado otro conjunto finite B, existe una relación 1-1 f: A B iff |A|=|B|. Demonstración: Puedes encontrar la demonstración en [ knot.org/do_you_know/pigeon.shtml] © Dr. Felipe Orihuela-Espina32
Principio de Dirichlet Ejercicio: Sea una rejilla de 15x15 donde cada celda se pinta de un color; Rojo, Verde o Azul. Demuestre que hay al menos 2 filas tales que tienen el mismo número de celdas con al menos 1 de los colores. © Dr. Felipe Orihuela-Espina33 Problema replicado de: [
Principio de Dirichlet Ejercicio: Solución. Suponga que, para cada color, cada fila tuviese un número diferente de celdas pintada con ese color. Fila 1: 0 celdas del color elegido Fila 2: 1 celda del color elegido … Fila 15: 14 celdas del color elegido © Dr. Felipe Orihuela-Espina34 Problema replicado de: [
Principio de Dirichlet Ejercicio: Solución. Entonces el mínimo número de celdas con un color no podría ser menos de: …+14=105 Para satisfacer esta necesidad para cada color, o en otras palabras para que ninguna fila tuviese el mismo número de celdas de un color que las otras filas (lease para que no cumpliese el enunciado de que hay al menos 1 color donde el número de celdas se repite) necesitaríamos: 105x3=315 Pero sólo tenemos 15x15=225 celdas. © Dr. Felipe Orihuela-Espina35 Problema replicado de: [
Principio de Dirichlet Ejercicio: Sean los números del 1 al 10 escrito sobre un círculo. Demostrar que hay 3 números adyacentes cuya suma es mayor o igual a 17. © Dr. Felipe Orihuela-Espina36 Problema replicado de: [
Principio de Dirichlet Ejercicio: Solución Existen 10 tripletas de números adyacentes con sumas S1, …,S10 © Dr. Felipe Orihuela-Espina37 Problema replicado de: [ n1n1 n3n3 n2n2 n4n4 n5n5 n6n6 n7n7 n8n8 n9n9 n 10 S1 S2 S3
Principio de Dirichlet Ejercicio: Solución (Cont.) Si cada suma Si es menor a 17, entonces a lo sumo sumarían; 16x10=160 Pero, sin importar el orden, en las diferentes tripletas cada número del 1 al 10 aparece 3 veces (una cada vez en tres tripletas diferentes). Por ejemplo, el n 3 aparece en las sumas S1, S2 y S3 Eso significa que las sumas debieran ser al menos: 3x(1+2+…+10)=3x55=165 Y como 165 > 160 entonces al menos una Si es mayor que 16. © Dr. Felipe Orihuela-Espina38 Problema replicado de: [
Regla de la multiplicación En conjuntos: Sean S 1, S 2, …, S n conjuntos disjuntos por pares. La cardinalidad del conjunto producto es la cardinalidad del producto cartesiano: |S 1 |·|S 2 |·| … ·|S n | = |S 1 xS 2 x … xS n | © Dr. Felipe Orihuela-Espina39
Regla de la multiplicación En un experimento o tarea, si en cada parte k, pueden ocurrir todos sus desenlaces n k independientemente de lo que haya ocurrido en las otras partes, entonces el espacio de muestra S se puede ordenar de ∏n k =n 1 n 2 …n k formas posibles. La regla de la multiplicación está relacionada con la intersección y determina las posibles formas de contar (i.e. cómo). Ejemplo: Sea un examen de 3 preguntas de respuesta múltiple, cada una con 4 posibles respuestas. Entonces hay 4x4x4=64 posibles respuestas al examen. © Dr. Felipe Orihuela-Espina40 *La independencia de eventos se refiere a que conocer información sobre uno, no da información sobre el otro.
Regla de la multiplicación Ejercicio: El parlamento está formado por n congresistas. Cuántos posibles subcomités pueden formarse. © Dr. Felipe Orihuela-Espina41 Problema replicado de: [
Regla de la multiplicación Ejercicio: Solución Independientemente del comité, en cada ocasión, el congresista i-ésimo pertenece o no al comité. Eso significa que para cada congresista hay dos posibilidades; estar o no estar. En total: © Dr. Felipe Orihuela-Espina42 Problema replicado de: [
Regla de la multiplicación Ejercicio: ¿Cuántas posibles configuraciones existen para las torres de Hanoi con n anillos? © Dr. Felipe Orihuela-Espina43 Problema replicado de: [
Regla de la multiplicación Ejercicio: Solución Las torres de Hanoi siempre son tres polos. Eso significa que para cada anillo puede estar en uno de los 3 polos. En total: © Dr. Felipe Orihuela-Espina44 Problema replicado de: [
Regla de la multiplicación Ejercicio: En un estado las placas de los coches consisten de 2 letras seguidas de 3 dígitos. ¿Cuántas posibles placas se pueden generar bajo ese sistema? NOTA: El alfabeto español tiene 27 letras. © Dr. Felipe Orihuela-Espina45 Problema replicado de: [
Regla de la multiplicación Ejercicio: Solución Hay 27 opciones para la primera letra, 27 opciones para la segunda letra, y 10 opciones para cada uno de los dígitos. En total: 27x27x10x10x10 = 729,000 © Dr. Felipe Orihuela-Espina46 Problema replicado de: [
Muestreo Muestreo con y sin reposición: Sea un experimento en k partes iguales, léase con los mismos desenlaces en cada una de las partes. En un muestreo con reposición, los desenlaces de cada una de las partes pueden repetirse. La población (cardinalidad) de desenlaces es constante en cada parte del experimento En un muestro sin reposición, los desenlaces de cada una de las partes iguales NO pueden repetirse La población (cardinalidad) de desenlaces disminuye en cada parte del experimento © Dr. Felipe Orihuela-Espina47
Muestreo con reposicion: Ejemplo: Lanzar dos dados Cada dado puede sacar un número del 1 al 6 independientemente de lo que ocurra en el otro dado © Dr. Felipe Orihuela-Espina48 Operaciones de conjuntos: Intersección
Muestreo con reposicion: Ejemplo: Amoniácidos Cada posición del codón es una base nitrogenada {A,G,C,U} y no depende de las posiciones colindantes © Dr. Felipe Orihuela-Espina49 Muestreo con reposición
Contando en Muestreo con reposición Sea un experimento con k partes iguales, cada parte con n desenlaces El número de desenlaces posibles es: #S=n k © Dr. Felipe Orihuela-Espina50 Ojo! Esto no son aún probabilidades… volveremos a esto en unos minutos
Muestreo sin reposición: Ejemplo: Sorteo de la champions * Cada bola sólo se extrae 1 vez Una vez extraída una bola, no se repone al bombo El Man. United no se puede enfrentar a sí mismo. © Dr. Felipe Orihuela-Espina51 Muestreo sin reposición * Si, ya sé; el sorteo real no es libre…es sólo un ejemplo, ¿ok?
Contando en Muestreo sin reposición Sea un experimento con k partes iguales, cada parte con n desenlaces El número de desenlaces posibles es: #S = n! = n*(n-1)*(n-2)*…*1 © Dr. Felipe Orihuela-Espina52 De nuevo, esto no son aún probabilidades…
Probabilidades de un muestreo © Dr. Felipe Orihuela-Espina53 Video: 7:38mins Cómo calcular probabilidades con y sin reemplazo
Permutaciones El número de permutaciones (formas de ordenar) de n elementos tomados en grupos de k elementos (k a la vez) sin reemplazo es P n,k En una permutación el orden importa. El caso particular P n,n © Dr. Felipe Orihuela-Espina54
Permutaciones A={,, } Permutaciones: #S=3*2*1=6 © Dr. Felipe Orihuela-Espina55
Permutaciones A={1, 2, 3, 4} Permutaciones: #S=4*3*2*1=24 © Dr. Felipe Orihuela-Espina
Permutaciones Propiedades: 0! = 1 Por convención de la comunidad matemática, como resultado de una multiplicación sin factores, de forma que las definiciones de operaciones sigan siendo válidas. Adelantándonos un poco, si tenemos un conjunto de n elementos {1,2,…,n} y se desean combinar (el orden no importa) tomando k=n cada vez, sólo hay una posible combinación. 1=Combinación(n,k)=n!/(k!(n-k)!)=3!/(3!0!) Y la única forma de que esto se cumpla es que 0!=1. © Dr. Felipe Orihuela-Espina57
Combinaciones En las permutaciones no hay reemplazo y el orden importa. En las combinaciones: El orden NO importa. Puede haberlas con y sin reemplazo. © Dr. Felipe Orihuela-Espina58
Combinaciones El número de combinaciones (formas de ordenar) de n elementos tomados en grupos de k elementos (k a la vez) sin reemplazo es C n,k © Dr. Felipe Orihuela-Espina59
Combinaciones Coeficientes binomiales: El número combinatorio C n,k también se denota por el símbolo del coeficiente binomial © Dr. Felipe Orihuela-Espina60
Combinaciones Propiedades: El caso particular C n,n © Dr. Felipe Orihuela-Espina61
Combinaciones En general; el número de permutaciones es mayor que el número de combinaciones (sin reemplazo) De forma intuitiva; las permutaciones {3,2,1}, {3,1,2},{2,3,1},{2,1,3},{1,3,2},{1,2,3} todas se corresponden con una única combinación {1,2,3} © Dr. Felipe Orihuela-Espina62
Muestreo sin reemplazo Ejercicio: Jaimito tiene un tarro de caramelos. 12 son de naranja y 9 son de limón. Jaimito toma 2 de esos caramelos: a) Encuentre la probabilidad de que ambos caramelos sean de naranja b) Encuentre la probabilidad de que ambos caramelos sean de limón c) Si Jaimito toma un tercer caramelo; ¿qué probabilidad hay de que los tres sean de naranja? y de ¿qué al menos 1 sea de limón? © Dr. Felipe Orihuela-Espina63 Pista: Tras tomar un caramelo de naranja; quedan sólo 20 caramelos (11 de naranja y 9 de limón), etc Ejercicio extraído de: [
Muestreo sin reemplazo Ejercicio: Solución a) Pr(N,N)=11/35 b) Pr(L,L)=6/35 c) Pr(N,N,N)=(12/21)*(11/20)*(10/19)=22/133 Pr(al menos 1 sea L) = 1-Pr(N,N,N) = 1-22/133 = 111/133 © Dr. Felipe Orihuela-Espina64 12/21 9/21 11/20 12/20 9/20 8/20
Muestreo con reemplazo Ejercicio: Los humanos tenemos 23 pares de cromosomas. Un gen es una porción del código genético en cada cromosoma del par. Un alelo, es la información genética a cada una de las posiciones del gen (en cada uno de los cromosomas emparejados). A la combinación de los dos alelos del gen se le llama genotipo. El gen de la sangre consiste de dos alelos del conjunto {O,A,B}. Si no hacemos distinción entre el orden de los alelos (ej: AO=OA), ¿cuántos genotipos existen de sangre? © Dr. Felipe Orihuela-Espina65 Pista: El ejercicio se puede resolver “a mano” por que son “números” pequeños, pero lo interesante es resolverlo de forma genérica usando números combinatorios. Ejercicio extraído de: [DeGroot, Ch1, Ejemplo 1.8.4]
Muestreo con reemplazo Ejercicio: Solución Manual: Alelos iguales = {OO,AA,BB}=3; Alelos diferentes = {OA, OB, AB}=3 Total: {OO,OA,OB, AA, AB, BB} = 6 genotipos Solución general: Supongamos que un gen puede presentar n alelos diferentes. Si no distinguimos el orden de los alelos hay n pares donde ambos alelos son iguales, y C n,2 pares donde los alelos son diferentes. Por tanto, el número total de genotipos es: En el caso particular de n=3; © Dr. Felipe Orihuela-Espina66
Combinaciones El número de combinaciones (formas de ordenar) de n elementos tomados en grupos de k elementos (k a la vez) con reemplazo es C n+k-1,k. © Dr. Felipe Orihuela-Espina67
Muestreo con reemplazo (y sin orden) En otras palabras, la fórmula general para calcular el número de combinaciones de tamaño k sin orden en un muestro con reemplazo sobre n elementos es: © Dr. Felipe Orihuela-Espina68
Ordenaciones Permutaciones permite contar muestreos de elementos sin reemplazo teniendo en cuenta el orden Combinaciones permite contar muestreos de elementos sin tener en cuenta el orden Sin reemplazo: números combinatorios de tipo C n,k Observa que si k=n C n,k =C n,k =1 Con reemplazo: números combinatorios de tipo C n+k-1,k Ordenaciones permite contar muestreos de elementos con reemplazo teniendo en cuenta el orden Es fácil calcular el número de ordenaciones; n k © Dr. Felipe Orihuela-Espina69 Con k=nOrden ImportaOrden no importa Con reemplazoOrdenaciones*Combinaciones** Sin reemplazoPermutaciones¡1 combinación única! *El término ordenaciones (arrangements) no es tan estándar como los de permutaciones o combinaciones. A veces simplemente se refieren a ellos como muestreo ordenado con reemplazo. ** Combinaciones es algo más estricto que los números combinatorios en general. No los confundas…
Teorema del binomio Un binomio es la suma algebraica de dos términos; e.g. a+b. El Teorema del binomio estrictamente se refiere a la demostración de la expansión binomial; pero siendo esta expansión tan pervasiva en matemáticas, se ha dado un fenómeno de transnominación o metonímia*. © Dr. Felipe Orihuela-Espina70 *La transnominación o metonímia es la figura literaria por la cual se da un fenómeno de cambio semántico, designando una cosa o idea con el nombre de otra sirviéndose de alguna relación entrambas.
Teorema del binomio Teorema (del binomio o expansión binomial): Sea un binomio (a+b) cualquiera*. Se cumple que cualquier potencia del binomio (a+b) n puede reescribirse como una serie de la forma: Demonstración: Puedes encontrar la demostración en; Por inducción: [ De forma algebraica: [ binomialProofAllAlgebra.htm] © Dr. Felipe Orihuela-Espina71 *La expansión binomial es muy general. Se cumple incluso para números complejos.
Teorema del binomio Las primeras expansiones: © Dr. Felipe Orihuela-Espina72
Teorema del binomio Las primeras expansiones: © Dr. Felipe Orihuela-Espina73
Teorema del binomio Las primeras expansiones: © Dr. Felipe Orihuela-Espina74
Teorema del binomio Las primeras expansiones: © Dr. Felipe Orihuela-Espina75
Teorema del binomio El triángulo de Pascal es la representación de los coeficientes binomiales ordenados de forma triangular. © Dr. Felipe Orihuela-Espina76
Anécdota histórica Atribuido a Newton, el teorema del binomio fue en realidad descubierto por primera vez por Abu Bekr ibn Muhammad ibn al-Husayn al-Karaji alrededor del año En occidente, Newton nunca publicó este teorema. Lo hizo Wallis por primera vez en 1685 en su Álgebra, atribuyendo a Newton este descubrimiento. No obstante, el teorema binómico para n=2 se encuentra en los Elementos de Euclídes (300 a. C.). Sorprendentemente, tampoco el triángulo de Pascal es originalmente de Pascal. La primera representación explícita de un triángulo de coeficientes binomiales data del siglo X, en los comentarios de los Chandas Shastra, un libro antiguo indio de prosodia del sánscrito escrito por Pingala alrededor del año 200 a.C, y posteriormente por el persa Omar Khayyám (1048– 1131) y lógicamente en Irán le llaman el triángulo de Khayyám-Pascal. Fuente: [ y [ © Dr. Felipe Orihuela-Espina77
Contando Un último consejo: Contar desenlaces en un experimento es más difícil de lo que parece Los números factoriales, las permutaciones y los números combinatorios se pueden “mezclar” para contar grandes números de manera “sencilla” …la clave (desde mi punto de vista) está en definir muy claramente que constituye un desenlace. © Dr. Felipe Orihuela-Espina78
Muestreo sin reemplazo Ejercicio: Utilizando el teorema del binomio, resuelva la siguiente expresión: (5x 3 +2y 2 ) 5 © Dr. Felipe Orihuela-Espina79 Ejercicio extraído de: [ NOTA: Para operar más rápido te puede ser útil un cambio de variable.
Muestreo sin reemplazo Ejercicio: (Solución) (5x 3 +2y 2 ) 5 Definimos un cambio de variable: a=5x 3 ; b=2y 2 Y observamos que n=5. © Dr. Felipe Orihuela-Espina80 Ejercicio extraído de: [
Muestreo sin reemplazo Ejercicio: (Solución) …y deshacemos el cambio de variable y resolvemos: © Dr. Felipe Orihuela-Espina81 Ejercicio extraído de: [
PROBABILIDAD BÁSICA © Dr. Felipe Orihuela-Espina82
Ya sabemos… Probabilidad: © Dr. Felipe Orihuela-Espina83
Probabilidad de eventos disjuntos Cada evento A i tiene asociada una probabilidad Pr(A i ). En un conjunto (finito o infinito) de eventos disjuntos: © Dr. Felipe Orihuela-Espina84 Observa que ¡la probabilidad de que dos de estos evento A i ocurran a la vez es 0! Esta igualdad, lo que indica es que “el nuevo evento” de la unión de ellos; tiene una probabilidad igual a la suma de sus partes. Recuerda dos conjuntos son disjuntos si su intersección es el vacío
S Ejemplo: Pr({A 1, A 2, A 3, A 4 }) = Pr(A 1 )+Pr(A 2 )+Pr(A 3 )+ Pr(A 4 ) © Dr. Felipe Orihuela-Espina85 Probabilidad de eventos disjuntos A2A2 A3A3 A4A4 A1A1
Probabilidad de eventos Sean A y B eventos cuyas probabilidades son Pr(A) y Pr(B) respectivamente. La probabilidad de la unión de estos eventos es (independientemente de si son disjuntos o no): © Dr. Felipe Orihuela-Espina86 S B A Recuerda el principio de inclusión- exclusión de combinatoria
Probabilidad de eventos Sean A y B eventos cuyas probabilidades son Pr(A) y Pr(B) respectivamente. La probabilidad de la intersección de estos eventos es (independientemente de si son disjuntos o no): © Dr. Felipe Orihuela-Espina87 S B A
Probabilidad de eventos Independencia Dos eventos A y B son independientes entre si, y se denota A B o más comúnmente si conocer uno, no nos da información sobre el otro; lo que formalmente implica que P(A ⋂ B)=P(A)P(B) ☞ Veremos independencia un poco más a fondo al final de esta unidad, cuando lleguemos a probabilidades condicionales y el teorema de Bayes. © Dr. Felipe Orihuela-Espina88 ¡Ojo! No es la suma
Probabilidad de eventos Ejercicio: ¿Cuál es la probabilidad de la unión de 3 eventos; A 1, A 2, A 3 ? © Dr. Felipe Orihuela-Espina89 Solución: S A1A1 A2A2 A3A3
Probabilidad de eventos Ejercicio: ¿Cuál es la probabilidad de la unión de n eventos; A 1, A 2, …, A n ? © Dr. Felipe Orihuela-Espina90 Solución: Podéis encontrar la demostración por inducción en [DeGroot 2012, Ch1, pg 48, Teorema ]
Axiomas de probabilidad Los axiomas de probabilidad se definen para asegurar que una probabilidad cualquiera Pr(A) cumple con unas propiedades o expectativas. A menudo, en los libros de probabilidad se definen 3 axiomas: Axioma 1: La probabilidad de cualquier evento es mayor o igual a 0. Axioma 2: La probabilidad del espacio de muestra es del 100% (normalizada, eso significa 1). Axioma 3: La probabilidad de la unión de eventos disjuntos, es la suma de las probabilidades. © Dr. Felipe Orihuela-Espina91 * Los axiomas no es que no se puedan demostrar; simplemente es tan obvio que a menudo no se hace Pero, ¿son realmente axiomas*? o ¿se pueden demostrar?
Demostración de los axiomas Denotemos la cardinalidad de un conjunto cualquiera X, (léase el número de elementos) como #X. Observa que la cardinalidad de un conjunto, no puede ser negativa; un conjunto no puede tener -3 elementos; #X≥0. Sea S un espacio de muestra de cardinalidad n>0, S={a 1, a 2, …, a n } El número de casos posibles es #S=n. Sea A un evento (A ⊂ S) con cardinalidad #A. El número de casos favorables es 0≤#A≤#S. Por definición: Pr(A) = #A/#S = #A/n © Dr. Felipe Orihuela-Espina92
Demostración de los axiomas Demostración: Axioma 1: #A≥0, n>0 ⇒ Pr(A) = #A/n ≥ 0 Axioma 2: #S=n ⇒ Pr(S) = #S/#S = n/n =1 Axioma 3: Si A y B son disjuntos entonces el número de elementos de la unión de A y B es igual al número de elementos de A más el número de elementos de B: #(A ⋃B) = #A + #B y por tanto: Pr(A⋃B)= #(A ⋃B)/n = (#A + #B)/n = #A/n + #B/n = Pr(A)+Pr(B) © Dr. Felipe Orihuela-Espina93 Podéis encontrar los detalles en
Propiedades de la Probabilidad Pr(A c )=1-Pr(A) Si A ⊂B ⇒ Pr(A)≤Pr(B) 0≤Pr(A)≤1 Pr(A∩B c )=Pr(A)-Pr(A∩B) © Dr. Felipe Orihuela-Espina94 Podéis encontrar las demostraciones en [DeGroot, 2012, Cap1]
Eventos Ejercicio: En un partido de futbol entre el Real Madrid y Barcelona donde aún no ha habido expulsados. Sin considerar al trío arbitral: a) ¿Cuál es la probabilidad de que un niño en la grada señale a un jugador del Real Madrid? ¿y a uno del Barcelona? ¿y a uno del Valencia? b) ¿Cuál es la probabilidad de que señale a un portero? c) ¿Cuál es la probabilidad de que señale al portero del Real Madrid? © Dr. Felipe Orihuela-Espina95 Solución: a)Jugador del Madrid: 11/22=0.5; Jugador del Barcelona: 11/22=0.5; Jugador del Valencia: 0/22=0 b)Porteros: 2/22 c)Portero del Madrid 1/22
Eventos Ejercicio: Una ciudad de México (ficticio), recibió en los últimos años el siguiente número de días de sol: 2009: 233 2010: 306 2011: 322 2012: 286 Basado en esta serie temporal, ¿cuál es la probabilidad de que haya sol mañana? © Dr. Felipe Orihuela-Espina96 Solución: Asumiendo 1 año bisiesto; el número total de días sería =1461 De estos el número total de días con sol fueron: =1147 Por tanto, la probabilidad de que cualquier día haga sol en esta ciudad es de: 1147/1461= 0.78
Eventos Ejercicio: En un colegio, los de primaria ocupan un ala de 300m 2, y los de secundaria el ala opuesta de 475m 2. Finalmente, entre ambas alas hay un patio común de 380m 2 que pertenece tanto a primaria como a secundaria. En la calle aledaña unos niños que juegan a la pelota, la “embarcan” en el colegio. Considerando el área en común ¿Cuál es la probabilidad de que la pelota caiga en un área de secundaria? ¿Y en primaria? ¿Cuál es la probabilidad de que caiga en el área común? © Dr. Felipe Orihuela-Espina97 Solución: El colegio tiene una extensión de =1155m2. De estos, el área de secundaria incluyendo la parte común son =855m2, y la de primaria =680. a)En secundaria: 855/1155 = 0.74; En primaria: 680/1155=0.58 b)En el área común: 380/1155=0.32
Desigualdades de Boole Sea un conjunto finito de eventos A 1,…,A n. Entonces se cumple que: O de forma análoga que: A (la generalización de) esta(s) desigualda(es) se les conoce como la(s) desigualdad(es) de Boole. © Dr. Felipe Orihuela-Espina98
Desigualdades de Boole/Bonferroni ☞ Sólo se muestra la demostración de la primera, pero la segunda es análoga. Demostración (Por inducción*): Para n=1: Pr(A 1 ) Pr(A 1 ) Para n=2: Pr(A 1 ⋃ A 2 ) Pr(A 1 )+Pr(A 2 ) Recuerda que Pr(A 1 ⋃ A 2 ) = Pr(A 1 )+Pr(A 2 )- Pr(A 1 ⋂ A 2 ) Supongamos que se cumple para n-1 © Dr. Felipe Orihuela-Espina99 *En general la demostración por inducción es controversial ya que asume que las demostraciones en los casos base, se cumplen en el caso n-1, lo cual no está garantizado. No obstante, en casos “sencillos” es una forma común de demonstración ampliamente aceptada.
Desigualdades de Boole/Bonferroni Demostración (Cont.): Entonces para n=n: Sea Entonces: c.q.d. © Dr. Felipe Orihuela-Espina100
Desigualdades de Boole/Bonferroni Las desigualdades de Boole permiten encontrar: la cota superior de la probabilidad de la unión finita de un conjunto de eventos la cota inferior de la probabilidad de la intersección finita de un conjunto de eventos © Dr. Felipe Orihuela-Espina101
Desigualdades de Boole/Bonferroni Las desigualdades de Bonferroni (no las veremos aquí) son la generalización de las desigualdes de Boole y permiten encontrar: Las cotas superior e inferior de la probabilidad de la unión finita de un conjunto de eventos. Las cotas superior e inferior de la probabilidad de la intersección finita de un conjunto de eventos. Corolario: Son útiles para estimar intervalos de confianza de la probabilidad conjunta. ☞ De hecho son tan útiles que puedes encontrar un libro completo sólo sobre sus aplicaciones: Galambos, János; Simonelli, Italo (1996), Bonferroni-Type Inequalities with Applications, Probability and Its Applications, New York: Springer-Verlag, pp. x+269 © Dr. Felipe Orihuela-Espina102
Desigualdades de Boole/Bonferroni ☞ La desigualdades de Bonferroni podrás encontrarla en la literatura en varias formas análogas. Por ejemplo: Fuente: 0Inequality.pdf 0Inequality.pdf Si quieres saber más: Galambos, János (1977), "Bonferroni inequalities", Annals of Probability 5(4): , © Dr. Felipe Orihuela-Espina103
Eventos Ejercicio: Sea un evento A. a) Si Pr(A)=0. ¿Significa eso que A no puede ocurrir? ¿Cómo se interpreta? b) Si Pr(A)=1 ¿Significa eso que A siempre ocurre? ¿Cómo se interpreta? © Dr. Felipe Orihuela-Espina104 Solución: a)Un evento con probabilidad Pr(A)=0, no es imposible; puede ocurrir. Por ejemplo; en un espacio de muestra real, como veremos más adelante la probabilidad de que A tome el valor x, Pr(A=x)=0. Eso no significa que el desenlace x no pueda ocurrir, sólo que como el espacio de muestra es infinito (casos posibles=∞), su probabilidad de que ocurra es 0. b)Un evento con probabilidad Pr(A)=1 no siempre ocurre. Observa de forma general Pr(A)=1=Pr(S), y por ende A=S; y en este caso Pr(A)=1 implica que siempre ocurre. Pero ¿Qué ocurre con el caso donde tengamos un espacio de muestra real y definimos el evento A c complemento de que A tome exactamente el valor x, Pr(A=x), es decir Pr(A x)? Ocurre que Pr(A x)= 1 -Pr(A=x))=1-0=1 y no obstante el evento podría no ocurrir justo si el desenlace es A=x.
Probabilidad en espacios continuos Cuando el espacio de muestra S es incontable, la idea de definir la probabilidad de un subconjunto de S en términos de las probabilidades de los desenlaces elementales es cuando menos difícil. Ejemplo: Supón que quisieras calcular la probabilidad del intervalo A=(0.5, 0.75) en el espacio de muestra S=[0,1] ⊂ℝ. Por definición, cada elemento w ⊂ [0,1] tiene probabilidad 0, por lo que obtendríamos ¡Pr(A)=0!. Necesitamos establecer por tanto una forma alternativa para calcular la probabilidad de dichos subconjuntos. La clave está en trabajar directamente con subconjuntos no atómicos (con más de un elemento). © Dr. Felipe Orihuela-Espina105
Probabilidad en espacios continuos Idealmente, queremos especificar la Pr(A) para cada subconjunto A ⊆ S. Hacerlo exhaustivo es inviable matemáticamente… …y hacerlo a partir de los elementos unitarios ya hemos visto que tampoco es buena idea …pero, se puede buscar una via alternativa: …asignar probabilidades únicamente a una colección parcial de subconjuntos de S; aquellos que tengan “interés”. © Dr. Felipe Orihuela-Espina106
Probabilidad en espacios continuos Pero es necesario, que a partir de esta colección parcial de probabilidades podamos calcular todas las demás; ¿cuál sería, por tanto, esta colección parcial de subconjuntos de S que tienen “interés”? Necesitamos definir una estructura algebraica llamada σ-álgebra. © Dr. Felipe Orihuela-Espina107
Probabilidad en espacios continuos Semi-formal: σ-álgebra es una estructura definida sobre un conjunto S (el espacio de muestra) sobre el que se han definido de forma cerrada las operaciones de: complemento A c, unión contable ⋃ A i. intersección contable ⋂ A i. NOTA: Tanto la unión como la intersección pueden ser infinitas siempre y cuando sean contables. © Dr. Felipe Orihuela-Espina108
Probabilidad en espacios continuos Formal: Sea un conjunto S. Un σ-álgebra es una colección F de subconjuntos de S con las siguientes propiedades: ∈ F Si A ∈ F A c ∈ F ☞ Observa que esta junto con la anterior exige que S F. A veces, verás la definición al revés; se exige que S F, y entonces el corolario de está es que ∈ F. Si A i,i=1… ∈ F (contable) © Dr. Felipe Orihuela-Espina109
Probabilidad en espacios continuos Observa que: No es necesario definir la intersección de forma explícita. Es posible demostrar que si A,B ∈ F, entonces A ⋂ B ∈ F y en general que A 1 ⋂ … ⋂ A ∞ ∈ F. Los elementos del álgebra SON conjuntos. …de hecho es σ-álgebra es sólo un subconjunto F del conjunto potencia de S. © Dr. Felipe Orihuela-Espina110
Probabilidad en espacios continuos σ-álgebra: Ejemplos: Caso trivial F={ ,S} Sea un subconjunto A ⊂ S cualquiera: F={ ,A,A c,S} Sea S={1,2,…,6} n el espacio asociado con lanzar n dados, y sean tres eventos: A={w=(w 1,…,w n )|w i ≤2} B={w=(w 1,…,w n )| 3≤w i ≤4} C={w=(w 1,…,w n )|w i ≥5} Podemos definir: F={ ,A,B,C,A ⋃ B(=C c ),A ⋃ C(=B c ),B ⋃ C(=A c ),S} © Dr. Felipe Orihuela-Espina111
Probabilidad en espacios continuos El par (S,F) donde F σ-álgebra definido sobre el conjunto S es la estructura sobre la cual se va a definir una medida (de probabilidad) para obtener un espacio medible (de probabilidad). Observa que aún no se ha definido la probabilidad, sino el espacio donde se va a medir esa probabilidad. © Dr. Felipe Orihuela-Espina112
Probabilidad en espacios continuos Medida (Recordatorio): Informal: Ya la vimos al principio Formal: Una medida es una función f:F→[- ∞,∞] que asigna un número real f(A) a cada conjunto A ∈ F. En el caso de ser métrica además ocurre que; f:F→[0,∞] © Dr. Felipe Orihuela-Espina113
Probabilidad en espacios continuos Medida de probabilidad (Recordatorio): Informal: Ya la vimos al principio Formal: Una medida Pr tal que Pr:F→[0,1] es una medida de probabilidad si satisface que: Pr(S)=f(S)=1 Pr( )=f( )=0 Suma contable: Si {A i } es una secuencia disjunta de conjuntos que pertenecen a F entonces: © Dr. Felipe Orihuela-Espina114 ☞ Observa que esta definición es ligeramente distinta que la que se dio al principio. Esta es más general, pero incluye a la otra de forma natural
Probabilidad en espacios continuos Medida de probabilidad: Propiedades: Suma finita: Si A 1,…, A n son disjuntos entonces: Para cualquier A ∈F: Pr(A c )=1-Pr(A) A,B∈F: A⊂B Pr(A)≤Pr(B) © Dr. Felipe Orihuela-Espina115 Puedes encontrar las demostraciones en: [ engineering-and-computer-science/6-436j-fundamentals-of-probability-fall- 2008/lecture-notes/MIT6_436JF08_lec01.pdf]. Enlace vigente a 25-Oct-2015
Probabilidad en espacios continuos Medida de probabilidad: Propiedades: Límite de la unión: Sea {A i } una secuencia de eventos, entonces: …sin importar si son disjuntos o no. © Dr. Felipe Orihuela-Espina116 Puedes encontrar la demostración en: [ engineering-and-computer-science/6-436j-fundamentals-of-probability-fall- 2008/lecture-notes/MIT6_436JF08_lec01.pdf]. Enlace vigente a 25-Oct-2015
Probabilidad en espacios continuos La tripleta (S,F,Pr) es un espacio de probabilidad. Ya vimos la definición informal al principio. Un conjunto A ∈ F se llama un evento, conjunto medible o conjunto F-medible. Cada vez que se concluye el experimento, el desenlace w pertenece o no a A. Si w ∈ A, entonces ha ocurrido A. Si w ∉ A, entonces no ha ocurrido A. © Dr. Felipe Orihuela-Espina117
Probabilidad en espacios continuos Para cada A ∈ F, a Pr(A) se le llama la probabilidad del evento A. Observa que puede ocurrir que Pr(A)=1 con A≠S. © Dr. Felipe Orihuela-Espina118
Probabilidad en espacios continuos Continuidad de espacios de probabilidad: Teorema: Sea F un σ-álgebra de conjuntos de S, y sea Pr:F→[0,1] una medida de probabilidad. Entonces los siguientes son equivalentes: Pr es una medida de probabilidad que satisface la suma contable (¡obvio!) Si {A i } es una secuencia incremental de conjuntos en F (léase ∀ i: Ai ⊂ Ai+1) y entonces: Si {A i } es una secuencia decreciente de conjuntos en F (léase ∀ i: Ai ⊃ Ai+1) y entonces: © Dr. Felipe Orihuela-Espina119 Puedes encontrar la demostración en: [ computer-science/6-436j-fundamentals-of-probability-fall-2008/lecture- notes/MIT6_436JF08_lec01.pdf]. Enlace vigente a 25-Oct-2015.
Probabilidad en espacios continuos Con el teorema de la continuidad en espacios de probabilidad, basta definir un σ-álgebra de conjuntos de S para que podamos calcular las probabilidades en espacios continuos no contables. Bueno…realmente esto no es todo, se requiere además que el σ-álgebra sea capaz de generar cualquier conjunto C de subconjuntos de S, aunque este C no sea necesariamente un σ- álgebra, en otras palabras, no vale cualquier σ-álgebra, se requiere que sea un álgebra de Borel. El álgebra de Borel sobre un conjunto X es el σ-algebra más pequeño que contiene a todos los conjuntos abiertos o de forma equivalente a todos los conjuntos cerrados. Si quieres saber más: science/6-436j-fundamentals-of-probability-fall-2008/lecture- notes/MIT6_436JF08_lec01.pdf science/6-436j-fundamentals-of-probability-fall-2008/lecture- notes/MIT6_436JF08_lec01.pdf Enlace vigente a 25-Oct-2015 © Dr. Felipe Orihuela-Espina120
Espacios no equiprobables ¿Qué ocurre cuando un espacio no es equiprobable, es decir, no todos los desenlaces tienen la misma probabilidad? No pasa nada! Sólo que es un poco más difícil contar, así que se hace de forma normalizada. Sea un espacio de muestras S finito es decir, que contiene sólo un número finito de desenlaces S={s i, i=1…n}, donde la #S=n. A cada desenlace s i se le asigna una probabilidad p i. Para obtener una medida de probabilidad, se debe cumplir que: Pr(s i )=p i ≥0i=1…n © Dr. Felipe Orihuela-Espina121
Espacios no equiprobables La probabilidad de un evento A se calcula sumando las probabilidades p i de cada uno de los desenlaces s i que pertenecen a A. © Dr. Felipe Orihuela-Espina122 Los equiprobables son un caso particular donde pi=1/n
Espacios no equiprobables Probabilidad de un evento (A): Ejemplo: La suma al lanzar dos dados © Dr. Felipe Orihuela-Espina123 S={1,2,3,4,5,6,7,8,9,10,11,12} P(S)={0, 1, 2, 3, 4, 5, 6, 5, 4, 3, 2, 1}/36 A={7}; Pr(A)=6/36=1/6=0.16 B={x>9}; Pr(B)=3/36+2/36+1/36=6/36=0.16
PROBABILIDAD CONDICIONAL © Dr. Felipe Orihuela-Espina124
Ya sabemos… Sean A y B eventos cuyas probabilidades son Pr(A) y Pr(B) respectivamente. La probabilidad de la intersección de estos eventos es (independientemente de si son disjuntos o no): © Dr. Felipe Orihuela-Espina125
Probabilidad condicional La probabilidad condicional es la probabilidad de que ocurra un evento A conociendo la ocurrencia (o no) de otro evento B, y se denota P(A|B) La probabilidad condicional es crítica para la inferencia estadística. © Dr. Felipe Orihuela-Espina126
S Probabilidad condicional La probabilidad condicional se calcula cómo: © Dr. Felipe Orihuela-Espina127 B A P(A∩B)
Propiedades Si A y B son disjuntos: Y ocurre B ⇒ A∩B= ⇒ Pr(A|B)=0 Si A ⊂ B Y ocurre B ⇒ A∩B=A ⇒ Pr(A|B)=Pr(A)/P(B) Por supuesto, podemos despejar: Pr(A∩B)= Pr(A|B) ⋅ P(B) Pero también; Pr(A∩B)= Pr(B|A) ⋅ P(A) © Dr. Felipe Orihuela-Espina128
Probabilidad condicional: Ejemplo: Sabores de Helados Supongamos que al 70% de tus amigos les gusta el chocolate, y al 35% les gusta el chocolate y las fresas ¿A cuántos de los que le gusta el chocolate también les gustan las fresas? © Dr. Felipe Orihuela-Espina129 Probabilidad condicional Ejemplo sacado de: [ Enlace vigente al 25-Oct-2015
Probabilidad Condicional Ejercicio: Un cuestionario rápido: LGEBRA/APR3/PracCond.htm Enlace disponible al 26-Oct-2015 © Dr. Felipe Orihuela-Espina130 Copia local
Probabilidad condicional: Ejemplo: Probabilidad de que te toque la lotería * El juego de loteria: En un bombo se meten n bolas numeradas y se extraen k. El ganador es aquel que está en posesión de la combinación ganadora que incluye los k números sacados del bombo © Dr. Felipe Orihuela-Espina131 Probabilidad condicional * Si la juegas
Probabilidad condicional: Ejemplo: Probabilidad de que te toque la lotería (cont.) Mecánica: Una vez extraída una bola, no se repone al bombo. El orden no importa. Se extrae 1 bola cada vez. © Dr. Felipe Orihuela-Espina132 Probabilidad condicional
Probabilidad condicional: Ejemplo: El número de desenlaces (combinaciones) totales depende del número de bolas que entran en el sorteo (n), así como del número de bolas que se extraen (k), y ya sabemos que es C n,k. Por ejemplo; En un sorteo de n=49 números con combinaciones de k=6: © Dr. Felipe Orihuela-Espina133 Probabilidad condicional
Probabilidad condicional: Ejemplo: Desafortunadamente, sólo tienes 1 posibilidad (o tantas como combinaciones jueges)! Muestreo sin reemplazo y sin orden Ver diapositiva sobre OrdenacionesOrdenaciones Por definición tienes un sólo caso favorable sobre X casos totales Por tanto, la probabilidad de que te toque la lotería a priori (o sea sin ninguna información previa) es: © Dr. Felipe Orihuela-Espina134 Probabilidad condicional
Probabilidad condicional: Ejemplo: Como las bolas se van sacando a la vez, podemos calcular cómo se modifica tu probabilidad de ganar a medida que salen las nuevas bolas… Supongamos que ya se sacó 1 bola, y que tu tienes ese número. Ahora tus posibilidades aumentan. © Dr. Felipe Orihuela-Espina135 Probabilidad condicional
Probabilidad condicional: Ejemplo: Definamos un evento B que sea que la combinación incluya a un determinado número e.g. x=15. El número de combinaciones posibles que incluyen a un determinado número e.g. 15, son C 48,5 y por ende: © Dr. Felipe Orihuela-Espina136 Probabilidad condicional
Probabilidad condicional: Ejemplo: Supongamos que se saca la primera bola con el número 15 …¡y tu tienes el 15! De todas las combinaciones que incluyen al 15, sólo 1 es la tuya. © Dr. Felipe Orihuela-Espina137 Probabilidad condicional
Probabilidad condicional: Ejemplo: No obstante, esto incrementa sustancialmente tus posibilidades: © Dr. Felipe Orihuela-Espina138 Probabilidad condicional ¡Eso es >66 veces más que antes de que saliera la primera bola (más de un orden de magnitud)!
Probabilidad Condicional Ley de probabilidad total: Sean un conjunto de eventos B 1, B 2, …, B n que son una partición de S (léase, disjuntos y tales que su unión es el espacio de muestra S; ⋃ B i =S) tales que Pr(B i )>0. Entonces, para cualquier evento A ⊂ S: © Dr. Felipe Orihuela-Espina139 S A B5B5 B4B4 B1B1 B2B2 B3B3
Eventos independientes Ya sabemos: Dos eventos A y B son independientes si conocer la ocurrencia (o no) de B no altera la probabilidad de A. Formal: Dos eventos A y B son independientes si: Pr(A ⋂B)=Pr(A)Pr(B) Y de forma análoga: © Dr. Felipe Orihuela-Espina140
¡Cuidado! La independencia NO es intuitiva. ¿Puedes dibujar el diagrama de Venn? Para ver la solución, haz click en el video. Video de YouTube: [ m/watch?v=mX2D1Nff RI8] m/watch?v=mX2D1Nff RI8 Enlace activo a 19- Jun-2016 © Dr. Felipe Orihuela-Espina141 Eventos independientes Duración: 2m13s
Eventos independientes Eventos disjuntos © Dr. Felipe Orihuela-Espina142 Eventos independientes A:El primer dado ha sacado un 3 B: El segundo dado ha sacado un 3 Saber que un dado ha sacado un 3 (A), no nos dice NADA sobre la que va a sacar el otro dado (B) C: La suma de los dos dados es 5 D: Ambos dados han sacado el mismo número Saber que la suma de los dos dados es 5, nos permite saber que los dados no han podido obtener el mismo número; y por tanto C y D son disjuntos, pero no independientes.
Eventos independientes © Dr. Felipe Orihuela-Espina143 Enlace vigente al 26-Oct Video: 5:33mins Diferencias entre eventos disjuntos y eventos independientes
Eventos independientes Ejercicio: ¿Pueden dos eventos A y B ser a la vez disjuntos e independientes? © Dr. Felipe Orihuela-Espina144 Solución: Si, pero sólo en el caso trivial cuando Pr(A)=0 o Pr(B)=0. Aunque Pr( )=0, recuerda que el hecho de Pr(A)=0 no significa que A=
Propiedades Si A y B son independientes, entonces: A c y B son independientes A y B c son independientes A c y B c son independientes © Dr. Felipe Orihuela-Espina145
Eventos independientes Un conjunto de eventos A={A 1, …, A n } son independientes si para cada subconjunto j ⊂ A tal que j={A 1j, …, A ij } se cumple que Pr(A 1j ⋂ … ⋂ A ij )=Pr(A 1j )…Pr(A ij ) © Dr. Felipe Orihuela-Espina146
Eventos independientes Ejemplo: Los eventos A, B y C son independientes si: Pr(A ⋂ B) = Pr(A) ⋅ Pr(B) Pr(A ⋂ C) = Pr(A) ⋅ Pr(C) Pr(B ⋂ C) = Pr(B) ⋅ Pr(C) Pr(A ⋂ B ⋂ C) = Pr(A) ⋅ Pr(B) ⋅ Pr(C) © Dr. Felipe Orihuela-Espina147 Si sólo se cumplen las 3 primeras relaciones pero no la última, se dice que A, B y C son independientes por pares, pero no independientes entre si
Thomas Bayes ( , Británico) Recommended reading: © Dr. Felipe Orihuela-Espina148 Teorema de Bayes Imagen de Wikipedia
Teorema de Bayes: Tutoriales en la web An intuitive explanation of Bayes’ Theorem [ Enlace vigente al 26-Oct Esta introducción es buena pero requiere un poco de nivel de conocimiento previo. An even more intuitive explanation of Bayes’ Theorem Algo más asequible que la anterior… [ Enlace vigente al 26-Oct “Seeing the world through the lens of Bayes’ Theorem is like seeing The Matrix. Nothing is the same after you have seen Bayes.” ☞ Esta frase se me hizo simpática, pero no tiene interés para la asignatura © Dr. Felipe Orihuela-Espina149
Teorema de Bayes ¿Por qué es necesario/conveniente? Supón que estudias un fenómeno cualquiera, del que conoces la probabilidad de que ocurra un evento … y adquieres una nueva observación. No reemplazas la información que ya tenías con la nueva, La probabilidad que ya conocías también estaba basada en evidencia (observaciones anteriores), y por tanto sigue siendo válida A esta probabilidad que conocías anteriormente se le llama a priori. …en lugar de eso, actualizas la información que tienes desplazando la probabilidad original previa (a priori) en una u otra dirección añadiendo la nueva información La nueva probabilidad resultante de esta actualización es a posteriori. © Dr. Felipe Orihuela-Espina150
Teorema de Bayes Supón que ya habías obtenido 30 muestras de tu fenómeno, de las cuales 22 son casos favorables. Pr(A) = 22/30 = 0.73 (Probabilidad a priori) Obtienes una nueva observación (negativa) Reemplazo: Eso no significa que ahora tengas Pr(A)=0/1 Actualización: Ahora tienes Pr(A)=22/31 = 0.70 (Probabilidad a posteriori) © Dr. Felipe Orihuela-Espina151
Teorema de Bayes ¿Qué ocurre cuando las probabilidades que conoces están dadas en función de otros eventos (o sea, probabilidades condicionales)? Veamos un ejemplo/ejercicio un poco más complejo… © Dr. Felipe Orihuela-Espina152
Teorema de Bayes Ejercicio: 100 de cada 10,000 mujeres que se hacen un estudio de mamografía tienen cáncer de mama. 80 de cada 100 mujeres con cáncer de mama dan positivo en una mamografía. 950 de cada 9,900 mujeres sin cáncer de mama dan positivo en una mamografía. (Falsos positivos*) Si mujeres se hacen una mamografía, ¿qué fracción de estas mujeres que dan positivo en el análisis realmente tendrán cáncer? Pistas: Recuerda la fórmula general en probabilidad: #favorables/#totales El ejercicio se puede resolver sin conocer el teorema de Bayes © Dr. Felipe Orihuela-Espina153 Ejemplo adaptado de Muehlhauser 2010: Enlace vigente al 26-Oct * Falsos positivos es un concepto que aprenderemos en detalle un poco más adelante
Teorema de Bayes Solución razonada 1: Una probabilidad cualquiera es simplemente la fracción Pr(X) = #favorables/#totales Para resolver la pregunta debemos por tanto buscar el numerador y el denominador de esta fracción: Denominador: El número de casos totales son el número de mujeres en total que dan positivo en una mamografía Observa que no son como se podría intuir cándidamente del enunciado. Según el enunciado de las 10000, 950 de 9900 darán positivo aunque no tengan cáncer, y además 80 de 100 darán positivo si tienen cáncer: #Total de positivos = Positivos sin cáncer + Positivos con cáncer = (950+80)/( ) = 1030/10000 © Dr. Felipe Orihuela-Espina154
Teorema de Bayes Solución razonada 1: Numerador: Este es más sencillo por que lo da el enunciado directamente: 80 de cada 100 mujeres con cáncer dan positivo en la mamografía Esto también se puede leer cómo que 80 mujeres que darán positivo en la mamografía, tienen cáncer ...así pues 80 es nuestro numerador Por tanto: ¿qué fracción de mujeres que dan positivo en el análisis realmente tendrán cáncer? 80/1030 = ⋍ 7.8% © Dr. Felipe Orihuela-Espina155
Teorema de Bayes Solución general 2: Sean los eventos A: Tener cáncer B: Dar positivo en la mamografía El enunciado nos da: P(A) = 100/10000 = 0.01 P(B|A) = 80/100 = 0.8 P(B|~A) = 950/9900 = © Dr. Felipe Orihuela-Espina156
Teorema de Bayes Solución general 2: El espacio de muestra es: S=A+~A= =10000 Casos totales: La probabilidad de dar positivo en la mamografía (se tenga o no cáncer) es P(B) = (80+950)/( )= 1030/10000= Casos favorables: La probabilidad de dar positivo en la mamografía, DADO QUE se tiene cáncer es: P(B|A)*P(A) = 0.01 * 0.8 = Por tanto, la probabilidad de tener cáncer SI has dado positivo en la mamografía: P(A|B) = P(B|A)*P(A)/P(B) = = 7.76% © Dr. Felipe Orihuela-Espina157 Efectivamente; ¡este es el Teorema de Bayes!
Teorema de Bayes Teorema de Bayes Esta es la fórmula simplificada; la práctica para el día a día, la que veréis en todos lados… …pero el teorema de Bayes, es un poco más general… © Dr. Felipe Orihuela-Espina158
Teorema de Bayes Teorema de Bayes: Fórmula General Sean los eventos B 1, …, B k una partición de S tal que Pr(B j )>0 para j=1…k, y sea A un evento definido sobre S tal que Pr(A)>0. Entonces para i=1…k: Puedes encontrar la demostración en [DeGroot 2012, Teorema 2.3.1, pg 77] © Dr. Felipe Orihuela-Espina159
¿Y para qué me sirve a mi en mi maestría? Si vas a trabajar en:Ejemplos Clasificación, reconocimiento de patrones, minería de datos y/o textos, recuperación de la información, etc Redes Bayesianas, Modelos gráficos probabilistas, clasificadores en general*, etc * En general una clasificación no es más que una probabilidad condicional P(atributos|clase) Hardware, PGAs, etcPropagación de errores, análisis de fiabilidad, etc Bioseñales y computación médicaVer ejemplo anterior. Este es tu pan nuestro de cada día …y por supuesto, procesamiento /análisis /interpretación de imágenes RobóticaPropagación de evidencia en tiempo real, reajustes a la trayectoria del robot, navegación, etc Computación científicaEsta es más difícil… posiblemente, en este caso estas a salvo de Bayes pero no soy un experto…así que quién sabe. RedesEnrutamiento, Fallas en las comunicaciones, etc Procesamiento de LenguajeIncorporación de conocimiento previo, histogramas de co- ocurrencia, etc © Dr. Felipe Orihuela-Espina160
GRACIAS, ¿PREGUNTAS? © Dr. Felipe Orihuela-Espina161
RESERVA © Dr. Felipe Orihuela-Espina162
Modelo Un modelo para un sistema axiomático es un conjunto bien definido*, que asigna un significado a los términos no definidos presents en el sistema, y que de alguna forma es correcta con respecto a las relaciones definidas en el sistema. En otras palabras, una forma aceptable de asignar etiquetas reproducibles (cuantitativas o cualitativas) dada la incertidumbre. Los modelos sólo pueden ser de dos tipos; deterministas (y=f(x)) – siempre asignan la misma etiqueta dada la misma entrada- o estocásticos (y=f(x)+ ) –las etiquetas son las mismas dada una incertidumbre-. La distinción no es necesaria; sólo conveniente para propósitos operacionales ya que de hecho los modelos deterministas son sólo el caso particular de modelo estocástico para el cual se asume un =0. Eso no significa que sea conveniente tratar todo como estocástico. ;) ¡Ojo! Los modelos no tienen por que ser funciones; cualquier tipo de relación es admisible. Las funciones sólo son convenientes. © 2016 Dr. Felipe Orihuela-Espina163 * Un conjunto es bien-definido si no hay ambigüedad acerca de si un objeto cualquiera pertenece o no al conjunto. En otras palabras; bien definido significa que un objeto cualquiera (concreto o abstracto) del mundo (el sistema) está en el conjunto o no. Puedes encontrar un ejemplo intuitive en [ Enlace vigente a 20-Jun
Modelo En un modelo determinista, a partir de los valores o instancias de la variable dependiente y los parámetros del modelo, es posible calcular el valor de las variables dependientes. Dependencia funcional (sin error o incertidumbre) En un modelo estocástico, In a stochastic model, a partir de los valores o instancias de la variable dependiente y los parámetros del modelo, sólo es posible estimar el valor de las variables dependientes. Dependencia estocástica (con error o incertidumbre) De forma crítica, un modelo determinista queda descrito por un único término, mientras que un modelo estocástico requiere necesariamente de 2 términos. © 2016 Dr. Felipe Orihuela-Espina164