La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Teoría de la Información

Presentaciones similares


Presentación del tema: "Teoría de la Información"— Transcripción de la presentación:

1 Teoría de la Información
Entropía Información mutua Entropía y PLN Introduction: marc general i la motivació d’aquest treball

2 Valor esperado Dada una variable aleatoria X que toma valores x1, x2, ..., xn en un dominio de acuerdo con una distribución de probabilidad, podemos definir el valor esperado de X como la suma de los valores ponderados con su probabilidad E(X) = p(x1)X(x1) + p(x2)X(x2) p(xn)X(xn)

3 Teoría de la Información 1
Nos interesa asociar a cada evento la cantidad de información que contiene Shannon en los 40s Maximizar la cantidad de información que puede transmitirse por un canal de comunicación imperfecto. Nivel de compresión de los datos (entropía) Cantidad de información que se transmite (capacidad del canal) Shannon was interested in the problem of Shannon wanted to determine theoretical maxima for !)

4 Teoría de la Información 2
Dos requisitos de tipo estadístico: Significancia: cuanto más improbable es un evento más información lleva P(x1) > P(x2) ==> I(x2) < I(x1) Aditividad: si x1 y x2 son eventos independentientes: I(x1x2) = I(x1) + I(x2) Shannon was interested in the problem of Shannon wanted to determine theoretical maxima for !)

5 Teoría de la Información 3
I(m) = 1/p(m) no los satisface I(x) = - log p(x) si los satisface Cantidad de información: I(X) = - log p(X) Shannon was interested in the problem of Shannon wanted to determine theoretical maxima for !)

6 Entropía 1 variable aleatoria X, descrita por p(X), cantidad de información I Entropía: Valor esperado de la cantidad de información La Entropía mide la cantidad de información de una variable aleatoria. Podemos considerarla como la longitud media del mensaje necesario para transmitir un valor de dicha variable usando una codificación óptima. La entropía mide el grado de desorden de la variable aleatoria. using the optimal code = the entropy will be the minimum

7 Entropía 2 Distribución uniforme de una variable X.
Cada valor xi  X con |X| = M tiene la misma probabilidad pi = 1/M Si codificamos el valor xi en binario necesitaremos log2 M bits de información Distribución no uniforme. por analogía Supongamos ahora que cada valor xi tiene la probabilidad pi Supongamos que las pi son independientes Haciendo Mpi = 1/ pi necesitaremos log2 Mpi = log2 (1/ pi ) = - log2 pi bits de información.

8 ejemplo de Entropía 1 Consideremos el caso X ={a, b, c, d} tal que pa = 1/2; pb = 1/4; pc = 1/8; pd = 1/8 entropía(X) = valor esperado de la cantidad de información necesaria para representarlo= -1/2 log2 (1/2) -1/4 log2 (1/4) -1/8 log2 (1/8) -1/8 log2 (1/8) = 7/4 = 1.75 bits determinación del valor de X con el mínimo número de preguntas binarias ¿X = a? si no a ¿X = b? no si b ¿X = c? si no c a Número medio de preguntas: 1.75

9 ejemplo de Entropía 2 Supongamos ahora una distribución binomial de X
X = 0 con probabilidad p X = 1 con probabilidad (1-p) H(X) = -p log2 (p) -(1-p) log2 (1-p) p = 0 => 1 - p = 1 H(X) = 0 p = 1 => 1 - p = 0 H(X) = 0 p = 1/2 => 1 - p = 1/2 H(X) = 1 H(Xp) 1 / p

10 Entropía 3 H is a weighted average for log(p(X) where the weighting depends on the probability of each x H INCREASES WITH MESSAGE LENGTH

11 Entropía 4 La entropía conjunta (joint entropy) de 2 variables aleatorias, X, e Y, es la cantidad media de información necesaria en media para especificar los dos valores

12 Entropía 5 La entropía condicional (conditional entropy) de una variable aleatoria Y dada otra X, expresa cuánta información extra se necesita comunicar Y en media cuando se supone que el receptor ya conoce X.

13 Entropía 6 P(A,B) = P(A|B)P(B) = P(B|A)P(A)
Regla de la cadena para probabilidades P(A,B) = P(A|B)P(B) = P(B|A)P(A) P(A,B,C,D…) = P(A)P(B|A)P(C|A,B)P(D|A,B,C..) Generalization of this rule to multiple events is the chain rule The Chain Rule is used in many places in Stat NLP such as Markov Model

14 Entropía 7 Regla de la cadena para entropía

15 Información mutua 1 I(X,Y) es la información mutua entre X e Y.
Mide la reducción de incertidumbre de una variable aleatoria X al conocer el valor de otra También mide la cantidad de información que una variable posee de la otra

16 Información mutua 2 I vale 0 sólo cuando X e Y son independientes:
H(X|Y)=H(X) H(X)=H(X)-H(X|X)=I(X,X) La Entropía es la autoinformación (información mutua de X y X) For 2 dependent variables, I grows not only with the degree of their dependence but only with their entropy H(X) = I(X<X) This explain also how mutual information between 2 totally dependent variables is not constant but depends on their entropy

17 Entropía y PLN 1 La Entropía es una medida de incertidumbre. Cuanto más sabemos de un evento menor es su entropía. Si un LM captura más de la estructura de un lenguaje menor será su entropía. Podemos usar la entropía como una medida de la calidad de nuestros modelos. 2) Means better code; optimal code entropy minimum!! Entropy of the language Exists in the world; but we don’t know it (we don’t know P); we can only look for better code hoping to lower the Entropy

18 Entropía y PLN 2 H: entropía de un languaje L Desconocemos p(X)
Supongamos que nuestro LM es q(X) ¿ Cómo de bueno es q(X) como estimación de p(X) ?

19 Entropía y PLN 3 Cross Entropy Media de la "sorpresa" de un modelo q cuando describe eventos sujetos a una distribución p

20 Entropía y PLN 3 Entropía Relativa o divergencia de Kullback-Leibler (KL)

21 Entropía y PLN 4 Entropía Relativa o divergencia de Kullback-Leibler (KL) Mide la diferencia entre dos distribuciones de probabilidad Número medio de bits que se desperdician codificando un evento que tiene una distribución p con un código basado en una distribución q aproximada. Objetivo: minimizar la entropía relativa D(p||q) para tener un modelo lo más preciso posible Measure of how different two probability distribution (OVER THE SAME EVENT SPACE) are We cannot actually do this because we still don’t know p: tricks, use of another quantity Cross entropy, approximation see pag 75


Descargar ppt "Teoría de la Información"

Presentaciones similares


Anuncios Google