Teoría de la Información

Slides:



Advertisements
Presentaciones similares
TECNICTURA EN INFORMATICA
Advertisements

CONTENIDOS Teoría del muestreo ¿Cómo seleccionar una muestra?
PRESENTACION I INTRODUCCION A LA HIDROLOGIA PROBABILISTICA
Teoría de la Información y Codificación
Definiciones y conceptos básicos
KRIGING.
La ley de los grandes números
PROBABILIDAD Y ESTADÍSTICA PARA CEA MTRA. MA. DEL CARMEN LÓPEZ MUNIVE
ECONOMÍA DE LA INFORMACIÓN
© L.E. Sucar: MGP - 3 T. Info.1 Sesión 3: Teoría de Información Modelos Gráficos Probabilistas L. Enrique Sucar INAOE “Estamos ahogados en datos, pero.
Tema 2: Métodos de ajuste
COMPORTAMIENTO DE LAS DISTRIBUCIONES DE
Codificación Distribuida
Sistemas Secuenciales
Universidad Mexicana en Línea Carrera: Administración Pública Asignatura: Estadística Tutor: Leonardo Olmedo Alumno: Alfredo Camacho Cordero Matrícula:
Sesión 2: Métodos Probabilísticos Básicos
REPUBLICA BOLIVARIANA DE VENEZUELA MINISTERIO DEL PODER POPULAR PARA LA DEFENSA UNIVERSIDAD NACIONAL EXPERIMENTAL DE LA FUERZA ARMADA BOLIVARIANA MARACAIBO,
PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES
MATEMÁTICA APLICADA FACILITADOR: LCDO. ALFREDO MEDINA INTEGRANTES:
ENTROPÍA LA MEDIDA DE LA INCERTIDUMBRE
Clases 4 Pruebas de Hipótesis
TIPOS DE MODELOS DE REGRESIÓN Y SUPUESTOS PARA EL MODELO A
Sesión 2: Teoría de Probabilidad “Considero que la probabilidad representa el estado de la mente con respecto a una afirmación, evento u otra cosa para.
Representando para Aprender
Sesión 6: Campos de Markov
Vectores Aleatorios 1 Distribución conjunta de un vector aleatorio
Elementos Básicos de Probabilidad y Estadística Javier Aparicio División de Estudios Políticos, CIDE Julio 2009
Ejemplos de Espacios de Probabilidad
ANÁLISIS DE DATOS PROBABILIDAD Variable Aleatoria Variable que puede obtener diferentes valores en donde cualquier resultado particular está determinado.
VALIDACION DE METODOS ANALITICOS.
Unidad V: Estimación de
Distribuciones Continuas de Probabilidad
Distribuciones de probabilidad. La distribución Binomial.
Distribución Poisson.
Estadística Administrativa I Período Distribuciones de probabilidad 1.
Introducción La inferencia estadística es el procedimiento mediante el cual se llega a inferencias acerca de una población con base en los resultados obtenidos.
1.Introducción a la Estadística 2.Descripción de los conjuntos de datos 3.Uso de la Estadística para sintetizar conjuntos de datos 4.Probabilidad 5.Variables.
Capítulo 7 Estimación de Parámetros Estadística Computacional
Simular: Representar una cosa, fingiendo o imitando lo que no es.
Maestría en Transporte Estadística Capítulo 1. Objetivos ¿Cómo se determinan las magnitudes para planificación de transporte, operación de transporte,
LÍNEAS DE ESPERA Gabriel García Velazquez.
LINEAS DE ESPERA (TEORIA DE COLAS)
Estadística Administrativa I Período Distribuciones discretas de probabilidad 1.
Sesión 2: Teoría de Probabilidad
Análisis y Diseño de Algoritmos
Unidad II: Variables Aleatorias Concepto Discreta y Continua Fun. de densidad Fun. de probabilidad F. de distribución Esperanza y Varianza Propiedades.
Unidad V: Estimación de
Repaso de clase anterior
Teoría de Probabilidad Dr. Salvador García Lumbreras
Villahermosa, Tab. 21 septiembre MATERIA: Investigacion de operaciones TEMA: Lineas de espera ALUMNOS: Maria isabel vega chanona HORA: 11:00 am a.
Sesión 10: Variable Aleatoria
Líneas de Espera: Teoría de Colas
Distribuciones probabilísticas discretas
Sesión 2: Teoría de Probabilidad “Considero que la probabilidad representa el estado de la mente con respecto a una afirmación, evento u otra cosa para.
Telecomunicaciones II
ELEMENTOS DE INFORMACIÓN
Toma de decisiones en la empresa
2.1 DEFINICIONES CARACTERÍSTICAS Y SUPOSICIONES.
DISTRIBUCIONES DE PROBABILIDAD
Variable aleatoria discreta
Teoria de la Informacion
Distribución Binomial
DETECCION DE PSK DIFERENCIAL El nombre de PSK diferencial (DPSK) algunas veces necesita clarificación, debido a dos aspectos separados del formato de.
INFERENCIA ESTADÍSTICA
Técnicas numéricas para el procesamiento de datos reales Antonio Turiel Instituto de Ciencias del Mar de Barcelona.
Intervalos de Confianza M. C. José Juan Rincón Pasaye UMSNH – FIE Mayo de 2003.
distribución uniforme
MENSAJES CONFIABLES EN CANALES NO CONFIABLES NOMBRE: CÉSAR GRANIZO FECHA: 08/06/2016.
Variable aleatoria y función probabilidad IV medio
Transcripción de la presentación:

Teoría de la Información Entropía Información mutua Entropía y PLN Introduction: marc general i la motivació d’aquest treball

Valor esperado Dada una variable aleatoria X que toma valores x1, x2, ..., xn en un dominio de acuerdo con una distribución de probabilidad, podemos definir el valor esperado de X como la suma de los valores ponderados con su probabilidad E(X) = p(x1)X(x1) + p(x2)X(x2) + ... p(xn)X(xn)

Teoría de la Información 1 Nos interesa asociar a cada evento la cantidad de información que contiene Shannon en los 40s Maximizar la cantidad de información que puede transmitirse por un canal de comunicación imperfecto. Nivel de compresión de los datos (entropía) Cantidad de información que se transmite (capacidad del canal) Shannon was interested in the problem of Shannon wanted to determine theoretical maxima for !)

Teoría de la Información 2 Dos requisitos de tipo estadístico: Significancia: cuanto más improbable es un evento más información lleva P(x1) > P(x2) ==> I(x2) < I(x1) Aditividad: si x1 y x2 son eventos independentientes: I(x1x2) = I(x1) + I(x2) Shannon was interested in the problem of Shannon wanted to determine theoretical maxima for !)

Teoría de la Información 3 I(m) = 1/p(m) no los satisface I(x) = - log p(x) si los satisface Cantidad de información: I(X) = - log p(X) Shannon was interested in the problem of Shannon wanted to determine theoretical maxima for !)

Entropía 1 variable aleatoria X, descrita por p(X), cantidad de información I Entropía: Valor esperado de la cantidad de información La Entropía mide la cantidad de información de una variable aleatoria. Podemos considerarla como la longitud media del mensaje necesario para transmitir un valor de dicha variable usando una codificación óptima. La entropía mide el grado de desorden de la variable aleatoria. using the optimal code = the entropy will be the minimum

Entropía 2 Distribución uniforme de una variable X. Cada valor xi  X con |X| = M tiene la misma probabilidad pi = 1/M Si codificamos el valor xi en binario necesitaremos log2 M bits de información Distribución no uniforme. por analogía Supongamos ahora que cada valor xi tiene la probabilidad pi Supongamos que las pi son independientes Haciendo Mpi = 1/ pi necesitaremos log2 Mpi = log2 (1/ pi ) = - log2 pi bits de información.

ejemplo de Entropía 1 Consideremos el caso X ={a, b, c, d} tal que pa = 1/2; pb = 1/4; pc = 1/8; pd = 1/8 entropía(X) = valor esperado de la cantidad de información necesaria para representarlo= -1/2 log2 (1/2) -1/4 log2 (1/4) -1/8 log2 (1/8) -1/8 log2 (1/8) = 7/4 = 1.75 bits determinación del valor de X con el mínimo número de preguntas binarias ¿X = a? si no a ¿X = b? no si b ¿X = c? si no c a Número medio de preguntas: 1.75

ejemplo de Entropía 2 Supongamos ahora una distribución binomial de X X = 0 con probabilidad p X = 1 con probabilidad (1-p) H(X) = -p log2 (p) -(1-p) log2 (1-p) p = 0 => 1 - p = 1 H(X) = 0 p = 1 => 1 - p = 0 H(X) = 0 p = 1/2 => 1 - p = 1/2 H(X) = 1 H(Xp) 1 0 1/2 1 p

Entropía 3 H is a weighted average for log(p(X) where the weighting depends on the probability of each x H INCREASES WITH MESSAGE LENGTH

Entropía 4 La entropía conjunta (joint entropy) de 2 variables aleatorias, X, e Y, es la cantidad media de información necesaria en media para especificar los dos valores

Entropía 5 La entropía condicional (conditional entropy) de una variable aleatoria Y dada otra X, expresa cuánta información extra se necesita comunicar Y en media cuando se supone que el receptor ya conoce X.

Entropía 6 P(A,B) = P(A|B)P(B) = P(B|A)P(A) Regla de la cadena para probabilidades P(A,B) = P(A|B)P(B) = P(B|A)P(A) P(A,B,C,D…) = P(A)P(B|A)P(C|A,B)P(D|A,B,C..) Generalization of this rule to multiple events is the chain rule The Chain Rule is used in many places in Stat NLP such as Markov Model

Entropía 7 Regla de la cadena para entropía

Información mutua 1 I(X,Y) es la información mutua entre X e Y. Mide la reducción de incertidumbre de una variable aleatoria X al conocer el valor de otra También mide la cantidad de información que una variable posee de la otra

Información mutua 2 I vale 0 sólo cuando X e Y son independientes: H(X|Y)=H(X) H(X)=H(X)-H(X|X)=I(X,X) La Entropía es la autoinformación (información mutua de X y X) For 2 dependent variables, I grows not only with the degree of their dependence but only with their entropy H(X) = I(X<X) This explain also how mutual information between 2 totally dependent variables is not constant but depends on their entropy

Entropía y PLN 1 La Entropía es una medida de incertidumbre. Cuanto más sabemos de un evento menor es su entropía. Si un LM captura más de la estructura de un lenguaje menor será su entropía. Podemos usar la entropía como una medida de la calidad de nuestros modelos. 2) Means better code; optimal code entropy minimum!! Entropy of the language Exists in the world; but we don’t know it (we don’t know P); we can only look for better code hoping to lower the Entropy

Entropía y PLN 2 H: entropía de un languaje L Desconocemos p(X) Supongamos que nuestro LM es q(X) ¿ Cómo de bueno es q(X) como estimación de p(X) ?

Entropía y PLN 3 Cross Entropy Media de la "sorpresa" de un modelo q cuando describe eventos sujetos a una distribución p

Entropía y PLN 3 Entropía Relativa o divergencia de Kullback-Leibler (KL)

Entropía y PLN 4 Entropía Relativa o divergencia de Kullback-Leibler (KL) Mide la diferencia entre dos distribuciones de probabilidad Número medio de bits que se desperdician codificando un evento que tiene una distribución p con un código basado en una distribución q aproximada. Objetivo: minimizar la entropía relativa D(p||q) para tener un modelo lo más preciso posible Measure of how different two probability distribution (OVER THE SAME EVENT SPACE) are We cannot actually do this because we still don’t know p: tricks, use of another quantity Cross entropy, approximation see pag 75