TEORIA DE LA INFORMACION

TEORIA DE LA INFORMACION
Copyright, © mgonzalez

TEORIA DE LA INFORMACION
Curso 2004/2005 Las Palmas.

Introducción Después de que Einstein demostrara la equivalencia entre “masa” y “energia” los dos parametros que la civilizazcion utiliza son INFORMACION y ENERGIA relacionado por la formula de Shanonn

ORIGEN Teoría de la Información Resumen
1948 Snannon “Una teoría Matemática de la Comunicación” 1929 L. Szilar: Información-Paradoja Física 1928: Hartlye: Método de comparación de los distintos métodos de transmisores de la información 1948: Wiener: Cibérnetica 1953:McMillan- Fuenete de Información , canal de transmisión 1956: Khintchine- Tratamiento completo T.I. para caneles ergódicos. Resumen 1953: Winograd: Estableció un lazo entre T.C. de Shannon y la teoría de autómatas

Documento de Shannon Escrito por Shannon en 1948.
En él se desarrolla buena parte de la actual teoría llamada de la información Concepto de información Medida de "cantidad de información". Tratamiento matemático de la información uno de los documentos más importantes en el mundo de la criptografía es el escrito por Shannon en En él se desarrolla buena parte de la actual teoría llamada de la información. Shannon consiguió determinar con unidades el concepto de información, creando así la medida de "cantidad de información". Desde entonces se le puede dar un tratamiento matemático a este término tan ambiguo

Comunicación Quizás Fourier fue el primero en dar una teoría matemática para un problema de comunicación. Aunque su descubrimiento fue debido a unos trabajos sobre transmisión de calor, su teoría es tan general que prácticamente se puede aplicar a cualquier área.

INFORMACION Terminología Señal
manifestación física ( de orden electromagnética , onda sonora...) capaz de propagarse en un medio dado. Es la definición más amplia del concepto de señal. Señal manifestación física ( de orden electromagnética , onda sonora...) capaz de propagarse en un medio dado. Es la definición más amplia del concepto de señal.

Terminología Mensaje:Señal que corresponde a una realización particular del conjunto de señales dadas Fuente:proceso por el cual, entre todos los mensajes posibles, es escogido de una manera imprevisible un mensaje particular, destinado a ser transmitido a un receptor (observador Mensaje: Señal que corresponde a una realización particular del conjunto de señales dadas Fuente: proceso por el cual, entre todos los mensajes posibles, es escogido de una manera imprevisible un mensaje particular, destinado a ser transmitido a un receptor (observador

Terminología Observador :Destinatario final del mensaje.
Canal Totalidad de los medios destinados a la transmisión de la señal.

Terminología Modulación Transformación de un mensaje en una señal, al efecto de facilitar y aumentar la eficacia de la transmisión y reducir los errores de la misma. Demulación Operación inversa de la modulación.

Terminología Codificación: Transformación de un mensaje en una señal discreta, cuya principal objetivo es aumentar la eficacia de la transmisión Decodificación Operación inversa de la codificación Perturbación: Señal que modifica una señal aleatoria útil, disminuyendo la cantidad de información que circula por ella.

INFORMACION-CONOCIMIENTO

a) Teoría de la Información
Conjunto de datos o mensajes inteligibles creados con un lenguaje de representación y que debemos proteger antes las amenazas del entorno, durante su transmisión o almacenamiento, con técnicas criptográficas. La Teoría de la Información mide la cantidad de información que contiene un mensaje a través del número medio de bits necesario para codificar todos los posibles mensajes con un codificador óptimo.

CLASES DE INFORMACION Voz: Mecanismo primario para la comunicación humana. Es de naturaleza acústica.

Imágenes: mecanismo primario para la comunicación humana
Imágenes: mecanismo primario para la comunicación humana. Es de naturaleza óptica.

Datos: Información en forma numérica. Es de naturaleza electromagnética.

DATOS-INFORMACIÓN Y CONOCIMIENTO
DATOS: Secuencias de números, letras, etc. presentados sin un contexto INFORMACIÓN. Datos organizados, tablas , estadísticas de ventas, una charla (chat) bien presentada (Conjunto coherente de datos que transmite un mensaje) CONOCIMIENTO. Información organizada junto con la comprensión de lo que significa dentro de un contexto, que se puede utilizar

INFORMACION-CONOCIMIENTO
Conocimiento: Información integrada en las estructuras cognitivas de un individuo ( es personal e intransferible) No podemos transmitir conocimiento, sólo información que el receptor puede o no convertirla en conocimiento

GESTION DEL CONOCIMIENTO
Conocimiento es la capacidad para transformar datos e información en acciones efectivas (eficaces). (J.D.Edwards) Gestión del conocimiento significa entregar a las personas los datos e información necesarias para ser eficientes (eficaces) en sus trabajos

LA CADENA DEL CONOCIMIENTO
Datos Textos, Cifras, Imágenes, Sonidos, Información Datos organizados Capital Intelectual Conocimiento que produce valor CI = Conocimiento transformado en valor para la organización Conocimiento explícito y tácito Información disponible para ser usada de forma productiva, para abordar un problema Contexto Concepto Generalización Aplicación Organizar Estructurar Agrupar Categorizar

C CONSTRUCCION DEL CONOCIMIENTO CAPTACIÓN CLASIFICACIÓN
- Oído - Olfato - Vista - Gusto - Tacto Memoria + Raciocinio DISTRIBUCIÓN NUEVAS CORRELACIONES Lenguaje (Oral, escrito, señales, etc.) Inteligencia + Intuición

ADMINISTRACION DEL CONOCIMIENTO Y LA TECNOLOGIA DE LA INFORMACION
CAPTACIÓN CLASIFICACIÓN Internet Scanner Multimedia Redes Bases de datos Programas de Indexación DISTRIBUCIÓN NUEVAS CORRELACIONES Internet Redes Data Warehousing Capital Intelectual Workflow

Cantidad de Información
a) Teoría de la Información Información: Conjunto de datos o mensajes inteligibles creados con un lenguaje de representación y que debemos proteger antes las amenazas del entorno, durante su transmisión o almacenamiento, con técnicas criptográficas. La Teoría de la Información mide la cantidad de información que contiene un mensaje a través del número medio de bits necesario para codificar todos los posibles mensajes con un codificador óptimo. Vamos a buscar estas dos nuevas definiciones en las diapositivas siguientes: Cantidad de Información Codificador Optimo

Representación de la Información
Numérica, alfabética, simbólica, lenguaje. 24/01/ /01/2003 01/24/ - Todos son el día 24 de enero del año Vitaminas: B12, C, ... Grupo sanguíneo: A2 Rh+ Elementos: Fe, Si, Hg Compuestos químicos: H2O, CO2 Más común Lenguaje con código: “Hoy hace calor” ¿Qué información entrega el mensaje “Hace calor”?

Cantidad de Información (I)
En función de la extensión del mensaje Ante una pregunta cualquiera, una respuesta concreta y extensa nos entregará mayor información sobre el tema en particular, y diremos que estamos ante una mayor “cantidad de información”. Pregunta: ¿Hace calor allí? (una playa en particular) Respuesta 1: Sí, hace mucho calor. Respuesta 2: Cuando no sopla el viento, el calor allí es inaguantable pues supera los 42 grados a la sombra. Respuesta 2: Cuando no sopla el viento, el calor allí es inaguantable pues supera los 42 grados a la sombra.  ¿Dónde hay una mayor cantidad de información?

¿Qué es la información? Veremos qué información nos entrega un mensaje dependiendo del contexto en que nos encontremos: a) En función de la extensión del mensaje recibido. b) En función de la utilidad del mensaje recibido. c) En función de la sorpresa del mensaje recibido. d) Dependiendo del entorno de esa sorpresa. e) En función de la probabilidad de recibir un mensaje.

Cantidad de información (Caso 1)
En función de la extensión del mensaje Ante una pregunta cualquiera, una respuesta concreta y extensa nos entregará mayor información sobre el tema en particular, y diremos que estamos ante una mayor “cantidad de información”. Pregunta: ¿Hace calor allí? (una playa en particular) Respuesta 1: Sí, hace mucho calor. Respuesta 2: Cuando no sopla el viento, el calor allí es inaguantable pues supera los 42 grados a la sombra. Respuesta 2: Cuando no sopla el viento, el calor allí es inaguantable pues supera los 42 grados a la sombra.  ¿Dónde hay una mayor cantidad de información?

En función de la utilidad del mensaje Ante una pregunta cualquiera, una respuesta más útil y clara nos dejará con la sensación de haber recibido una mayor “cantidad de información”. Pregunta: ¿Hace calor allí? (una playa en particular) Respuesta 1: Sí, bastante calor. Respuesta 2: Si no hay viento de poniente, es normal que la temperatura suba. Respuesta 1: Sí, bastante calor.  ¿Dónde hay una mayor cantidad de información?

En función de la sorpresa del mensaje Ante una pregunta cualquiera, una respuesta más inesperada y sorprendente, nos dará la sensación de contener una mayor “cantidad de información”. Pregunta: ¿Hace calor allí? (Finlandia en primavera) Respuesta 1: Sí, muchísimo. Es insoportable. Respuesta 2: En esta época del año, la temperatura es más suave y el tiempo muy agradable. Respuesta 1: Sí, muchísimo. Es insoportable.  ¿Dónde hay una mayor cantidad de información?

Dependencia del entorno (sorpresa) Ante una pregunta cualquiera, una respuesta más inesperada y sorprendente, nos dará la sensación de contener una mayor “cantidad de información”. Pregunta: ¿Hace calor allí? (ahora las mismas respuestas hablan de la temperatura en un horno) Respuesta 1: Sí, muchísimo. Es insoportable. Respuesta 2: En esta época del año, la temperatura es más suave y el tiempo muy agradable. Respuesta 2: En esta época del año, la temperatura es más suave y el tiempo muy agradable. ? ¿Dónde hay una mayor cantidad de información?

En función de la probabilidad de recibir un mensaje Este enfoque probabilístico es el que nos interesará en cuanto a la definición de Cantidad de Información. ¿Dónde le da alegría a su cuerpo Macarena? Respuesta 1: En un país de Europa. Respuesta 2: En una capital de provincia de España. Respuesta 3: En el número 7 de la calle de la Sierpes de Sevilla. Respuesta 3: En el número 7 de la calle de la Sierpes de Sevilla. ¿Dónde hay una mayor cantidad de información?

Incertidumbre e información
Ante varios mensajes posibles, en principio todos equiprobables, aquel que tenga una menor probabilidad será el que contenga una mayor cantidad de información. En en ejemplo anterior: Al ser más extenso el número de calles en una ciudad que el número de provincias en España y, esto último mayor que el número de países en Europa, el primero de ellos tendrá una mayor incertidumbre. Suponiendo todos los estados equiprobables, la cantidad de información será la mayor.

INFORMACION(continuación)
¿Cuánta información obtenemos cuando nos dicen que cierta persona tiene el pelo oscuro, o que es un hombre o una mujer? Lo primero que debe quedarnos claro es que el hecho de obtener información es equivalente al de disminuir la indeterminación con respecto a algo, de tal forma que se obtiene tanta más información cuanto más disminuya el grado de incertidumbre que tenemos de cierto fenómeno.

Si se nos dicen las siguientes frases -La persona que describo tiene el pelo oscuro. La persona que describo es mujer.

En la primera frase se nos da un dato de todos los posibles (claro, castaño, pelirrojo, rubio,canoso, ...), al igual que en la segunda, pero en esta última el abanico de posibilidades no es tan grande (solo dos posibilidades), por tanto la primera nos da más información, al disminuir mucho más la incertidumbre que teníamos con respecto a la persona.

La cantidad de información que obtenemos con un mensaje es directamente proporcional al número de estados posibles de la cuestión planteada.

Algunas veces es conveniente expresar esta incertidumbre con relación a la que teníamos antes de conocer la información: la/ld Siendo la la incertidumbre antes de conocer el mensaje, e ld la que tenemos después de dicho conocimiento.

Grado de incertidumbre
Grado de incertidumbre previo Ia Grado de incertidumbre posterior Id ci = Si hay equiprobabilidad entonces p(xi) = 1/8 Ejemplo : En una bolsa hay un círculo, un cuadrado y un triángulo: negros o blancos. Esta será la combinación elegida NOTAS SOBRE EL TEMA: ¿Qué cantidad de información tiene cada uno de los estados?

Solución Incertidumbre inicial Ia = 8 Daremos algunas pistas :
Las figuras no son del mismo color: Ia baja de 8 a 6 al descartarse las combinaciones 1 y 8. El círculo es blanco: Ia baja de 6 a 3 (descarte 5, 6 y 7). Hay dos figuras blancas: Ia baja de 3 a 2 (descarte 4). El cuadrado es negro: Ia baja de 2 a 1 (descarte 2.) Los 8 estados serán equiprobables: p(xi) = 1/8 Veamos esto ahora matemáticamente ... NOTAS SOBRE EL TEMA: Se acaba la incertidumbre pues la solución es la combinación 3.

ci = ci1 + ci2 + ci3 + ci4 = log 8 - log 1 = log 8
Solución matemática Las figuras no son del mismo color. Ia baja de 8 a 6: ci1 = log (8/6) = log 8 - log 6 El círculo es blanco. Ia baja de 6 a 3: ci2 = log (6/3) = log 6 - log 3 Hay dos figuras blancas. Ia baja de 3 a 2: ci3 = log (3/2) = log 3 - log 2 El cuadrado es negro. Ia baja de 2 a 1: ci4 = log (2/1) = log 2 - log 1 Todas las magnitudes se pueden sumar como escalares: NOTAS SOBRE EL TEMA: ci = ci1 + ci2 + ci3 + ci4 = log 8 - log 1 = log 8

Base del logaritmo ci = log (Ia / Id) = log Ia - log Id
Sean: Ia la incertidumbre inicial Id la incertidumbre final ci = log (Ia / Id) = log Ia - log Id La cantidad de información tiene como unidad de medida la de un fenómeno de sólo dos estados, un fenómeno binario. Luego: ci = logb (2/1) = logb 2 - logb 1 Si logb 2 debe ser igual a 1 entonces la base b = 2. Precisamente a esta unidad se le llama bit (binary digit) Ejemplo anterior: ci = log2 8 = ¡Sólo 3 preguntas! NOTAS SOBRE EL TEMA:

Con sólo tres preguntas...
Con sólo tres preguntas “más o menos inteligentes” podemos pasar de la incertidumbre total a la certeza: Pregunta 1: ¿Está entre la opción 1 y la 4?  Sí Pregunta 2: ¿Está entre la opción 1 y la 2?  No Pregunta 3: ¿Es la opción 4?  No Se acaba la indeterminación NOTAS SOBRE EL TEMA:

Ejemplos: -Cuando nos dicen que una persona es mujer, la incertidumbre antes era de 2 (número posible de estados), siendo la incertidumbre posterior 1 (ya sabemos que es mujer) Si el ordenador que genera letras al azar nos dice que ha salido una vocal, la incertidumbre antes del dato era 27 (número de letras), y ahora es 5 (número de vocales)

Definición: Sea un suceso A que puede presentarse con probabilidad p(A), cuando dicho suceso tiene lugar se ha recibido una información I(A) = log 1/p(A) Unidades Bit (base 2) Dit (base 10) Nit (base n) Esto es cantidad de información

continuación BIT =0.30 DIT =0.69 NIT DIT 0 3.32 BIT= 2.3 NIT
NIT =1.44 BIT =0.43 DIT

La información más elemental que puede recibirse es la que indica la verificación entre dos sucesos igualmente probables. En este caso se dice que se ha recibido un bit de información.

Es muy importante distinguir entre bit como unidad de información y los símbolos 0 y 1 que representa las señales binarias. Estos símbolos se suelen llamar impropiamente bits, pero pueden contener o no 1 bit de información. Para distinguir, a los símbolos 0 y 1 se denominan binits.

Si la fuente dispone de 10 símbolos igualmente probables, la emisión de uno de ellos proporciona una cantidad de información de un Hartley o Dit ( decimal digit ). Si se elige un símbolo entre e (base de logaritmos neperianos ) equiprobables, la información recibida será de 1 Nit.

ejemplo Consideremos una imagen de televisión. Es una estructura de niveles de grises de pixels de 500 filas por columnas. Admitiremos que de los 600*500 = puntos podemos escoger 10 niveles de grises, de manera que puede haber imágenes distintas.

Si todas son igualmente probables, la probabilidad de una imagen es de

Así pues una imagen de T.V. equivale a 100 palabras de radio.
y la cantidad de información es: I(A) = log2 10 ~106 Bits Supongamos que un locutor de radio tiene un vocabulario de palabras y utiliza con normalidad palabras elegidas al azar. La probabilidad de una secuencia de palabras es de y por lo tanto la cantidad de información es Así pues una imagen de T.V. equivale a palabras de radio.

POSTULADOS EN TORNO A LA INFORMACION
Postulados de Wiener: Las maquinas de información no pueden ganar información: INFORMACION B <= INFORMACION A Los cerebros y los sistemas nerviosos son máquinas de información , más perfectas que las industriales , pero del mismo orden.

Información Compuesta
Información Compuesta por Coordinación Es el caso más simple: la información resultante está formada por la unión , en un orden cualquiera, de las informaciones elementales que la componen. Es decir no existe entre los elementos ni jerarquía, ni relación directa.

Ejemplo: Filiación de un individuo: a) D. N. I. b) Nombre c) Dirección d) Número de Teléfono

Información Compuesta por Subordinación
Está formada por la unión de elementos ligados entre si. Cada uno juega un papel distinto en el conjunto y normalmente, no se pueden permutar dos elementos o suprimir alguno de ellos

Ejemplo La dirección postal Sr. Pérez c/ Avenida Mesa y López 3509 LAS PALMAS España

IDEA Piense en la definición de Bit.
Información Definición: La medida de nuestra libertad de elección al escoger un mensaje de un conjunto de mensajes aunque muchos de ellos carezcan de significado. “Aquello que llega al cerebro a través de los sentidos y prporciona un incremento del conocimiento” IDEA Piense en la definición de Bit.

continuación Facetas:
Cantidad de conocimiento adquirido (información recibada) Calidad del conocimiento (depande de muchos factores) Demostraciones Testimonios Incidentes Documentos

CODIFICACION DE LA INFORMACION
Dígito decimal=> Representación binaria Características: Posibilidad de descodificar . Asignación a las palabras-código la menor longitud los mensajes de mayor probabilidad.

DIGITO-DECIMAL REPRESNTACION BINARIA
Fuente Palabras-código 1 2 3 4 5 6 7 8

CODIGO A SIMBOLO S1 S2 01 S3 011 S4 111 PALABRAS CODIGO
Sea la secuencia binaria puede provenir de la secuencia S4 S3 o bien de S4 S1 S2 por la tanto es un código que no se puede descifrar, cosa que no ocurriría con el siguiente SIMBOLO S1 S2 S3 S4 PALABRAS CODIGO 01 011 111

CODIGO B SIMBOLO S1 S2 S3 S4 PALABRAS-CODIGO 10 110 1110

Otro problema que se nos plantea es el la transmisión de la información.
Supongamos que tenemos que transmitir la información del tiempo entre Madrid y Las Palmas con un equipo de todo‑nada. Supongamos que los cuatro estados del tiempo en madrid son equiprobables.

ESTADO DEL TIEMPO EN LAS MADRID
MENSAJES Soleado Nublado Lluvia Niebla PROBABILIDADES 1/2

Código para el tiempo en Madrid
SIMBOLO S1 S2 S3 S4 PALABRAS-CODIGO 00 01 10 11

CODIGO A SIMBOLO S1 S2 S3 S4 PALABRAS-CODIGO 00 01 10 11

Por ejemplo : "soleado, niebla, niebla, nublado" se codificaría Si quisiéramos transmitir la misma información de Las Palmas a Madrid, es evidente que no utilizaríamos el mismo código. Tendríamos que asignarle probabilidades diferentes.

ESTADO DEL TIEMPO EN LAS PALMAS
MENSAJES Soleado Nublado Lluvia Niebla PROBABILIDADES 1/2 1/4 1/8 Si utilizamos el código A enviamos dos binits por mensaje independiente del estado del tiempo

CODIGO TIEMPO EN LAS PALMAS
PALABRAS-CODIGO 1 0 1 1 0 SIMBOLO S1 S2 S3 S4 Podemos tomar el 0 como final de la palabra‑código. Entonces el mensaje "nublado, soleado, soleado, lluvia"

ENTROPIA Como vemos, la incertidumbre está relacionada con el número de estados posibles de un fenómeno. Por ejemplo el número de estados posibles de disponer 8 bits, es 256=28. El número de palabras -con o sin sentido- que se pueden formar con 4 letras es 274. El hecho de que la fórmula de la cantidad de información, como veremos, presente el Lg (logaritmo en base 2) es para contrarrestar este carácter exponencial de los estados posibles y hacer las operaciones más fáciles. La base del logaritmo se toma 2, por comodidad, pero es igualmente válido cualquier otra base, ya que solo cambiaría por una constante. Recuérdese la fórmula: LogaX= LogbX/logba

Entropía (continuación)
Las cosas no son tan idealizadas, ya que casi cualquier fuente de información (una persona hablando, un ordenador "conversando" con otro, o un libro) tiene ponderados sus mensajes, es decir, algunos aparecen con más probabilidad que otros.

Siempre hay mas apariciones de una letra del alfabeto en un texto suficientemente grande, y es más probable que en nuestro país una persona sea morena. Por tanto esto también hay que tenerlo en cuenta.

Se obtiene más información si en un texto español la siguiente letra que leemos es una W, que si nos encontramos con una E, ya que la primera es menos frecuente en nuestro idioma, y su ocurrencia tiene mayor incertidumbre.

Se le asocia a cada estado posible su probabilidad, es decir, a una variable aleatoria se le asocia su espacio de probabilidades. Se define entonces la Cantidad de Información de un estado i como: I[ai] = -log p(ai) Siendo p(ai) la probabilidad asociada al estado (ai).

Existen aquí dos casos extremos que concuerdan con la idea intuitiva: Cuando la probabilidad de que algo suceda es 1,el suceso es seguro que ocurre, y la cantidad de información que obtenemos es nula, ya que -Lg(1)=0. Por el contrario cuando el suceso tiene probabilidad 0, la información obtenida es +infinito , ya que tiene la máxima incertidumbre posible.

ENTROPIA La cantidad de información total del sistema.Promedio de las informaciones de cada elemento ponderado por su probabilidad. H[X] = E[I(X)] = å p(ai) I(ai)

Definición de entropía
La entropía de un mensaje X, que se representa por H(X), es el valor medio ponderado de la cantidad de información de los diversos estados del mensaje. Es una medida de la incertidumbre media acerca de una variable aleatoria y el número de bits de información. k H(X) = -  p(ai) log2 p(ai) i = 1 Esto lo veremos más adelante en fuentes de información NOTAS SOBRE EL TEMA: El concepto de incertidumbre en H puede aceptarse. Es evidente que la función entropía representa una medida de la incertidumbre, no obstante se suele considerar la entropía como la información media suministrada por cada símbolo de la fuente

Cambio de ocurrencia

En base a todo lo anterior podemos dar una definición del concepto de entropía.
Sea una variable aleatoria (X) que toma valores de un conjunto A = [ a1, a2, .....an ] dotado de una función de probabilidades p(ai) = Prob [X=ai] para  p(ai) = 1

Si I(ai) es el grado de incertidumbre sobre la realización de un suceso X definimos la entropía de la variable X como la esperanza matemática de I(x) relativa al conjunto A. H[X] = E[I(X)] = å p(ai) I(ai) H[X] = E[I(X)] = - å p(ai) log p(ai)

continuación Caso 2 N --> p(x1) = 9/10 B --> p(x2) = 1/10 Caso 1
H[x1] = ‑[1/2 log2 1/+ 1/2 log2 1/2] = 1 Bits Caso 2 N --> p(x1) = 9/10 B --> p(x2) = 1/10 H[x1] =[1/10 log2 1/10 + 9/10 log2 9/10] = 0.67 B

Caso 3 N --> p(x1) = 99/100 B --> p(x2) = 1/100 H[x1] = [1/100 log2 1/ /100 log2 99/100] = Bits El primer caso es más incierto que el segundo y este más que el tercero, en el cual se tiene la certeza de obtener la bola negra. O sea que la entropía aumenta cuando aumenta la incertidumbre

Aquiles: ¿Qué es lo que hace un símbolo que no pueda hacer una señal?
Oso Hormiguero: Es algo así como la diferencia entre palabras y letras. Las palabras, que son entidades portadoras de significado, están compuestas por letras, que en si mismas no portan significado alguno. Esto da una buena idea de la diferencia entre símbolos y señales. De hecho, es una analogía útil en la medida que Ud. tenga en mente el hecho de que las palabras y letras son pasivas; los símbolos y señales son activos. Douglas R. Hofstadter. Parte del diálogo ... furnmiga, del libro Gödel, Escher, Bach un Eterno y Grácil Bucle

ENTROPIA CONDICIONAL

Preliminares Supongamos que tenemos en una empresa 125 ordenadores conectados en red a un servidor. Algunos de ellos son PC’s, mientras que el resto son simples terminales. También se sabe que algunos son antiguos, y otros han sido comprados más recientemente.

La distribución que tenemos es la siguiente
: Número de PC’s = 48, PC´s antiguos = 10 PC´s nuevos = 38 . Terminales = 77, de Terminales antiguas = 51 Terminales nuevas = 26 Veamos ahora lo que significa la probabilidad condicional

Si nos preguntamos sobre la posibilidad de que un equipo elegido al azar sea un PC, la respuesta será: p(a)=48/125=0.384. En cambio, si sabemos que el equipo seleccionado es antiguo, nos podemos valer de esta condición para calcular por ejemplo la probabilidad de que sea un PC: p(a)=10/(10+51)= 0.163 Número de PC’s = 48, PC´s antiguos = 10 PC´s nuevos = 38 Terminales = 77, de Terminales antiguas = 51 Terminales nuevas = 26 Total = = 125 Total antiguos =

En el lenguaje matemático, se expresa la probabilidad de que un evento ai suceda condicionado a que se de otro suceso bj de la siguiente manera PROBABILIDAD CONDICIONAL

PROBABILIDAD CONDICINAL
p(ai/bj) = probabilidad de obtener ai cuando haya ocurrido bj. p(bj/ai) = probabilidad de obtener bj cuando haya ocurrido ai. Es decir que la probabilidad que existe de se transmite ai y se reciba bj es: p(ai ,bj) = p(bj) p(ai/bj) que es igual a la probabilidad de que se reciba bj por la probabilidad de que habiendo recibido bj se haya transmitido ai.

Propiedades de la entropía
Entropía máxima:Probabilidades equiprobables. p(a1) = p(a2) =....= p(an) Þ p(ai) = 1/n Þ H[A] = máxima H[A] = - p(a1) log p(a1) - p(a2) log p(a2) - n p(an) log p(an) = -n 1/n log 1/n = log n H[A]max= log n La entropia es máxima cuando todos los mensajes, o todos las componentes del alfabeto fuente tienen la misma probabilidad.

Teorema: Para cualquier otra distribución de probabilidades, en las cuales todos los valores de las probabilidades sean iguales, la entropia es menor.

Entropía (continuación) ln x £ x-1 ( Desigualdad de Jessen) å pi ln pi'/pi £ å pi (pi'- pi)/pi Þ
Sea y = ln x , la tangente en el punto x1 = 1 ► y - y1 = m (x - x1) m = y' = 1/x Los valores en los puntos son: mx-1 = 1 x1= 1 y1 =0 →y = x-1 siempre ln x ≤ x-1 cumpliéndose la igualdad solamente en x = 1.

Haciendo en nuestro caso x = p´(ai)/p(ai) Þ p´(ai)= sucesos equiprobables
p(ai) = cualquier otra distribución Þ ln p´(ai)/p(ai) £ `[p´(ai)/p(ai)] - 1 cumpliéndose la igualdad en el caso que p´(ai)= p(ai) Multiplicamos los dos miembros de la desigualdad por p(ai) y sumamos para todas las i.

pi ln pi'/pi £ å pi (pi'- pi)/pi Þ å pi ln pi'/pi £ å pi' - å pi Þ
å pi ln pi' - å pi ln pi £ 0 å pi ln pi' £ å pi ln pi

En general å pi log pi' £ å pi log pi la igualdad se cumple cuando pi = pi' Si pi' = 1/n , o sea que todos los sucesos son igualmente probables entonces en

å pi log (1/n) £ å pi log pi Þ
log (1/n) å pi £ å pi lg pi -log (1/n) ³ - å pi lg pi Þ H[A] = £ - log (1/n) H[A] £ log n , pero H[A]max = log n Þ H[A] £ H[A]max

Propiedades(continuación)
Propiedad aditiva: H[AB] = - åå p(aibj) log p(aibj) H[AB] = H[A] + H[B] Sean dos fuentes A y B de alfabetos A = [ a1, a2,....an] B = [ b1, b2,....bm] y sus probabilidades asociadas: p(A) = [ p(a1), p(a2),....p(an) p(B) = [ p(b1), p(b2),....p(bm)

Consideremos la fuente compuesta
AB = [ a1b1, a2b2,.... anbm] p(AB) = [ p(a1b1), p(a2b2),.... p(anbm)] donde si los sucesos son estocásticamente independientes, la ocurrencia de ai no altera la la probabilidad de bj. p(aibj) = p(ai) p(bj)

H[AB] = -ååp(aibj) log p(aibj) = -åå p(ai) p(bj) log p(ai) p(bj)= - åå p(ai) p(bj) log p(ai) - åå p(ai) p(bj) log p(bj) = -å p(ai) å p(bj) log p(bj) - å p(bj) å p(ai) log p(ai) = -å p(bj) log p(bj) - å p(ai) log p(ai) = H[A] + H[B]

Cuando los mensajes de las fuentes son estocásticamente independientes la entropía de la fuente compuesta es igual a la suma de las entropías de cada una de las fuentes. H[AB] = H[A] + H[B]

Propiedades (continuación)
Entropía condicional. H[A/B] = -åå p(ai ,bj) log p(ai/bj) H[A/B] se llama ambigüedad o equívoco H[B/A] = -åå p(ai ,bj) log p(bj/ai H[B/A] se llama error medio

Sean dos fuentes A y B de alfabetos
A = [ a1, a2,....an] B = [ b1, b2,....bm] y sus p(A) = [ p(a1), p(a2),....p(an) p(B) = [ p(b1), p(b2),....p(bm)

Consideremos la fuente compuesta
AB = [ a1b1, a2b2,.... an bm] y de probabilidades p(AB) = [ p(a1b1), p(a2b2),.... p(anabm)] donde si los sucesos ai y bj no son estocásticamente independientes

existe un enlace estocástico entre ai y bj que está dado por las probabilidades condicionales:
p(ai/bj) = probabilidad de obtener ai cuando haya ocurrido bj. p(bj/ai) = probabilidad de obtener bj cuando haya ocurrido ai.

Es decir que la probabilidad que existe de se transmite ai y se reciba bj es:
p(ai ,bj) = p(bj) p(ai/bj) que es igual a la probabilidad de que se reciba bj por la probabilidad de que habiendo recibido bj se haya transmitido ai.

Si los acontecimientos a la salida son conocidos , existe una cierta incertidumbre sobre los acontecimientos a la entrada. El valor medio de esta incertidumbre es lo que se llama la entropía de la fuente A condicionada por la fuente B, esto es H[A/B]

Si bj es el símbolo que aparece a la salida de la fuente, existe una cierta incertidumbre sobre el símbolo emitido a la entrada que puede ser a1 a2 ...ai . El valor medio de esta incertidumbre sobre los símbolos de entrada cuando se conoce a la salida bj es el valor de la entropía condicional H[A/bj], que valdrá según la definición de entropía:

H[A/bj] = - å p(ai/bj) log p(ai/bj)
El valor medio de esta entropía para todos los posibles valores de bj es: H[A/B] = -å p(bj) log H[A/bj] H[A/B] = -åå p(bj) p(ai/bj) log p(ai/bj) pero p(bj) p(ai/bj) = p(ai,bj)

pero p(bj) p(ai/bj) = p(ai,bj)
entonces la ecuación anterior quedaría: H[A/B] = - åå p(ai ,bj) log p(ai/bj) La entropía H[A/B] se llama ambigüedad o equívoco porque nos da la medida de la incertidumbre sobre el campo de entrada, cuando se conoce la salida

La entropía H[B/A] se llama error medio porque nos da la medida de la incertidumbre sobre el campo de salida , cuando se conoce los símbolos de entrada. De la misma manera se demuestra que: H[B/A] = - åå p(ai ,bj) log p(bj/ai)

Ley de las entropías totales.
Consideremos la fuente compuesta AB = [ a1b1, a2b2,.... anbm] y de probabilidades p(AB) = [ p(a1b1), p(a2b2),.... p(anbm)] La entropía de esta fuente será: H[AB] = - åå p(aibj) log p(aibj) = - åå p(ai) p(bj/ai) log p(ai) p(bj/ai)

Realizando el logaritmo del producto H[AB] = - åå p(ai) p(bj/ai) log p(ai) - åå p(ai) p(bj/ai) log p(bj/ai) Pero - åå p(ai) p(bj/ai) log p(ai) = - å p(bj/ai) å p(ai) log p(ai) = H[A] ya que å p(bj/ai) = 1

El segundo sumando de la ecuación - åå p(ai) p(bj/ai) log p(bj/ai) = - åå p(bj ai) log p(bj/ai) = H[B/A] Sustituyendo estos valores H[AB] = H[A] + H[B/A]

H[AB] = H[A] + H[B/A] Condición Para que sea suma de las entropías

Otras propiedades de la entropía:
La entropía de una fuente A cuyo alfabeto está condicionado por el alfabeto de una fuente B siempre es igual o menor que el de una fuente A, alcanzándose la igualdad en el caso de que los alfabetos de las fuentes sean independientes. H[A/B] £ H[A] o H[B/A] £ H[B]

Otras propiedades de la entropía
La entropía de una fuente AB cuyo alfabeto se obtiene como las posibles parejas de símbolos de las fuentes A {ai} y B {bj} es siempre menor o igual a la entropía de cada una de las fuentes por separado. H[AB] £ H[A] + H[B]

Sean dos fuentes A y B de alfabetos A = [ a1, a2,....an] B = [ b1, b2,....bm] y sus probabilidades asociadas p(A) = [ p(a1), p(a2),....p(an) p(B) = [ p(b1), p(b2),....p(bm)

Consideremos la fuente compuesta AB = [ a1b1, a2b2,.... an bm] y de probabilidades p(AB) = [ p(a1b1), p(a2b2),.... p(anabm)] Sabemos que: p(ai) = åj p(aibj) p(bj) = åi p(aibj)

Entonces los valores de las entropías de las fuentes A y B se pueden escribir: H[A] = - å p(ai) log p(ai) = - åå p(bj ai) log p(ai) H[B] = - å p(bj) log p(bj) = - åå p(bj ai) log p(bj) Sumando las ecuaciones H[A] +H[B] = - åå p(bj ai) log [p(ai) p(bj) ]

Aplicando la desigualdad de Jessen [1.2] al caso de dos variables åå p(bj ai) log p'(ai,bj) £ åå p(bj ai) log p(ai bj) Pero el segundo miembro de la desigualdad åå p(bj ai) log p(ai bj) = - H[AB]

Pero p'(ai,bj) = p(ai) p(bj) ya que esta probabilidad se correspondía cundo los sucesos eran estocásticamente independientes, entonces el primer miembro de la desigualdad será: åå p(bj ai) log p'(ai,bj) = åå p(bj ai) log [ p(ai) p(bj)] = åå p(bj ai) log p(ai) +åå p(bj ai) log p(bj) = - [ H[A] + H[B]

Entonces en la desigualdad - [ H[A] + H[B] ] £ - H[AB] Cambiando de signo H[AB] £ [ H[A] + H[B]

H[A/B] £ H[A] o H[B/A] £ H[B] : H[AB] £ H[A] + H[B] IDEA Diferenciar entre entropía y información mutua

CANTIDAD DE INFORMACION DE SHANNON
La obtención de información sobre el resultado de una experiencia representaba una disminución de la incertidumbre asociada a la misma. Dadas dos variables aleatorias A, B se llama cantidad de información de Shannon que la variable A suministra sobre la variable B a la diferencia I(A,B) = H[A] ‑ H[A/B]

Propiedades de la cantidad de información
La información que una variable contiene sobre otra coincide con la que ésta contiene sobre la primera. En efecto H[A,B] = H[A] + H[B/A] = H[B] + H[A/B] ====> H[A] - H[A/B] = H[B] - H[B/A] I(A,B) = I(B,A)

La cantidad de información que una variable contiene sobre otra es siempre positiva y es nula si existe independencia estocástica entre ellas. Sabemos que H[B/A]< H[B] =====> I(A,B)= H[B] - H[B/A]> 0 cuando existe independencia estocástica entre las variables H[B/A]= H[B] => I(A,B)= H[B] - H[B]= 0

La cantidad de información máxima que una variable contiene sobre otra está acotada por su entropía y coincide con la información que la variable contiene sobre sí misma. I(A,B)= H[B] - H[B/A]< H[B] por ser H[B/A]> 0 y como H[B/B] = H[B] I(B,B)= H[B]

Otra forma de expresar la información partiendo de las propiedades de la entropía. Como H[A,B] = H[A] + H[B/A] ===> H[A/B] = H[A,B] - H[B] Entonces en la información mutua I(A,B)= H[B] - H[B/A]= = H[A] + H[B] - H[A,B]

PROBLEMA Un emisor dispone de un alfabeto de cinco símbolos A≡[a1 a2 a3 a4 a5] y un receptor de un alfabeto de cuatro símbolos B≡[b1 b2 b3 b4]. Sabiendo que las probabilidades de acoplamiento vienen dadas por la matriz [M] P(aibj) b1 b2 b3 b4 a1 0.25 0.05 a2 0.10 a3 a4 0.15 0.2 a5

Calcular : 1.- La matriz probabilidades de entrada y de salida. 2.- La matriz P[ai/bj] y P[bj/ai] La entropía de entrada H[A] y de salida H[B] Las entropías H[A/bj] y H[A/B] La entropía compuesta H[A,B]

H(X) =  p(x) log2 [1/p(x)]
Codificador óptimo Nos falta encontrar el segundo término pendiente en la definición de cantidad de información: codificador óptimo. Introduciendo el signo negativo dentro del logaritmo en la expresión de la entropía, nos quedará como: H(X) =  p(x) log2 [1/p(x)] i La expresión log2 [1/p(x)] representa el número necesario de bits para codificar el mensaje X en un codificador óptimo. Un codificador óptimo es aquel que usa el número menor de bits para codificar un mensaje X.

TEORIA DE LA INFORMACION

Presentaciones similares

Presentación del tema: "TEORIA DE LA INFORMACION"— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback

Iniciar la sesión

Autorizarse a través de una red social:

TEORIA DE LA INFORMACION

Presentaciones similares

Presentación del tema: "TEORIA DE LA INFORMACION"— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback