La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Copyright, © mgonzalez TEORIA DE LA INFORMACION. © M.González TEORIA DE LA INFORMACION Curso 2004/2005 Las Palmas.

Presentaciones similares


Presentación del tema: "Copyright, © mgonzalez TEORIA DE LA INFORMACION. © M.González TEORIA DE LA INFORMACION Curso 2004/2005 Las Palmas."— Transcripción de la presentación:

1 Copyright, © mgonzalez TEORIA DE LA INFORMACION

2 © M.González TEORIA DE LA INFORMACION Curso 2004/2005 Las Palmas.

3 © M.González Introducción Después de que Einstein demostrara la equivalencia entre masa y energia los dos parametros que la civilizazcion utiliza son INFORMACION y ENERGIA relacionado por la formula de Shanonn

4 © M.GonzálezORIGEN Teoría de la Información –1948 Snannon Una teoría Matemática de la Comunicación –1929 L. Szilar: Información-Paradoja Física –1928: Hartlye: Método de comparación de los distintos métodos de transmisores de la información –1948: Wiener: Cibérnetica –1953:McMillan- Fuenete de Información, canal de transmisión –1956: Khintchine- Tratamiento completo T.I. para caneles ergódicos. Resumen –1953: Winograd: Estableció un lazo entre T.C. de Shannon y la teoría de autómatas

5 © M.González Documento de Shannon Escrito por Shannon en En él se desarrolla buena parte de la actual teoría llamada de la información Concepto de información Medida de "cantidad de información". Tratamiento matemático de la información

6 © M.González Comunicación Quizás Fourier fue el primero en dar una teoría matemática para un problema de comunicación. Aunque su descubrimiento fue debido a unos trabajos sobre transmisión de calor, su teoría es tan general que prácticamente se puede aplicar a cualquier área.

7 © M.González INFORMACION Terminología Señal manifestación física ( de orden electromagnética, onda sonora...) capaz de propagarse en un medio dado. Es la definición más amplia del concepto de señal.

8 © M.González Terminología Mensaje:Señal que corresponde a una realización particular del conjunto de señales dadas Fuente:proceso por el cual, entre todos los mensajes posibles, es escogido de una manera imprevisible un mensaje particular, destinado a ser transmitido a un receptor (observador

9 © M.González Terminología Observador :Destinatario final del mensaje. Canal Totalidad de los medios destinados a la transmisión de la señal.

10 © M.González Terminología Modulación Transformación de un mensaje en una señal, al efecto de facilitar y aumentar la eficacia de la transmisión y reducir los errores de la misma. Demulación Operación inversa de la modulación.

11 © M.GonzálezTerminología Codificación: Transformación de un mensaje en una señal discreta, cuya principal objetivo es aumentar la eficacia de la transmisión Decodificación Operación inversa de la codificación Perturbación: Señal que modifica una señal aleatoria útil, disminuyendo la cantidad de información que circula por ella.

12 © M.González INFORMACION- CONOCIMIENTO

13 © M.González a) Teoría de la Información Información:Información: –Conjunto de datos o mensajes inteligibles creados con un lenguaje de representación y que debemos proteger antes las amenazas del entorno, durante su transmisión o almacenamiento, con técnicas criptográficas. La Teoría de la Información mide la cantidad de información que contiene un mensaje a través del número medio de bits necesario para codificar todos los posibles mensajes con un codificador óptimo.La Teoría de la Información mide la cantidad de información que contiene un mensaje a través del número medio de bits necesario para codificar todos los posibles mensajes con un codificador óptimo.

14 © M.González CLASES DE INFORMACION Voz: Mecanismo primario para la comunicación humana. Es de naturaleza acústica.

15 © M.González Imágenes: mecanismo primario para la comunicación humana. Es de naturaleza óptica.

16 © M.González Datos: Información en forma numérica. Es de naturaleza electromagnética.

17 © M.González DATOS-INFORMACIÓN Y CONOCIMIENTO DATOS: Secuencias de números, letras, etc. presentados sin un contexto INFORMACIÓN. Datos organizados, tablas, estadísticas de ventas, una charla (chat) bien presentada (Conjunto coherente de datos que transmite un mensaje) CONOCIMIENTO. Información organizada junto con la comprensión de lo que significa dentro de un contexto, que se puede utilizar

18 © M.González INFORMACION-CONOCIMIENTO Conocimiento: Información integrada en las estructuras cognitivas de un individuo ( es personal e intransferible) No podemos transmitir conocimiento, sólo información que el receptor puede o no convertirla en conocimiento

19 © M.González GESTION DEL CONOCIMIENTO Conocimiento es la capacidad para transformar datos e información en acciones efectivas (eficaces). (J.D.Edwards) Gestión del conocimiento significa entregar a las personas los datos e información necesarias para ser eficientes (eficaces) en sus trabajos

20 © M.González LA CADENA DEL CONOCIMIENTO Datos Textos, Cifras, Imágenes, Sonidos, Información Datos organizados Conocimiento explícito y tácito Conocimiento explícito y tácito Información disponible para ser usada de forma productiva, para abordar un problema Capital Intelectual Capital Intelectual Conocimiento que produce valor CI = Conocimiento transformado en valor para la organización Organizar Estructurar Agrupar Categorizar Contexto Concepto Generalización Aplicación

21 © M.González CONSTRUCCION DEL CONOCIMIENTO CAPTACIÓN - Oído - Olfato - Vista - Gusto - Tacto CLASIFICACIÓN Memoria + Raciocinio DISTRIBUCIÓN Lenguaje (Oral, escrito, señales, etc.) NUEVAS CORRELACIONES Inteligencia + Intuición i C

22 © M.González ADMINISTRACION DEL CONOCIMIENTO Y LA TECNOLOGIA DE LA INFORMACION CAPTACIÓN Internet Scanner Multimedia Redes CLASIFICACIÓN Bases de datos Programas de Indexación DISTRIBUCIÓN Internet Redes NUEVAS CORRELACIONES Data Warehousing Capital Intelectual Workflow

23 © M.González a) Teoría de la Información Información:Información: –Conjunto de datos o mensajes inteligibles creados con un lenguaje de representación y que debemos proteger antes las amenazas del entorno, durante su transmisión o almacenamiento, con técnicas criptográficas. La Teoría de la Información mide la cantidad de información que contiene un mensaje a través del número medio de bits necesario para codificar todos los posibles mensajes con un codificador óptimo.La Teoría de la Información mide la cantidad de información que contiene un mensaje a través del número medio de bits necesario para codificar todos los posibles mensajes con un codificador óptimo. Vamos a buscar estas dos nuevas definiciones en las diapositivas siguientes: Cantidad de Información Codificador Optimo

24 © M.González Representación de la Información Numérica, alfabética, simbólica, lenguaje. 24/01/ /01/ /24/ Todos son el día 24 de enero del año Todos son el día 24 de enero del año Vitaminas: B 12, C,... Grupo sanguíneo: A2 Rh+ Elementos: Fe, Si, Hg Compuestos químicos: H 2 O, CO 2 Más común Lenguaje con código: Hoy hace calor ¿Qué información entrega el mensaje Hace calor?

25 © M.González Cantidad de Información (I) En función de la extensión del mensaje –Ante una pregunta cualquiera, una respuesta concreta y extensa nos entregará mayor información sobre el tema en particular, y diremos que estamos ante una mayor cantidad de información. Pregunta: ¿Hace calor allí? (una playa en particular)Pregunta: ¿Hace calor allí? (una playa en particular) –Respuesta 1: Sí, hace mucho calor. –Respuesta 2: Cuando no sopla el viento, el calor allí es inaguantable pues supera los 42 grados a la sombra. ¿Dónde hay una mayor cantidad de información?

26 © M.González ¿Qué es la información? Veremos qué información nos entrega un mensaje dependiendo del contexto en que nos encontremos: a) En función de la extensión del mensaje recibido. b) En función de la utilidad del mensaje recibido. c) En función de la sorpresa del mensaje recibido. d) Dependiendo del entorno de esa sorpresa. e) En función de la probabilidad de recibir un mensaje.

27 © M.González Cantidad de información (Caso 1) En función de la extensión del mensaje –Ante una pregunta cualquiera, una respuesta concreta y extensa nos entregará mayor información sobre el tema en particular, y diremos que estamos ante una mayor cantidad de información. Pregunta: ¿Hace calor allí? (una playa en particular) –Respuesta 1: Sí, hace mucho calor. –Respuesta 2: Cuando no sopla el viento, el calor allí es inaguantable pues supera los 42 grados a la sombra. ¿Dónde hay una mayor cantidad de información? –Respuesta 2: Cuando no sopla el viento, el calor allí es inaguantable pues supera los 42 grados a la sombra.

28 © M.González Cantidad de información (Caso 2) En función de la utilidad del mensaje –Ante una pregunta cualquiera, una respuesta más útil y clara nos dejará con la sensación de haber recibido una mayor cantidad de información. Pregunta: ¿Hace calor allí? (una playa en particular) –Respuesta 1: Sí, bastante calor. –Respuesta 2: Si no hay viento de poniente, es normal que la temperatura suba. ¿Dónde hay una mayor cantidad de información? –Respuesta 1: Sí, bastante calor.

29 © M.González Cantidad de información (Caso 3) En función de la sorpresa del mensaje –Ante una pregunta cualquiera, una respuesta más inesperada y sorprendente, nos dará la sensación de contener una mayor cantidad de información. Pregunta: ¿Hace calor allí? (Finlandia en primavera) –Respuesta 1: Sí, muchísimo. Es insoportable. –Respuesta 2: En esta época del año, la temperatura es más suave y el tiempo muy agradable. ¿Dónde hay una mayor cantidad de información? –Respuesta 1: Sí, muchísimo. Es insoportable.

30 © M.González Cantidad de información (Caso 4) Dependencia del entorno (sorpresa) –Ante una pregunta cualquiera, una respuesta más inesperada y sorprendente, nos dará la sensación de contener una mayor cantidad de información. Pregunta: ¿Hace calor allí? (ahora las mismas respuestas hablan de la temperatura en un horno) –Respuesta 1: Sí, muchísimo. Es insoportable. –Respuesta 2: En esta época del año, la temperatura es más suave y el tiempo muy agradable. ¿Dónde hay una mayor cantidad de información? –Respuesta 2: En esta época del año, la temperatura es más suave y el tiempo muy agradable. ?

31 © M.González Cantidad de información (Caso 5) En función de la probabilidad de recibir un mensaje –Este enfoque probabilístico es el que nos interesará en cuanto a la definición de Cantidad de Información. ¿Dónde le da alegría a su cuerpo Macarena? –Respuesta 1: En un país de Europa. –Respuesta 2: En una capital de provincia de España. –Respuesta 3: En el número 7 de la calle de la Sierpes de Sevilla. ¿Dónde hay una mayor cantidad de información? –Respuesta 3: En el número 7 de la calle de la Sierpes de Sevilla.

32 © M.González Incertidumbre e información Ante varios mensajes posibles, en principio todos equiprobables, aquel que tenga una menor probabilidad será el que contenga una mayor cantidad de información. En en ejemplo anterior: –Al ser más extenso el número de calles en una ciudad que el número de provincias en España y, esto último mayor que el número de países en Europa, el primero de ellos tendrá una mayor incertidumbre. Suponiendo todos los estados equiprobables, la cantidad de información será la mayor.

33 © M.González INFORMACION(continuación) ¿Cuánta información obtenemos cuando nos dicen que cierta persona tiene el pelo oscuro, o que es un hombre o una mujer? Lo primero que debe quedarnos claro es que el hecho de obtener información es equivalente al de disminuir la indeterminación con respecto a algo, de tal forma que se obtiene tanta más información cuanto más disminuya el grado de incertidumbre que tenemos de cierto fenómeno.

34 © M.González INFORMACION(continuación) Si se nos dicen las siguientes frases -La persona que describo tiene el pelo oscuro. La persona que describo es mujer.

35 © M.González INFORMACION(continuación) En la primera frase se nos da un dato de todos los posibles (claro, castaño, pelirrojo, rubio,canoso,...), al igual que en la segunda, pero en esta última el abanico de posibilidades no es tan grande (solo dos posibilidades), por tanto la primera nos da más información, al disminuir mucho más la incertidumbre que teníamos con respecto a la persona.

36 © M.González INFORMACION(continuación) La cantidad de información que obtenemos con un mensaje es directamente proporcional al número de estados posibles de la cuestión planteada.

37 © M.González INFORMACION(continuación) Algunas veces es conveniente expresar esta incertidumbre con relación a la que teníamos antes de conocer la información: l a /l d Siendo l a la incertidumbre antes de conocer el mensaje, e l d la que tenemos después de dicho conocimiento.

38 © M.González Grado de incertidumbre previo I a Grado de incertidumbre posterior I d c i = Ejemplo : En una bolsa hay un círculo, un cuadrado y un triángulo: negros o blancos. ¿Qué cantidad de información tiene cada uno de los estados? Si hay equiprobabilidad entonces p(x i ) = 1/8 Grado de incertidumbre Esta será la combinación elegida

39 © M.González Incertidumbre inicial I a = 8 Daremos algunas pistas : –Las figuras no son del mismo color: I a baja de 8 a 6 al descartarse las combinaciones 1 y 8. –El círculo es blanco: I a baja de 6 a 3 (descarte 5, 6 y 7). –Hay dos figuras blancas: I a baja de 3 a 2 (descarte 4). –El cuadrado es negro: I a baja de 2 a 1 (descarte 2.) Veamos esto ahora matemáticamente... Se acaba la incertidumbre pues la solución es la combinación 3. Solución Los 8 estados serán equiprobables: p(x i ) = 1/8

40 © M.González –Las figuras no son del mismo color. I a baja de 8 a 6: c i1 = log (8/6) = log 8 - log 6 –El círculo es blanco. I a baja de 6 a 3: c i2 = log (6/3) = log 6 - log 3 –Hay dos figuras blancas. I a baja de 3 a 2: c i3 = log (3/2) = log 3 - log 2 –El cuadrado es negro. I a baja de 2 a 1: c i4 = log (2/1) = log 2 - log 1 Todas las magnitudes se pueden sumar como escalares: c i = c i1 + c i2 + c i3 + c i4 = log 8 - log 1 = log 8 Solución matemática

41 © M.González Sean: I a la incertidumbre inicial I d la incertidumbre final c i = log (I a / I d ) = log I a - log I d La cantidad de información tiene como unidad de medida la de un fenómeno de sólo dos estados, un fenómeno binario. Luego: c i = log b (2/1) = log b 2 - log b 1 – Si log b 2 debe ser igual a 1 entonces la base b = 2. – Precisamente a esta unidad se le llama bit (binary digit) – Ejemplo anterior: c i = log 2 8 = 3 ¡Sólo 3 preguntas! Base del logaritmo

42 © M.González Con sólo tres preguntas más o menos inteligentes podemos pasar de la incertidumbre total a la certeza: Pregunta 1: ¿Está entre la opción 1 y la 4? Sí Pregunta 2: ¿Está entre la opción 1 y la 2? No Pregunta 3: ¿Es la opción 4? No Se acaba la indeterminación Con sólo tres preguntas...

43 © M.González INFORMACION(continuación) Ejemplos: -Cuando nos dicen que una persona es mujer, la incertidumbre antes era de 2 (número posible de estados), siendo la incertidumbre posterior 1 (ya sabemos que es mujer) Si el ordenador que genera letras al azar nos dice que ha salido una vocal, la incertidumbre antes del dato era 27 (número de letras), y ahora es 5 (número de vocales)

44 © M.González INFORMACION(continuación) Definición: Sea un suceso A que puede presentarse con probabilidad p(A), cuando dicho suceso tiene lugar se ha recibido una información I(A) = log 1/p(A) Unidades –Bit (base 2) –Dit (base 10) –Nit (base n) Esto es cantidad de información

45 © M.González continuación –BIT =0.30 DIT =0.69 NIT –DIT BIT= 2.3 NIT –NIT =1.44 BIT =0.43 DIT

46 © M.González INFORMACION(continuación) La información más elemental que puede recibirse es la que indica la verificación entre dos sucesos igualmente probables. En este caso se dice que se ha recibido un bit de información.

47 © M.González INFORMACION(continuación) Es muy importante distinguir entre bit como unidad de información y los símbolos 0 y 1 que representa las señales binarias. Estos símbolos se suelen llamar impropiamente bits, pero pueden contener o no 1 bit de información. Para distinguir, a los símbolos 0 y 1 se denominan binits.

48 © M.González INFORMACION(continuación) Si la fuente dispone de 10 símbolos igualmente probables, la emisión de uno de ellos proporciona una cantidad de información de un Hartley o Dit ( decimal digit ). Si se elige un símbolo entre e (base de logaritmos neperianos ) equiprobables, la información recibida será de 1 Nit.

49 © M.González ejemplo Consideremos una imagen de televisión. Es una estructura de niveles de grises de pixels de 500 filas por 600 columnas. Admitiremos que de los 600*500 = puntos podemos escoger 10 niveles de grises, de manera que puede haber imágenes distintas.

50 © M.González Si todas son igualmente probables, la probabilidad de una imagen es de

51 © M.González y la cantidad de información es: I(A) = log 2 10 ~10 6 Bits Supongamos que un locutor de radio tiene un vocabulario de palabras y utiliza con normalidad palabras elegidas al azar. La probabilidad de una secuencia de palabras es de y por lo tanto la cantidad de información es Así pues una imagen de T.V. equivale a 100 palabras de radio.

52 © M.González POSTULADOS EN TORNO A LA INFORMACION Postulados de Wiener: –Las maquinas de información no pueden ganar información: INFORMACION B <= INFORMACION A –Los cerebros y los sistemas nerviosos son máquinas de información, más perfectas que las industriales, pero del mismo orden.

53 © M.González

54 Información Compuesta Información Compuesta por Coordinación Es el caso más simple: la información resultante está formada por la unión, en un orden cualquiera, de las informaciones elementales que la componen. Es decir no existe entre los elementos ni jerarquía, ni relación directa.

55 © M.González Ejemplo: Filiación de un individuo: a) D. N. I. b) Nombre c) Dirección d) Número de Teléfono

56 © M.González Información Compuesta por Subordinación Está formada por la unión de elementos ligados entre si. Cada uno juega un papel distinto en el conjunto y normalmente, no se pueden permutar dos elementos o suprimir alguno de ellos

57 © M.González Ejemplo La dirección postal Sr. Pérez c/ Avenida Mesa y López 3509 LAS PALMAS España

58 © M.González Información Definición: La medida de nuestra libertad de elección al escoger un mensaje de un conjunto de mensajes aunque muchos de ellos carezcan de significado. Aquello que llega al cerebro a través de los sentidos y prporciona un incremento del conocimiento IDEA Piense en la definición de Bit.

59 © M.González continuación Facetas: –Cantidad de conocimiento adquirido (información recibada) –Calidad del conocimiento (depande de muchos factores) –Demostraciones –Testimonios –Incidentes –Documentos

60 © M.González CODIFICACION DE LA INFORMACION Dígito decimal=> Representación binaria Características: –Posibilidad de descodificar. –Asignación a las palabras-código la menor longitud los mensajes de mayor probabilidad.

61 © M.González DIGITO-DECIMAL REPRESNTACION BINARIA FuentePalabras-código

62 © M.González CODIGO A SIMBOLO S 1 S 2 S 3 S 4 PALABRAS CODIGO Sea la secuencia binaria puede provenir de la secuencia S4 S3 o bien de S4 S1 S2 por la tanto es un código que no se puede descifrar, cosa que no ocurriría con el siguiente

63 © M.González CODIGO B SIMBOLO S 1 S 2 S 3 S 4 PALABRAS-CODIGO

64 © M.González Otro problema que se nos plantea es el la transmisión de la información. Supongamos que tenemos que transmitir la información del tiempo entre Madrid y Las Palmas con un equipo de todo nada. Supongamos que los cuatro estados del tiempo en madrid son equiprobables.

65 © M.González ESTADO DEL TIEMPO EN LAS MADRID MENSAJES Soleado Nublado Lluvia Niebla PROBABILIDADES 1/2

66 © M.González Código para el tiempo en Madrid SIMBOLO S 1 S 2 S 3 S 4 PALABRAS-CODIGO

67 © M.González CODIGO A SIMBOLO S 1 S 2 S 3 S 4 PALABRAS-CODIGO

68 © M.González Por ejemplo : "soleado, niebla, niebla, nublado" se codificaría Si quisiéramos transmitir la misma información de Las Palmas a Madrid, es evidente que no utilizaríamos el mismo código. Tendríamos que asignarle probabilidades diferentes.

69 © M.González ESTADO DEL TIEMPO EN LAS PALMAS MENSAJES Soleado Nublado Lluvia Niebla PROBABILIDADES 1/2 1/4 1/8 Si utilizamos el código A enviamos dos binits por mensaje independiente del estado del tiempo

70 © M.González CODIGO TIEMPO EN LAS PALMAS SIMBOLO S 1 S 2 S 3 S 4 PALABRAS-CODIGO Podemos tomar el 0 como final de la palabra código. Entonces el mensaje "nublado, soleado, soleado, lluvia"

71 © M.González ENTROPIA Como vemos, la incertidumbre está relacionada con el número de estados posibles de un fenómeno. Por ejemplo el número de estados posibles de disponer 8 bits, es 256=2 8. El número de palabras - con o sin sentido- que se pueden formar con 4 letras es El hecho de que la fórmula de la cantidad de información, como veremos, presente el Lg (logaritmo en base 2) es para contrarrestar este carácter exponencial de los estados posibles y hacer las operaciones más fáciles. La base del logaritmo se toma 2, por comodidad, pero es igualmente válido cualquier otra base, ya que solo cambiaría por una constante. Recuérdese la fórmula: Log a X= Log b X/log b a

72 © M.González Entropía (continuación) Las cosas no son tan idealizadas, ya que casi cualquier fuente de información (una persona hablando, un ordenador "conversando" con otro, o un libro) tiene ponderados sus mensajes, es decir, algunos aparecen con más probabilidad que otros.

73 © M.González Entropía (continuación) Siempre hay mas apariciones de una letra del alfabeto en un texto suficientemente grande, y es más probable que en nuestro país una persona sea morena. Por tanto esto también hay que tenerlo en cuenta.

74 © M.González Entropía (continuación) Se obtiene más información si en un texto español la siguiente letra que leemos es una W, que si nos encontramos con una E, ya que la primera es menos frecuente en nuestro idioma, y su ocurrencia tiene mayor incertidumbre.

75 © M.González Entropía (continuación) Se le asocia a cada estado posible su probabilidad, es decir, a una variable aleatoria se le asocia su espacio de probabilidades. Se define entonces la Cantidad de Información de un estado i como: I[a i ] = -log p(a i ) Siendo p(a i ) la probabilidad asociada al estado (a i ).

76 © M.González Entropía (continuación) Existen aquí dos casos extremos que concuerdan con la idea intuitiva: Cuando la probabilidad de que algo suceda es 1,el suceso es seguro que ocurre, y la cantidad de información que obtenemos es nula, ya que - Lg(1)=0. Por el contrario cuando el suceso tiene probabilidad 0, la información obtenida es +infinito, ya que tiene la máxima incertidumbre posible.

77 © M.González ENTROPIA La cantidad de información total del sistema.Promedio de las informaciones de cada elemento ponderado por su probabilidad. H[X] = E[I(X)] = p(a i ) I(a i )

78 © M.González La entropía de un mensaje X, que se representa por H(X), es el valor medio ponderado de la cantidad de información de los diversos estados del mensaje. Es una medida de la incertidumbre media acerca de una variable aleatoria y el número de bits de información. k H(X) = - p(a i ) log 2 p(a i ) i = 1 El concepto de incertidumbre en H puede aceptarse. Es evidente que la función entropía representa una medida de la incertidumbre, no obstante se suele considerar la entropía como la información media suministrada por cada símbolo de la fuente Esto lo veremos más adelante en fuentes de información Definición de entropía

79 © M.González Entropía (continuación)

80 © M.González Entropía (continuación) Cambio de ocurrencia

81 © M.González En base a todo lo anterior podemos dar una definición del concepto de entropía. Sea una variable aleatoria (X) que toma valores de un conjunto A = [ a 1, a 2,.....a n ] dotado de una función de probabilidades p(a i ) = Prob [X=a i ] para p(a i ) = 1

82 © M.González Si I(a i ) es el grado de incertidumbre sobre la realización de un suceso X definimos la entropía de la variable X como la esperanza matemática de I(x) relativa al conjunto A. H[X] = E[I(X)] = p(a i ) I(a i ) H[X] = E[I(X)] = - p(a i ) log p(a i )

83 © M.González Entropía (continuación)

84 © M.González continuación Caso 1 N > p(x1) = 1/2 B > p(x2) = 1/2 H[x1] = [1/2 log2 1/+ 1/2 log2 1/2] = 1 Bits Caso 2 N --> p(x 1 ) = 9/10 B --> p(x 2 ) = 1/10 H[x1] =[1/10 log 2 1/10 + 9/10 log 2 9/10] = 0.67 B

85 © M.González Entropía (continuación) Caso 3 N --> p(x 1 ) = 99/100 B --> p(x 2 ) = 1/100 H[x1] = [1/100 log 2 1/ /100 log 2 99/100] = 0.08 Bits El primer caso es más incierto que el segundo y este más que el tercero, en el cual se tiene la certeza de obtener la bola negra. O sea que la entropía aumenta cuando aumenta la incertidumbre

86 © M.González Aquiles: ¿Qué es lo que hace un símbolo que no pueda hacer una señal? Oso Hormiguero: Es algo así como la diferencia entre palabras y letras. Las palabras, que son entidades portadoras de significado, están compuestas por letras, que en si mismas no portan significado alguno. Esto da una buena idea de la diferencia entre símbolos y señales. De hecho, es una analogía útil en la medida que Ud. tenga en mente el hecho de que las palabras y letras son pasivas; los símbolos y señales son activos. Douglas R. Hofstadter.Douglas R. Hofstadter. Parte del diálogo... furnmiga, del libro Gödel, Escher, Bach un Eterno y Grácil Bucle Parte del diálogo... furnmiga, del libro Gödel, Escher, Bach un Eterno y Grácil Bucle

87 ENTROPIA CONDICIONAL

88 © M.González Preliminares Supongamos que tenemos en una empresa 125 ordenadores conectados en red a un servidor. Algunos de ellos son PCs, mientras que el resto son simples terminales. También se sabe que algunos son antiguos, y otros han sido comprados más recientemente.

89 © M.González La distribución que tenemos es la siguiente : Número de PCs = 48, PC´s antiguos = 10 PC´s nuevos = 38. Terminales = 77, de Terminales antiguas = 51 Terminales nuevas = 26 Veamos ahora lo que significa la probabilidad condicional

90 © M.González Si nos preguntamos sobre la posibilidad de que un equipo elegido al azar sea un PC, la respuesta será: p(a)=48/125= En cambio, si sabemos que el equipo seleccionado es antiguo, nos podemos valer de esta condición para calcular por ejemplo la probabilidad de que sea un PC: p(a)=10/(10+51)= Número de PCs = 48, PC´s antiguos = 10 PC´s nuevos = 38 Terminales = 77, de Terminales antiguas = 51 Terminales nuevas = 26 Total = = 125 Total antiguos =

91 © M.González En el lenguaje matemático, se expresa la probabilidad de que un evento a i suceda condicionado a que se de otro suceso b j de la siguiente manera PROBABILIDAD CONDICIONAL

92 © M.González PROBABILIDAD CONDICINAL p(a i /b j ) = probabilidad de obtener a i cuando haya ocurrido b j. p(b j /a i ) = probabilidad de obtener b j cuando haya ocurrido a i. Es decir que la probabilidad que existe de se transmite a i y se reciba b j es: p(a i,b j ) = p(b j ) p(a i /b j ) que es igual a la probabilidad de que se reciba b j por la probabilidad de que habiendo recibido b j se haya transmitido a i.

93 © M.González Propiedades de la entropía Entropía máxima:Probabilidades equiprobables. p(a 1 ) = p(a 2 ) =....= p(a n ) p(a i ) = 1/n H[A] = máxima H[A] = - p(a 1 ) log p(a 1 ) - p(a 2 ) log p(a 2 ) - n p(a n ) log p(a n ) = -n 1/n log 1/n = log n H[A] max = log n La entropia es máxima cuando todos los mensajes, o todos las componentes del alfabeto fuente tienen la misma probabilidad.

94 © M.González Teorema: Para cualquier otra distribución de probabilidades, en las cuales todos los valores de las probabilidades sean iguales, la entropia es menor.

95 © M.González Entropía (continuación) Entropía (continuación) ln x x-1 ( Desigualdad de Jessen) p i ln p i '/p i p i (p i '- p i )/p i Sea y = ln x, la tangente en el punto x 1 = 1 y - y 1 = m (x - x 1 ) m = y' = 1/x Los valores en los puntos son: m x-1 = 1 x 1 = 1 y 1 =0 y = x-1 siempre ln x x-1 cumpliéndose la igualdad solamente en x = 1.

96 © M.González Haciendo en nuestro caso x = p´(a i )/p(a i ) p´(a i )= sucesos equiprobables p(a i ) = cualquier otra distribución ln p´(a i )/p(a i ) `[p´(a i )/p(a i )] - 1 cumpliéndose la igualdad en el caso que p´(a i )= p(a i ) Multiplicamos los dos miembros de la desigualdad por p(a i ) y sumamos para todas las i.

97 © M.González p i ln p i '/p i p i (p i '- p i )/p i p i ln p i '/p i p i ' - p i p i ln p i '/p i 0 p i ln p i ' - p i ln p i 0 p i ln p i ' p i ln p i

98 © M.González En general p i log p i ' p i log p i la igualdad se cumple cuando p i = p i ' Si p i ' = 1/n, o sea que todos los sucesos son igualmente probables entonces en

99 © M.González p i log (1/n) p i log p i log (1/n) p i p i lg p i -log (1/n) - p i lg p i H[A] = - log (1/n) H[A] log n, pero H[A] max = log n H[A] H[A] max

100 © M.González Propiedades(continuación) Propiedad aditiva: H[AB] = - p(a i b j ) log p(a i b j ) H[AB] = H[A] + H[B] Sean dos fuentes A y B de alfabetos A = [ a 1, a 2,....a n ] B = [ b 1, b 2,....b m ] y sus probabilidades asociadas: p(A) = [ p(a 1 ), p(a 2 ),....p(a n ) p(B) = [ p(b 1 ), p(b 2 ),....p(b m )

101 © M.González Consideremos la fuente compuesta AB = [ a 1 b 1, a 2 b 2,.... a n b m ] p(AB) = [ p(a 1 b 1 ), p(a 2 b 2 ),.... p(a n b m )] donde si los sucesos son estocásticamente independientes, la ocurrencia de a i no altera la la probabilidad de b j. p(a i b j ) = p(a i ) p(b j )

102 © M.González H[AB] = - p(a i b j ) log p(a i b j ) = - p(a i ) p(b j ) log p(a i ) p(b j )= - p(a i ) p(b j ) log p(a i ) - p(a i ) p(b j ) log p(b j ) = - p(a i ) p(b j ) log p(b j ) - p(b j ) p(a i ) log p(a i ) = - p(b j ) log p(b j ) - p(a i ) log p(a i ) = H[A] + H[B]

103 © M.González Cuando los mensajes de las fuentes son estocásticamente independientes la entropía de la fuente compuesta es igual a la suma de las entropías de cada una de las fuentes. H[AB] = H[A] + H[B]

104 © M.González Propiedades (continuación) Entropía condicional. H[A/B] = - p(a i,b j ) log p(a i /b j ) H[A/B] se llama ambigüedad o equívoco H[B/A] = - p(a i,b j ) log p(b j /a i H[B/A] se llama error medio

105 © M.González Sean dos fuentes A y B de alfabetos A = [ a 1, a 2,....a n ] B = [ b 1, b 2,....b m ] y sus p(A) = [ p(a 1 ), p(a 2 ),....p(a n ) p(B) = [ p(b 1 ), p(b 2 ),....p(b m )

106 © M.González Consideremos la fuente compuesta AB = [ a 1 b 1, a 2 b 2,.... a n b m ] y de probabilidades p(AB) = [ p(a 1 b 1 ), p(a 2 b 2 ),.... p(a n ab m )] donde si los sucesos a i y b j no son estocásticamente independientes

107 © M.González existe un enlace estocástico entre a i y b j que está dado por las probabilidades condicionales: p(a i /b j ) = probabilidad de obtener a i cuando haya ocurrido b j. p(b j /a i ) = probabilidad de obtener b j cuando haya ocurrido a i.

108 © M.González Es decir que la probabilidad que existe de se transmite a i y se reciba b j es: p(a i,b j ) = p(b j ) p(a i /b j ) que es igual a la probabilidad de que se reciba b j por la probabilidad de que habiendo recibido b j se haya transmitido a i.

109 © M.González Si los acontecimientos a la salida son conocidos, existe una cierta incertidumbre sobre los acontecimientos a la entrada. El valor medio de esta incertidumbre es lo que se llama la entropía de la fuente A condicionada por la fuente B, esto es H[A/B]

110 © M.González Si b j es el símbolo que aparece a la salida de la fuente, existe una cierta incertidumbre sobre el símbolo emitido a la entrada que puede ser a 1 a 2...a i. El valor medio de esta incertidumbre sobre los símbolos de entrada cuando se conoce a la salida b j es el valor de la entropía condicional H[A/b j ], que valdrá según la definición de entropía:

111 © M.González H[A/b j ] = - p(a i /b j ) log p(a i /b j ) El valor medio de esta entropía para todos los posibles valores de b j es: H[A/B] = - p(b j ) log H[A/b j ] H[A/B] = - p(b j ) p(ai/b j ) log p(a i /b j ) pero p(b j ) p(a i /b j ) = p(a i,b j )

112 © M.González pero p(b j ) p(a i /b j ) = p(a i,b j ) entonces la ecuación anterior quedaría: H[A/B] = - p(a i,b j ) log p(a i /b j ) La entropía H[A/B] se llama ambigüedad o equívoco porque nos da la medida de la incertidumbre sobre el campo de entrada, cuando se conoce la salida

113 © M.González La entropía H[B/A] se llama error medio porque nos da la medida de la incertidumbre sobre el campo de salida, cuando se conoce los símbolos de entrada. De la misma manera se demuestra que: H[B/A] = - p(a i,b j ) log p(b j /a i )

114 © M.González Ley de las entropías totales. Consideremos la fuente compuesta AB = [ a 1 b 1, a 2 b 2,.... a n b m ] y de probabilidades p(AB) = [ p(a 1 b 1 ), p(a 2 b 2 ),.... p(a n b m )] La entropía de esta fuente será: H[AB] = - p(a i b j ) log p(a i b j ) = - p(a i ) p(b j /a i ) log p(a i ) p(b j /a i )

115 © M.González Ley de las entropías totales. Realizando el logaritmo del producto H[AB] = - p(a i ) p(b j /a i ) log p(a i ) - p(a i ) p(b j /a i ) log p(b j /a i ) Pero - p(a i ) p(b j /a i ) log p(a i ) = - p(b j /a i ) p(a i ) log p(a i ) = H[A] ya que p(b j /a i ) = 1

116 © M.González Ley de las entropías totales. El segundo sumando de la ecuación - p(a i ) p(b j /a i ) log p(b j /a i ) = - p(b j a i ) log p(b j /a i ) = H[B/A ] Sustituyendo estos valores H[AB] = H[A] + H[B/A]

117 © M.González H[AB] = H[A] + H[B/A] Ley de las entropías totales. Condición Para que sea suma de las entropías

118 © M.González Otras propiedades de la entropía: La entropía de una fuente A cuyo alfabeto está condicionado por el alfabeto de una fuente B siempre es igual o menor que el de una fuente A, alcanzándose la igualdad en el caso de que los alfabetos de las fuentes sean independientes. H[A/B] H[A] o H[B/A] H[B]

119 © M.González Otras propiedades de la entropía La entropía de una fuente AB cuyo alfabeto se obtiene como las posibles parejas de símbolos de las fuentes A {a i } y B {b j } es siempre menor o igual a la entropía de cada una de las fuentes por separado. H[AB] H[A] + H[B]

120 © M.González Propiedades (continuación) Sean dos fuentes A y B de alfabetos A = [ a 1, a 2,....a n ] B = [ b 1, b 2,....b m ] y sus probabilidades asociadas p(A) = [ p(a 1 ), p(a 2 ),....p(a n ) p(B) = [ p(b 1 ), p(b 2 ),....p(b m )

121 © M.González Propiedades (continuación) Consideremos la fuente compuesta AB = [ a 1 b 1, a 2 b 2,.... a n b m ] y de probabilidades p(AB) = [ p(a 1 b 1 ), p(a 2 b 2 ),.... p(a n ab m )] Sabemos que: p(a i) = j p(a i b j ) p(b j) = i p(a i b j )

122 © M.González Propiedades (continuación) Entonces los valores de las entropías de las fuentes A y B se pueden escribir: H[A] = - p(a i ) log p(a i ) = - p(b j a i ) log p(a i ) H[B] = - p(b j ) log p(b j ) = - p(b j a i ) log p(b j ) Sumando las ecuaciones H[A] +H[B] = - p(b j a i ) log [p(a i ) p(b j ) ]

123 © M.González Propiedades (continuación) Aplicando la desigualdad de Jessen [1.2] al caso de dos variables p(b j a i ) log p'(a i,b j ) p(b j a i ) log p(a i b j ) Pero el segundo miembro de la desigualdad p(b j a i ) log p(a i b j ) = - H[AB]

124 © M.González Propiedades (continuación) Pero p'(a i,b j ) = p(a i ) p(b j ) ya que esta probabilidad se correspondía cundo los sucesos eran estocásticamente independientes, entonces el primer miembro de la desigualdad será: p(b j a i ) log p'(a i,b j ) = p(b j a i ) log [ p(a i ) p(b j )] = p(b j a i ) log p(a i ) + p(b j a i ) log p(b j ) = - [ H[A] + H[B]

125 © M.González Propiedades (continuación) Entonces en la desigualdad - [ H[A] + H[B] ] - H[AB] Cambiando de signo H[AB] [ H[A] + H[B]

126 © M.González Propiedades (continuación) H[A/B] H[A] o H[B/A] H[B] : H[AB] H[A] + H[B] IDEA Diferenciar entre entropía y información mutua

127 © M.González CANTIDAD DE INFORMACION DE SHANNON La obtención de información sobre el resultado de una experiencia representaba una disminución de la incertidumbre asociada a la misma. Dadas dos variables aleatorias A, B se llama cantidad de información de Shannon que la variable A suministra sobre la variable B a la diferencia I(A,B) = H[A] H[A/B]

128 © M.González Propiedades de la cantidad de información La información que una variable contiene sobre otra coincide con la que ésta contiene sobre la primera. En efecto H[A,B] = H[A] + H[B/A] = H[B] + H[A/B] ====> H[A] - H[A/B] = H[B] - H[B/A] I(A,B) = I(B,A)

129 © M.González Propiedades de la cantidad de información La cantidad de información que una variable contiene sobre otra es siempre positiva y es nula si existe independencia estocástica entre ellas. Sabemos que H[B/A] I(A,B)= H[B] - H[B/A]> 0 cuando existe independencia estocástica entre las variables H[B/A]= H[B] => I(A,B)= H[B] - H[B]= 0

130 © M.González Propiedades de la cantidad de información La cantidad de información máxima que una variable contiene sobre otra está acotada por su entropía y coincide con la información que la variable contiene sobre sí misma. I(A,B)= H[B] - H[B/A]< H[B] por ser H[B/A]> 0 y como H[B/B] = H[B] I(B,B)= H[B]

131 © M.González Propiedades de la cantidad de información Otra forma de expresar la información partiendo de las propiedades de la entropía. Como H[A,B] = H[A] + H[B/A] ===> H[A/B] = H[A,B] - H[B] Entonces en la información mutua I(A,B)= H[B] - H[B/A]= = H[A] + H[B] - H[A,B]

132 © M.González PROBLEMA Un emisor dispone de un alfabeto de cinco símbolos A[a 1 a 2 a 3 a 4 a 5 ] y un receptor de un alfabeto de cuatro símbolos B[b 1 b 2 b 3 b 4 ]. Sabiendo que las probabilidades de acoplamiento vienen dadas por la matriz [M] P(a i b j ) b1b1 b2b2 b3b3 b4b4 a1a a2a a3a a4a a5a

133 © M.González Calcular : 1.- La matriz probabilidades de entrada y de salida. 2.- La matriz P[a i /b j ] y P[b j /a i ] La entropía de entrada H[A] y de salida H[B] Las entropías H[A/b j ] y H[A/B] La entropía compuesta H[A,B]

134 © M.González Codificador óptimo Nos falta encontrar el segundo término pendiente en la definición de cantidad de información: codificador óptimo. Introduciendo el signo negativo dentro del logaritmo en la expresión de la entropía, nos quedará como: H(X) = p(x) log 2 [1/p(x)] i La expresión log 2 [1/p(x)] representa el número necesario de bits para codificar el mensaje X en un codificador óptimo. Un codificador óptimo es aquel que usa el número menor de bits para codificar un mensaje X.


Descargar ppt "Copyright, © mgonzalez TEORIA DE LA INFORMACION. © M.González TEORIA DE LA INFORMACION Curso 2004/2005 Las Palmas."

Presentaciones similares


Anuncios Google