Tema #1: Teoría de la Información y la Codificación.

Tema #1: Teoría de la Información y la Codificación.
Clase 1.2:

Sumario Codificación Eficiente. Introducción. Código Shannon-Fano.
Código de Huffman.

Bibliografía Oscar Pedroso Valdés, Marcos A Pérez García, Fundamentos de la Comunicación Estadística, pp

Recordatorio Se definió la eficiencia de un código como: =H(s)/L

Primer Teorema de Shannon:
La cantidad promedio de símbolos necesarios para representar los mensajes de una fuente puede hacerse tan semejante como se quiera a la entropía de la fuente pero, nunca menor que ese valor.

Longitud Promedio Se calcula a partir de las probabilidades de ocurrencia del carácter o mensaje: q L =  P(si) li i= símbolos/mensaje

Donde: q: cantidad de símbolos del alfabeto fuente.
P(si): probabilidad de ocurrencia del símbolo (mensaje). li: longitud de la palabra de código.

Eficiencia de código El único parámetro que puede variarse es la longitud promedio de las palabras del código. Para aumentar la eficiencia es necesario disminuir la longitud al máximo posible.

Eficiencia de código La forma más evidente de disminuir la longitud promedio de las palabras del código es asociando a los mensajes más probables, las menores longitudes de palabras del código y viceversa.

Códigos a estudiar Código de Shannon-Fano. Código de Huffman.

Código de Shannon-Fano

Shannon-Fano: Los mensajes se colocan en una tabla en orden decreciente de probabilidades. Estos se dividen en r grupos (r es la base del código elegido para codificar ) de forma tal que la suma de las probabilidades, en cada grupo, sea casi igual .

Shannon-Fano: A cada mensaje de estos grupos se le asocia como primer símbolo de la palabra codificada uno de los r símbolos del código. Cada uno de los grupos obtenidos es dividido a su vez en r subgrupos con probabilidades lo más parecidas posibles.

Shannon-Fano: El proceso continua hasta que en cada grupo queden r mensajes.

Método para sistemas binarios:
Sean n símbolos si (i=1,2,...,n) de probabilidades Pi distribuidas en orden decreciente.

Método para sistemas binarios
) Se toman los caracteres de más alta probabilidad y se obtienen dos subconjuntos, de tal modo que las sumas de las probabilidades de cada grupo sean, en la medida de lo posible, iguales.

2) A todos los símbolos de la mitad superior se les agrega como primer símbolo del alfabeto de código el 1 (o el cero) y a los inferiores el símbolo 0 (o el 1).

Los dos subconjuntos se dividen a su vez en dos subgrupos con iguales probabilidades sumarias. 4)Se repite desde el primer paso.

Ejemplo 1 Si P(Si) Palabras de Código S1 0,22 11 S2 0,20 101 S3 0,16
100 S4 01 S5 0,10 001 S6 0001 S7 0,04 00001 S8 0,02 00000

Ejemplo 1 El código así obtenido es eficiente, ya que a los símbolos de probabilidades más altas le corresponden las palabras de código más cortas. L=2,84 símbolos/mensaje H(s)=2,76 Shannon/símbolo =97,2 %.

Ejemplo 2 Si P(Si) Palabras de Código S1 0,22 11 S2 0,20 10 S3 0,16
011 S4 010 S5 0,10 001 S6 0001 S7 0,04 00001 S8 0,02 00000

Ejemplo 2 Se obtendrá una codificación diferente:
L=2,8 símbolos/mensaje H(s)=2,76 Shannon/símbolo = 98,5%.

Inconvenientes El método de Shannon-Fano no siempre conduce a la construcción unívoca del código, ya que al dividir en subgrupos es posible elevar la probabilidad, tanto del subgrupo superior como del inferior.

Código de Huffman

Historia En 1951, a David Huffman y sus compañeros de clase de la asignatura “Teoría de la Información” se les permitió optar entre la realización de un examen final o la presentación de un trabajo. El profesor Robert. M Fano asignó las condiciones del trabajo bajo la premisa de encontrar el código binario más eficiente. Huffman, ante la imposibilidad de demostrar qué código era más eficiente, se rindió y empezó a estudiar para el examen final. 25

Historia Mientras estaba en este proceso vino a su mente la idea de usar árboles binarios de frecuencia ordenada y rápidamente probó que éste era el método más eficiente. Con este estudio, Huffman superó a su profesor, quien había trabajado con el inventor de la teoría de la información Claude Shannon con el fin de desarrollar un código similar. Huffman solucionó la mayor parte de los errores en el algoritmo de codificación Shannon-Fano. La solución se basaba en el proceso de construir el árbol desde el fondo hasta la raíz en vez de al contrario. 26

Huffman Huffman garantiza una única solución en la síntesis del código, con la menor cantidad promedio de símbolos por mensajes para una distribución de probabilidades dada de los mensajes de la fuente.

Este es el código considerado como de mayor eficiencia.

Mayor eficiencia No hay dos mensajes con iguales secuencias.
Cumple la condición de los prefijos. Los símbolos más probables son codificados con palabras de códigos de menor longitud l1 <= l2 <= l3.....<=lm

Mayor eficiencia Los dos mensajes menos probables son codificados con palabras de igual longitud lm = lm-1.

Método de Huffman: Los mensajes del alfabeto se colocan en la columna principal, se escriben en orden de disminución de las probabilidades. Los 2 últimos mensajes se unen en uno auxiliar al que se le atribuye la probabilidad suma.

Método de Huffman Las probabilidades del resto de los mensajes, así como la probabilidad suma obtenida, se ordenan otra vez. Los pasos 1,2 y 3 se repiten hasta obtener un único mensaje auxiliar con probabilidad igual a la unidad.

Método de Huffman Se construye un árbol de codificación:
A partir del punto correspondiente a la probabilidad 1, se trazan 2 ramas otorgando a la de mayor probabilidad el símbolo 1 y a la de menor el símbolo 0.

Método de Huffman -Se revierten las uniones en el orden inverso al que se formaron. -Esta ramificación continúa hasta alcanzar la probabilidad de cada mensaje.

Ejemplo 3

Ejemplo 3 Si Código S1 01 S2 00 S3 111 S4 110 S5 100 S6 1011 S7 10101
10100

Ejemplo 3 L= 2,8  = 0,985

Inconvenientes Las probabilidades de la fuente pueden no ser conocidas a priori. (solución: empleo de mensajes patrones para determinar estadísticas).

Inconvenientes La naturaleza de la fuente puede significar un conjunto muy grande de símbolos (lenta codificación y requiere gran memoria su implementación).

Preguntas 1. ¿Cuáles son los principales componentes en el modelo de comunicación de Shannon? ¿Y los componentes del transmisor y receptor en un sistema de transmisión de datos? 2. ¿Qué limitaciones o efectos indeseables en el canal de comunicaciones, debe contrarrestar el transmisor? 3. Mencione 3 fuentes de información discreta y 3 fuentes de información continua ¿Por qué es importante modelar cualquier fuente de información como fuente discreta? 4. ¿Cuál de estos eventos genera más información? “Una lámpara se enciende” ó “Una lámpara se funde” ¿Por qué?

5. Ya se vio que una moneda es una fuente discreta de dos símbolos, cada uno con probabilidad de 0.5
¿Es posible la generación de un tercer símbolo? ¿Qué cantidad de información aportaría? 6. ¿Consideraría el lenguaje español escrito como un código de longitud variable? ¿Por qué? 7. Estudio Independiente. La secuencia binaria: Es un mensaje codificado mediante Huffman. Decodifique el mensaje si las probabilidades de los símbolos son: l : e: 0.3 a: t:0.1

Tema #1: Teoría de la Información y la Codificación.

Presentaciones similares

Presentación del tema: "Tema #1: Teoría de la Información y la Codificación."— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback

Iniciar la sesión

Autorizarse a través de una red social:

Tema #1: Teoría de la Información y la Codificación.

Presentaciones similares

Presentación del tema: "Tema #1: Teoría de la Información y la Codificación."— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback