La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Unidad VI. Teoría de la información

Presentaciones similares


Presentación del tema: "Unidad VI. Teoría de la información"— Transcripción de la presentación:

1 Unidad VI. Teoría de la información
Matemáticas para Computación Dr. Felipe Orihuela-Espina

2 Conocimiento previo requerido
Necesario: Probabilidad Estadística Análisis de Fourier Deseable: Teoría de grafos (y en general de redes) Modulación (c) Dr. Felipe Orihuela-Espina

3 (c) 2006-15 Dr. Felipe Orihuela-Espina
Contenidos Definiciones (1h) Cantidad de información, entropía, entropía mutua Fuentes y canales (0.5h) Codificación (1.5h) Sin pérdidas Con pérdidas (c) Dr. Felipe Orihuela-Espina

4 Lecturas recomendadas
Shannon, C. E. (1948) “A mathematical theory of communication” The Bell System Technical Journal, 27: Cover, T.-M. y Thomas, J.-A. (2006) Elements of Information theory. 2a Ed. Ash, R. (1965) Information theory. John Wiley & Sons Reza, F. M. (1961) An introduction to information theory. McGraw-Hill Craig, R. T. (1999) “Communication Theory as a Field” Communication Theory 9(2): (c) Dr. Felipe Orihuela-Espina

5 (c) 2006-15 Dr. Felipe Orihuela-Espina
Otros recursos Mis apuntes de la asignatura “Transmisión de Datos” impartida en la UAEMex en 2006 …en particular la Unidad II de Fundamentos …de hecho mucho (todo) del material está sacado de ahí …quien quiera que me los pida (c) Dr. Felipe Orihuela-Espina

6 Teoría de la información
La teoría de la información (de Shannon) “se llamó originalmente” teoría de la comunicación …aunque el término (y el concepto) de teoría de la información ya existía desde los años 20, y varios conceptos asociados ya habían sido desarrollados en Bell labs. …y siendo estrictos, la teoría de la comunicación en general no es sólo la línea que surge a partir del artículo de Shannon (ver [CraigRT1999]) Está basada en probabilidad y estadística. Claude Elwood Shannon Estadounidense ( ) (c) Dr. Felipe Orihuela-Espina

7 Introducción a la teoría de la información
El creador de la teoría de la información fue Shannon hacia 1948. …bueno, no exactamente (ya existían el término y algunos conceptos), pero su artículo si se considera como el pistoletazo de salida. Debido a su origen, mucha de la nomenclatura y terminología está inspirada en términos de comunicación, pero observa que los conceptos trascienden la teoría de la comunicación!! Por ejemplo; Una “fuente” puede ser cualquier sensor, un “canal” puede ser cualquier función o proceso estocástica, etc. (c) Dr. Felipe Orihuela-Espina

8 Introducción a la teoría de la información
La teoría de la información pretende cuantificar la cantidad de información que se transmite con el fin de intentar optimizarla para su transmisión eficiente. Ya que “cuesta” mucho transmitir la información, se intenta minimizar la información que se transmite. Su busca por tanto: compactar al máximo la información para transmitir el mínimo, y añadirle una redundancia óptima que permita detectar errores ocurridos durante la transmisión. (c) Dr. Felipe Orihuela-Espina

9 (c) 2006-15 Dr. Felipe Orihuela-Espina
PreliminarES (c) Dr. Felipe Orihuela-Espina

10 Señales analógicas y digitales
Existen dos tipos de señales: analógicas y digitales. Las analógicas, pueden tomar un número infinito de valores en un intervalo de tiempo dado. Las digitales sólo pueden tomar un número finito de valores. (c) Dr. Felipe Orihuela-Espina

11 Banda base y códigos de línea
Las señales que no sufren ningún proceso de modulación ni desplazamiento en frecuencia, se denominan señales en banda base. En el caso de señales digitales también se denominan códigos en banda base o códigos de línea. Las transmisiones/comunicaciones en banda base son frecuentes debido al bajo coste de los equipos de transmisión. (c) Dr. Felipe Orihuela-Espina

12 (c) 2006-15 Dr. Felipe Orihuela-Espina
Unidades de medida Decibelio: Expresa una ganancia (G) o atenuación (A – ganancia negativa) como relación entre la entrada y salida de un sistema. …siendo P0 la potencia de salida y Pi la potencia de entrada. Observa que el decibelio es una unidad adimensional. (c) Dr. Felipe Orihuela-Espina

13 (c) 2006-15 Dr. Felipe Orihuela-Espina
Unidades de medida Decibelio: Ejemplo: ¿Qué ganancia debe tener un amplificador para que su salida doble su potencia de entrada? …es decir, cada 3dB aproximadamente se duplica la potencia de salida. (c) Dr. Felipe Orihuela-Espina

14 (c) 2006-15 Dr. Felipe Orihuela-Espina
Unidades de medida Decibelio: Ejemplo: ¿Qué ganancia debe tener un amplificador para que su salida aumente en un orden de magnitud su potencia de entrada? (c) Dr. Felipe Orihuela-Espina

15 (c) 2006-15 Dr. Felipe Orihuela-Espina
Unidades de medida Decibelio-miliwatio (dBm): Expresa una ganancia (G) o atenuación (A – ganancia negativa) entre la entrada y una referencia fija de 1 miliwatio. Al contrario que el decibelio que es una medida relativa, los dBm son una medida absoluta. (c) Dr. Felipe Orihuela-Espina

16 (c) 2006-15 Dr. Felipe Orihuela-Espina
Unidades de medida Decibelio sin carga (dBu –del inglés unloaded): Expresa una ganancia (G) o atenuación (A – ganancia negativa) entre la entrada y un valor de tensión fijo de 0.775V. …en particular; 0.775V es el potencial correspondiente a una señal de potencia de 1mW atravesando una resistencia de 600. Al contrario que el decibelio que es una medida relativa, los dBu son una medida absoluta. (c) Dr. Felipe Orihuela-Espina

17 Características de las señales
La serie trigonométrica de Fourier permite representar casi cualquier función en el tiempo (es necesario que la señal cumpla una serie de condiciones) como una suma posiblemente infinita de señales senoidales. Las señales digitales de forma general se basan en forma de onda cuadrada. En la Figura se puede observar una señal de pulso digital y su espectro de frecuencia. (c) Dr. Felipe Orihuela-Espina

18 Características de las señales
Régimen binario: Al número de bits transmitido en un segundo se le denomina régimen binario (Rb) En ausencia de modulaciones multinivel, el régimen binario Rb, corresponde con 1/τ siendo τ el ancho del pulso. La forma del espectro en frecuencia depende del código de línea utilizado, pero invariablemente siempre que se incrementa el régimen binario, aumenta la anchura del espectro en frecuencia de la señal generada [Estepa2003]. (c) Dr. Felipe Orihuela-Espina

19 Características de las señales
Ancho de banda (BW – del inglés bandwidth): Se define el ancho de banda como el intervalo de frecuencias en el cual se concentra la mayor parte de la energía. A menudo esa mayor parte de la energía se refiere a donde la atenuación es menor a 3dB. Se expresa en Hz o rad/s. Podemos definir el ancho de banda para: Una señal Un canal de transmisión (c) Dr. Felipe Orihuela-Espina

20 Características de las señales
Ancho de banda (BW) de una señal: Se define el ancho de banda de una señal como el intervalo de frecuencias en el cual se concentra la mayor parte de la energía de una señal. Aunque para señales reales el espectro en frecuencia es simétrico con respecto al eje de ordenadas, sólo se tiene en cuenta las frecuencias positivas. (c) Dr. Felipe Orihuela-Espina

21 Características de las señales
Ancho de banda (BW) de un canal: Informal: Es la extensión de las frecuencias (positivas) para las cuales el filtro del canal deja pasar la señal sin distorsión. Semi-formal: Se define el ancho de banda de un canal como el intervalo de frecuencias en el cual la atenuación es menor a 3dB. Formal: Se define el ancho de banda de un canal de comunicación como el intervalo de frecuencias o extensión de frecuencias (positivas) para las cuales la atenuación A del medio de transmisión es menor a 3dB respecto al valor en la frecuencia f0 donde la atenuación del canal toma su valor mínimo A0. (c) Dr. Felipe Orihuela-Espina

22 Características de las señales
Ancho de banda (BW) de un canal: El ancho de banda de un canal está relacionado con la cantidad de información que podemos enviar por el mismo. No se debe confundir el ancho de banda de un canal con el ancho de banda de una señal. (c) Dr. Felipe Orihuela-Espina

23 (c) 2006-15 Dr. Felipe Orihuela-Espina
Frecuencia de corte Frecuencia de corte: Se define la frecuencia de corte ωc de 3dB como la frecuencia positiva para la cual la respuesta en magnitud ha disminuido en un factor de 1/√2 (∼3dB) con respecto de su máximo f0. (c) Dr. Felipe Orihuela-Espina

24 (c) 2006-15 Dr. Felipe Orihuela-Espina
Frecuencia de corte Puede haber más de una frecuencia de corte, como por ejemplo es común en los filtros de paso de banda. En los filtros paso baja, normalmente se puede determinar el ancho de banda simplemente indicando su frecuencia de corte ωc. En los filtros paso banda normalmente se indica el valor ω = ωcmax − ωcmin. En los filtros de paso de alta o rechazo de banda, no tiene sentido hablar de ancho de banda, ya que este sería infinito, pero si que existe la/s frecuencia/s de corte. En la práctica no existen filtros que dejen pasar infinitas frecuencias. (c) Dr. Felipe Orihuela-Espina

25 (c) 2006-15 Dr. Felipe Orihuela-Espina
Ruido Ruido: A cualquier perturbación o interferencia no deseada que afecte a la señal que se introduzca en la línea de transmisión se le conoce como ruido. El ruido normalmente es aleatorio y por tanto no se puede predecir su magnitud en un momento determinado. (c) Dr. Felipe Orihuela-Espina

26 (c) 2006-15 Dr. Felipe Orihuela-Espina
Ruido Ruido: Existen diferentes tipos de ruido entre los que podemos destacar: Ruido Blanco: Su energía afecta por igual a todo el rango de frecuencias. Ruido Impulsivo: Irregular con picos pronunciados y de corta duración. (c) Dr. Felipe Orihuela-Espina

27 (c) 2006-15 Dr. Felipe Orihuela-Espina
Ruido Ruido: Se define la relación señal-ruido (SNR -Signal-Noise Ratio) como: … donde S y N son la potencia de la señal y la potencia del ruido respectivamente expresadas en Wattios. (c) Dr. Felipe Orihuela-Espina

28 Muestreo y reconstrucción
La naturaleza es analógica… En la realidad, en una comunicación se envían señales analógicas pero es útil transformarlas a digitales para trabajar con ellas, debido a la simplicidad en el manejo de las señales digitales. Luego en el destino debe ser posible reconstruir la señal analógica original y(t) de forma unívoca a partir de las muestras yd[n]. (c) Dr. Felipe Orihuela-Espina

29 Muestreo y reconstrucción
Para ello se usan convertidores analógico/digitales (CAD) y digitales/analógicos (CDA). Estos convertidores muestrean la señal cada periodo de muestreo. (c) Dr. Felipe Orihuela-Espina

30 Muestreo y reconstrucción
Idealmente, el muestreo se corresponde con la multiplicación de la señal x(t) con la señal impulso unitario periódica δT(t) (delta de Dirac), donde T es el periodo, lo que resulta en la señal muestreada xs(t). (c) Dr. Felipe Orihuela-Espina

31 Muestreo y reconstrucción
Como: La señal muestreada xs(t) será (c) Dr. Felipe Orihuela-Espina

32 Teorema de muestreo de Nyquist
Sea x(t) una señal limitada en banda, es decir, X(ω) = 0 para |ω|>ωm, la cual es muestreada cada Ts segundos. En estas condiciones, x(t) estará unívocamente determinada a partir de sus muestras si la frecuencia de muestreo ωs = 2π/Ts es mayor a 2ωm. A 2ωm se la conoce como Frecuencia de Nyquist y a π/ωm se le conoce como Periodo de Nyquist. (c) Dr. Felipe Orihuela-Espina

33 Métodos prácticos de muestreo
Como en la realidad no se pueden generar impulsos ideales, desfortunadamente no se puede muestrear como en la teoría. Se deben usar otros métodos. Vemos dos de ellos. Muestreo natural Muestreo instantáneo (c) Dr. Felipe Orihuela-Espina

34 Métodos prácticos de muestreo
Las señales de longitud finita en el tiempo, al convertirlas al dominio de la frecuencia resultan en infinitos valores de frecuencia en la banda |ω|>ωm. Al muestrearlas de forma periódica se producen réplicas, como se muestra en la Figura (c) Dr. Felipe Orihuela-Espina

35 Métodos prácticos de muestreo
Lo anterior (las réplicas) contradice la precondición del teorema de Nyquist que requiere que para muestrear y recuperar, la señal debiera estar limitada en frecuencia. Esto se soluciona pasando la señal original por un filtro paso baja, eliminando las frecuencias altas Este filtro tendrá un ancho de banda ωc/ωm<ωc<ωs−ωm y una amplitud A = Ts. ¡Recuerda! Los filtros no son ideales. Cuando se superponen las réplicas y no podemos recuperar la señal original se dice que se ha producido aliasing. Una vez colocado este filtro, muestrear la señal más rápido de 2ωc veces es inútil, ya que las componentes de frecuencia mayores que pudiese recuperar el muestreo, serán filtradas. (c) Dr. Felipe Orihuela-Espina

36 Métodos prácticos de muestreo
Muestreo natural: En lugar de impulsos, se usan un tren de pulsos o rectángulos PT(t) como se muestra en la Figura Para recuperar la señal original se requiere de un filtro paso baja. (c) Dr. Felipe Orihuela-Espina

37 Métodos prácticos de muestreo
Muestreo instantáneo: Se usa una función constante (normalmente con amplitud A=1) y simplemente se toma una muestra de la amplitud de la señal cada periodo T. La función constante, se puede modelar como un tren de pulsos PT(t) con un ancho de pulso τ=T. Para recuperar la señal se necesita de un filtro paso baja y un igualador. (c) Dr. Felipe Orihuela-Espina

38 (c) 2006-15 Dr. Felipe Orihuela-Espina
DEFINICIONES (c) Dr. Felipe Orihuela-Espina

39 Cantidad de información
Se define la cantidad de información o simplemente información, que aporta un suceso E como el logaritmo de la inversa de la probabilidad de que ocurra ese suceso. El razonamiento de por qué se usa la escala logarítmica en lugar de la lineal lo puedes encontrar en [ShannonCE1948]. La base b determina las unidades (ej: bits) (c) Dr. Felipe Orihuela-Espina

40 (c) 2006-15 Dr. Felipe Orihuela-Espina
Entropía Entropía: Se define la entropía H(X), de una variable aleatoria X con una función de probabilidad (discreta) p(x)=Pr(X=x) | x∈X como la cantidad de información media que se obtiene de la variable, que es igual a la suma de la información de cada símbolo por su probabilidad: La entropía es una medida de la incertidumbre. A mayor entropía más difícil es predecir la siguiente observación Existe la definición análoga en continua (c) Dr. Felipe Orihuela-Espina

41 (c) 2006-15 Dr. Felipe Orihuela-Espina
Información mutua Información mutua: Intuitivo: La información mutua media mide la información que X e Y comparten [Wikipedia:Información_mutua]. Mide la reducción de la entropía de una variable aleatoria, X, debido al conocimiento del valor de otra variable aleatoria, Y. Cuantifica la dependencia entre la distribución conjunta de X e Y y la que tendrían si X e Y fuesen independientes. (c) Dr. Felipe Orihuela-Espina

42 (c) 2006-15 Dr. Felipe Orihuela-Espina
Información mutua Información mutua: Formal: La información mutua de dos variables aleatorias, denotado por I(X;Y), mide la dependencia mutua de las dos variables; (c) Dr. Felipe Orihuela-Espina

43 (c) 2006-15 Dr. Felipe Orihuela-Espina
Información mutua Información mutua: Propiedades: Conmutativa: I(X;Y) = I(Y;X) Si X e Y son iguales  I(X;Y)=I(X;X)=H(X). …léase, la entropía es un tipo de información mutua! I(X; Y)=0  X e Y son variables aleatorias independientes. min(H(X),H(Y)) ≥ I(X;Y) ≥ 0 …cumpliéndose la igualdad a 0 cuando X e Y son independientes (ver propiedad anterior) (c) Dr. Felipe Orihuela-Espina

44 (c) 2006-15 Dr. Felipe Orihuela-Espina
Entropía Entropia mutua o conjunta: La entropía conjunta de dos variables aleatorias X e Y con una función de probabilidad conjunta (discreta) p(x,y)=Pr(X=x,Y=y) | x∈X, y∈Y como: (c) Dr. Felipe Orihuela-Espina

45 (c) 2006-15 Dr. Felipe Orihuela-Espina
Entropía Entropia condicional: La entropía condicional de una variable aleatoria Y dado la variable aleatoria X con una función de probabilidad condicional (discreta) p(y|x)=Pr(Y=y|X=x) | x∈X, y∈Y como: (c) Dr. Felipe Orihuela-Espina

46 (c) 2006-15 Dr. Felipe Orihuela-Espina
FUENTES Y CANALES (c) Dr. Felipe Orihuela-Espina

47 Algunas definiciones informales de Shannon
Fuente: Shannon lo llama fuente de información, la cual "produces a message or sequence of messages to be communicated to the receiving terminal.“ [Shannon1948] Emisor o Codificador: Shannon lo llama transmisor, el cual "operates on the message in some way to produce a signal suitable for transmission over the channel.” [Shannon1948] Canal: "merely the medium used to transmit the signal from transmitter to receiver.” [Shannon1948] Receptor o Descodificador: "performs the inverse operation of that done by the transmitter, reconstructing the message from the signal.“ [Shannon1948] Destino o Sumidero: "the person (or thing) for whom the message is intended". [Shannon1948] Mensaje: Information, communication or statement that is sent in a verbal, written, recorded or visual form to the recipient. Ruido (c) Dr. Felipe Orihuela-Espina

48 (c) 2006-15 Dr. Felipe Orihuela-Espina
A su vez… El codificador se descompone en 3 componentes: El codificador de fuente que suelta una palabra código fuente El codificador de canal que introduce una redundancia controlada a fin de tolerar errores en el canal El modulador que convierte la palabra código en la señal que se transmite. De la fuente Codificador de fuente Codificador de canal Modulador Al canal (c) Dr. Felipe Orihuela-Espina

49 A su vez… El codificador se descompone en 3 componentes:
El demodulador que extrae de la señal la palabra recibida. El descodificador de canal que elimina la redundancia y comprueba que no haya errores de transmisión El descodificador de fuente que recupera la información transmitida estimada. Demodulador Descodificador de canal Descodificador de fuente Del canal Al destino (c) Dr. Felipe Orihuela-Espina

50 (c) 2006-15 Dr. Felipe Orihuela-Espina
Fuentes Un símbolo es la únidad atómica de información que se desea transmitir. Se denota Si a cada símbolo que se pueda transmitir en un mensaje cualquiera. Se denomina alfabeto al conjunto de símbolos que es posible transmitir S={S1, S2, , Sq}. Los símbolos son generados por una fuente, que normalmente queda expresada por el alfabeto de símbolos S que puede producir. (c) Dr. Felipe Orihuela-Espina

51 (c) 2006-15 Dr. Felipe Orihuela-Espina
Canales Para caracterizar un canal, consideramos un alfabeto de entrada A = {ai | i = 1...r} y un alfabeto de salida B = {bj | j = 1...s} que no son necesariamente de la misma longitud (c) Dr. Felipe Orihuela-Espina

52 (c) 2006-15 Dr. Felipe Orihuela-Espina
CODIFICACIÓN (c) Dr. Felipe Orihuela-Espina

53 Codificación de fuente
Cada uno de los símbolos Si∈S puede aparecer con una determinada frecuencia, que se determina con una probabilidad de aparición P(Si). Los símbolos no tienen por que ser equiprobables. Se debe cumplir que el sumatorio de todas las probabilidades sea 1. …donde q es el número de símbolos. Si existe un suceso cierto (que ocurre siempre) su probabilidad es 1. De forma análoga, un suceso que nunca ocurre, tiene probabilidad 0. (c) Dr. Felipe Orihuela-Espina

54 Codificación de fuente
Ejemplo: En nuestro alfabeto español tenemos 28 símbolos S = {a, b, c, , z}. Estos símbolos no aparecen con igual probabilidad en el lenguaje español. Así la a es más frecuente que la x. (c) Dr. Felipe Orihuela-Espina

55 Codificación de fuente
La información a transmitir por diversas circunstancias (modulaciones, encriptaciones, compactación, etc) rara vez se envía tal cual, sino que es codificada. Existen muchas formas de codificación. Una forma de codificación trivial es por ejemplo: Contar el número de símbolos Sq existentes, Calcular el número de símbolos xi necesarios para codificar en base r todos los símbolos fuente ⌈logr q⌉, Y finalmente asignar una combinación determinada Xi=x1,...,xl de longitud fija l a cada símbolo Si. A la combinación Xi se le llama palabras del código. Existen tantas palabras código como símbolos originales Si, es decir que si hay q símbolos, existirán q palabras código. (c) Dr. Felipe Orihuela-Espina

56 Codificación de fuente
A la correspondencia entre los símbolos y las palabras asociadas a los mismos se le llama código. Un código se denota por su alfabeto fuente S y su alfabeto código X. S = {S1, S2, , Sq} → X = {x1, x2, , xr} A S se le conoce como alfabeto fuente. Al conjunto X de símbolos xi que utiliza el código para formar las palabras Xi, se le conoce como alfabeto código. (c) Dr. Felipe Orihuela-Espina

57 Codificación de fuente
Ejemplo: Para codificar en binario (r = 2, X = {0, 1}) todos los dígitos del 0 al 9 (S = {0, 1, , 9}), necesitamos al menos 4 bits (23 < 10 < 24 o lo que es lo mismo ⌈log2 10⌉). Los dígitos del 0 al 9 serán los símbolos del mensaje o alfabeto fuente. Las palabras código Xi son las que aparecen en la columna B y están formadas por los símbolos del alfabeto código X. Nótese que se podría haber codificado de otras diferentes formas. Las palabras código serían diferentes S → B 0 → 0000 1 → 0001 9 → 1001 (c) Dr. Felipe Orihuela-Espina

58 Codificación de fuente
Existen codificaciones en que las palabras código Xi no tienen la misma longitud li. Ejemplo: Código Morse La longitud li de las palabras es independiente del número de símbolos r del alfabeto código (base r). Ya que no es obligatorio que las palabras tengan la misma longitud, es concebible asignar palabras más cortas a símbolos más frecuentes. (c) Dr. Felipe Orihuela-Espina

59 Codificación de fuente
Ejemplo: Supongamos que queremos transmitir el tiempo meteorológico en dos ciudades con climas distintos. La ciudad 1 tiene un clima más seco, mientras que la ciudad 2, tiene un clima más húmedo. Se ofrecen cuatro posibilidades: Ciudad 1 Ciudad 2 Símbolo Prob. Palabra Sol 1/4 00 1/8 1 Niebla 01 10 Nubes 11 Lluvia 1/2 (c) Dr. Felipe Orihuela-Espina

60 Codificación de fuente
En caso que las palabras no tengan la misma longitud, existe el riesgo de que pudiesen ser malinterpretadas. Esto se soluciona fácilmente obligando a que ninguna palabra se pueda expresar como combinación de otras. (c) Dr. Felipe Orihuela-Espina

61 Codificación de fuente
Ejemplo: En el ejemplo anterior, para la Ciudad 2 la cadena 10 podría ser interpretada como las secuencias: Sol-Lluvia, o bien Niebla. Así pues cambiamos el código: Ciudad 2 Símbolo Prob. Palabra Sol 1/8 110 Niebla 1/4 10 Nubes 1110 Lluvia 1/2 (c) Dr. Felipe Orihuela-Espina

62 Longitud media del código
Un mismo mensaje cambia totalmente al usar códigos distintos. Para elegir un código u otro debemos conocer las probabilidades P(Si) de que ocurra cada uno de los símbolos que forman el mensaje. (c) Dr. Felipe Orihuela-Espina

63 Longitud media de un código
Sea el código S = {S1, S2, , Sq} → X = {x1, x2, , xr} …tal que li es la longitud en caracteres xi de la palabra Xi asociada al símbolo Si con probabilidad P(Si). Se define la longitud media del código como: Observa que al multiplicar por las probabilidades (cuya suma debe ser 1 independientemente del número de símbolos), la longitud media ya está normalizada (c) Dr. Felipe Orihuela-Espina

64 Cantidad de información
Si consideramos el suceso de que se genere un símbolo en una fuente, la cantidad de información que aporta el que se genere un símbolo Si, que puede ocurrir con una probabilidad P(Si), será: (c) Dr. Felipe Orihuela-Espina

65 Cantidad de información
La información se mide en unidades de información que dependen de la base b del logaritmo usado. Así podemos mencionar las unidades de medida expresadas en la Tabla: Logaritmo Base Unidad log2 2 Bits log10 10 Hartley ln e Nats (c) Dr. Felipe Orihuela-Espina

66 Cantidad de información
 NOTA: Las unidades de información (bits, Nats, etc) expresan un número, que es la cantidad de información, lo que significa que son adimensionales. Una analogía sería la que ocurre por ejemplo con los moles en química. Así por ejemplo 3 moles de una molécula, sólo indican el número de moléculas que hay, no la dimensión. Sin embargo, pueden aparecer como unidades en una dimensión. Así por ejemplo se pueden tener bits/seg para velocidades de transmisión, o moles/l para concentraciones en química. (c) Dr. Felipe Orihuela-Espina

67 Cantidad de información
Cambio de base: Es posible convertir una cantidad x expresada en una unidad de información en base b a su equivalente expresada en base a simplemente usando las propiedades de los logaritmos. (c) Dr. Felipe Orihuela-Espina

68 Cantidad de información
Propiedades: Si ocurre un suceso cierto, eso no aporta ninguna información. P(E)=1 ⇒ I(E)=0 La ocurrencia de un suceso poco probable aporta más información que la ocurrencia de otro suceso más probable. P(E1) < P(E2) ⇒ I(E1) > I(E2) Mientras más símbolos se tengan, las probabilidades de aparición de cada uno disminuyen (recuérdese que la suma de las probabilidades siempre debe ser 1), lo que se traduce en que la cantidad de información aportada por cada nuevo símbolo que se genera, es mayor. (c) Dr. Felipe Orihuela-Espina

69 Cantidad de información
Ejemplo: En el español, la letra a es más probable que la letra x. Si tuviésemos un mensaje que no conocemos y se genera la letra a, eso nos aporta menos información que si se hubiese generado la letra x. Esto se puede entender como que ”sabemos menos” del mensaje, si sabemos que incluye una a que si sabemos que incluye una x. (c) Dr. Felipe Orihuela-Espina

70 Cantidad de información
Propiedades: Si tenemos una fuente binaria de memoria nula, es decir, que sólo tiene 2 símbolos {0,1}, tal que P(0)=w y P(1)=1−w, entonces la cantidad de información que se obtiene de un símbolo es menor o igual que 1 bit. I(Sb)≤1 [bit] (c) Dr. Felipe Orihuela-Espina

71 (c) 2006-15 Dr. Felipe Orihuela-Espina
Fuente de memoria nula Fuente de memoria nula: Sea un conjunto de símbolos S = {S1, , Sq} para los que existe una probabilidad P(S1),…,P(Sq) de que aparezcan para cada uno de ellos. Se llama fuente de memoria nula a una fuente que genera una serie de símbolos que tienen una determinada ley de probabilidad si son estadísticamente independientes (la aparición de un símbolo determinado no influye sobre las probabilidades de aparición de los demás). (c) Dr. Felipe Orihuela-Espina

72 (c) 2006-15 Dr. Felipe Orihuela-Espina
Fuente de memoria nula Fuente de memoria nula: En una fuente de memoria nula, la generación de un símbolo Si determina una cantidad de información: La base b depende de en que unidad queramos expresar la cantidad de información. (c) Dr. Felipe Orihuela-Espina

73 Extensión de una fuente de memoria nula
Sea una fuente de memoria nula original S={S1,…, Sq} con sus correspondientes P(S1),..., P(Sq). Supóngase que siempre que se emite, se emiten un mismo número n de símbolos agrupados. En este caso, se puede considerar que se tiene una nueva fuente de orden superior Sn con qn símbolos en total que se emiten de uno en uno. (c) Dr. Felipe Orihuela-Espina

74 Extensión de una fuente de memoria nula
Se define una nueva fuente extendida Sn={σ1,…, σqn} en la que se han extendido los símbolos de S de forma que: σi = Si1, Si2,…, Sin Si la emisión de cada uno de los n símbolos es estadísticamente independiente, la probabilidad de los nuevos símbolos se puede calcular como P(σi) = P(Si1)P(Si2) P(Sin) (c) Dr. Felipe Orihuela-Espina

75 Extensión de una fuente de memoria nula
A la nueva fuente Sn se le llama extensión de orden n y se puede demostrar que: H(Sn) = nH(S) Y que: ...siendo la longitud media de la extensión de orden n. (c) Dr. Felipe Orihuela-Espina

76 Extensión de una fuente de memoria nula
Ejemplo: Supongamos una fuente sólo con dos símbolos {α, β} y que se emiten siempre grupos de 4. La fuente extendida de orden 4 tendrá 16 símbolos: {0, 1, 2, 3, 4, 5, 6, 7, 8, 9, A, B, C, D, E, F} (c) Dr. Felipe Orihuela-Espina

77 Codificación de fuente
Tipos de código: Código lineal: Aquellos en los que la suma de dos símbolos de salida cualesquiera resultan en otro símbolo de salida. Código Bloque: Aquellos en que cada símbolo de la fuente tiene asociada una palabra o secuencia de longitud fija. (c) Dr. Felipe Orihuela-Espina

78 Codificación de fuente
Tipos de código: Código no singular: Un código es no singular si todas las palabras del código son distintas. Es decir, ninguna palabra del código se repite. Análogamente, se le llama código singular, si alguna palabra se repite. Código unívoco: Un código no singular es unívoco si y solo si su extensión de orden n es no singular para cualquier valor finito de n. Esto significa que no hay dudas o ambigüedades en la descodificación. En caso contrario se dice que el código es no unívoco. (c) Dr. Felipe Orihuela-Espina

79 Codificación de fuente
Tipos de código: Código instantáneo: Un código es instantáneo si ninguna palabra es prefijo de otra. Es un código unívoco en el que cada palabra se puede descodificar una vez recibida sin necesidad de conocer la siguiente palabra. Para construir un código instantáneo, ninguna palabra de código puede coincidir con el prefijo de otra. Por oposición existen los códigos no instantáneos. (c) Dr. Felipe Orihuela-Espina Figura de: [

80 Codificación de fuente
Tipos de código: Código compacto: Código unívoco cuya longitud media es igual o menor que la longitud media de todos los códigos unívocos que pueden aplicarse a la misma fuente y al mismo alfabeto. Este tipo de código que busca la teoría de la información. Código sistemático: Código lineal donde la palabra codificada aparece al principio del mensaje por delante de la redundancia introducida. (c) Dr. Felipe Orihuela-Espina

81 Codificación de fuente
Tipos de código: Código cíclico: Código lineal en que dada una palabra del código, cualquier otra palabra que se puede obtener por rotación también es palabra del código. Tienen ciertas propiedades que no estudiaremos que los hacen propicios para la detección de errores. Ejemplo: Códigos Hamming Cuando la palabra codificada depende sola y exclusivamente de la palabra a codificar, se dice que el código no tiene memoria. (c) Dr. Felipe Orihuela-Espina

82 Extensión de una fuente de memoria nula
Tipos de código: Ejemplo: El código S = {S1, S2, S3, S4} → X = {0, 11, 00, 01} es no singular, ya que todas las palabras son distintas es no unívoco, ya que en la extensión de orden 2, los símbolos correspondientes a S1,S3 y S3,S1 dan lugar a la misma palabra 000. (c) Dr. Felipe Orihuela-Espina

83 Extensión de una fuente de memoria nula
Tipos de código: Ejemplo: Sean los códigos S = {S1, S2, S3, S4} → A = {0, 10, 110, 1110} S = {S1, S2, S3, S4} → B = {0, 01, 011, 0111} A es un código instantáneo. Si por ejemplo se recibe la palabra 10, ya puede descodificar como el símbolo S2 independientemente de lo que venga a continuación. B es un código no instantáneo, ya que si recibo la cadena 01, aún no puedo descodificarla como S2, ya que dependerá de si a continuación se recibe un 0, y entonces es S2, o un 1, y entonces puede ser S3 o S4. (c) Dr. Felipe Orihuela-Espina

84 (c) 2006-15 Dr. Felipe Orihuela-Espina
Entropía Entropía (de una fuente): Se define la entropía de una fuente, H(S), como la cantidad de información media que se obtiene de la fuente, que es igual a la suma de la información de cada símbolo por su probabilidad: La entropía es una medida de la incertidumbre. A mayor entropía más difícil es predecir la siguiente observación (c) Dr. Felipe Orihuela-Espina

85 (c) 2006-15 Dr. Felipe Orihuela-Espina
Entropía Entropía (de una fuente): La entropía se medirá en la misma unidad que la cantidad de información. Para cambiar la entropía de base se puede normalizar como: (c) Dr. Felipe Orihuela-Espina

86 (c) 2006-15 Dr. Felipe Orihuela-Espina
Entropía Existe una relación entre la longitud media que va a tener el código y la entropía de la fuente H(S) que se quiere codificar. Supongase que se quiere codificar una fuente S con con un código cuyo alfabeto código tiene r símbolos. Entonces: donde b es la base de las unidades en las que se quiere expresar la entropía. (c) Dr. Felipe Orihuela-Espina

87 (c) 2006-15 Dr. Felipe Orihuela-Espina
Entropía Esta relación anterior: …significa que la entropía es una cota inferior para la longitud media de un código. Mientras mayor sea la entropía de la fuente, mayor por tanto será la longitud media del código resultante. (c) Dr. Felipe Orihuela-Espina

88 (c) 2006-15 Dr. Felipe Orihuela-Espina
Entropía Propiedades: La entropía es siempre menor o igual que el logaritmo del número de símbolos de S. H(S)≤log(q) … y se alcanza la igualdad cuando todos los sucesos Si son equiprobables: P(S1)=P(S2)=…=P(Sq)=1/q Este valor es una cota superior para la entropía. (c) Dr. Felipe Orihuela-Espina

89 (c) 2006-15 Dr. Felipe Orihuela-Espina
Entropía Propiedades: Propiedad de partición o agrupamiento: Sea el conjunto de símbolos S = {S1, S2,…, Sm, Sm+1,…, Sq} con sus probabilidades asociadas P1, P2,…, Pm, Pm+1,…, Pq tal que: Se parte la fuente en dos grupos: 1 = {S1, S2, , Sm} 2 = {Sm+1, , Sq} Cada grupo tendrá una probabilidad que ya no será 1. (c) Dr. Felipe Orihuela-Espina

90 (c) 2006-15 Dr. Felipe Orihuela-Espina
Entropía Propiedades: Propiedad de partición o agrupamiento: Para poder calcular las entropías correspondientes a los grupos 1 y 2 lo primero es normalizar las probabilidades anteriores para cada grupo por separado: (c) Dr. Felipe Orihuela-Espina

91 (c) 2006-15 Dr. Felipe Orihuela-Espina
Entropía Propiedades: Propiedad de partición o agrupamiento: Seguimos desarrollando; Y observa que: (c) Dr. Felipe Orihuela-Espina

92 (c) 2006-15 Dr. Felipe Orihuela-Espina
Entropía Propiedades: Propiedad de partición o agrupamiento: Por lo que; (c) Dr. Felipe Orihuela-Espina

93 (c) 2006-15 Dr. Felipe Orihuela-Espina
Entropía Propiedades: Propiedad de partición o agrupamiento: Finalmente; …y análogamente: (c) Dr. Felipe Orihuela-Espina

94 (c) 2006-15 Dr. Felipe Orihuela-Espina
Entropía Propiedades: Propiedad de partición o agrupamiento: Sumando ambas ecuaciones; (c) Dr. Felipe Orihuela-Espina

95 (c) 2006-15 Dr. Felipe Orihuela-Espina
Entropía Propiedades: Propiedad de partición o agrupamiento: Teniendo en cuenta que podemos reexpresar la entropía de la fuente completa en dos partes; Por lo que la ecuación anterior quedaría: (c) Dr. Felipe Orihuela-Espina

96 (c) 2006-15 Dr. Felipe Orihuela-Espina
Entropía Propiedades: Propiedad de partición o agrupamiento: Como: Podemos definir: (c) Dr. Felipe Orihuela-Espina

97 (c) 2006-15 Dr. Felipe Orihuela-Espina
Entropía Propiedades: Propiedad de partición o agrupamiento: …que llevando H() a lo que llevábamos, se obtiene: A H() se la conoce como la incertidumbre eliminada al tomar uno de los dos conjuntos. El resto es la incertidumbre remanente. (c) Dr. Felipe Orihuela-Espina

98 Rendimiento de un código
Se define el rendimiento de un código, η como: Sabemos que , por lo que  está siempre entre 0 y 1. (c) Dr. Felipe Orihuela-Espina

99 Redundancia de un código
Cuando η < 1, entonces existen palabras código cuya longitud no es óptima. A la longitud extra se le conoce como redundancia. Cuando η = 1 el código es perfecto en el sentido que expresa totalmente la información sin incluir ninguna redundancia. (c) Dr. Felipe Orihuela-Espina

100 1er teorema de Shannon o Teorema de la codificación sin ruido
El objetivo es tener que transmitir lo menos posible. Esto se consigue con un código compacto. El primer teorema de Shannon indica hasta que punto se puede compactar nuestro código. (c) Dr. Felipe Orihuela-Espina

101 1er teorema de Shannon o Teorema de la codificación sin ruido
Sea S una fuente de memoria nula, a la que le hacemos una extensión de orden n, Sn. El 1er teorema de Shannon o teorema de la codificación sin ruido establece que: …donde es la longitud media en la extensión Sn. (c) Dr. Felipe Orihuela-Espina

102 1er teorema de Shannon o Teorema de la codificación sin ruido
Esto se interpreta como que podemos mejorar nuestra fuente haciendo extensiones de orden n. Cuanto más complejo es el código, más compacto se puede hacer, y por tanto transmitiremos menos de media. Aunque las palabras sean más largas, pero transmitiremos más símbolos con cada una de ellas. Sin embargo, no se puede compactar "eternamente". El límite lo impone la entropía. El número mínimo de símbolos r-arios correspondientes a un símbolo de la fuente, puede hacerse tan pequeño pero no inferior a la entropía de la fuente expresada en unidades de orden r. (c) Dr. Felipe Orihuela-Espina

103 Método o código de Huffman
Método de Huffman: El método o código Huffman es un algoritmo para construir códigos compactos. Sea una fuente S = {S1,…, Sq} con probabilidades P(S1),…, P(Sq). Se quiere utilizar un código binario (i.e. cuyo alfabeto sea {0,1}), que sea compacto. Algoritmo de codificación de Huffman: Ordenar los símbolos acorde a sus probabilidades de mayor a menor. Se agrupan los dos últimos con probabilidades más bajas. Se recalculan las probabilidades (sumando) y se vuelve a reordenar. Repetir el paso anterior sucesivamente hasta que sólo queden 2 símbolos. De forma inversa, se van deshaciendo los grupos asignando un 0 y un 1 a cada elemento, y teniendo en cuenta, que cada símbolo es el prefijo del anterior. (c) Dr. Felipe Orihuela-Espina

104 Método o código de Huffman
Método de Huffman: Ejemplo: S1 (0.4) S2, S3, S4, S5, S6, S7 (0.6) S2 (0.2) S3, S4, S5, S6, S7 (0.4) S3 (0.2) S4 (0.09) S5, S6, S7 (0.11) S4, S5, S6, S7 (0.2) S5 (0.06) S6 (0.03) S6,S7 (0.05) S7 (0.02) (c) Dr. Felipe Orihuela-Espina

105 Método o código de Huffman
Método de Huffman: Ejemplo: S1 – 1 1 (0.4) 0 (0.6) S2 – 01 01 (0.2) 00 (0.4) S3 – 000 000 (0.2) S4 – 0011 0011 (0.09) 0010 (0.11) 001 (0.2) S5 – 00100 00100 (0.06) S6 – 00101 (0.05) S7 – Observa que los símbolos menos probables tienen asociadas palabras código más largas. (c) Dr. Felipe Orihuela-Espina

106 Método o código de Huffman
Método de Huffman: El algoritmo de Huffman se puede aplicar para códigos que no sean binarios. En ese caso, los grupos se hacen de r símbolos en lugar de grupos de 2. Los códigos Huffman son compactos pero no siempre son perfectos (η<1). A veces no es posible construir un código perfecto. Una forma de solucionar esta situación es hacer extensiones de orden n para mejorar el rendimiento. ...pero el límite viene impuesto por el 1er teorema de Shannon. (c) Dr. Felipe Orihuela-Espina

107 Método o código de Huffman
Método de Huffman: Ejemplo: Sea el código Huffman más pequeño: S1 – 0 P(S1)=3/4 S2 – 1 P(S2)=1/4 Para este código: La longitud media es: La entropía es: El rendimiento es: Lo que indica que habría alguna forma que los símbolos se codificasen ¡con menos de 1 bit! (c) Dr. Felipe Orihuela-Espina

108 Método o código de Huffman
Método de Huffman: Ejemplo: Obviamente esto no es viable directamente, pero podemos hacer extensiones para acercarnos: S1S1 – 0 P(S1S1)=3/4·3/4=9/16 S1S2 – 10 P(S1S2)=3/4·1/4=3/16 S2S1 – 110 P(S2S1)=1/4·3/4=3/16 S2S2 – 111 P(S2S2)=1/4·1/4=1/16 Para este código: La longitud media es: La entropía es: El rendimiento es: De la misma forma, podemos calcular el rendimiento para ordenes mayores: Para orden 3: 3=0.985 Para orden 4: 4=0.991 Obsérvese que el código Huffman inicial sería perfecto en caso que los símbolos S1 y S2 fuesen equiprobables. (c) Dr. Felipe Orihuela-Espina

109 (c) 2006-15 Dr. Felipe Orihuela-Espina
Canales En las líneas de transmisión reales, a menudo ocurren errores, de forma que la información que se emite, no siempre es la información que se recibe. Aunque en teoría lo mejor es tener un código compacto; en presencia de errores es mejor introducir una cierta redundancia, que permita detectar cuando han ocurrido errores, y a veces incluso recuperar la información inicial. (c) Dr. Felipe Orihuela-Espina

110 (c) 2006-15 Dr. Felipe Orihuela-Espina
Canales En general; cuando se emite un símbolo ai a través de una línea de comunicación, existe una cierta probabilidad de que se reciba cualquier otro símbolo bj. Se denota esta probabilidad condicionada como Pr(bj|ai) siendo ai el símbolo que se introduce a la entrada del canal, y bj el que se detecta a la salida del canal. El canal queda caracterizado cuando se conocen tanto los alfabetos de entrada y salida, como las probabilidades de recibir bj cuando se emitió ai. (c) Dr. Felipe Orihuela-Espina

111 (c) 2006-15 Dr. Felipe Orihuela-Espina
Canales Si se consideran todas las posibilidades podemos construir una matriz de canal: (c) Dr. Felipe Orihuela-Espina

112 (c) 2006-15 Dr. Felipe Orihuela-Espina
Canales La matriz de canal debe cumplir que sus filas sumen 1. (c) Dr. Felipe Orihuela-Espina

113 (c) 2006-15 Dr. Felipe Orihuela-Espina
Canales Conociendo las probabilidades de los símbolos del alfabeto de entrada al canal y la matriz del canal, podemos saber usando del Teorema de Bayes cuales son las probabilidades del alfabeto de salida y viceversa. Probabilidades del alfabeto de entrada: Probabilidades del alfabeto de salida: (c) Dr. Felipe Orihuela-Espina

114 (c) 2006-15 Dr. Felipe Orihuela-Espina
Canales Si se conocen las probabilidades de los símbolos de entrada Pr(ai) se puede calcular la entropía del canal a priori como: (c) Dr. Felipe Orihuela-Espina

115 (c) 2006-15 Dr. Felipe Orihuela-Espina
Canales Si además se conocen la matriz del canal Mc={Pr(bj|ai)} se puede calcular la entropía del canal a posteriori habiendo ocurrido algún símbolo bj como: (c) Dr. Felipe Orihuela-Espina

116 (c) 2006-15 Dr. Felipe Orihuela-Espina
Canales En general, la entropía de un canal con alfabeto de entrada A y alfabeto de salida B se puede calcular como: …o sea con la entropia condicional. (c) Dr. Felipe Orihuela-Espina

117 (c) 2006-15 Dr. Felipe Orihuela-Espina
Información mutua La información que se recibe en el extremo final del canal proviene de la fuente y de los errores que haya habido en la transmisión. La diferencia entre la información a la entrada y la información a la salida se mide con el concepto de información mutua que representa la incertidumbre que se ha perdido en la transmisión. (c) Dr. Felipe Orihuela-Espina

118 (c) 2006-15 Dr. Felipe Orihuela-Espina
Información mutua Información mutua: Sea H(A|B) la entropía de A cuando ya ha ocurrido B. La información mutua se puede calcular como: I(A;B) = H(A) − H(A|B) (c) Dr. Felipe Orihuela-Espina

119 (c) 2006-15 Dr. Felipe Orihuela-Espina
Información mutua Propiedades: I(An;Bn) = nI(A;B) I(A;B) ≥ 0 Se reciba lo que se reciba a la salida, eso siempre me da una información. Nunca se pierde información por mirar la salida del canal. Conmutativa: I(A;B) = I(B;A) = H(A) − H(A|B) = H(B) − H(B|A) (c) Dr. Felipe Orihuela-Espina

120 (c) 2006-15 Dr. Felipe Orihuela-Espina
Capacidad de un canal Capacidad de un canal: Se define la capacidad de un canal como el máximo de la información mutua según las probabilidades de entrada. …esto ocurre cuando los símbolos de entrada son equiprobables. (c) Dr. Felipe Orihuela-Espina

121 (c) 2006-15 Dr. Felipe Orihuela-Espina
Tipos de canal Canal Binario Simétrico (BSC en inglés) Es el más sencillo. Alfabeto de entrada = {0,1} Alfabeto de salida = {0,1} Matriz del canal: Al tener sólo dos símbolos a la salida, si la posibilidad de que salga 0 es p, la de que salga 1 es 1−p (distribución de Bernouilli). (c) Dr. Felipe Orihuela-Espina

122 (c) 2006-15 Dr. Felipe Orihuela-Espina
Tipos de canal Canal sin ruido: Su matriz contiene un único elemento distinto de cero en cada columna. La equivocación del canal es H(A|B) = 0. Conocida la salida sabemos perfectamente la entrada. I(A;B) = H(A) (c) Dr. Felipe Orihuela-Espina

123 (c) 2006-15 Dr. Felipe Orihuela-Espina
Tipos de canal Canal determinante Su matriz contiene un único elemento distinto de cero en cada fila, que por ende es 1. La equivocación del canal es H(B|A) = 0. Conocida la entrada sabemos perfectamente la salida. I(A;B) = H(B) (c) Dr. Felipe Orihuela-Espina

124 Composición de canales (en serie)
Los canales se pueden conectar en serie. A medida que conectamos más canales en serie se pierde poco a poco información. No estudiaremos la composición de canales a fondo.  NOTA: Observa que la composición de canales en paralelo no añade complejidad; no suma ni elimina ruidos individuales. (c) Dr. Felipe Orihuela-Espina

125 (c) 2006-15 Dr. Felipe Orihuela-Espina
Probabilidad de error Supongamos que tenemos un canal con alfabeto de entrada A = {ai|i = 1..r} y alfabeto de salida B = {bj|j = 1..s}. La matriz del canal determina las probabilidades de que se reciba bj cuando se introduce ai en el canal. Se llama regla de decisión a la función que específica el símbolo de entrada único que corresponde a cada símbolo de salida. La regla de decisión se especifica mediante un conjunto de reglas de la forma d(bj) = ai. (c) Dr. Felipe Orihuela-Espina

126 (c) 2006-15 Dr. Felipe Orihuela-Espina
Probabilidad de error Ejemplo: Supongamos un alfabeto de entrada A = {a1, a2, a3} y uno de salida B = {b1, b2, b3, b4}. Algunas posibles reglas de decisión son: o también Note que en cada regla de decisión están definidos todos los elementos bj, pero no necesariamente todos los ai. Observese que en la segunda regla de decisión no aparece a3. (c) Dr. Felipe Orihuela-Espina

127 (c) 2006-15 Dr. Felipe Orihuela-Espina
Probabilidad de error Existen rs posibles reglas de decisión. Recuerda; r es la cardinalidad del alfabeto de entrada y s la cardinalidad del alfabeto de salida. Nos interesa obviamente, la que minimiza la probabilidad de error del canal. La probabilidad de que una transmisión sea correcta es P(d(bj)|bj). (c) Dr. Felipe Orihuela-Espina

128 (c) 2006-15 Dr. Felipe Orihuela-Espina
Probabilidad de error La probabilidad P(d(bj)|bj) será máxima cuando d(bj)=a∗ tal que a∗ cumple que: P(a∗|bj) ≥ P(ai|bj) ∀i …es decir, cuando se asocia el símbolo de entrada a∗ que tiene la mayor probabilidad en P(ai|bj) en la matriz del canal. (c) Dr. Felipe Orihuela-Espina

129 Probabilidad de error Aún cuando se elija la mejor regla de decisión pueden existir errores a la salida. La probabilidad de que haya habido un error durante la transmisión cuando se ha recibido el símbolo bj es por tanto: P(E|bj)=1−P(d(bj)|bj) (c) Dr. Felipe Orihuela-Espina

130 (c) 2006-15 Dr. Felipe Orihuela-Espina
Probabilidad de error Probabilidad de error (del canal): La probabilidad de error del canal para una determinada regla de decisión o simplemente probabilidad de error del canal es: Donde P(bj) puede calcularse como: (c) Dr. Felipe Orihuela-Espina

131 (c) 2006-15 Dr. Felipe Orihuela-Espina
Probabilidad de error Probabilidad de error (del canal): La probabilidad de error del canal P(E) se minimiza cuando las P(E|bj) son mínimas …lo que ocurre cuando las P(d(bj)|bj) son máximas (c) Dr. Felipe Orihuela-Espina

132 (c) 2006-15 Dr. Felipe Orihuela-Espina
Probabilidad de error Para disminuir la probabilidad de error P(E) se pueden Transmitir n veces el mismo símbolo y se decide cual es el correcto según que símbolo se ha recibido más veces. O bien se codifican los símbolos de entrada con cadenas más largas incluyendo con cierta redundancia. En ambos casos, se desperdicia capacidad del canal C y por tanto disminuye la velocidad de transmisión (VTX) en un factor de 1/n. (c) Dr. Felipe Orihuela-Espina

133 (c) 2006-15 Dr. Felipe Orihuela-Espina
Probabilidad de error Ejemplo: Supongamos n=3. Si denotamos A los aciertos y por F los fallos, las posibles transmisiones son: 3 fallos → FFF 2 fallos → FFA + FAF + AFF 1 fallos → FAA + AFA + AAF 0 fallos → AAA (c) Dr. Felipe Orihuela-Espina

134 (c) 2006-15 Dr. Felipe Orihuela-Espina
Probabilidad de error Ejemplo (Cont.): Si en el canal, los fallos se dan con probabilidad P(E), y por tanto los aciertos con probabilidad 1−P(E), la probabilidad de error cuando se repite n=3 veces cada símbolo es: 3 fallos → FFF = [P(E)]3 2 fallos → FFA + FAF + AFF = 3([P(E)]2(1 − P(E))) 1 fallos → FAA + AFA + AAF = 3([(1 − P(E))]2P(E))) 0 fallos → AAA = [(1 − P(E))]3 (c) Dr. Felipe Orihuela-Espina

135 Probabilidad de error Ejemplo (Cont.): Si resumimos lo anterior
Pn=3(E) = [P(E)]3 + 3([P(E)]2(1 − P(E))) …ya que con 1 o 0 fallos podemos detectar el error al escoger el símbolo que más se repite. (c) Dr. Felipe Orihuela-Espina

136 Segundo teorema de Shannon
Segundo teorema de Shannon: Teorema fundamental de la teoría de la información. El segundo teorema de Shannon establece que para cualquier velocidad menor que la capacidad del canal, existen códigos tales que la probabilidad de mensaje erróneo es menor que cualquier número positivo . …o en otras palabras; si limitamos nuestra velocidad de transmisión, es posible transmitir sin errores por un canal con ruido!! Relación entre la probabilidad de error P(E) y velocidad de transmisión VTX. (c) Dr. Felipe Orihuela-Espina

137 Segundo teorema de Shannon
Como consecuencia del teorema de Shannon, no tiene sentido disminuir la velocidad de transmisión más allá de la capacidad del canal. siendo M el número de palabras de salida válidas, y n el número de veces que se repite cada símbolo. (c) Dr. Felipe Orihuela-Espina

138 Segundo teorema de Shannon
Además, esto nos permite minimizar la probabilidad de error y maximizar la velocidad de transmisión. (c) Dr. Felipe Orihuela-Espina

139 Segundo teorema de Shannon
Límite de Shannon: El límite de Shannon marca la capacidad máxima de transmisión de un canal con ruido. Donde:  - Ancho de banda S – Potencia de la señal N – Potencia del ruido Si alguien quiere una explicación más detallada de cómo se llega a este resultado puede encontrarla en mis apuntes de transmisión de datos (Unidad II - Fundamentos), disponibles bajo demanda. (c) Dr. Felipe Orihuela-Espina

140 Segundo teorema de Shannon
Límite de Shannon: En la práctica no se alcanza nunca este valor, por lo que es simplemente una cota superior (c) Dr. Felipe Orihuela-Espina

141 (c) 2006-15 Dr. Felipe Orihuela-Espina
Límite de Fano Límite de Fano: Intuitivamente; Mientras más símbolos se tienen a la salida, menor es la probabilidad de error. La capacidad de saber si una secuencia de salida es errónea viene dada por la posibilidad de distinguirla de todas las otras posibles secuencias de salida válidas. (c) Dr. Felipe Orihuela-Espina

142 (c) 2006-15 Dr. Felipe Orihuela-Espina
Límite de Fano Límite de Fano: Ejemplo: Supongamos que las palabras de salida válida son 0 y 1. Si ocurre un error y cuando debiera haber salido un 0 llega un 1 no tenemos forma de saber si la secuencia errónea o cierta. Sin embargo si las palabras válidas fuesen 000 y 111, y se recibe 001, sabemos que ha habido un error y es probable que sea en el último símbolo. (c) Dr. Felipe Orihuela-Espina

143 Límite de Fano Límite de Fano: H(A;B) ≤ H(P(E)) + P(E)·log(r−1)
Formalmente: Límite que relaciona la probabilidad de error P(E) y la entropia H(A;B). H(A;B) ≤ H(P(E)) + P(E)·log(r−1) donde r es el número de símbolos del alfabeto de entrada y H(P(E)) marca cuantos símbolos de salida se necesitan para saber cuando una regla de decisión falla. (c) Dr. Felipe Orihuela-Espina

144 (c) 2006-15 Dr. Felipe Orihuela-Espina
Límite de Fano Límite de Fano: Pero ¿cómo calculamos H(P(E))? Bueno, como subyacente hay uma distribución de Bernouilli no es tan complicado... (c) Dr. Felipe Orihuela-Espina

145 (c) 2006-15 Dr. Felipe Orihuela-Espina
Distancia Hamming Distancia Hamming: Se define la distancia Hamming como el número de caracteres en que difieren dos secuencias válidas de salida. Mientras mayor sea la distancia Hamming menor será la probabilidad de error.  NOTA: En un mismo código no todas las palabras tienen por qué estar a la misma distancia Hamming. Para que la transmisión sea errónea el número de símbolos erróneos tiene que ser mayor que la distancia Hamming. …ya que de ser menor, no sólo detectaremos que ha habido error, sino que seremos capaces de corregirlo. (c) Dr. Felipe Orihuela-Espina

146 (c) 2006-15 Dr. Felipe Orihuela-Espina
Distancia Hamming Distancia de un código: Se define la distancia de un código como la mínima distancia Hamming. Si la distancia de un código es d entonces: Se pueden detectar hasta d−1 errores, y Se pueden corregir d−2 errores. (c) Dr. Felipe Orihuela-Espina

147 Codificación para control de errores
Ya que los canales no son ideales, tras la codificación de la fuente se introduce redundancia para hacer más fiable la transmisión y ser capaces de recuperarse de errores que acontezcan durante la transmisión. Antes de la transmisión, la información generada por una fuente y codificada en el codificador de fuente, se pasa a un codificador de canal que le añade la redundancia para el control de errores. Proceso de codificación para el control de errores. Figura obtenida y modificada de [Francisco Javier Payán Somet. Sistemas de transmisión. Notas de clase, 2005.]. (c) Dr. Felipe Orihuela-Espina

148 Codificación para control de errores
Sea un codificador de canal como el de la Figura donde: k es el tamaño de las entradas, n es el tamaño de las salidas,  es la palabra de entrada, y x es la palabra de salida. Para representar la eficiencia del código se usa el factor k/n. Siempre se cumple que n≥k con lo que la eficacia varía entre 0 y 1. Se busca que k/n sea lo más próximo a 1 posible, es decir no superar en mucho el número de símbolos a la entrada del codificador. (c) Dr. Felipe Orihuela-Espina

149 Codificación para control de errores
Todo código lineal se puede expresar como: X=G Donde:  es una secuencia de palabras de entrada al codificador [12…k], X es una secuencia de palabras de salida [x1x2…xn] del codificador, y G={akn} es la matríz generadora del codificador. (c) Dr. Felipe Orihuela-Espina

150 Codificación para control de errores
Desarrollando: …y por tanto: (c) Dr. Felipe Orihuela-Espina

151 Codificación para control de errores
Se intenta construir un código sistemático, es decir donde la palabra codificada aparece siempre delante de la redundancia. (c) Dr. Felipe Orihuela-Espina

152 Codificación para control de errores
Para ello la matriz generadora tiene la forma: La submatriz P se conoce como la matriz de paridad o matriz de redundancia. (c) Dr. Felipe Orihuela-Espina

153 Codificación para control de errores
A partir de P podemos definir una matriz de comprobación de paridad H para saber cuando la información recibida a la salida del canal pertenece al código: H=[PT In-k] Se cumple que: X∈C  XHT= Donde: C es el conjunto de palabras código del codificador de canal, y  es el vector nulo (todas las componentes son 0). (c) Dr. Felipe Orihuela-Espina

154 Codificación para control de errores
A partir de la matriz de comprobación de paridad H podemos calcular la distancia (Hamming) de un código a partir de H, como el número de columnas linealmente independientes Para la corrección y detección de errores normalmente se utilizan códigos de redundancia cíclicos (CRC) de H. (c) Dr. Felipe Orihuela-Espina

155 (c) 2006-15 Dr. Felipe Orihuela-Espina
GRACIAS, ¿PREGUNTAS? (c) Dr. Felipe Orihuela-Espina


Descargar ppt "Unidad VI. Teoría de la información"

Presentaciones similares


Anuncios Google