Descargar la presentación
La descarga está en progreso. Por favor, espere
1
¿QUÉ TIENEN EN COMÚN UN MONO Y UN RATÓN?
Una mirada computacional al ADN Pablo Ariel Heiber
2
ADN Cada especie tiene un número diferente, pero constante dentro de ella, de cromosomas Dentro de cada cromosoma se encuentra una larga cadena de un compuesto orgánico que llamamos “ácido desoxirribonucleico” (ADN) Cada cadena se compone de varios cientos de millones de bases nitrogenadas
3
ADN Cada una de las cuatro bases se codifica con la letra inicial de su nombre: A, C, T o G Dentro de una especie las cadenas son parecidas: ACTCTGTGCACGTGACGACA ACTCAGTGCACGCGAACACA pero distintas de las de otras especies CAGCTGACGTACGGATCGAT por eso decimos que existe un ADN “de la especie”, aunque en realidad cada individuo tiene uno distinto
4
ADN Individuos
5
ADN Especies
6
ADN De cada cromosoma de cada especie tenemos un archivo de varios megabytes que representa la especie. Por ejemplo: Perro 1: ACTGCGCGCGTGTGCAAACAGTCA… Perro 2: ATCGACTAGCTAGCTATGACGTAG… Perro 3: CGTACGTACTGACTGACTAGATGT… Gato 1: ACAGTGTGTACGTACGATATATGAA… Gato 2: GTGTGACGTGCGATGTACGTACGAC…
7
Medida de la información
¿Cómo podemos “medir” la información? PATO PATO PATO PATO PATO PATO PATO EL PATO ES UN AVE QUE NADA Y VUELA Ambos textos tienen la misma longitud, pero ¿Tienen la misma cantidad información? ¿Cómo sabemos cuánta información tiene cada uno?
8
Medida de la información
Andréi Nikoláyevich Kolmogórov (Андре́й Никола́евич Колмого́ров) (25/04/1903 – 20/11/1987) fue un matemático ruso que tuvo una buena idea al respecto.
9
Medida de la información
En lugar de escribirlo de cualquier manera, escribámoslo de la mas corta posible 7 VECES PATO EL PATO ES UN AVE QUE NADA Y VUELA Se llama “complejidad de Kolmogórov” de S y se escribre K(S) a la longitud de la forma mas corta de describir la información contenida en S. ¡Ésta es una muy buena forma de medir la información!
10
Medida de la información
Si queremos saber cuánta información en común tienen S y T, podemos ver si escribirlos juntos es mas corto que hacerlos cada uno por separado. Es decir comparar K(ST) con K(S) + K(T). Mientras K(S) nos dice en absoluto una cantidad de información, esto nos da una noción de distancia de información entre 2 cosas.
11
Medida de la información
¡Ésta es una muy buena forma de medir la información! ¿Por qué? Tiene buenas propiedades matemáticas Es independiente de la forma en la que se encuentra la información (texto, imágenes, sonido, video) … peeero … Tiene un problemita: No es computable, no hay una metodología general para calcularla. En particular, nunca una computadora la va a poder calcular.
12
Medida de la información
En particular, nunca una computadora la va a poder calcular. ¿Qué hacemos? Usamos una aproximación ¿Con qué? ¡Compresión!
13
Medida de la información
Tomamos 2 archivos S y T, comprimimos cada uno por separado S.zip y T.zip y comprimimos los dos pegados ST.zip. Comparamos lo que pesa ST.zip con lo que pesa S.zip + T.zip y así vemos cuan cerca (o cuan lejos) están S y T. Si S y T son archivos que contienen las cadenas de cromosomas, esta idea nos dice cuánto se parecen esas especies.
14
Compresión ¡Más problemas a la vista!
Los compresores de propósito general conocidos (zip, rar, gzip, lzip, rzip, bzip2, etc) no nos sirven para este problema. Veamos algo más de cómo se comprimen los archivos para entender por qué…
15
Compresión Hay 2 tipos de compresores Compresión de diccionario
Compresión por bloque Ambos intentan eliminar redundancias para escribir lo mismo mas corto, pero cada uno tiene su tipo de problema
16
Compresión de diccionario
Los compresores de diccionario aprovechan la localidad de la información, es decir que buscan redundancias en la vecindad cercana de una parte del archivo, no en todo. Parte a comprimir Archivo Ventana
17
Compresión por bloque Los compresores por bloque dividen el archivo en bloques y luego, dentro de cada uno, buscan redundancias globalmente Bloque Archivo
18
Redundancias comunes detectadas
Compresión El problema en ambos casos es que, como comprimimos dos archivos pegados, solo las redundancias en la parte cercana al centro son detectadas, ya que el resto resulta quedar lejos como para entrar en la ventana en un caso, o en distintos bloques en el otro. Redundancias comunes detectadas Archivo 1 Archivo 2
19
Compresión La solución es utilizar la técnica de compresión por bloques, sin dividir en bloques, o visto de otra forma, con un único bloque que abarque todo el archivo. Ningún compresor de los disponibles en el mercado hace esto, ya que requiere de mucha sofisticación poder procesar bloques grandes, y nosotros necesitamos todo un archivo, que encima es muy grande.
20
Compresión Lo que hicimos fue implementar nuestro propio compresor, combinando técnicas ya desarrolladas y publicadas y adaptándolas a nuestras necesidades: Correctitud Eficiencia en memoria, ya que la entrada es muy grande Velocidad, ya que tenemos que procesar muchas cosas grandes
21
Resúmen Diseñamos e implementamos un compresor
Lo utilizamos para calcular distancias entre los cromosomas de varias especies En base a estas distancias, determinamos que especies se parecen y una intuición de por qué Reportamos estos resultados y quedamos a la espera de su interpretación por parte de biólogos
22
MUCHAS GRACIAS
Presentaciones similares
© 2025 SlidePlayer.es Inc.
All rights reserved.