¿QUÉ TIENEN EN COMÚN UN MONO Y UN RATÓN?

Slides:



Advertisements
Presentaciones similares
Este acuerdo trata sobre no hacer suposiciones, porque la mayoría de veces que hacemos suposiciones o terminamos lastimados o nos envenenamos por dentro.
Advertisements

Resumen 2014 INTRODUCCIÓN AL SPSS. Algo para recordar… Tres amigos estadísticos se reunieron para cazar patos. Uno apunta y dispara 1 metro más arriba.
Clase 3: primeros programas (1ª parte) iic1102 – introducción a la programación.
PPTCES013CB32-A16V1 Clase Movimiento IV: movimientos verticales.
 Es aquello que a través de un proceso formativo, una persona puede aprender.  Es aquello que resulta un poco abstracto, podríamos decir es aquella.
PPTCTC013TC32-A16V1 Clase Movimiento IV: movimientos verticales.
¿Que es PHP? PHP Hypertext Preprocessor Y solo porque me quiero hacer el profesor cool y meter un chiste: PHP también significa: Para Hacer Páginas.
 Para poder resolver una ecuación como ésta: x² = -4 No hay ningún número real que elevado al cuadrado nos pueda dar un resultado negativo. Ahora bien,
By Ibrahim Josue Pasos González. Para programar en Microsoft Visual Studio 2008 es muy sencillo, primero abrimos nuestro Visual Studio y hacemos click.
MATEMÁTICAS 1º ESO FRACCIONES DPTO. MATEMÁTICAS - I.E.S. PABLO SERRANO.
Límites y continuidad. Alguna vez ha estado Ud. en una playa de estacionamiento en el que puede “aproximarse” al automóvil de enfrente, pero no quiere.
Funciones.
GRÁFICAS Y FUNCIONES María José Peña Mártil MATEMÁTICAS
PHP Hypertext Preprocessor
Trabajo Práctico Intensidad Luminosa
NO ES LA TECNOLOGÍA... ¡ES LO QUE PODEMOS HACER CON ELLA!
FUNCION LINEAL Y ECUACION DE 1ª GRADO
DEFINICION DE HARDWARE EN COMPUTACIÓN
U.D. 13 * 3º ESO E.AP. FUNCIONES LINEALES Y CUADRÁTICAS
Movimiento.
Usando StreamReader y StreamWriter
Unidades de almacenamiento
1 1 1 El Sistema B nar o
(Teoría para 5º de Primaria)
Para beneficio de la Educación
FUNCIONES ELEMENTALES
MANEJO DE ARCHIVOS DIGITALES
Como comprimir y Descomprimir Archivos?
Matemáticas Aplicadas CS I
La recta y la función lineal
Carpetas y archivos.
Estimación de parámetros: Estimación puntual y por intervalos
Elaboras presentaciones electrónicas
Modulo I de formación Escuela TIC 2.0
Santillana Matemáticas Tema 11 Página 152 Santillana Matemáticas Tema 11 Página 153.
Funciones Prof. M. Alonso
FÍSICA PARA NIÑOS.
Excel.
1º de Primaria.
UNIDAD 04 Los números enteros
SISTEMA BINARIO.
¿Qué es un hipervínculo? Fabiola Yazmin Gómez Torres. 1.F t/m BGC.
METODOLOGÍA DE LA INVESTIGACIÓN (SAMPIERI)
Valor de posición de una cifra en un número
EL CÓDIGO GENÉTICO.
PRECISIÓN y EXACTITUD.
EL CÓDIGO GENÉTICO.
U.D. 12 * 3º ESO E.AC. FUNCIONES LINEALES Y CUADRÁTICAS
EL CÓDIGO GENÉTICO.
Control Estadístico de Procesos
EL CÓDIGO GENÉTICO.
Estudio del movimiento
EL CÓDIGO GENÉTICO.
1 Números naturales Números naturales Sistema de numeración decimal
Que es la Física ? La palabra física proviene del vocablo griego fisis que significa “naturaleza”. Es la ciencia que estudia las propiedades de los.
Estudio del movimiento
MATEMÁTICAS 1º ESO FRACCIONES DPTO. MATEMÁTICAS - I.E.S. PABLO SERRANO.
1 Temario de la asignatura Introducción. Análisis de datos univariantes. Análisis de datos bivariantes. Series temporales y números índice. Probabilidad.
Estructura de los Sistemas Operativos Alumna:Arratea Almeyda Aracelli.
MEDIDAS DE DISPERSIÓN “Medidas de dispersión”. Miden qué tanto se dispersan las observaciones alrededor de su media. MEDIDAS DE DISPERSIÓN.
Proporcionalidad 1. Magnitudes y medida 2. Razón y proporción
Mientras estudian cinemática, ¿Con que rapidez se mueven en relación con las silla a la que están sentados? ¿Y en relación con el sol?
Conceptos básicos II. – Game Maker. –.
LAS CLAVES MUSICALES. ¿QUÉ SON? Antes de empezar a comprender estos conceptos, debemos tener claro que el sonido es INFINITO. Y los seres humanos tenemos.
Aspirante a Ingeniera Sandra Niño Linares Correo _Skype Cel
EL CÓDIGO GENÉTICO.
Estrategia algorítmica
Resumen Posición, velocidad y aceleración son tres maneras diferentes de describir el movimiento aunque están relacionadas. El cambio con el tiempo es.
VARIABILIDAD La variabilidad está presente en todo nuestro entorno, ejemplo: Un paciente tarda en recuperarse de depresión 8 meses, otro 6 meses y un.
MODELO TECNOLÓGICO ¿Qué es un modelo?
Transcripción de la presentación:

¿QUÉ TIENEN EN COMÚN UN MONO Y UN RATÓN? Una mirada computacional al ADN Pablo Ariel Heiber

ADN Cada especie tiene un número diferente, pero constante dentro de ella, de cromosomas Dentro de cada cromosoma se encuentra una larga cadena de un compuesto orgánico que llamamos “ácido desoxirribonucleico” (ADN) Cada cadena se compone de varios cientos de millones de bases nitrogenadas

ADN Cada una de las cuatro bases se codifica con la letra inicial de su nombre: A, C, T o G Dentro de una especie las cadenas son parecidas: ACTCTGTGCACGTGACGACA ACTCAGTGCACGCGAACACA pero distintas de las de otras especies CAGCTGACGTACGGATCGAT por eso decimos que existe un ADN “de la especie”, aunque en realidad cada individuo tiene uno distinto

ADN Individuos

ADN Especies

ADN De cada cromosoma de cada especie tenemos un archivo de varios megabytes que representa la especie. Por ejemplo: Perro 1: ACTGCGCGCGTGTGCAAACAGTCA… Perro 2: ATCGACTAGCTAGCTATGACGTAG… Perro 3: CGTACGTACTGACTGACTAGATGT… Gato 1: ACAGTGTGTACGTACGATATATGAA… Gato 2: GTGTGACGTGCGATGTACGTACGAC…

Medida de la información ¿Cómo podemos “medir” la información? PATO PATO PATO PATO PATO PATO PATO EL PATO ES UN AVE QUE NADA Y VUELA Ambos textos tienen la misma longitud, pero ¿Tienen la misma cantidad información? ¿Cómo sabemos cuánta información tiene cada uno?

Medida de la información Andréi Nikoláyevich Kolmogórov (Андре́й Никола́евич Колмого́ров) (25/04/1903 – 20/11/1987) fue un matemático ruso que tuvo una buena idea al respecto.

Medida de la información En lugar de escribirlo de cualquier manera, escribámoslo de la mas corta posible 7 VECES PATO EL PATO ES UN AVE QUE NADA Y VUELA Se llama “complejidad de Kolmogórov” de S y se escribre K(S) a la longitud de la forma mas corta de describir la información contenida en S. ¡Ésta es una muy buena forma de medir la información!

Medida de la información Si queremos saber cuánta información en común tienen S y T, podemos ver si escribirlos juntos es mas corto que hacerlos cada uno por separado. Es decir comparar K(ST) con K(S) + K(T). Mientras K(S) nos dice en absoluto una cantidad de información, esto nos da una noción de distancia de información entre 2 cosas.

Medida de la información ¡Ésta es una muy buena forma de medir la información! ¿Por qué? Tiene buenas propiedades matemáticas Es independiente de la forma en la que se encuentra la información (texto, imágenes, sonido, video) … peeero … Tiene un problemita: No es computable, no hay una metodología general para calcularla. En particular, nunca una computadora la va a poder calcular.

Medida de la información En particular, nunca una computadora la va a poder calcular. ¿Qué hacemos? Usamos una aproximación ¿Con qué? ¡Compresión!

Medida de la información Tomamos 2 archivos S y T, comprimimos cada uno por separado S.zip y T.zip y comprimimos los dos pegados ST.zip. Comparamos lo que pesa ST.zip con lo que pesa S.zip + T.zip y así vemos cuan cerca (o cuan lejos) están S y T. Si S y T son archivos que contienen las cadenas de cromosomas, esta idea nos dice cuánto se parecen esas especies.

Compresión ¡Más problemas a la vista! Los compresores de propósito general conocidos (zip, rar, gzip, lzip, rzip, bzip2, etc) no nos sirven para este problema. Veamos algo más de cómo se comprimen los archivos para entender por qué…

Compresión Hay 2 tipos de compresores Compresión de diccionario Compresión por bloque Ambos intentan eliminar redundancias para escribir lo mismo mas corto, pero cada uno tiene su tipo de problema

Compresión de diccionario Los compresores de diccionario aprovechan la localidad de la información, es decir que buscan redundancias en la vecindad cercana de una parte del archivo, no en todo. Parte a comprimir Archivo Ventana

Compresión por bloque Los compresores por bloque dividen el archivo en bloques y luego, dentro de cada uno, buscan redundancias globalmente Bloque Archivo

Redundancias comunes detectadas Compresión El problema en ambos casos es que, como comprimimos dos archivos pegados, solo las redundancias en la parte cercana al centro son detectadas, ya que el resto resulta quedar lejos como para entrar en la ventana en un caso, o en distintos bloques en el otro. Redundancias comunes detectadas Archivo 1 Archivo 2

Compresión La solución es utilizar la técnica de compresión por bloques, sin dividir en bloques, o visto de otra forma, con un único bloque que abarque todo el archivo. Ningún compresor de los disponibles en el mercado hace esto, ya que requiere de mucha sofisticación poder procesar bloques grandes, y nosotros necesitamos todo un archivo, que encima es muy grande.

Compresión Lo que hicimos fue implementar nuestro propio compresor, combinando técnicas ya desarrolladas y publicadas y adaptándolas a nuestras necesidades: Correctitud Eficiencia en memoria, ya que la entrada es muy grande Velocidad, ya que tenemos que procesar muchas cosas grandes

Resúmen Diseñamos e implementamos un compresor Lo utilizamos para calcular distancias entre los cromosomas de varias especies En base a estas distancias, determinamos que especies se parecen y una intuición de por qué Reportamos estos resultados y quedamos a la espera de su interpretación por parte de biólogos

MUCHAS GRACIAS