Search and learning problems in sequence analysis.

Slides:



Advertisements
Presentaciones similares
2. Manejo de memoria Manejo de memoria estática
Advertisements

Diseño y análisis de algoritmos
DISEÑO DE EXPERIMENTOS
Procesamiento de cadenas
BLAST.
Unidad 1 DISEÑO DE ALGORITMOS ING. Nelwi Baez. MSC
Resolución de Problemas Algoritmos y Programación
CODIGO GENETICO SINTESIS PROTEICA.
Técnico en programación de Software
Tema 3 Revisión de diversos métodos robustos aplicados en algunos problemas fotogramétricos.
Prof. Ramón Garduño Juárez Modelado Molecular Diseño de Fármacos
PROGRAMACION DE ESTRUCTURAS DE DATOS
UNIVERSIDAD LATINA (UNILA) IV. IMPLANTACION DE ALGORITMOS.
Programación 1 Introducción
Encuentra las 12 diferencias
Tests de permutaciones y tests de aleatorización
Definición Los Algoritmos Genéticos son métodos adaptativos que pueden usarse para resolver problemas de búsqueda y optimización. los Algoritmos Genéticos.
ANALISIS SINTACTICO El análisis gramatical es la tarea de determinar la sintaxis, o estructura, de un programa. Por esta razón también se le conoce como.
Detección de Secuencias Reguladoras en el Genoma
El descubrimiento de elementos reguladores en los vertebrados a través de comparación de genomas Por Pilar Gonzalez Gomez Alberto Lietor Santos.
ANOVA Modelo I: Comparación entre medias
Codificación Distribuida
PROSPECCIÓN DE GENES CANDIDATOS PARA CARACTERES ASOCIADOS AL RENDIMIENTO EN TRIGO PAN Ramírez IA 1, AC Pontaroli 2 Introducción 1 FCA-UNMdP; 2 EEA Balcarce.
Matemáticas para Ciencias de la Computación MCC3182
1 Ensamblado de fragmentos de ADN Grupo 6. 2 ORGANIZACIÓN 1. Background Biológico 2.Modelos 3.Algoritmos.
Trabajo presentado por: LUIS FERNANDO OBANDO ING

Tablas de Hash.
Complejidad de los problemas de decisión
CÓDIGOS DE HUFFMAN. Códigos de Huffman Los códigos de Huffman, que representan caracteres por cadenas de bits de longitud variable, proporcionan alternativas.
ESTRUCTURA DE DATOS ESD-243
(Organización y Manejo de Archivos)
Descomposición Factorial Unidad 5
LENGUAJE DE PROGRAMACIÓN
Tema 6. Conceptos básicos de programación (Repaso) Prof. María Alejandra Quintero Informática Año 2013.
ISF5501 Ingeniería de Software
Material de apoyo Unidad 4 Estructura de datos
complejidad de un problema.
SEGURIDAD EN SISTEMAS DE POTENCIA
Agustín J. González ELO320: Estructura de Datos y Algoritmos
1 Introducción a la Computación para Biólogos, Bioquímicos, Médicos, etc.
Simular: Representar una cosa, fingiendo o imitando lo que no es.
Alineamiento.
Previsión de Ventas. Métodos no paramétricos Previsión de Ventas. Tema 2. 1 Antonio Montañés Bernal Curso
Convirtiendo lecturas de secuencia en un mapa de secuencia
Unidad 1: FUNDAMENTOS DE COMPUTACIÓN Y PSEUDOLENGUAJE
ALGORITMOS La palabra algoritmo se deriva de la traducción al latín de la palabra árabe alkhowarizmi, nombre de un matemático y astrónomo árabe que escribió.
Problemas de grafos y Tratabilidad Computacional
Clase # 7: Análisis Conformacional (I)
Agustín J. González ELO320: Estructura de Datos y Algoritmos
INTRODUCCIÓN A LA INGENIERÍA DEL SOFTWARE
Alineamiento local: búsqueda de homologías
Identificación de Sistemas El problema de la Identificación de Sistemas.
Alexander Aristizabal Ángelo flores herrera
ALGORITMOS GENETICOS.
Presente un cuestionario con los aspectos mas importantes sobre los
Taller: Inteligencia Computacional
Simón Esneider Herrera Álvarez Media Técnica Casd 10-2
Introducción a los TADs
* Cuando nos permite desarrollar un programa que necesitamos para tomar un conjunto de buenas prácticas para hacer eso. Esto se debe a que podemos ahorrar.
TEMA: RESPONSABILIDAD DE ERRORES
Análisis y Diseño de Algoritmos Programa #1 Samuel Garrido Daniel.
La clase P juega un papel importante en la teoría de la complejidad computacional debido a que: 1. P es invariante para todos los modelos de cómputo que.
6.6 Administración de defectos
Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico.
Hernández Camacho Víctor Jesus Islas Sánchez Karla Vanessa
Modelo de procesos de software
LE, EI, Profesor Ramón Castro Liceaga UNIVERSIDAD LATINA (UNILA) IV. IMPLANTACION DE ALGORITMOS.
Fecha de descarga: 6/23/2016 Copyright © McGraw-Hill Education. Todos los derechos reservados. Desarrollo de estudios independientes de cultivos de un.
Gestión de tiempos del proyecto
Transcripción de la presentación:

Search and learning problems in sequence analysis

Multiple sequence alignment Dado un conjunto de secuencias encontrar la subsecuencia común más larga entre las cadenas problema. Muestra qué partes de estas cadenas están relacionadas con una otra.

Sequence reconstruction Una secuencia de bases de una extensa región será determinada debido a que la región ha sido fragmentada, se han secuenciado y reconstruido los fragmentos. Ejemplo 1. -Secuenciado por Hibridación. La complementariedad de la cadena de DNA (bases) permite que se unan oligonucleótidos (fragmentos muy pequeños de DNA) a una secuencia más larga. -Oligos del mismo tamaño hibridan con una secuencia dada. Las regiones de solapamiento en las hibridaciones detectadas se usarán para reconstruir la secuencia original. Un caso práctico serría que la secuencia ATCCGC puede ser reconstruida por el conjunto; ATC, TCC, CCG, CGC

Sequence reconstruction

Ejemplo 2. -Reconstruir el orden de los fragmentos en la secuencia original a partir de los tamaños de solapamiento entre cada par de fragmentos de la secuencia. -El mapeo se da en varios niveles: secuencia génica, proteica y cromosómica. Sequence reconstruction

Closest substring and Consensus patterns Las aplicaciones incluyen la localización de lugares de unión (binding sites) y la determinación de regiones conservadas de secuencias no alineadas. Aplicaciones en biología. -Identificación de sitios diana (target), secuencias de reconocimiento para fármacos. -Diseño de pruebas genéticas. -Diseño de encebadores (primers) para realizar la reacción de PCR.

Closest substring and Consensus patterns

A comparison of the homology search and the motif search for functional interpretation of sequence information. Homology SearchMotif Search New sequence Retrieval Similar sequence Expert knowled ge Sequence interpretation Sequence database (Primary data) Knowledge acquisition Motif library (Empirical rules) Expert knowled ge New sequence Inference Sequence interpretation

Multiple alignment and consensus discovery El número de secuencias que pueden ser examinadas en una misma vez es a menudo limitado,  6. Requerimiento de tiempo O(n k ) para los mejores algoritmos conocidos para estos análisis, donde: k es el número de secuencias. n es el número máximo de símbolos en cualquiera de las secuencias. Estos requerimientos parecen ser inherentes en el paradigma de la programción dinámica.

Como se afrontan los problemas difíciles en el campo de la genómica y proteómica Aproximación polinómica. Métodos heurísticos. La naturaleza de los problemas experimentales produce datos no precisos. Los objetivos que se buscan por el análisis computacional no necesita resultados óptimos.

Métodos heurísticos Utilizan principios matemáticos, sobre todo el análisis probabilístico para encontrar resultados cercanos al óptimo. Alta implantación en el software comercial. Ejemplos: Comparació de sequencies : Blasta, Fasta, etc. Anàlisis de expresión génica: Inducir genétic networks. Efecto de drogas, etc. Sustenta la cercanía a la solución optima como el nº de pasos para llegar a esta. Intersección con el estudio de la complejidad paramétrica: Parametrizar el numero de pasos para alcanzar la solución óptima:

Aproximación polinomial Buscan resultados aproximados al óptimo. Intersección con el estudio de la complejidad paramétrica: Parametrizar el factor que determina la bondad de la aproximación: Un problema tiene una aproximación polinomial eficiente si existe el problema parametrizado donde el parametro es el factor de aproximación a la solución óptima, y este problema es FPT. Gracias a este análisis de la complejidad: podemos determinar los limites de la aproximación polinómica Derivar directamente algoritmos aproximados a partir de un FPT. (estudio incipiente)

2 problemas: Analisis de sequencias : Nos interesarán alfabetos fijos.  = bases nitrogenadas, |  |=4. DNA.  = aminoacidos, |  |=20.Proteinas. Para la mayoría de problemas no tiene sentido un nº de sequencias muy grande. Este será uno de los parámetros a estudiar. El tamaño puede variar mucho de un EST a genomas completos. Tratar la longitud como parametro será menos habitual. Dendogramas. Como se afrontan los problemas dificiles en el campo de la genómica y proteómica

Longest common subsequence El problema LCS K-unrestricted es NP-complete. Los mejores algoritmos conocidos requieren O(n k ) y usan programación dinámica.

Complejidad si tratamos LCS de forma parametrizada. Algunos de estos problemas se vuelven FTP cuando n y  son constantes. Longest common subsequence

Sentido biológico del tratamiento: K-parametrized: -no se suele trabajar con más de 6 secuencias. Alfabeto fijo: - Las cadenas de DNA y proteinas tienen un tamaño del alfabeto de 4 y 20, respectivamente. - LCS-5 especificación del LCS-4 con  constante. Longest common subsequence

Multiple sequence alignment LCS no es solo una medida de consenso, sino también una guía para mostrar las regiones de cadenas relacionadas. Uno de los enfoques para tratar los k-sequences alignment es computar los pares de alineamientos. Se parte de grafos de alineamiento de pares (V, E, <), V: los caracteres de las secuencias E: los alineamientos entre los pares de secuencias a nivel de carácter. <: relación de sucesión entre los caracteres de una secuencia.

Multiple sequence alignment -Problema solventable en tiempo O(n k ) mediante programación dinámica. -Los parámetros que resultan de interés biológico: k-parametrizada.  -parametrizada. -Principio seguido por las aproximaciones polinomiales y métodos heurísticos.

Sequence reconstruction - SHORTEST COMMON SUPERSTRING (SCS). -Problema NP-completo cuando  >= 2. -trabaja con multitud de fragmentos cortos(EST). k-parametrización no resulta interesante El máximo de fragmentos que se sobreponen si resulta interesante. -Son útiles Algoritmos de reconstrucción polinomiales cuando el número de ocurrencias de cada x  X es conocida y hay un único solapamiento en X. -Sin embargo, en distribuciones de entrada reales, estas condiciones no acaban de cumplirse.

Shortest SBH reconstruction (SBH) Shortest SBH reconstruction with addition (SBH-ADD) and reduction (SBH-DEL) La complejidad de estos problemas no es conocida. Los parámetros con interés biológico son: k: longitud de pares de cadenas. m: rango de errores. (para estudiar hipótesis)

Mapping G: (V, E) V: EST. E: solapamiento entre ESTs (overlap). -Si la entrada no contiene errores el problema puede ser resuelto en tiempo polinomial. Si no es así: -GI-ADD y GI-DEL son NP-completos. -La complejidad GI-DEL/ADD es todavía desconocida. -Como en SBH, tienen sentido biológico la k- parametrización para el gradual incremento de hipótesis de error.

Reducción por codificación Para reducir problemas de complejidad conocida a problemas vinculados con la comparación de cadenas, un procedimiento habitual es codificar el primer problema La codificación puede ser : A nivel de palabra.: Un elemento de  ’ representa un elemento de L Una serie de elementos de  ’ representan un elemento de L. A nivel de oración. Definen una estructura. Se apoyan en: Longitudes fijas de componentes de la oración. Repeticiones de elementos de  ’ que no participan en la codificación de ningún elemento de L.

Closest substring Closest substring es NP-complete Una especialización es el Closest string: Tanto s como s’  S son de igual longitud. ( |s| = |s’|,  s’  S ) Es también NP-complete. Muy ligado al problema de aliniamiento múltiple. Ambos problemas permiten aproximaciones polinomiales.

Closest substring Sentido biológico de usar la compejidad paramétrica: Parametrizar k: nº de cadenas. Parametrizar d: distancia de la cadena s. Ambas son pequeñas a la práctica. Closest Substring resulta W[1]-hard para un alfabeto no definido. El interés biológico reside en su complejidad con alfabetos fijos:  = bases nitrogenadas, |  |=4.  = aminoacidos, |  |=20.

Closest Substring : Unbounded alphabet Reducción a partir de un problema de grafos a un problema de aproximate string matching. Reducción por clique a closest substring. Procedimeinto: Obtendremos las parejas de k sequencias, apartir de un G con k-clique y m aristas. Existirá una cadena s de tamaño L. Se crea un conjunto Sc de pares de k secuencias donde cada c  Sc codifica las aristas de G.

La codificación de cada arista consiste en situar el codigo de los vértices de esta en una secuencia de elementos no codificadores de tamaño k. Se crea un conjunto Sc de pares de k secuencias donde cada c  Sc codifica las aristas de G. Closest Substring : Unbounded alphabet La posición de los códigos de los vértices será la corresponciente a las secuencias del par ci,j.

Closest Substring : Unbounded alphabet s será la codificación de los vertices del clique. La subcadena de c cercana a s será la codificación de la arista con la que coincide en la codificación de sus vértices. La codificación de la arista tendrá una distancia k-2. El resto tendrán distancia k. Hemos codificado G creando un problema de closest substring a partir de un G k-clique. Encontrar la s cercana a los substrings del Sc, equivaldría a verificar que G es un k-clique. Verificar que G es un k-clique es W[1]-> closest substring también será W[1]. Solo existirá s próximo a s’  Cs ssi G es k-clique. Ssi (x’,k’) L’ entonces (x,k) L.

LCS-4 complexity Reduccion de LCS-1 a LCS-4. LCS-4 es W[t]-hard Mientras que LCS-1 parametriza k, LCS-4 parametriza K y |  |. La clave está en : Codificar el alfabeto flexible de LCS-1 con un alfabeto de tamaño fijo. Construir las secuencias de tal forma que se cumpla que la subcadena se encuentra tanto para el primer como para el segundo problema.

LCS-4 complexity