¿Por qué es útil la comparación de secuencias? Parte II

Slides:

Advertisements

Presentaciones similares

Estandarización de tasas

Advertisements

Conocimiento, Uso y Evaluación de Medicamentos Genéricos

Medición de La Utilidad: El proceso de Ajuste

PRINCIPIOS Y PLANES DE ENTRENAMIENTO DE FONDO

La mediana La mediana es el valor tal que el 50 % de las observaciones son menores y 50 % de ellas son mayores a dicho valor. En otra palabras, la mediana.

Grandes Riesgos Sociales de Colombia: Componente de Salud

Junio 2008 Índice de Paz Ciudadana Junio 2008Adimark-GfKPaz Ciudadana 1 Índice Paz Ciudadana – Adimark Santiago, 10 de septiembre de 2008 Conferencia de.

Noviembre 2007Estudio Rostros de Noticias 2007Collect-GfKWikén Estudio Rostros de Noticias de la TV Chilena Desarrollados para Revista Wikén El Mercurio.

RELACIÓN POSTULADOS POR SEXO

1 LA UTILIZACION DE LAS TIC EN LAS PYMES GALLEGAS AÑO de Junio de 2005.

TEMA 2 MÚLTIPLOS Y DIVISORES

02- Plan Organización Docente v.2 Noviembre 2009 SIES – SISTEMA INTEGRADO DE EDUCACIÓN SUPERIOR.

01- OFERTA FORMATIVA v.2 Noviembre 2009 SIES – SISTEMA INTEGRADO DE EDUCACIÓN SUPERIOR.

Aladdín-respuestas 1.Vivía 2.Era 3.Amaba 4.Quería 5.Gustaban 6.Se sentía 7.Salía 8.Tenía 9.Decidió 10.escapó 11. Se vistió 12. Conoció 13. Vio 14. Pensó

1 IMPACTO DE LA IMPLANTACIÓN DE LA LEY 42/2010. INFORME A LOS 100 DÍAS Consejo de Ministros 20de abril de 2011.

a.dos b.ocho c.doce d.quince e.diecinueve f.veinte a.2 b.8 c.12 d.15 e.19 f.20 Los Números 1-20 Ecribe el número.

MuestraMétodo a prueba Nominal Ejercicio 1. ¿Es exacto el método?

Como la cuarta parte de 16 es Entonces la cuarta parte de 160 será

REGIONES C.C.P. – A.F.A. S.C.L. Región Norte Región Lejano Oeste Región Litoral Región G6 Región NBA.

Mulán /75 puntos. 1.Querían 2.Gustaban 3.Escuchó 4.Dijo 5.Tenía 6.Ayudaron 7.Maquillaron 8.Arreglaron 9.Dio 10.Estaba 11.Iba 12.Quería 13.Salió 14.Gritó

Cambios en la Forma de la Marea

Estructura Económica de México (parte 2)

Estructura Económica de México Prof. Abelardo Mariña Flores trimestre 2010-P.

William Shakespeare ( greg.), fue un dramaturgo, poeta y actor inglés. Conocido en ocasiones como el Bardo de Avon (o.

DEPARTAMENTO ADMINISTRATIVO NACIONAL DE ESTADISTICA5 Libertad y Orden DEPARTAMENTO ADMINISTRATIVO NACIONAL DE ESTADISTICA CENSO GENERAL 2005 REPÚBLICA.

Pendientes: Alimento texturizado.

Imagen N° 54: Vista panorámica y de ubicación de la Calicata CB-27

NUMERACIÓN Y ESTRATEGIAS DE CÁLCULO MENTAL

Grupo de Sequía del Servicio Meteorológico Nacional

PRINCIPALES RESULTADOS INFANCIA Y ADOLESCENCIA. Población de Niños, Niñas y Adolescentes, año 2003 (Población menor de 18 años sobre la población total)

1 Avance manual A. G. Montero ¿Qué es la masonería? La francmasonería o masonería se define a sí misma como una institución discreta de carácter.

PREVENCION DE RIESGOS PROFESIONALES EN CHILE

PROGRESO GENÉTICO Ejercicio 1 DSm = 2,27 x 40 kg. = 90,8 kg.

Indicador de proximidad a escuelas oficiales de nivel primario Población a menos de 100 metros: Población a menos de 250 metros: Población a menos de.

Evolución Tasas de Interés Promedio del Sistema Financiero *

UNIVERSIDAD INTERAMERICANA DE PUERTO RICO RECINTO DE GUAYAMA PROF

Vocabulario querer comerlo -paja por supuesto - madera

de Joaquín Díaz Garcés (Angel Pino)

En 2010, en Baja California somos habitantes: 50.4% 49.6%

FUNCIONES DE UNA VARIABLE REAL

Química U.2 Unión entre átomos y propiedades de las sustancias

MUESTRARIO 2 Del Diseño 62- al diseño 97. Muestrario 2 Diseño 62Diseño 63.

50: millón Bienvenidos a.

MÍNIMO COMÚN MULTIPLO (M.C.M)

Indicadores CNEP Escuela

Profr. Ricardo A. Castro Rico

¡Primero mira fijo a la bruja!

Haga clic para modificar el estilo de texto del patrón –Segundo nivel Tercer nivel –Cuarto nivel »Quinto nivel 1 Estrategias fiscales y cohesión social.

RELEVAMIENTO (especies mayores) PASEO GRAL. LAVALLE (entre Av. del Libertador y 25 de Mayo) Alejandro Amoruso Alfredo Jorge Etchevarne Parravicini.

Química U.2 Unión entre átomos y propiedades de las sustancias

MINIMO COMÚN MÚLTIPLO DE DOS NÚMEROS a y b

REFORMA DE LA SEGURIDAD SOCIAL EN ESPAÑA.

0 1 ¿Qué hora es? By: Craig Tillmann Revised by: Malinda Seger Coppell High School Coppell, TX.

Encuentra las 12 diferencias

UNIVERSIDAD PERUANA DE CIENCIAS APLICADAS Área de Ciencias Introducción a la matemática universitaria Porcentajes Sesión 1.1 Copyright © 2006 A. Novoa,

By: Nicholas, Rayna, Nathaniel, Calvin

Los números. Del 0 al 100.

1. 3 ATENCIÓN ELOGIO EXTINCIÓN ¿POR QUÉ SE MANTIENE LA CONDUCTA? Análisis de: 9.

Vocabulario: (Los números)

Vocabulario: Para Empezar (Numbers & Colors)

uno cero dos seis siete nueve Los Números DIEZ cinco ocho tres

Vocabulario lonchera perseguir valiente simpático/a menear miedo

Diagrama CAUSA_EFECTO ó ISHIKAWA ó ESPINA DE PESCADO

1 8 de febrero del Chapter 5 Encoding 3 Figure 5-1 Different Conversion Schemes.

Principales trabajos realizados en el Observatorio. El Ente Regional de la energía (EREN) en el Observatorio Industrial del Sector Energético. Ricardo.

Hospital Privado de Córdoba Octubre  Este estudio estableció desde 1987 estudiar el efecto de la radioterapia (RT) después de la cirugía conservadora.

The CATH Domain Structure Database Ana Gabriela Murguía Carlos Villa Soto.

Transcripción de la presentación:

¿Por qué es útil la comparación de secuencias? Parte II Traducción al Español, Dr en C Nicolás Padilla Raygoza, Departamento de Enfermería y Obstetricia, División Ciencias de la Salud e Ingenierías, Campus Celaya Salvatierra, Universidad de Guanajuato, México padillawarm@gmail.com Lipman, David (NIH/NLM/NCBI)

Casi 100 Trillones de comparaciones BLAST por cuarto (10/01)

Búsqueda rápida de similitudes de banco de datos de ácido nucleico y proteínas. Wilbur WJ, Lipman DJ. Proc Natl Acad Sci U S A 1983 Feb;80(3):726-30 Con el desarrollo de grandes bancos de datos de secuencias de proteínas y ácidos nucleicos, la necesidad de métodos eficientes de búsqueda en tales bancos para secuencias similares a una secuencia dada se ha vuelto evidente. Presentamos un algoritmo para la comparación global de secuencias basados en k-tuples pareados de secuencia de elementos para un k fijado. El método resulta en reducción substancial del tiempo requerido para la búsqueda en el banco de datos cuando se compara con técnicas anteriores de análisis de similitud, con mínima pérdida de sensibilidad. El algoritmo también ha sido adaptado, en una implementación separada, para producir alineación rigurosa de secuencias. Actualmente, usando el sistema DEC KL-10, podemos comparar todas las secuencias en el Banco de datos de proteína de la Fundación de Investigación Biomédica con una búsqueda de secuencia 350-residuos en menos de 3 minutos y efectuar un análisis similar con un búsqueda de secuencia 500-base contra todas las secuencias eucarióticas en la Báse de Datos de Ácido Nucleico en los Álamos en menos de 2 minutos.

Gene del cáncer encuentra su pareja NY Times Julio 3, 1983 “…una búsqueda computarizada por serendipia…” Waterfield MD et al., Nature 1983 Jul 7;304(5921):35-39 Doolittle RF et al., Science 1983 Jul 15;221(4607):275-277 v-sis: 6 QGDPIPEELYKMLSGHSIRSFDDLQRLLQGDSGKEDGAELDLNMTRSHSGGELESLARGK 65 QGDPIPEELY+MLS HSIRSFDDLQRLL GD G+EDGAELDLNMTRSHSGGELESLARG+ PDGF : 10 QGDPIPEELYEMLSDHSIRSFDDLQRLLHGDPGEEDGAELDLNMTRSHSGGELESLARGR 69 v-sis: 66 RSLGSLSVAEPAMIAECKTRTEVFEISRRLIDRTNANFLVWPPCVEVQRCSGCCNNRNVQ 125 RSLGSL++AEPAMIAECKTRTEVFEISRRLIDRTNANFLVWPPCVEVQRCSGCCNNRNVQ PDGF : 70 RSLGSLTIAEPAMIAECKTRTEVFEISRRLIDRTNANFLVWPPCVEVQRCSGCCNNRNVQ 129 v-sis: 126 CRPTQVQLRPVQVRKIEIVRKKPIFKKATVTLEDHLACKCEIVAAARAVTRSPGTSQEQR 185 CRPTQVQLRPVQVRKIEIVRKKPIFKKATVTLEDHLACKCE VAAAR VTRSPG SQEQR PDGF : 130 CRPTQVQLRPVQVRKIEIVRKKPIFKKATVTLEDHLACKCETVAAARPVTRSPGGSQEQR 189 v-sis: 186 AKTTQSRVTIRTVRVRRPPKGKHRKCKHTHDKTALKETLGA 226 AKT Q+RVTIRTVRVRRPPKGKHRK KHTHDKTALKETLGA PDGF : 190 AKTPQTRVTIRTVRVRRPPKGKHRKFKHTHDKTALKETLGA 230 V-sis y factor de crecimiento derivado de plaquetas (PDGF)

Un temprano, más sutil descubrimiento … (para animación de la diapositiva, por favor de click en el área de la diapositiva p en el botón de mostrar la diapositiva). Un temprano, más sutil descubrimiento … Productos del gene viral src están relacionados a la cadena catalítica de proteìn-kinasa dependiente de cAMP de mamíferos Barker WC, Dayhoff MO. PNAS 1982 Mayo;79(9):2836-2839 Query: 113 YAAQIVLTFEYLHSLDLIYRDLKPENLLIDQQGYIQVTDFGFAKR---VKGRTWT---LC 166 Y+ +V +LHS +++ DLKP N+LI +Q +++DFG +++ ++GR + + Sbjct: 125 YSLDVVNGLLFLHSQSILHLDLKPANILISEQDVCKISDFGCSQKLQDLRGRQASPPHIG 184 Query: 167 GTPEYLAPEIILSKGYNKAVDWWALGVLIYEMAAGYPPFFADQPIQIYEKIVSGKVR 223 GT + APEI+ + D ++ G+ +++M P ++ +P + +V+ +R Sbjct: 185 GTYTHQAPEILKGEIATPKADIYSFGITLWQMTTREVP-YSGEPQYVQYAVVAYNLR 240 Biología no algoritmos - Comparan proteínas, no DNA deberá detectar aminoácidos similares no sólo identidades

¿Con qué frecuencia encontraremos similitudes? (para animación de la diapositiva, por favor de click en el área de la diapositiva p en el botón de mostrar la diapositiva). ¿Con qué frecuencia encontraremos similitudes? ¿Cuántas familias de proteínas habrá? En 1983, hubo sólo un pequeño porcentaje de genes de los genomas de distintos organismos, diferentes en su evolución (por ejemplo hombre, mosca, e. coli, levadura). Similitudes inesperadas deberán ser raras.

Estimando el número de familias de proteínas (para animación de la diapositiva, por favor de click en el área de la diapositiva p en el botón de mostrar la diapositiva). Estimando el número de familias de proteínas

Estimaciones tempranas del número de familias de proteínas- ~1000 Zuckerkandl,E. (1974) Accomplissement et perspectives de la paleogenetique chimique. In: Ecole de Roscoff –1974, p. 69. Paris:CNRS. “La aparición de nuevas estructuras y funciones en proteínas durante evolución”, J. Mol. Evol. 7, 1-57 (1975). Dayhoff, M.O. (1974) Federation Proceedings 33, 2314. “El origen y evolución de superfamilias de proteínas”, Fed.Proc. 35, 2132-2138 (1976).

Margaret Dayhoff

Atlas de Secuencia y Estructura de Proteína, Vol Atlas de Secuencia y Estructura de Proteína, Vol. 5, Suplemento 3 (1978) pg. 10: “Se ha estimado que en el humano hay 50,000 proteínas de importancia funcional o médica. … Un hito en la biología molecular ocurrirá cuando un miembro de cada superfamilia haya sido elucidado. A la tasa actual de 25 por año, tomará al menos 15 años.”

Hubris, el Proyecto Genoma y familias de proterínas (Para animación de la diapositiva click en el área de la diapositiva o el botón de mostrar diapositiva) Hubris, el Proyecto Genoma y familias de proterínas Chothia, C. (1992). Mil familias para el biólogo molecular. Nature, 357, 543-544. Green P, Lipman D, Hillier L, Waterson R, States,D, and Claverie JM (1993). Ancient Conserved Regions in New Gene Sequences and the Protein Databases. Science, 259, 1711-1716. ACR = similitud detectada entre secuencias de organismos remotamente relacionados

1992: ¿Qué nuevas familias tenemos del proyecto genoma? (Para animación de la diapositiva click en el área de la diapositiva o el botón de mostrar diapositiva) 1992: ¿Qué nuevas familias tenemos del proyecto genoma? Set N Codificación de secuencias Sec. con ACRs ACRs humano ESTs 2644 600-1200 197 (16-33%) 103 gusano ESTs 1472 1370 570 (42%) 240 Genes gusano 234 74 (32%) 59 Levadura ORFs 182 43 (24%) 35 Sets comparados Secuencias pareadas ACRs ACRs en base de datos gusano ESTs, humano ESTs 77, 66 34 31 (91%) gusano ESTs, levadura ORFs 23, 13 9 8 (89%) gusano genes, humano ESTs 17, 17 12 12 (100%) gusano genes, levadura ORFs 6, 4 4 3 (75%) humano ESTs, levadura ORFs 14, 13 10 10 (100%)

(Para animación de la diapositiva click en el área de la diapositiva o el botón de mostrar diapositiva) Crecimiento acumulado en número de proteínas y número de dominios conservados (de Geer, L., Bryant, S., & Ostell, J.) Green et al. 85% de ACRs 1.2*10 6 100 1.0*10 6 80 8.0*10 5 60 Familias con dominio conservado 6.0*10 5 % Familias Hit Número de proteínas 40 5 Dayhoff 10% de superfamilias 4.0*10 Secuencias de proteínas 20 2.0*10 5 0.0 1960 1965 1970 1975 1980 1985 1990 1995 2000

¿Por qué son pocas familias y por qué evolucionan lentamente? Típica Muy rara Vista estructural Termodinámica: Finkelstein, AV, “¿Por qué aon las mismas proteínas usadas para realizar diferentes funciones?” FEBS 325, pp. 23-28 (1993)

Limitantes debido a función biológica pueden ser más importantes (para animación de la diapositiva click el área de la diapositiva o click en Mostrar Diapositiva) Limitantes debido a función biológica pueden ser más importantes Un gen Divergencia funcional Compare pares de secuencias de clases relacionadas de proteínas Duplicación de genes Todas las secuencias deberían al menos compartir similitudes en la estructura Último ancestro universal común Los tiempos de divergencia para todas las secuencias deben ser aproximadamente las mismas Secuencias dentro de una clase comparten función pero las secuencias entre clases tienen diferente función procariotes eucariotes Grado dentro de clases similares > entre clases similares indica importancia de limitantes debido a función biológica

(para animación de la diapositiva click el área de la diapositiva o click en Mostrar Diapositiva) Ejemplo de la aminoacil-tRNA sintestasas (aaRS) (de E. Koonin & Y. Wolf) enzimas esenciales responsables para la incorporación de aminoácidos en proteínas Dos clases no relacionadas de aaRS, cada una incluye 10 aaRS relacionadas entre sí El último ancestro común universal (LUCA) de formas de vida moderna ya tenía al menos 17 aaRS La duplicación que da lugar a aaRS de diferentes especificidades debió haber ocurrido durante un relativamente corto periodo de evolución temprana. La evolución post-LUCA de aaRS tomó mucho más que la fase temprana cuando las especificidades fueron establecidas. Sin embargo, los cambios que ocurrieron después de aaRS fueron cerradas en sus especificidades son pequeños comparados a los cambios trazados en la fase temprana.

Orthologs … (de S. Bryant)

Paralogs … (de S. Bryant)

Ejemplo de las aminoacil-tRNA sintetasas (aaRS) (de E. Koonin & Y Ejemplo de las aminoacil-tRNA sintetasas (aaRS) (de E. Koonin & Y. Wolf) Exepciones - glutamina/glutamato,asparagina/aspartato y triptofano/tirosina

¿Cuantos genes humanos? (para animación de la diapositiva click el área de la diapositiva o click en Mostrar Diapositiva) ¿Cuantos genes humanos? 80,000 Antequera F & Bird A, “Number of CpG islands and genes in human and mouse”, PNAS 90, 11995-11999 (1993). 120,000 Liang F et al., “Gene Index analysis of the human genome estimates approximately 120,000 genes”, Nat. Gen., 25, 239-240 (2000) 35,000 Ewing B & Green P, “Analysis of expressed sequence tags indicates 35,000 human genes”, Nat. Gen. 25, 232-234 (2000) 28,000-34,000 Roest Crollius, H. et al., “Estimate of human gene number Provided by genome-wide analysis using Tetraodon nigroviridis DNA Sequence”, Nat. Gen. 25, 235-238 (2000). 41,000-45,000 Das M et al., “Assessment of the Total Number of Human Transcription Units”, Genomics 77, 71-78 (2001)

(para animación de la diapositiva click el área de la diapositiva o click en Mostrar Diapositiva) ¿Cuantos genes humanos con ACRs? (de S. Resenchuk, T.Tatusov, L. Wagner, A. Souverov) 12,245 mRNA caracterizados de RefSeq 78% tienen ACR, i.e., vertebrados en E <10e-6 ( 9,496/12,245) 90% de estos han correspondido a predicciones de GenomeScan los cuales también tienen ACR (8501/9496) 20,245 modelos GS para el genoma humano completo tienen ACR 15,573 modelos GS después de corrección para splitting (20,245/1.3) 17,300 genes humanos estimados con ACRs ( ~15,573/.9)

¿Cuantos genes tienen los humanos? (para animación de la diapositiva click el área de la diapositiva o click en Mostrar Diapositiva) ¿Cuantos genes tienen los humanos? 17,303 estimación de genes humanos con ACRs Ahora use comparación de genomas… S.cerev. S. Pombe A.thal. C. Elegans D. mela. ACRs/genes 4022/6306 63% 4846/6593 73% 14443/24605 58% 11598/20850 55% 10469/14335 73% 17,303/.55 = ~31,500 Total de genes humanos ¡Más complicado que esto!

Conservación, nivel de expresión longitud de proteína y número exon (para animación de la diapositiva click el área de la diapositiva o click en Mostrar Diapositiva) Conservación, nivel de expresión longitud de proteína y número exon EST # 0-20 0-200 >200 All RefSec # 396 2716 9454 2791 12,245 RS + ACR 240 (61%) 1718 (63%) 7049 (75%) 2447 (88%) 9496 (78%) GS + ACR 158 (66%) 1424 (83%) 6256 (89%) 2245 (92%) 8501 (90%) Long. de Prot. 319 419 486 517 493 Avg. exon# 3.82 6.25 8.78 10.38 9.15 23,600 estimación revisada de genes humanos con ACRs (~15,573/.66) 43,000 límite superior del estimado del total de genes humanos (23,600/.55) 35,000 es un límite más razonable con esta forma

La relación de conservación de proetína y longitud de secuencia Lipman DJ, Souvorov A, Koonin EV, Panchenko AR, Tatusova TA BMC Evol Biol. 2002 2:20

conservada No conservada Dominios estructurales Set de Salmonella 4279 proteínas Número Set de Salmonella Longitud

conservada No conservada Dominios estructurales Archaeoglobus fulgidus 100 conservada No conservada Dominios estructurales 80 2420 proteínas 60 Número 40 20 200 400 600 800 1000 Longitud

conservada No conservada Dominios estructurales Yeast 6305 proteínas 50 100 150 200 250 300 350 400 600 800 1000 Yeast Número Longitud 6305 proteínas conservada No conservada Dominios estructurales

conservada No conservada Dominios estructurales Longitud Drosophila 10 20 30 40 50 200 400 600 800 1000 Drosophila Número 2390 proteínas conservada No conservada Dominios estructurales Longitud

Conservada No conservada Dominios estructurales Humano 14538 proteínas 300 Conservada 250 No conservada 14538 proteínas Dominios estructurales 200 Número 150 100 50 200 400 600 800 1000 Longitud

A Conservada No conservada B

Archaeoglobus fulgidus Escherichia coli Densidad de contacto

Reconocimientos Y todos mis colegas en NCBI y NIH Steve Bryant Greg Schuler Lewis Geer Alex Souverov Alex Kondrashov Tatiana Tatusov Eugene Koonin Lukas Wagner Jim Ostell Yuri Wolf Sergei Resenchuk Phil Murphy (NIAID) Y todos mis colegas en NCBI y NIH