La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

para el análisis estructural de ácidos nucleicos y proteínas

Presentaciones similares


Presentación del tema: "para el análisis estructural de ácidos nucleicos y proteínas"— Transcripción de la presentación:

1 para el análisis estructural de ácidos nucleicos y proteínas
Curso Teórico-Práctico de Posgrado   Herramientas informáticas para el análisis estructural de ácidos nucleicos y proteínas A. CONSTRUCCIÓN DE ÁRBOLES FILOGENÉTICOS Herramientas - Nancy I. López

2 Herramientas - Nancy I. López 2011
Construcción de árboles filogenéticos ¿Qué es un árbol? Modelo/ estructura matemática que se usa para modelar la historia evolutiva de un grupo de secuencias o de organismos. Filogenia es la ciencia de estimar el pasado evolutivo. Filogenia molecular basada en comparación de secuencias Árbol filogenético ° alineamiento múltiple. Árbol obtenido dependiente de este alineamiento. Herramientas - Nancy I. López

3 Herramientas - Nancy I. López 2011
FILOGENIA MOLECULAR  Es el estudio de relaciones evolutivas entre organismos o genes por una combinación de biología molecular y técnicas estadísticas. Si se estudian relaciones entre organismos con fines de clasificación también se denomina sistemática molecular. Historia Uso de datos moleculares en filogenia comenzó en los ´60 secuenciación de proteínas: relaciones entre ordenes de mamíferos otras técnicas moleculares tales como hibridización DNA-DNA . Técnicas de DNA recombinante ´70s : rápida acumulación de datos de secuencias de DNA. ’85 PCR Filogenia: f. biol. Origen y desarrollo evolutivo de las especies y, en general, de las genealogías de seres vivos: sistemática es el estudio de la clasificación de las especies con arreglo a su historia evolutiva (filogenia). Herramientas - Nancy I. López

4 Herramientas - Nancy I. López 2011
¿Cómo puede medirse el cambio evolutivo? Distancia evolutiva entre 2 especies medida por diferencias en la secuencias de nucleótidos o aa de macromoléculas homólogas. Las secuencias de DNA, RNA y proteínas han cambiado muy lentamente durante la evolución. Diferentes moléculas: diferentes velocidades de evolución. Muchas secuencias son mosaicos de diferentes velocidades evolutivas. RNA: diferentes regiones estructurales evolucionan a diferentes velocidades Proteinas: Cambios silenciosos (x ej. posición 3 de codones). Carácter degenerado del código genético. Sugieren que la evolución de los microorganismos podría ser reflejada por la secuencia de sus macromoléculas. Las moléculas elegidas para realizar estudios filogenéticos deben reflejar el tiempo evolutivo por lo que deben tener contenido informativo: ácidos nucleicos o proteínas. Herramientas - Nancy I. López

5 Herramientas - Nancy I. López 2011
¿Qué secuencias deberíamos utilizar? Elección de la secuencia: ¿evolución rápida o lenta? ¿relaciones cercanas o distantes? Herramientas - Nancy I. López

6 Herramientas - Nancy I. López 2011
Elección de la molécula correcta . Distribución universal . Funcionalmente homóloga . Alineamiento de secuencias debe permitir determinar regiones de homología y regiones de heterogeneidad . Secuencia elegida debería variar en forma proporcional con la distancia evolutiva a medir . No debe estar sujeta a transferencia entre organismos filogenéticamente distantes (transferencia lateral) . La cantidad de información debe ser suficiente para que el análisis sea estadísticamente significativo. Herramientas - Nancy I. López

7 Herramientas - Nancy I. López 2011
Elección de la mejor molécula para estimar el tiempo evolutivo Debido a la antigüedad del proceso de síntesis de proteínas, el RNA es una excelente molécula para discernir relaciones evolutivas entre organismos vivientes .Tiene distribución universal y cumple una misma función . Cambia muy lentamente . Posee regiones altamente conservadas en todos los organismos y regiones con mayor variabilidad. Permite comparaciones entre organismos muy relacionados o poco relacionados RNA mejor cronómetro o reloj molecular Herramientas - Nancy I. López

8 Herramientas - Nancy I. López 2011
Ribosomas: Presentes en todos los organismos (procariotas, plantas, animales). Características en procariotas 3 tipos de moléculas RNA: 5S, 16S y 23S. Subunidad pequeña (30S): 16S Subunidad mayor (50S): 5S, y 23S 16S 1500 nucleótidos S eucariotas 1874 nucleótidos Regiones + conservadas y regiones variables. Más conservadas para comparar los más distantes y más variables para los más cercanos. Regiones únicas secuencia firma (signature) usadas para diseñar sondas. 5S 120 nt- 23S rRNA is a 2904 23S 2900nt aprox Técnicas de secuenciación desarrolladas y mejoradas para facilitar el análisis. Gen 16S rRNA: 2 cadenas confirman la secuencia (PCR simple). Otras moléculas Citocromo c y ribulosa 1,5 bisfosfato carboxilasa (Rubisco). No universales. Herramientas - Nancy I. López

9 Herramientas - Nancy I. López 2011
Mólecula del 16S rDNA en procariotas tiene su equivalente en 18S rDNA de eucariotas Alineamiento de una región altamente conservada del 16S/18S rRNA Eucariotas Homo sapiens ...GTGCCAGCAGCCGCGGTAATTCCAGCTCCAATAGCGTATATTAAAGTTGCTGCAGTTAAAAAG... S. cereviceae ...GTGCCAGCAGCCGCGGTAATTCCAGCTCCAATAGCGTATATTAAAGTTGTTGCAGTTAAAAAG... Zea maize ...GTGCCAGCAGCCGCGGTAATTCCAGCTCCAATAGCGTATATTTAAGTTGTTGCAGTTAAAAAG... Escherichia coli ...GTGCCAGCAGCCGCGGTAATACGGAGGGTGCAAGCGTTAATCGGAATTACTGGGCGTAAAGCG... Anacystis nidulans ...GTGCCAGCAGCCGCGGTAATACGGGAGAGGCAAGCGTTATCCGGAATTATTGGGCGTAAAGCG... Thermotoga maritima ...GTGCCAGCAGCCGCGGTAATACGTAGGGGGCAAGCGTTACCCGGATTTACTGGGCGTAAAGGG... Methanococcus vannielii ...GTGCCAGCAGCCGCGGTAATACCGACGGCCCGAGTGGTAGCCACTCTTATTGGGCCTAAAGCG... Thermococcus celer ...GTGGCAGCCGCCGCGGTAATACCGGCGGCCCGAGTGGTGGCCGCTATTATTGGGCCTAAAGCG... Sulfolobus sulfotaricus ...GTGTCAGCCGCCGCGGTAATACCAGCTCCGCGAGTGGTCGGGGTGATTACTGGGCCTAAAGCG... Procariotas Herramientas - Nancy I. López

10 Herramientas - Nancy I. López 2011
Regiones conservadas y variables en la molécula del 16S rRNA Estructura tridimensional compleja que interactúa con proteínas y otros RNAs. E. coli pb Cambios en esta maquinaria son contra seleccionados. Modificaciones que han ocurrido en billones de años de evolución son usados para construir árboles filogenéticos. Herramientas - Nancy I. López

11 Herramientas - Nancy I. López 2011
“Revolución de Woese” RNA ribosomal 16S/18S 1977 Carl Woese Filogenia universal. Sus investigaciones sentaron las bases de la filogenia molecular de procariotas utilizando el 16S rDNA. Sustento experimental Herramientas - Nancy I. López Woese y Fox Phylogenetic structure of the prokaryotic domain: the primary kingdoms. PNAS 74:

12 Herramientas - Nancy I. López 2011
Otras aplicaciones del 16S rRNA Exploración de diversidad de procariotas no cultivables. Nuevos phyla descubiertos por análisis molecular de hábitats naturales Arbol filogenético basado en secuencias del gen del 16S rRNA de Bacteria, basado en cultivos puros y bibliotecas genómicas de muestras naturales. (Hugenholz, P, Goebel BM and Pace, NR J. Bacteriol. 180: ). Herramientas - Nancy I. López

13 Herramientas - Nancy I. López 2011
Otras aplicaciones del 16S rRNA Identificación: diseño de sondas marcadas a partir de las secuencias “firma” del 16S rRNA . Monitoreo de comunidades microbianas por técnicas independientes del cultivo. . Detección de patógenos en una comunidad. Células de E. coli, Bordetella y Legionella. Hibridización con sonda para bacterias (Eub338-verde) y con sonda específica para Legionella micdadei (amarillo). FlSH (Fluorescent in situ hybridization) Herramientas - Nancy I. López

14 Herramientas - Nancy I. López 2011
Bases de datos Bases de datos de Nucleótidos: .GenBank: International Collaboration NCBI (USA), EMBL (Europe), DDBJ (Japan and Asia) Herramientas BLAST Ribosomal Database Project Michigan State University ( RDP Release 10, Update 18 :: Jan 25, 2010 :: 1,358,426  16S rRNAs RDP Release 10, Update 3 :: September 4, 2008 :: 677,057  16S rRNAs Septiembre 2006 (Release 9.42), secuencias bacterias cultivadas de muestras ambientales casi largo total (1200 bases) 5.543 secuencias de especies tipo (type strains). Importantes por su valor taxonómico y filogenético. Herramientas - Nancy I. López

15 Herramientas - Nancy I. López 2011

16 Herramientas - Nancy I. López 2011

17 Herramientas - Nancy I. López 2011
Filogenómica ERA GENÓMICA Herramientas - Nancy I. López

18 Herramientas - Nancy I. López 2011
Árboles ¿en qué se basan? Análisis filogenético clásico: Darwin (Origin of species, November 24, 1859) propiedades morfológicas y fisiológicas (ej.: sangre fría y sangre caliente, escamas, dientes, alas, etc.) Métodos basados datos moleculares: secuencias homólogas en diferentes especies (DNA o proteinas) La filogenia molecular permite obtener árboles basados en genes o secuencias y estos pueden ser adecuados como árboles para organismos. Herramientas - Nancy I. López

19 Herramientas - Nancy I. López 2011
Datos moleculares (en particular secuencias de DNA) son más “potentes” que los datos morfológicos y fisiológicos .- Proteínas y de DNA evolución + regular .- Ofrecen amplias posibilidades de tratamientos cuantitativos. .- Son más abundantes. Moléculas como testimonio de la historia evolutiva Herramientas - Nancy I. López

20 Construcción de árboles filogenéticos
1. Definir conjunto de secuencias a analizar (DNA, RNA o proteínas) provenientes de distintos organismos 2. Alinear correctamente esas secuencias 3. Aplicar métodos adecuados para la construcción de árboles filogenéticos 4. Evaluar estadísticamente el árbol filogenético obtenido Habitualmente la distancia entre dos especies mide el número de años (o generaciones) transcurridos desde la subdivisión de la especie ancestral común en las dos especies en cuestión. •Esa distancia no es conocida y hay que estimarla a partir de los datos usando modelos evolutivos. •El modelo usado depende, entre otros factores, del tipo de datos que se tiene, del tipo de organismo y del criterio del investigador. Herramientas - Nancy I. López

21 Herramientas - Nancy I. López 2011
Árboles . se pueden graficar de cualquier manera . complejidad rotación (todas las ramas pueden rotar alrededor del plano de sus nodos árboles =) . crecen de izquierda a derecha . etiquetas son horizontales. OTU Herramientas - Nancy I. López

22 Herramientas - Nancy I. López 2011
Árboles con y sin raíz Raíz: nodo del cual los otros descienden. Da dirección Definir outgroup: . Miembro no natural del grupo de interés. . punto medio Patrón de ramificación: topología Herramientas - Nancy I. López

23 Number of unrooted trees
Number of sequences Number of unrooted trees Number of rooted trees 3 1 4 15 5 105 6 945 7 10395 8 135135 9 10 Nr=(2n-3)!/[2n-2*(n-2)!], n ≥2 Nu=(2n-5)!/[2n-3*(n-3)!], n ≥3 Nr para n = Nu para n+1 Herramientas - Nancy I. López

24 Herramientas - Nancy I. López 2011
Esquema árbol OTUs son: .- Monofiléticos. Ej.: B y C. .- Polifiléticos. Ej.: D y C. Monofiléticos derivan de un antecesor común. Herramientas - Nancy I. López

25 Herramientas - Nancy I. López 2011
Dendrograma: Término general Cladograma: es el modelo básico y simplemente muestra la distancia al antecesor común en términos relativos. Las ramas son de igual longitud por lo cual no indican el tiempo evolutivo. Filograma: contiene información adicional dada por la longitud de las ramas. Los números asociados con cada rama corresponden a un atributo de las secuencias, tal como cantidad de cambio evolutivo. Es aditivo. Métricos. Ultramétricos: tipo especial de árbol aditivo en el cual los extremos del árbol son equidistantes de la raíz y son proporcionales al tiempo de divergencia. Ultramétricos. Herramientas - Nancy I. López

26 Herramientas - Nancy I. López 2011
ÁRBOLES ADITIVOS Todas las distancias son positivas. Una distancia entre 2 puede ser cero si los 2 puntos son iguales: d(x,y)=0 si x=y. Distancias son simétricas d(x,y)= d(y,x). d (x,y)< d(x,z)+d(z,y). Arboles ultramétricos Siguen estas reglas (son aditivos) y : * d(x,y)≤máx {d(x,z),d(z,y)}. Define triángulo isósceles Herramientas - Nancy I. López

27 Herramientas - Nancy I. López 2011
Secuencias alineadas Árbol filogenético Algoritmo Algoritmos: Métodos de Distancia: UPGMA (Unweighted Pair Group Method with Arithmetic Mean), Vecino más cercano (Neighbor Joining) Métodos basados en el carácter (secuencia): Máxima parsimonia (Maximum Parsimony), Máxima verosimilitud (Maximum Likelihood). Herramientas - Nancy I. López

28 Métodos para la construcción de árboles filogenéticos
Métodos de distancia Utilizan matrices de distancia UPGMA: (Unweighted Pair Group Method with Arithmetic Mean) Agrupamiento pareado no ponderado utilizando media aritmética. Es el método más simple. Asume la existencia de un reloj molecular evolutivo. NJ-Neighbour Joining. Vecino más cercano Minimum evolution. Utiliza el método de cuadrados mínimos. Métodos discretos Operan directamente con las secuencias Parsimonia: usa un carácter. Criterio: buscar el menor número de cambios evolutivos requeridos Las hipótesis más sencillas son más probables que las más complicadas. Máxima verosimilitud (Maximum likelihood): utiliza el estado del carácter y la distancia. Encuentra el árbol que con mayor probabilidad haya dado origen a los datos observados. Models of DNA substitution See main article: Models of DNA evolution for more formal descriptions of the DNA models. Models of DNA evolution were first proposed in 1969 by Jukes and Cantor [8], assuming equal transition rates as well as equal equilibrium frequencies for all bases. In 1980 Kimura[9] introduced a model with two parameters: one for the transition and one for the transversion rate and in 1981, Felsenstein[10] made a model in which the substitution rate corresponds to the equilibrium frequency of the target nucleotide. Hasegawa, Kishino and Yano (HKY)[11] unified the two last models to a six parameter model. In the 1990s, models similar to HKY have been developed and refined by several researchers (e.g. [12] and [13]). For DNA substitution models, mainly mechanistic models (as described above) are employed. The small number of parameters to estimate makes this feasible, but also DNA is often highly optimized for specific purposes (e.g. fast expression or stability) depending on the organism and the type of gene, making it necessary to adjust the model to these circumstances. [edit] Models of amino acid substitutions For many analyses, particularly for longer evolutionary distances, the evolution is modeled on the amino acid level. Since not all DNA substitution also alter the encoded amino acid, information is lost when looking at amino acids instead of nucleotide bases. However, several advantages speak in favor of using the amino acid information: DNA is much more inclined to show compositional bias than amino acids, not all positions in the DNA evolve at the same speed (non-synonymous mutations are more likely to become fixed in the population than synonymous ones), but probably most important, because of those fast evolving positions and the limited alphabet size (only four possible states), the DNA suffers much more from back substitutions, making it difficult to accurately estimate longer distances. Unlike the DNA models, amino acid models traditionally are empirical models. They were pioneered in the 1970s by Dayhoff and co-workers [14], by estimating replacement rates from protein alignments with at least 85% identity. This minimized the chances of observing multiple substitutions at a site. From the estimated rate matrix, a series of replacement probability matrices were derived, known under names such as PAM250. The Dayhoff model was used to assess the significance of homology search results, but also for phylogenetic analyses. The Dayhoff PAM matrices were based on relatively few alignments (since not more were available at that time), but in the 1990s, new matrices were estimated using almost the same methodology, but based on the large protein databases available then ([15][16], the latter being known as "JTT" matrices). Introduction The mathematical models forming the basis of phylogenetic methods can be categorized as empirical, that is deriving the properties of the model from the comparison of sequences, or parametric, meaning that known chemical and biological properties are used to build the model. It has been the trend of nucleic acid models to follow parametric methods, while amino acid models follow a more empirical approaches. These models allow calculation of evolutionary distances by measuring the expected number of substitutions per site between sequences and their most recent common ancestor. Regardless of the approach taken to form the model, they all share the Markov property. Markov Properties Markov properties make phylogenetic reconstruction more computationally feasible. It is important to note that the following assumptions are not strictly valid for all sorts of situations, but they are the benefits of making the problems of phylogenetic reconstruction far outweigh the drawbacks to such assumptions. The three important properties are homogeneity, stationary and reversibility. Homogeneity implies that substitution rates are at a stationary distribution. That the rates of change of bases is the same across all time. This equilibrium distribution is also the limiting distribution as time approaches infinity. Stationary implies that nucleotide or amino acid frequencies have remained essentially the same across time. Reversibility implies that the probability of base a changing to b in time t, or Pab(t), is the same as Pba(t). Nucleic Acid Models Jukes - Cantor The Jukes Cantor model applies the theory of a molecular clock to nucleotide substitution. That is, it assumes that any nucleotide is equally likely to replace any other nucleotide at any site at any time. More formally, for any position Q, the probability of going from state i to j where i ¹ j and i,j = 1,2,3,4 is defined as Qij = a . Kimura Quickly following on this overly simple model’s heels was a model by Kimura et al, which proposed a two-parameter model to account for the biologically relevant fact that transitions between a nucleic acid base type (transitions) was more probable than across types (tranversions). Thus a substitution matrix formed :  where a represents the transition rate and b represents the transversion rate. This reduces to the Jukes-Cantor where a = b . Felsenstein Felsenstein expanded upon the Jukes-Cantor model by accounting for the nucleotide frequency (p i where i = a,t,c,g) such that Hasegawa  Hasegawa introduced the transition/transversion bias in place of the m term, essentially extending the Kimura model, accounting for nucleotide frequencies. It is important to re-iterate that both of the Felsenstein and Hasegawa models assume the Markov stationary property, thus the values for p i do not change for different i. Amino Acid Models The Codon Model To take advantage of the genetic code, Goldman and Yang proposed a model in which the accounted for mutations within a codon. A substitution at any site would depend on the rest of the codon and whether the substitution would change the produced amino acid. where i and j are sense codons consisting of three nucleotides such that i = i1,i2,i3, j = j1,j2,j3 and i ¹ j. Furthermore, k is a constant which accounts for transition/transversion bias, daaiaaj is the distance between amino acids coded by i and j, and V is a measure of sequence variability. Dayhoff (PAM matrices) Dayhoff and coworkers started with gapped alignments of closely related species, where the orthologous sequences where at least 85% similar. It is the hope that these stringent parameters reduce the chance of a nucleotide change occurring as a result of more than one substitution event. In other words, for any predominant base substitution x --> z, we reduce the chance that the actual mutational event was x-->y-->z or some other combination. From these alignments, transition rates between amino acids were indirectly deduced and form the PAM set of matrices. Henikoff and Henikoff (BLOSUM matrices) Henikoff and Henikoff took a slightly different approach to calculate their amino acid replacement matrices, the BLOSUM set of matrices. Mainly, the researchers started with un-gapped alignments of more distant species. The replacement rates are calculated directly from these alignments. A closer set of sequences (evolutionarily, that is) the less likely the number of mutations, hence the less likely are replacements of disparate amino acid classes. In practice, the PAM and BLOSUM amino acids replacement matrices are often not used for phylogenetic reconstruction, per say, but are more useful for sequence similarity methods, such as BLAST. They are, however, important examples of empirical approaches to mathematical modeling of molecular evolution. Advanced Models Combined Models Thus far, we have assumed that all of these models are using orthologous sequences for only one gene shared by all of the species of interest. Combined models use multiple genes to form a "representative set" from which gene mutation biases (i.e.. highly conserved vs. rapid mutations vs. multiple copies within one species) can be averaged out over the set. It is still a question for debate which set of genes should make up this set, but studies have shown that combined models allow relationships to be deduced where non combined models (i.e.. the single genes themselves) showed no significant results for relating species. Heterogeneous rates of substitution Thus far, we have assumed that every site in the sequence of interest is independently and identically distributed (iid), that is that each site has the same rate for substitution. Biological observations tells us this is not the case. Efforts have been made account for this by introducing the notion heterogeneous rates, depending on either observed biochemical properties (empirical approaches) or assignment of rate of substitution from some distribution of rates, usually a Gamma distribution, or some discrete set of rates approximating a Gamma distribution. Structural Biology The incorporation of secondary amino acid structure has the potential of directing the choice of rate substitution matrices, or setting parameters appropriately in the case of non empirical models, by applying known biochemical properties to specific spans along the sequences of interest (for instance an alpha helix). Goldman, et al, produced a hidden Markov model which did incorporate such information, and found that it acted as a feed back mechanism for improving tertiary structure. Conclusions Comparisons of the various models where done through the use of likelihood ratio tests (LRT). In a LRT, one takes the best maximum likelihood estimate for a model, given a data set and values for the various parameters, and compare it to the best ML for a different model, given the same data set. Loosely where the L is a measure of how model 1 stacks up against model 2. Values less than one result in the alternate hypothesis, in this case, ML(model2 | data), to be accepted instead of the null hypothesis, ML(model1 | data). He following conclusions where made: Simple models such as the Jukes-Cantor, were better able to discriminate between candidate genes, but severely underestimated branch lengths. Incorporation of rate heterogeneity among sites gave significant improvements in branch length estimation, but raised the chance of misclassification of rates. Incorporation of secondary structure gave significant improvements. In general, the more information was available the more likely the model represented the data. pair substitutions are of two main types, transitions and transversions. Transitions If a purine base is replaced by another purine base (A by G or G by A) or a pyrimidine by another pyrimidine (T by C or C by T) the substitution is called a transition. Transitions are by far the most common types of mutations. Transversions If a purine base is substituted by a pyrimidine, or vice versa, the substitution is called a transversion. It will be seen that each base pair can undergo one kind of transition and two kinds of transversions. In general, transition mutations code for chemically similar amino acids while transversions show a greater possibility of inserting amino acids with different charges. Although transitions and transversions can cause nonsense mutations, the chances of missense mutations are greater. Herramientas - Nancy I. López

29 Herramientas - Nancy I. López 2011
Matriz de distancias Sitios 1 T T A T T A A 2 A A T T T A A Distancias   2 3 0 ___________ 3 A A A A A T A 4 A A A A A A T Secuencias Diferencia o divergencia entre las secuencias .- Rápidos .- información restringida al árbol Herramientas - Nancy I. López

30 Herramientas - Nancy I. López 2011
Métodos discretos Analizan cada columna dentro del alineamiento y construyen el mejor árbol que se ajusta a esa codición .- lentos .- ricos en información. Hipótesis para cada columna dentro del alineamiento. Puede obtenerse información sobre evolución de sitios específicos en la molécula (Ej.: sitios catalíticos o regiones regulatorias). Herramientas - Nancy I. López

31 Herramientas - Nancy I. López 2011
Máxima parsimonia Bayesian inference Bayesian inference can be used to produce phylogenetic trees in a manner closely related to the maximum likelihood methods. Bayesian methods assume a prior probability distribution of the possible trees, which may simply be the probability of any one tree among all the possible trees that could be generated from the data, or may be a more sophisticated estimate derived from the assumption that divergence events such as speciation occur as stochastic processes. The choice of prior distribution is a point of contention among users of Bayesian-inference phylogenetics methods.[4] Implementations of Bayesian methods generally use Markov chain Monte Carlo sampling algorithms, although the choice of move set varies; selections used in Bayesian phylogenetics include circularly permuting leaf nodes of a proposed tree at each step[16] and swapping descendant subtrees of a random internal node between two related trees.[17] The use of Bayesian methods in phylogenetics has been controversial, largely due to incomplete specification of the choice of move set, acceptance criterion, and prior distribution in published work.[4 Utiliza más información que los métodos de distancia No requiere un modelo de evolución Se justifica con argumentos filosóficos más que estadísticos Herramientas - Nancy I. López

32 Probar árboles con más de un método
¿Cómo comparar diferentes métodos de construcción de árboles? Eficiencia : rapidez “potencia”: número de datos requeridos para obtener resultados razonables Consistencia Robustez: sensibilidad a desviaciones Información sobre si los supuestos son violados. METODO IDEAL DEBERIA CUMPLIR LOS 5 CRITERIOS PERO NO EXISTE Probar árboles con más de un método Herramientas - Nancy I. López

33 Herramientas - Nancy I. López 2011
Comparación de métodos para la construcción de árboles filogenéticos Tener en cuenta los supuestos de cada método. El funcionamiento de un método es testeado por modelos de simulación con computadora y por pruebas empíricas. Ej.: . Modelos simples por ej. Subunidad pequeña del rRNA para comparar eucariotas. . Bacteriofago T7 manipulado en lab. a través de muchas generaciones analizando la tasa de mutación. Pocos métodos son explícitos acerca del patrón y la tasa de sustitución de nucleótidos. Herramientas - Nancy I. López

34 4. Evaluación estadística del árbol filogenético obtenido
El test más simple para probar si el conjunto de datos “soportan” el árbol obtenido es el del bootstrap. Es un método estadístico que puede estimar las distribuciones por creación repetida y análisis de conjuntos de datos artificiales. Medir el error de muestreo: tomar muchas muestras de la población estudiada y compararlas. Bootstrap simula esto pero en lugar de muestrear de una población “remuestrea” los datos originando pseudorréplicas. Herramientas - Nancy I. López

35 Herramientas - Nancy I. López 2011
Valores de bootstrap ( %). > 50 %. Puede aplicarse a todos los métodos Herramientas - Nancy I. López

36 Herramientas - Nancy I. López 2011
Purinas Transiciones Pirimidinas Probabilidad. Las secuencias evolucionan mediante mutaciones,inserciones, delecciones, etc. Nosotros nos vamos a restringir al caso de mutaciones. Hay muchos modelos aplicables. Nosotros sólo veremos los dos más sencillos, Jules-Cantor y Kimura con dos parámetros. Jukes and Cantor's one-parameter model JC69 is the simplest of the models of nucleotide substitution.[1] The model assumes that all nucleotides has the same rate (μ) of change to any other nucleotides. Kimura 2-parameter distance Kimura’s two parameter model (1980) corrects for multiple hits, taking into account transitional and transversional substitution rates, while assuming that the four nucleotide frequencies are the same and that rates of substitution do not vary among sites (see related Gamma distance). Herramientas - Nancy I. López

37 Herramientas - Nancy I. López 2011
Programas ClustalW Alineamiento Graficar con Treeview, Phylodraw NJ-Plot PHYLIP MEGA 3.1 Es el más fácil de manejar (Molecular Evolutionary Genetics Analysis) PAUP* (POP STAR). Es el más sofisticado y versátil Herramientas - Nancy I. López

38 Herramientas - Nancy I. López 2011
TRABAJO PRÁCTICO -TP6.A Secuencias simples Alineamiento múltiple. Analizar. Observar árbol guía. ClustalW para construir el árbol. Modificar opciones en la ventana “Phylogenetic tree”. Método utilizado por el programa es el del NJ-Vecino más cercano (Neighbour Joining). Elegir entre los posibles formatos de árbol (Neighbour, Phylip, Distance) Con el archivo obtenido del CLustalW entrar en el programa Treeview y graficar el árbol. Herramientas - Nancy I. López

39 Herramientas - Nancy I. López 2011
TREEVIEW Herramientas - Nancy I. López

40 Herramientas - Nancy I. López 2011
Programa MEGA 3.1 Tutorial 0. Armar archivo. Alineamiento múltiple. Herramientas - Nancy I. López

41 Herramientas - Nancy I. López 2011
Alineamiento Herramientas - Nancy I. López

42 Herramientas - Nancy I. López 2011

43 Herramientas - Nancy I. López 2011
Construir el árbol con bootstrap. Probar distintos métodos Herramientas - Nancy I. López

44 Herramientas - Nancy I. López 2011
B. Comparación de los árboles filogenéticos obtenidos para microorganismos construidos en base a la secuencia de proteínas  y  a secuencias del 16S rRNA Herramientas - Nancy I. López

45 Herramientas - Nancy I. López 2011
TRANSFERENCIA HORIZONTAL Especiación: Proceso por el cual los organismos evolucionan: determinado por transferencia vertical o herencia Genotipo parental pasa a la progenie. Bacterias pueden adquirir material genético de otros organismos a través de diversos mecanismos por un fenómeno denominado transferencia horizontal o lateral. Rápidos cambios en la estructura poblacional en cortos períodos de t. Ej.: resistencia a antibióticos. Duplicación de genes, transferencia lateral entre otros procesos puede producir discrepancias entre filogenias basadas en genes y las referidas a organismos. Transferencia lateral es uno de los mecanismos que crea confusión en la interpretación de árboles filogenéticos Herramientas - Nancy I. López

46 Herramientas - Nancy I. López 2011
Árboles basados en distintas moléculas Diferentes moléculas pueden obtenerse árboles MUY diferentes a partir de los mismos organismos Requisito que debe cumplir un marcador no ser objeto de transferencia horizontal. Herramientas - Nancy I. López

47 Herramientas - Nancy I. López 2011
Transferencia horizontal Rojo: genes adquiridos por transferencia horizontal Discrepancia en datos de rRNA? Existe cierta evidencia que los genes ribosomales sufren transferencia lateral y recombinación genética. Herramientas - Nancy I. López

48 Herramientas - Nancy I. López 2011
Microbiology (2000), 146, Comparative sequence analyses reveal frequent occurrence of short segments containing an abnormally high number of non-random base variations in bacterial rRNA genes Yue Wang1 and Zhenshui Zhang1 Microbial Collection and Screening Laboratory, Institute of Molecular and Cell Biology, 30 Medical Drive, Singapore May 2003 Kirsten M. Müllera2, Darlene W. Ellenora, Alison R. Sherwoodb, Robert G. Sheathc, Jamie J. Cannoned and Robin R. Gutelld EVIDENCE FOR LATERAL TRANSFER OF AN IE INTRON BETWEEN FUNGAL AND RED ALGAL SMALL SUBUNIT rRNA GENES1 Journal of Phycology Volume 41 Issue 2 Page 380  - April 2005 J Bacteriol December; 185(24): 7241–7246. Horizontal Transfer of Segments of the 16S rRNA Genes between Species of the Streptococcus anginosus Group Leo M. Schouls,1* Corrie S. Schot,1 and Jan A. Jacobs2 Laboratory for Vaccine-Preventable Diseases, National Institute of Public Health and the Environment, Bilthoven,1 Department of Medical Microbiology, University Hospital of Maastricht, Maastricht, The Netherlands2 Herramientas - Nancy I. López

49 Herramientas - Nancy I. López 2011
TRANSFERENCIA HORIZONTAL DE INFORMACIÓN GENÉTICA EN BACTERIAS Movimiento de material genético por mecanismos distintos a la reproducción o transferencia vertical. Mecanismos: Transformación Conjugación Transducción Agentes:  Virus Plásmidos  Elementos genéticos móviles Secuencias de inserción transposones Islas bacterianas Herramientas - Nancy I. López

50 Herramientas - Nancy I. López 2011
Construcción de árboles filogenéticos del gen o proteína de interés vs. 16S rRNA Transferencia horizontal puede ser inferida Análisis del contenido de G+C del gen vs. el resto del genoma Una isla genómica es una parte de un genoma de la que se tienen evidencias de haber sido originada por transferencia horizontal de genes. Puede codificar para diferentes funciones, estar involucrada en simbiosis o patogénesis, y puede ayudar en la adaptación de un organismo. La misma isla genómica puede encontrarse en especies lejanamente relacionadas como resultado de diversos tipos de transferencia horizontal de genes (transformación, conjugación, transducción), lo que puede determinarse por análisis de composición de bases, además de análisis filogenéticos. Un buen número de los sistemas de secreción III y IV, por ejemplo, se localizan sobre estas islas genómicas del ADN. Las islas genómicas se caracterizan por su gran tamaño (usualmente ente 10Kb y 500Kb), por su frecuente asociación con genes codificantes de ARNt, así como por un contenido GC diferente cuando se compara con el resto del genoma. Muchas islas genómicas están flanqueadas por estructuras repetidas, y contienen fragmentos de elementos móviles como fagos y plásmidos. Algunas islas pueden extraerse a sí mismas de forma espontánea desde el cromosoma, y pueden transferirse a otros destinatarios apropiados. Uso de codones Herramientas - Nancy I. López

51 Herramientas - Nancy I. López 2011
TRABAJO PRÁCTICO A. Construcción de un árbol filogenético B. Comparación de los árboles filogenéticos obtenidos a partir de secuencias de proteínas y de secuencias del gen del 16S rRNA Herramientas - Nancy I. López

52 Herramientas - Nancy I. López 2011
Construcción de árboles filogenéticos 1. Definir conjunto de secuencias a analizar (DNA, RNA o proteínas) provenientes de distintos microorganismos 2. Alinear correctamente esas secuencias 3. Aplicar métodos adecuados para la construcción de árboles filogenéticos 4. Evaluar estadísticamente el árbol filogenético obtenido Herramientas - Nancy I. López

53 Herramientas - Nancy I. López 2011
TP6 parte B Secuencias de la 1,2 y de la 2,3 catecol dioxigenasa. Armar archivo. Buscar las secuencias correpondientes al gen del 16 S rRNA de las especies que poseen la enzima. 3. Realizar los árboles filogenéticos. Probar con más de un método 4. Comparar los árboles obtenidos. Herramientas - Nancy I. López

54 Herramientas - Nancy I. López 2011
Catecol dioxigenasas (1,2 CDO-2,3 CDO) Catechol 1,2 dioxygenase Catechol 2,3 dioxygenase Herramientas - Nancy I. López

55 Herramientas - Nancy I. López 2011
Gram –/Proteobacterias Alfa-Proteobacterias Bradyrhizobium japonicum 1,2 CDO Bradyrhizobium sp. 1,2 CDO Rhizobium etli 1,2 CDO Rhizobium sp. ZJF08 2,3 CDO ß-Proteobacteria Burkholderia sp. TH2 1,2 CDO Burkholderia sp. 383 Burkholderia sp. RP007 2,3 CDO Alcaligenes sp. 2,3 CDO Ralstonia eutropha/Cupriavidus necator H16 2,3 CDO Achromobacter sp. 2,3 CDO Ralstonia eutropha JMP134 1,2 CDO Delftia tsuruhatensis 2,3 CDO Gama-Proteobacterias Pseudomonas stutzeri 2,3 CDO Pseudomonas mendocina 2,3 CDO Pseudomonas aeruginosa 2,3 CDO Azotobacter vinelandii 2,3 CDO Pseudomonas putida KT2440 1,2 CDO Pseudomonas aeruginosa PAO1 1,2 CDO Pseudomonas fluorescens PfO-1 1,2 CDO Marinobacter algicola 2,3 CDO Acinetobacter 1,2 CDO Catecol dioxigenasas (1,2 CDO-2,3 CDO) Catechol 1,2 dioxygenase Catechol 2,3 dioxygenase Gram + Rhodococcus sp. RHA1 1,2 CDO Rhodococcus opacus 1,2 CDO Arthrobacter sp. BA ,3 CDO Geobacillus thermoglucosidasius 2,3 CDO Herramientas - Nancy I. López


Descargar ppt "para el análisis estructural de ácidos nucleicos y proteínas"

Presentaciones similares


Anuncios Google