La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Recuperació de la informació Bioinformatics. Sequence and genome analysis David W. Mount Flexible Pattern Matching in Strings (2002) Gonzalo Navarro and.

Presentaciones similares


Presentación del tema: "Recuperació de la informació Bioinformatics. Sequence and genome analysis David W. Mount Flexible Pattern Matching in Strings (2002) Gonzalo Navarro and."— Transcripción de la presentación:

1 Recuperació de la informació Bioinformatics. Sequence and genome analysis David W. Mount Flexible Pattern Matching in Strings (2002) Gonzalo Navarro and Mathieu Raffinot Algorithms on strings (2001) M. Crochemore, C. Hancart and T. Lecroq http://www-igm.univ-mlv.fr/~lecroq/string/index.html

2 String Matching String matching: definition of the problem (text,pattern) depends on what we have: text or patterns Exact matching: Approximate matching: 1 pattern ---> The algorithm depends on |p| and |  | k patterns ---> The algorithm depends on k, |p| and |  | The text ----> Data structure for the text (suffix tree,...) The patterns ---> Data structures for the patterns Dynamic programming Sequence alignment (pairwise and multiple) Extensions Regular Expressions Probabilistic search: Sequence assembly: hash algorithm Hidden Markov Models

3 String matching: one pattern There is a sliding window along the text against which the pattern is compared: How does the matching algorithms made the search? Pattern : Text : Which are the facts that differentiate the algorithms? 1.How the comparison is made. 2.The length of the shift. At each step the comparison is made and the window is shifted to the right.

4 Alg. Cerca exacta d’un patró (text on-line) Algorismes més eficients (Navarro & Raffinot) 2 4 8 16 32 64 128 256 64 32 16 8 4 2 |  | Long. patró Horspool BNDM BOM BNDM : Backward Nondeterministic Dawg Matching BOM : Backward Oracle Matching w

5 Autòmata Factor Oracle Factor Oracle of word G T A T G T A : GGATT AT T A G All states are final ==> Recognize all the factors … and more GGATT AT T A G Hip: recognize all the factors of GTA This new state recognizes all the factors that ends in the fourth character that cannot be recognized before. Recognize all the factors of the prefix of length four recognize all the factors.

6 Autòmata Factor Oracle: algorisme Algorithm: for i=1 to p do Afegir transicions que reconeguin factors acabats a i; ?

7 Autòmata Factor Oracle: algorisme Que passa si el següent caràcter existeix? T T

8 Autòmata Factor Oracle: algorisme Que passa si el següent caràcter no existeix? T T

9 Autòmata Factor Oracle: exemple d’algorisme GGATT AT T A G and it recognizes words that are not factors like GTGTA. But, if the automaton doesn’t recognize  it’s not a factor! That’s the strategy of the BOM algorithm.

10 Algorisme BOM (Backward Oracle Matching) Com es determina la següent posició de la finestra? Com fa la comparació? Text : Patró : Autòmata: Factor Oracle Comproba si el sufix és factor del patró a Si la a no s’ha trobat Si arriben a l’estat final de l’autòmat amb la a a

11 Autòmata Factor Oracle: exemple d’algorisme Es construeix l’autòmata del patró invers: Suposem que el patró és ATGTATG I la cerca sobre el text :G T A C T A G A A T G T G T A G A C A T G T A T G G T G A... A T G T A T G Com fa la comparació? GGATT AT T A G

12 Autòmata Factor Oracle: exemple d’algorisme Es construeix l’autòmata del patró invers: Suposem que el patró és ATGTATG I la cerca sobre el text :G T A C T A G A A T G T G T A G A C A T G T A T G G T G A T G T A T G Com fa la comparació? GGATT AT T A G A T G T A T G

13 Autòmata Factor Oracle: exemple d’algorisme Es construeix l’autòmata del patró invers: Suposem que el patró és ATGTATG I la cerca sobre el text :G T A C T A G A A T G T G T A G A C A T G T A T G G T G A T G T A T G Com fa la comparació? GGATT AT T A G A T G T A T G

14 Autòmata Factor Oracle: exemple d’algorisme Es construeix l’autòmata del patró invers: Suposem que el patró és ATGTATG I la cerca sobre el text :G T A C T A G A A T G T G T A G A C A T G T A T G G T G A T G T A T G Com fa la comparació? GGATT AT T A G A T G T A T G

15 Autòmata Factor Oracle: exemple d’algorisme Es construeix l’autòmata del patró invers: Suposem que el patró és ATGTATG I la cerca sobre el text :G T A C T A G A A T G T G T A G A C A T G T A T G G T G... A T G T A T G Com fa la comparació? GGATT AT T A G A T G T A T G

16 Autòmata Factor Oracle: exemple d’algorisme Es construeix l’autòmata del patró invers: Suposem que el patró és ATGTATG I la cerca sobre el text :G T A C T A G A A T G T G T A G A C A T G T A T G G T G... A T G T A T G Com fa la comparació? GGATT AT T A G A T G T A T G


Descargar ppt "Recuperació de la informació Bioinformatics. Sequence and genome analysis David W. Mount Flexible Pattern Matching in Strings (2002) Gonzalo Navarro and."

Presentaciones similares


Anuncios Google