Ditribución del valor extremo Distribucion del maximo de N scores de matching de secuencias random independientes Si la probabilidad de este.

Slides:



Advertisements
Presentaciones similares
PRUEBAS DE HIPÓTESIS.
Advertisements

REGRESION LINEAL SIMPLE
Problemas resueltos de áreas e integrales definidas
EC. DIFERENCIAL Def: Se llama ecuación diferencial a una relación que contiene una o varias derivadas de una función no especificada “y” con respecto.
Curso de Microsoft® Word 2010
KRUSKAL WALLIS Jorge Iván Betancur Marta Isabel Naranjo García
7. Máquinas Estocásticas
Bivariadas y Multivariadas
Ingeniería en Ciencias Económicas y Financieras
Ingeniería Matemática
Ingeniería en Ciencias Económicas y Financieras
Análisis Matemático III
KRIGING.
Capítulo 5 Método de MonteCarlo
Estadísticos de Prueba en el Modelo de Regresión Múltiple
PROPIEDADES ESTADÍSTICAS DE LOS ESTIMADORES
MODELO DE REGRESIÓN MÚLTIPLE
DEFINICIONES Y TERMINOLOGÍA
PROCESAMIENTO DE DATOS DE VIENTO 1º Parte.
Sesión 12: Procesos de Decisión de Markov
Tema 2: Métodos de ajuste
COMPORTAMIENTO DE LAS DISTRIBUCIONES DE
Representación del Conocimiento
Universidad de los Andes-CODENSA
CHI-CUADRADO Y DISTRIBUCION NORMAL
TIPOS DE MODELOS DE REGRESIÓN Y SUPUESTOS PARA EL MODELO A
Similaridad de cadenas genéticas Bienvenido Martínez Redondo Sergio García Esteban 2008/2009.
Representación de Señales y Ruido por medio de Series Ortogonales
Modelos Ocultos de Markov
Sesión 6: Campos de Markov
Sesión 12: Procesos de Decisión de Markov. Incertidumbre - MDP, L.E. Sucar2 Procesos de Decisión de Markov Procesos de Decisión Secuenciales Procesos.
Tema 17: Contraste paramétrico de hipótesis I: Pruebas de contraste para un grupo. Pruebas de contraste para dos grupos: independientes o relacionados.
Bioinformática: Fundamentos y aplicaciones de actualidad Curso de verano 2005 Revisión de algunos modelos probabilísticos de evolución genética (Procesos.
Aprendizaje (Machine Learning)  Pregunta interesante: Podemos hacer que las computadoras aprendan?  Aprender: mejorar automáticamente con la experiencia.
Combinación de Clasificadores
Fundamentos del contraste de hipótesis
MÉTODO DE PIXELES DE BORDE
Sistemas Inteligentes Distribuidos Sistemas Inteligentes Distribuidos Sesión 13 L. Enrique Sucar / Marco López Sesión 13 L. Enrique Sucar / Marco López.
Unidad V: Estimación de
ESTADISTICA TEMA y 223.
Sistemas Inteligentes Distribuidos Sistemas Inteligentes Distribuidos Sesión 8 Eduardo Morales / L. Enrique Sucar Sesión 8 Eduardo Morales / L. Enrique.
Introducción La inferencia estadística es el procedimiento mediante el cual se llega a inferencias acerca de una población con base en los resultados obtenidos.
Capítulo 7 Estimación de Parámetros Estadística Computacional
Simular: Representar una cosa, fingiendo o imitando lo que no es.
Alineamiento.
Titular: Agustín Salvia
Herramientas básicas.
Intervalo de Confianza para una proporción con muestra grande
Ex ungue leonis Atribuido a Johann Bernoulli al leer dos soluciones anónimas, y reconociendo en ellas la redacción y genialidad de Isaac Newton Cadenas.
Límites y Continuidad.
6. ANÁLISIS DISCRIMINANTE
Hidden Markov Models Angélica Minaya Francesca Barletta Jeanette Velásquez Mónica Pajuelo Daniel Rueda.
ALINEAMIENTO MULTIPLE: METODOS ALTERNATIVOS
Pruebas de hipótesis.
PRUEBAS ESTADISTICAS NO PARAMETRICAS
Sesión 6: Campos de Markov. © L.E. Sucar: PGM - CAM2 Campos de Markov Introducción –Modelo de Ising Representación –Tipos de Modelos –Redes de Markov.
Cadenas De Markov.
Modelos ocultos de Markov (HMM)
Hidden Markov Models Angélica Minaya Francesca Barleta Jeanette velásquez Mónica Pajuelo Daniel Rueda.
ESTIMACIÓN DE PARÁMETROS
Modelo de simulación-optimización para el mejoramiento de políticas de inventario en una empresa del sector plástico Juan Esteban de la Calle Echeverri.
BIENVENIDOS A ESTE VIDEO TUTORIAL DE LA MATERIA DE INVESTIGACION DE OPERACIONES… … ACONTINUACION EL TEMA QUE TRATAREMOS EN ESTE VIDEO TUTORIAL ES EL DE.
INFERENCIA ESTADÍSTICA
Hernández Camacho Víctor Jesus Islas Sánchez Karla Vanessa
REGRESIÓN LINEAL SIMPLE
ESTADISTICA DESCRIPTIVA BIVARIADA MEDIDAS DE RELACIÓN ENTRE VARIABLES CUANTITATIVAS.
Intervalos de Confianza M. C. José Juan Rincón Pasaye UMSNH – FIE Mayo de 2003.
Estimación estadística
4. Métodos psicofísicos de medida en clínica
PRUEBA DE SIGNIFICANCIA
Transcripción de la presentación:

Ditribución del valor extremo Distribucion del maximo de N scores de matching de secuencias random independientes Si la probabilidad de este maximo de ser mayor que el mejor valor observado es pequeña, luego el score es significativo La distribucion del maximo de N variables aleatorias normales e independientes es conocida Nota: Ver cap. 11 de Durbin

Alineamiento Global (Alg. Needleman-Wunsch)

Alineamiento Local - Motivación Si el mejor alineamiento hasta un punto determinado tiene un score negativo es mejor empezar otro nuevo Los alineamientos pueden terminar en cualquier lugar de la matriz no en (n,m) Para el mejor alineamiento, empezamos buscando el mejor F(i,j) de toda la matriz y empezamos la traza inversa desde alli La traza termina al llegar al score 0 Esperamos que el score de un matching aleatorio sea negativo, sino: largos alineamientos incorrectos parecidos al global

Global: encontrar el mejor alineamiento, tal vez a expensas de zonas de mayor similaridad Son estas secuencias en general similares? Local: encontrar zonas con el mejor alineamiento, inclusive a expensas del score general Contienen estas secuencias subsecuencias con alta similaridad?

Alineamiento Local (Alg. Smith-Waterman)

Alineamientos repetidos Encuentra una o + copias, significativas a nivel T, de secciones de una secuencia en otra (y en x) Significación T: Score_alineamiento -T > 0 F(i,0) muestra las no coincidencias y los fines de matching (score >T) F(i,j) muestra los comienzos de matching y las extensiones, F(i,0) reemplaza el 0 local por el grado de coincidencia de la seccion anterior

Alineamientos repetidos (continuación) Alineamiento global Alin. Dependiente de T (grado de significación) La traza comienza en (n+1,0), si es igual a 0 no hubo matchings

Alineamientos solapados o anidados Se busca un alineamiento global sin restricciones La traza se realiza a partir del mayor score Comienza en el borde superior o izquierdo y termina en el inferior o derecho

Otros ejemplos Secuencia repetitiva y en “tandem” sin gaps Match que comience en (0,0) y termine en cualquier lado Cuando se busca la similaridad de una secuencia secuencia debemos pensar el tipo de matching o coincidencia deseado y buscar el algoritmo mas apropiado

Alineamientos con costo de gap variable (affine)

Automatas de estado mas complejos Los scores s(a,b) y t(a,b) pueden representar regiones de mayor fidelidad sin gaps (A) y de menor con gaps (B) Valores probabilisticos en los ejes caracterizarian a un modelo de Markov

Dada una secuencia , podemos decidir si viene de una isla CG? Cadenas de Markov Dada una secuencia , podemos decidir si viene de una isla CG? Uso de cadenas de Markov para discriminacion/clasificacion Dado un conjunto de entrenamiento, aprendemos un modelo que nos permite discriminar futuras secuencias no observadas

Aplicando P(X,Y)=P(X/Y) P(Y) mujchas veces, y la propiedad que un estado Markoviano depende solo del anterior

¿Qué significa Aprendizaje ¿Qué significa Aprendizaje? Decimos que un agente o un programa de computación aprende de la experiencia E con respecto a cierta clase de tareas T con la medida de performance P, si su performance en la tarea T, medida por P, mejora con respecto a la experiencia E Tarea: Reconocer y clasificar palabras manuscritas Medida de Performance: Porcentaje de palabras bien reconocidas o clasificadas Experiencia de Entrenamiento: Una base de datos de palabras manuscritas reconocidas o clasificadas previamente

Que se aprende? Estructura, parametros, ajustes (identificacion de sistemas) No solo el orden caracteriza a los algoritmos, tambien el sesgo de aprendizaje Generalizacion Sobreaprendizaje

Modelos Hidden Markov Como podemos encontrar islas CG en una secuencia no observada? Distinguir entre: Sucesion de estados, la probabilidad de un estado depende del anterior (k,k-1) Sucesion de simbolos, la probabilidad de observar el carácter b en el estado k (depende de la distrib. De simbolos, i.e., no es necesario asociar un estado a un simbolo).

Algoritmo de Viterbi (Camino mas probable) Aplicando el algoritmo “predictivo” encontramos los limites de las islas CG o de los estados de los dados (casino)

Estimación de los parametros Cuando, dado un conjunto de entrenamiento conozco los caminos Akl=numero de transiciones de k a l Akl’=numero de tranciciones a otros estado akl=Akl/SUMA(Akl’) Ek(b)=numero de emisiones de b en k ek(b)=Ek(b)/SUMA(E(b’)) Cuando no conozco los caminos Algoritmos de optimizacion de funciones continuas

Alineamiento de a pares usando HMMs Tal como los HMM estándar generan una secuencia, estos generan un par de secuencias alineadas

Estados iniciales y finales mas complejos (ver diferencias para alin Estados iniciales y finales mas complejos (ver diferencias para alin. Locales y globales) El estado M tiene una probabilidad de emision Pab, de emitir el alineamiento a:b X, Qa de emitir el simbolo a:gap (idem Y)

Alineamiento multiple empleando HMM Emplear un metodo de alineaminto previo (gradual) en base a un conjunto de entrenamiento (e.g. Clustal W) Aplicar HMM http://www.cse.ucsc.edu/research/compbio/sam.html

Importante: el mundo no es lineal, euclideo y deterministico Dado un Problema, existen varios Modelos para representarlos, y posibles Soluciones a dicho Modelo (P->M->S) Existen distintas formas de obtener dichas Ss (Soluciones exactas, heuristicas, metaheuristicas, etc.) Conocer cual es la mas adecuada depende de varios factores, ej. Orden del algoritmo, Sesgo, tipo de modelo (lineal, estocastico, etc.), dependencia de los parametros, condicionamientos del metodo, etc. Los algoritmos no necesariamente estan involucrados con el dominio del problema. Muchas soluciones se obtienen reinterpretando soluciones correspondientes a otros problemas (RN y física, tecnologia del habla -HMM, etc.)