SELECCION DE “TEMPLATES” Y ALINEAMIENTO
Energía X Nativa
Búsqueda homólogos con estructura conocida Selección homólogos de interés (miembros más cercanos, criterios adicionales) Obtención del alineamiento de la secuencia con los homólogos Cálculo del modelo Contraste del modelo Experimentación “Feed-back” con el modelo
Búsqueda de homólogos de estructura conocida
SIMILITUD ENTRE SECUENCIAS INDICA SIMILITUD ENTRE ESTRUCTURAS Y FUNCION
HOMOLOGIA Y COMPARACION DE SECUENCIAS SIMILITUD ENTRE SECUENCIAS HOMOLOGIA (Mismo orígen evolutivo)
ALINEAMIENTO DE SECUENCIAS AGGVIIIQVG AGGVL-IQVG AGGVIIIQVGAGGVLIQVG
IMPORTANCIA ALINEAMIENTO Detección homólogos Construcción modelo estructural
Búsqueda de homólogos SECUENCIA INCOGNITA ATTVG...LMN BASE DE DATOS DE SECUENCIAS AGLM...WTKR TCGGLMN..HICG WRKCPGL...
COMPARACION SECUENCIAS Construir alineamiento óptimo Puntuar candidato
COMPARACION DE SECUENCIAS HOMOLOGIA ALTA:HOMOLOGIA ALTA: AWTRRATVHDGLMEDEFAA AWTRRATVHDGLCEDEFAA HOMOLOGIA BAJA: HOMOLOGIA BAJA: AWTRRAT AWTKLATAVVVFEGLCEDEWGG VHDGLMEDEFAA
Búsqueda de homólogos PUNTUACION SECUENCIAS BASE DATOS (Proteínas estructura conocida) LOCALIZACION CANDIDATO CON MAYOR PUNTUACION PREDICCION FUNCIONAL/ESTRUCTURAL POR ASOCIACION/”HERENCIA”
PROBLEMAS HABITUALES Solo hay familiares remotos: –BAJA SIMILITUD DE SECUENCIA –DIFICIL TENER BUENOS ALINEAMIENTOS
ALINEAMIENTO DE SECUENCIAS OBTENER EL ALINEAMIENTO OPTIMO NECESARIO: –METODO PARA PUNTUAR AMINOACIDOS COMPARADOS –METODO PARA CONSTRUIR LOS ALINEAMIENTOS
MATRIZ DE IDENTIDADES A C D...Y A C Y
NUMERO TOTAL DE ALINEAMIENTOS DOS SECUENCIAS DE LONGITUD N Y M: N + M N N = M =
HERRAMIENTAS BASICAS MATRIZ COMPARACION AMINOACIDOS (Dayhoff, 1972) ALGORITMOS DE COMPARACION DE SECUENCIAS (Needleman & Wunsch, 1970).
MATRIZ DE DAYHOFF log(fij/qi.qj) PUNTUACION DE LOS AMINOACIDOS ALINEADOS fij: frecuencia de mutación de residuo i al j qi, qj: frecuencia de los residuos i, j
MATRIZ DE DAYHOFF REFLEJA LAS PROPIEDADES FISICO- QUIMICAS DE LOS AMINOACIDOS: propensidades de estructura secundaria hidrofobicidad volumen
MATRICES COMPARACION SECUENCIAS BLOSUM62 (Henikoff & Henikoff, 1992): derivada a partir de la comparación bloques de secuencias GONNET (Gonnet et al, 1992): alineamiento masivo de secuencias
ALGORITMO NEEDLEMAN & WUNSCH R G F Q R Y G Q R G F Q R Y G Q R_GFQ RYG_Q
GAPS (INSERCIONES/DELECIONES) LOCALIZADOS EN LOOPS
? Candidato
GAPS (INSERCIONES/DELECIONES) ESQUEMAS DE PUNTUACION: –DEPENDIENDO DE ESTRUCTURA 2a –VALOR CONSTANTE –FUNCION LINEAL go + n. gl
PROGRAMACION DINAMICA VENTAJAS: PROPORCIONA UN ALINEAMIENTO REPRODUCIBLE Y OPTIMO DESVENTAJAS: ES LENTO
METODOS SUBOPTIMOS 10 – 100 MAS RAPIDOS PROPORCIONAN ALINEAMIENTOS SUBOPTIMOS BLAST, FASTA
BLAST BLAST (Altschul et al, 1990): localiza pequeños fragmentos comunes extenderlos hasta que la puntuación cae
BLAST RAPIDO, segundos EXPLORAR GENBANK, PDB FILTROS BAJA COMPLEJIDAD INDICES DE FIABILIDAD
ESTADISTICA INDICE DE REFERENCIA: E: número de falsos positivos esperado Búsquedas esporádicas: 0.01 – Búsquedas masivas (anotación genoma) : 10 -6
LIMITES COMPARACION SECUENCIAS EXISTENCIA DE PARENTESCOS INDETECTABLESEXISTENCIA DE PARENTESCOS INDETECTABLES PREDICCIONES ESTRUCTURALES DE BAJA CALIDAD EN MUCHOS CASOSPREDICCIONES ESTRUCTURALES DE BAJA CALIDAD EN MUCHOS CASOS
THE TWILIGHT ZONE IDENTIDAD INFERIOR AL 25 % SIMILITUD ESTRUCTURAL: HOMOLOGIA REMOTA Y ANALOGIA
THE TWILIGHT ZONE HOMOLOGIA REMOTA: ORIGEN EVOLUTIVO COMUN. E.G. HEMOGLOBINAS ANALOGIA: CONVERGENCIA ESTRUCTURAL. E.G. HEMOGLOBINA Y COLICINA
USO DE ALINEAMIENTOS MULTIPLES SIMILITUD BAJA, DOS SECUENCIAS:SIMILITUD BAJA, DOS SECUENCIAS: AVTTGLNMWTTAKRPGMDDFYTILLPGLMNCI GLFTAIDMHFFGRKPACEEYFTLVVDGLCNCI SIMILITUD BAJA, SECUENCIASMULTIPLES: SIMILITUD BAJA, SECUENCIASMULTIPLES: MPL ALTTGIDMWTTAKRPDMDDYYTIIIPGLMNCI MPTL AVTTGLNMWTTAKRPGMDDFYTILLPGLMNCI TMPTL GVTTGLNMYFTARRPGLDEFYTLVLRTLCMCL TMPTL GIFTDIDMHFYVKKPGLDEFFTLVLRTLCMAA MPTL AVTTGLNMWTTAKRPGMDDFYTILLPGLMNCI TMPTL GLFTALNMHFFGRKPACEEYFTLVVDGLCNCI
ALINEAMIENTOS MULTIPLES RESIDUOS CONSERVADOS: RELEVANTES PARA FUNCION O ESTRUCTURA PUNTUACION PONDERA LA CONSERVACION
PSI-BLAST BUSQUEDA UTILIZANDO ALINEAMIENTOS MULTIPLES: –BUSQUEDA BASE DE DATOS –CONSTRUCCION POSITION-SPECIFIC SCORE –ITERAR
PSI-BLAST PSI-BLAST NO ENCUENTRA LO QUE NO HAY EN LA PRIMERA BUSQUEDA BLAST DEFINIR E PARA LA INCLUSION DE SECUENCIAS (0.01)
THREADING/FOLD RECOGNITION ESTRATEGIA SIMILAR COMPARACION DE SECUENCIAS USO BASE DE DATOS ESTRUCTURAL DIFERENTE PUNTUACION CANDIDATOS
ATTWV....PRKSCT > CANDIDATO SELECCIONADO
COMPARACION SECUENCIA- ESTRUCTURA EVALUAR “EL GRADO DE AJUSTE DE LA SECUENCIA A LA ESTRUCTURA” UTILIZAR PROPIEDADES DIVERSAS: DISTANCIAS INTERRESIDUO, ESTRUCTURA SECUNDARIA, ETC
Selección templates: uso información adicional Proyecto: 2HNQ....HYTTWPDFGVP... CANDIDATO: 1YTS....HVGNWPDQTAV... Proyecto: 2HNQ.....HCSAGIGRS... CANDIDATO: 1YTS.....HSRAGVGRT YTS, 2HNQ: TIROSINA-FOSFATASA
SELECCION “TEMPLATES” Varios candidatos, similitudes bajas (30% - 35 %) Bibliografía: sólo SSAO en H.Polymorpha y E.coli con TPQ en orientación correcta (modelos previos erróneos).
RESTRICCIONES CENTRO ACTIVO
SELECCION “TEMPLATES” Preferible X-ray sobre NMR Uso información experimental (e.g. centro activo) Preferible sin ligandos unidos, o generar dos modelos Vigilar la presencia de contactos en el cristal Preferible nativo sobre mutante
EL ALINEAMIENTO
ALINEAMIENTOS SECUENCIA - CANDIDATO Entre candidatos estructurales
ALINEAMIENTO ENTRE CANDIDATOS Alineamientos estructurales, ya disponibles (HOMSTRAD), mediante software (SAP, Taylor & Orengo, 1989). Mejor pocos candidatos estructurales, y similares
ALINEAMIENTO TEMPLATES
ALINEAMIENTO SECUENCIAS- CANDIDATOS Relación entre similitud estructural y % identidad Límite inferior del modelado: 30 % Porcentaje diseño de fármacos: > 70 %.
Similitud secuencia - estructura Rms % Ident.
EL ALINEAMIENTO Baja similitud de secuencia => alineamiento baja calidad Número de resíduos alineados => limita calidad modelo (NW en GCG vs. BLAST)
Energía X Nativa
Energía X Nativa
Energía X Nativa
Energía X Nativa
Energía X Nativa
ALINEAMIENTO Y MODELADO Nativa Modelo
CALIDAD ALINEAMIENTO Uso de potenciales fuerza media (PROSA) Uso de propiedades composicionales (GCG) Análisis de propiedades locales
CALIDAD DEL ALINEAMIENTO Test globalTest global: comparar la secuencia con N pérmutas (N=1000). Calcular el Z-score resultante Si (alineamientos aas): Z > 15 Ideal 5 < Z <= % resíduos core bien alineados Z <= 5 Problemáticos
HHHHH HHHHHHHHHH-----HHHHHHHHHHHH HH LYLTIHSDHEGGNVSAHTSHLVGSALSDPYLSFAAAMNGLAGPLHGLAN LMVKVLDAVRGSPAINVAVHVFRKAADDTWEPFASGKTSESGELHGLTT EEEEEEE----EE----EEEEEEE-----EEEEEEEE-----EE----- Alineamiento: citrate synthase - transthyritin Z-score: 7.55
CALIDAD LOCAL Zonas mayor calidad: independientes de pequeños cambios en los parámetros del alineamiento (posible utilizando GCG) Zonas de mayor calidad: presentes en los alineamientos subóptimos
ALINEAMIENTOS SUBOPTIMOS Zonas comunes en los alineamientos subóptimos son las más fiables: alinear ALLIM vs. ALLM Sc. 7Sc.6 ALLIMALLIM ALL-MAL-LM
Alineamiento local Proyecto: 2HNQ....HYTTWPDFGVP... CANDIDATO: 1YTS....HVGNWPDQTAV... Proyecto: 2HNQ.....HCSAGIGRS... CANDIDATO: 1YTS.....HSRAGVGRT YTS, 2HNQ: TIROSINA-FOSFATASA
ALINEAMIENTO LOCAL Presencia de motivos PROSITE Adicionalmente: fijar estructura del motivo al construir el modelo.
ESTRATEGIA Utiliar siempre que sea posible: –Alineamientos estructurales para los templates (vigilar orígen: alineamientos sencillos o múltiples) –Alineamientos múltiples (e.g. Pfam) para alinear la secuencia a los templates –Análisis visual
Obtener alineamiento Pfam SSAO Obtener alineamiento HOMSTRAD 1spu, 1a2v de Pfam Eliminar 1spu, 1a2v de Pfam Alineamiento Homstrad con Pfam mediante CLUSTALW ALINEAMIENTO SSAO RATON CON LAS TEMPLATES
CONCLUSIONES: SENTIDO COMUN !! Analizar la calidad de los candidatos: ello decide el límite del modelado y del problema Examinar el alineamiento, y eventualmente generar varios modelos (buscar consistencia con datos experimentales)