Curso de doctorado “Estructura y Función de Macromoléculas” TÉCNICAS DE SECUENCIACIÓN DE PROTEÍNAS Motores de búsqueda con datos de fragmentación de péptidos. Interpretación de resultados. Alberto Jorge García Laboratorio de Química de Proteínas y Proteómica CBM-SO. CSIC-UAM ajorge@cbm.uam.es
Curso Práctico De Identificación de Proteínas con Datos de Espectrometría de masas: Herramientas Bioinformáticas Motores de búsqueda con datos de fragmentación de péptidos. Interpretación de resultados. Alberto Jorge García Laboratorio de Proteómica Centro de Biología Molecular Severo Ochoa CSIC-Universidad Autónoma de Madrid
Motores con los que vamos a trabajar: Sequest: Se necesita licencia; desarrollado por Yates y col., comercializado por Thermo en el paquete “Bioworks”. Mascot: Disponible en red; desarrollado por Pappin y col., se puede comprar la licencia. Emplean distintos algoritmos de búsqueda
SEQUEST Abrir BioWorks Browser Fichero de datos como ejemplo : trypmyo01.raw Abrir BioWorks Browser Doble click
File Open D:/…/Siena trypmyo01.raw “Cromatograma” Análisis LC-MS Modo de trabajo más común, TRIPLE PLAY: Full ms-Zom scan-ms/ms
Display Configuration Settings D:\Siena\Myo1 Previamente hemos creado la carpeta donde se van a guardar los resultados
Qué información tenemos acerca de nuestra muestra? Caso más simple: PROTEÍNA ÚNICA Complejidad de la mustra Organismo Método de digestión Preparación de la muestra Digerido de una única proteína Caballo tripsina No alquilación
Actions TurboSEQUEST Search Scan nº 449 Seleccionamos un espectro ms/ms con una “buena calidad”
Selección de parámetros de búsqueda SEQUEST: básicos Configuration settings Siena/myo1 Generamos ficheros .dta a partir del/ los ficheros .raw 449 Parámetros de búsqueda
Resultados SEQUEST Double click
Cobertura de Secuencia Nuestro péptido
Calidad de la identificación Doble click
El fragmento más intenso no se asigna!? El programa asigna los iones de las series principales en el espectro El fragmento más intenso no se asigna!?
Conclusión: Muy buena asignación Hay que tener en cuenta la presencia de iones doblemente cargados Conclusión: Muy buena asignación
Identificación de proteínas en la muestra ‘trypmyo01’ Aumentamos la complejidad: IDENTIFICACIÓN DE PROTEíNAS EN NUESTRA MUESTRA Identificación de proteínas en la muestra ‘trypmyo01’ Búsqueda SEQUEST : - Rápida - Máxima cobertura de proteínas
Tenemos la posibilidad Selección de parámetros de búsqueda SEQUEST: básicos Seleccionamos un rango amplio del análisis que incluye un alto nº de scans ms/ms Tenemos la posibilidad de trabajar con DB inde xadas.
Que supone indexar una base de datos? Trabajar con bases de datos cuyas proteínas están digeridas “in silico” Seleccionamos la base de datos (disponibles en red y en Bioworks) Conviene ir actualizando las DB Seleccionamos la proteasa (comúnmente tripsina) Seleccionamos las modificaciones: fijas y/o variables. Depende del tratamiento de la muestra Herramienta disponible en Bioworks: Tools Aumenta notablemente la rapidez de la búsqueda
Selección de parámetros de búsqueda SEQUEST: advanced dta generation Precursor mass 1.4 Group scan 1 Min group count 1 Min ion count 35 Tolerance for dta search Peptide 1.5 Fragment 0.35 Ion series a,b,y Output Report duplicate ref.
Resultados de la búsqueda SEQUEST Mayor nº de péptidos asignados Dtas generados Proteína con mayor puntuación
Sort Resultados SEQUEST Display Options Sort Ordenamos los péptidos por puntuación
los péptidos con XC>2 de la proteína con mayor Filter Resultados SEQUEST Display Options Filter Seleccionamos solo los péptidos con XC>2 de la proteína con mayor puntuación
Revisión de la proteina con mayor puntuación Cobertura de secuencia Double click
Cobertura de secuencia 89%
Cómo comprobar si un “match” es bueno o malo? Scan 341-356: no es el péptido de la proteína con mayor puntuación pero es el nº1 de los 10 mejores de su lista de SEQUEST Doble click
Listado de los 10 mejores “hits” SEQUEST para #341 Note: XC values ‘Ions’
1st mejor “match” por SEQUEST LFTGHPETLEK Todos los iones mayoritarios se asignan correctamente a las series principales b- e y”-ion Veredicto: asignación correcta
mayoritarios sin asignar a las series principales 2nd mejor “match” por SEQUEST LIKEAAGKSNLK Quedan muchos iones mayoritarios sin asignar a las series principales
Conclusiones Espectro La intensidad del espectro es el primer “filtro” La mayoría de los espectros de péptidos tienen una distribución ‘bell-shaped’ Ambas series (b- and y-ion) están presentes en el espectro Buen “match” Series b- e y-ion contigüas Todos los picos intensos se corresponden con la secuencia identificada XC “the bigger the better” DeltaCN muestra la capacidad de Sequest de discernir entre secuencias Sp es una puntuación preliminar, “the bigger the better” RSp value debe ser 1 péptidos +3 en general no son tan ‘bonitos’ como +2 péptidos +1 generalmente son de secuencia corta–el valor diagnóstico es menor
MASCOT Trabajamos en red
Formulario a completar: Parámetros de búsqueda Importante si la red no va bien, Podemos recibir los resultados por correo NCBInr: mayor nº de entradas Mayor significatividad estadística Mucho cuidado con las modificaciones: anotar solamente las que conozcamos su presencia con seguridad Acepta datos en distintos formatos, ya tenemos creados los ficheros .dta No es necesario rellenar el resto de las casillas Importante para obtener buena tabla de resultados
Proteínas con puntuación fuera de la zona de incertidumbre Resultados de la búsqueda MASCOT Proteínas con puntuación fuera de la zona de incertidumbre Mejor puntuación
“Peptide Summary Report” MASCOT Mejor puntuación a mayor nº de péptidos asignados para la misma proteína Doble click Todas las proteínas con buena puntuación son proteínas muy relacionadas
“Peptide View” MASCOT