Biología Computacional / Bioinformática

Biología Computacional / Bioinformática
Laboratorio Introducción / Bases de Datos.

Introducción

¿Qué es la Bioinformática?
La bioinformática es el campo de la ciencia en donde la biología, la ciencia de la computación, y la tecnología de información se funden en una disciplina. El objetivo principal es el descubrimiento de nuevos indicios biológicos, como también crear una perspectiva global de la cual poder unificar principios de la biología. (NCBI Education)

Subdisciplinas Desarrollo de nuevos algoritmos que permitan determinar relaciones en muestras de gran tamaño. Análisis e interpretación de varios tipos de datos, incluyendo secuencias de nucleótidos y aminoácidos, dominio de proteínas, y estructuras de proteínas. Desarrollo e implementación de herramientas para permitir un acceso eficiente a la información.

Herramientas. Problema Biológico Secuenciación. Captura de genes.
Localización subcelular de proteínas. Comparación de proteínas. Solución Computacional Base de datos. Planillas de cálculo. Alineamiento. Reconocimiento de patrones. Datamining. Especializadas.

Bases de datos

¿Qué es una base de datos?
Una Base de Datos es un conjunto de datos relacionados y almacenados para un proposito particular con una estructura lógica. Base de Datos = Estructura + Datos.

Ejemplo: Un biblioteca.

¿Cómo se organizan los datos?
La organización depende de las consultas que se piensan realizar sobre la base de datos. De las consultas se concluye los conjuntos, relaciones y lógicas que existen entre los datos.

Ejemplo: Biblioteca II
AUTOR Lista de Autores Consulta... TÍTULO Lista de Títulos TEMA Temas x Estantes

¿Cómo mantener una base de datos?
El motor de base de datos es el software encargado de mantener consistencia en los datos y responder las consultas a realizar. El software debe tener las siguientes herramientas para ser declarado como un motor de base de datos: Lenguaje de Definición de Estructura. Lenguaje de Modificación de Datos. Lenguaje de Consultas.

Ejemplo: Biblioteca III
El Bibliotecario...

¿Cómo se crea una base de datos?
La creación de la base de datos excede los objetivos de la materia, pero se darán las pautas más importantes para su creación. Consultas y operaciones: ¿Qué voy a consultar? ¿Qué necesito almacenar? El diseño debe ser formal, no debe haber ambigüedades. Existen lenguajes gráficos que ayudan al diseño. ¡Un mal diseño puede complicar la consistencia de los datos! Aún siendo formal... ¡Tiempo!

Operaciones Las operaciones básicas en una base de datos son la consulta, la inserción, modificación y eliminación de datos. Quienes realizan estas operaciones son los usuarios. Los usuarios no solo son personas sino también procesos o sistemas externos. Existen dos clases de bases de datos según sus operaciones más comunes: operacionales y analíticas.

Base de Datos por Consulta
Base de datos operacionales. Continua inserción de datos. Los datos provienen de un proceso automático o repetitivo, pueden traer error. Los datos están actualizados. Objetivo: Almacenar datos. Bases de datos analíticas Optimizada para consultas. Los datos están confirmados. Los datos no están actualizados. Objetivo: Buscar información.

Diseño formal Los motores de base de datos necesitan formalidad para crear las estructuras físicas necesarias para mantener la base de datos. Las herramientas que se usan para simplificar el diseño son los lenguajes gráficos formales como UML y ER.

Diagramas ER y UML

¿Algo más? El diseño esta relacionado al motor de base de datos. Las bases de datos fueron evolucionando durante los últimos años dejando varios modelos que permiten representar la organización de los datos, por supuesto, uno más restrictivo que otro.

Modelos de Base de datos.
Planas: No se verifica la consistencia de los datos. (¡No es una base de datos!) Jerárquicas: Fichas, Jerarquía. Red: Registro, Campo, Conjunto, Relacionales: Tablas, Registros, Atributos y Relaciones. Objetos: Clases, Objetos y Mensajes.

Muchas veces depende de los recursos que se tienen.
Otras necesidades... No solo de las operaciones depende el diseño. También de otros requerimientos y funcionalidades. Muchas veces depende de los recursos que se tienen. Como consecuencia fue necesario clasificar las bases de datos según la distribución de física de los datos.

Organización Física Centralizada. Distribuida.
Existe un único repositorio responsable de los datos. La consulta se realiza sobre el repositorio. Distribuida. Existen varios respositorios responsables de los datos. La consulta se realiza en cualquiera de los repositorios. El usuario ve un único repositorio. Existe un proceso de sincronización de los datos.

Organización Física Mixta.
Existen varios repositorios responsables de los datos. La consulta se realiza en el repositorio adecuado. La interconexión entre los repositorios pueden ser visible o invisible. Existen procesos independientes a los repositorios que realizan la sincronización. La forma de distribución y almacenamiento de datos es eterogenea.

¿Qué se puede almacenar?
La pregunta correcta es... ¿Qué queremos almacenar?

Datos Biológicos Bibliografía. Nucleótidos. Proteínas. Genoma.
Estructuras. Alineamientos. Organismos. Genes. Resultados de Microarrays. Mutaciones. Etc.

Características Alta complejidad.
Gran cantidad y variabilidad de la información. Múltiples origenes de la información. Múltiples interpretaciones. Consultas impredecibles.

Nueva Clasificación Las bases de datos biológicas tienen características especiales que promovieron una nueva clasificación para poder identificar la calidad de los datos almacenados.

Clases de Bases de Datos Biológicas
x Confianza en los datos. Curadas: Los datos están confirmados biológicamente. Aún así esto no significa que puedan variar. No curadas: Los datos no fueron confirmados. Son obtenidos de procesos automáticos o son resultados parciales. x Redundancia en los datos. Redundantes: No se puede confirmar que los datos existentes no se encuentran repetidos varias veces. No redundantes: Los datos no están repetidos bajo un criterio... y las ¿secuencias repetidas?

El problema Nadie conoce cual es la mejor implementación.
No existe un estándar (¿SQL?). La actualización de los recursos es lenta con respecto a la cantidad de datos. No todos los laboratorios tienen la misma calidad de recursos. La consulta a los datos varia según el objeto de estudio. Problemas políticos.

Solución actual Especificar las bases de datos.
Relacionar las bases de datos a través de Internet: Enlaces! Centralizar en grandes centros de bioinformática con recursos suficientes. Permitir acceso a los grandes centros vía Internet. Mantenimiento de los datos a través de sistemas de versiones.

Ejemplo: Bases de Datos Biológicas
Analítica y Operacional Analítica Entrez + ¡De todo! - Pero separado... ¿Por donde empezar? ExPASy + Confiable. - Todo separado. - Pocos datos. Analítica Operacional AceDB + ¡De todo! - Especializado a un genoma. GenBank + Todas las secuencias. - No es confiable.

Nuevos problemas. Una consulta seria implica 'navegar' por varias bases de datos diferentes. Los resultados no siempre son satisfactorios. Las herramientas están especializadas a las distintas bases de datos. Es muy fácil marearse... ¿Dónde empezar la consulta? ¿Qué tan confiable es lo encontrado?

Se necesitan una solución
Las soluciones tienen que ser integradoras y accesibles, de bajo costo y políticamente aceptable. Los grandes centros de bioinformática quieren imponer su solución integradora, siendo la mayoría gratuitas y multiplataformas. Esto limita la fusión de los datos acotando las consultas. Es por ello que surgieron soluciones puntuales para integrar las herramientas existentes.

Solución I: Scripts Los lenguajes de scripts permiten simplificar tareas automatizables y tediosas. Existen extensiones para procesos comunes para la Bioinformática. Ventajas Sencillos y rápidos de implementar. Permiten intercomunicar base de datos. Desventajas Saber programación. Ejemplos BioPerl, BioPython, etc.

Solución II: XML Lenguaje de representación y organización de datos.
Flexible. Fácil de interpretar y consultar. Cualquier sistema que entiende XML puede interpretar los datos. Pensado para intercambiar datos por Internet. HTML es primo mayor de XML.

La integración de los datos...
¿El futuro? La integración de los datos...

BioGrid, posible solución?
Base de datos de objetos organizada jerárquicamente. Información distribuida. Independencia en la administración. Lenguaje de consulta muy amplio. Tecnología de Directorios: 10 años de experiencia. Automáticamente integrable con otras grillas de información científica.

Problemas del proyecto BioGrid
Concepto nuevo en Bioinformática. Ignorancia. En fase de prueba. Necesita implementar consultas específica de la bioinformática. Debe ser aceptado políticamente. La solución es integradora... nadie se puede imponer. La organización de los datos es diferente. Las herramientas deben cambiar de conceptos. Lo más parecido... AceDB.

¿Preguntas?

Fin de la presentación... Ir a los fierros...

Biología Computacional / Bioinformática

Presentaciones similares

Presentación del tema: "Biología Computacional / Bioinformática"— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback

Iniciar la sesión

Autorizarse a través de una red social:

Biología Computacional / Bioinformática

Presentaciones similares

Presentación del tema: "Biología Computacional / Bioinformática"— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback