Introducción a las bases de datos biológicas
¿Qué son las bases de datos biológicas y cómo usarlas?
Introducción
En la era de la información las bases datos son herramientas esenciales. Como su nombre lo indica, las bases de datos se encargan de almacenar de una forma organizada montones de datos para que los usuarios de la base de datos puedan hacer búsquedas y disponer de estos datos. En particular, las bases de datos biológicas almacenan información biológica proveniente de diferentes experimentos alrededor del mundo, así como literatura publicada y análisis computacionales.
La disponibilidad de los datos procedentes de diferentes experimentos es esencial para asegurar la transparencia en la ciencia, así como su reproducibilidad. Además, estos datos pueden ser usados múltiples veces por diferentes investigadores para realizar diferentes tipos de análisis que permitan el avance de nuestro conocimiento sobre los seres vivos.
Cada base de datos se especializa en un tipo de información determinada, de forma que existen algunas especializadas en almacenar secuencias biológicas, otras en información taxonómica, otras en información estructural de moléculas biológicas, otras en interacciones entre proteínas y muchas más. Cada una de estas bases de datos maneja formatos de archivos diferentes según el tipo de información que maneje y sus diferentes necesidades. En esta práctica conoceremos algunos de los formatos más usados, como el formato .fasta
, el .gb
, el .fastq
y el .pdb
.
Objetivos
- Conocer las principales bases de datos usadas en bioinformática.
- Conocer los principales formatos de archivos para almacenar información biológica.
Bases de datos biológicas
NCBI
- GenBank: Base de datos primaria
- Sequence Read Archive (SRA): Primaria
- Basic Local Alignment Search Tool (BLAST): En realidad no es una base de datos sino una herramienta de alineamiento de secuencias
- RefSeq: Base de datos curada
- Expressed Sequence Tags (ESTs)
Online Mendelian Inheritance in Man (OMIM)
ENA
Protein Data Bank (PDB)
Uniprot/Swiss-Prot: Curada
Protein families (Pfam)
¡Hay muchísimas más bases de datos!
Mantenerse actualizado
Si quieren estar al día con las bases de datos biológicas, revisen la primera publicación de cada año de la revista Nucleic Acids Research, esta es dedicada a bases de datos.
GenBank
Base de datos de secuencias públicas. Es una de las bases de datos más grandes por el hecho de ser primaria.
Busquemos el gen Sonic hedgehog en GenBank y descarguemos la información en los formatos GenBank y FASTA y veamos la estructura interna de estos archivos.
En este enlace puedes encontrar la explicación detallada del formato GenBank, también conocido como GBFF (GenBank File Format).
El formato FASTA
Es el principal formato de archivo para almacenar secuencias biológicas (principalmente nucleótidos y proteínas). Tiene la siguiente estructura:
> Mouse Pikachurin
MDLISTFSLHFLLLACSLPPGAVSLRTALRKSGKVGPPLDIKLGALNCTAFSIQWKTPKR
SGSSIIGYTVFYSEVGSDKSLRERSHNVPVGQDTLITEEVIGDLKPGTEYQVSVAAYSQT
GKGRLSFPRHVTTLSQDSCLPPAAPQQPHVLVVSDSEVALSWRPGENEGSAPIQSYSVEF
IRPDFDKSWTIIQERLQMDSMVIKGLDPDTNYQFAVKAMNAHGFSPRSWPSNTVRTLGPG
EAGSGHYGPGYITNPGVSEDDDGSEDELDLDVSFEEVKPLPATKVGNKKFSVESKKTSVS
NSVMGSRLAQPTSASLHETTVAIPPTPAQRKGKNSVAMMSRLFDMSCDETLCSADSFCVN
DYAWGGSRCHCNLGKGGEACSEDIFIQYPQFFGHSYVTFEPLKNSYQAFQVTLEFRAEAE
DGLLLYCGESEHGRGDFMSLALIRRSLHFRFNCGTGIAIIISETKIKLGAWHTVTLYRDG
LNGMLQLNNGTPVTGQSQGQYSKITFRTPLYLGGAPSAYWLVRATGTNRGFQGCVQSLSV
NGKKIDMRPWPLGKALNGADVGECSSGICDEASCIHGGTCAAIKADSYICLCPLGFRGRH
CEDAFALTIPQFRESLRSYAATPWPLEPQHYLSFTEFEITFRPDSGDGVLLYSYDTGSKD
FLSINMAAGHVEFRFDCGSGTGVLRSEAPLTLGQWHDLRVSRTAKNGILQVDKQKVVEGM
AEGGFTQIKCNTDIFIGGVPNYDDVKKNSGILHPFSGSIQKIILNDRTIHVKHDFTSGVN
VENAAHPCVGAPCAHGGSCRPRKEGYECDCPLGFEGLNCQKECGNHCLNTIIEAIEIPQF
IGRSYLTYDNPNILKRVSGSRSNAFMRFKTTAKDGLLLWRGDSPMRPNSDFISLGLRDGA
LIFSYNLGSGVASIMVNGSFSDGRWHRVKAVRDGQSGKITVDDYGARTGKSPGLMRQLNI
NGALYVGGMKEIALHTNRQYLRGLVGCISHFTLSTDYHISLVEDAVDGKNINTCGAK
SRA (Sequence Read Archive)
Base de datos con secuencias en bruto. Busquemos en esta base de datos el gen Zelda y descarguemos archivos en formato FASTQ.
Los archivos FASTQ pueden ser muy pesados, para evitar una descarga lenta, podemos descargar archivos de ejemplo mucho más ligeros en este enlace.
El formato FASTQ
El formato FASTQ (FASTA with Quality) es muy similar al FASTA pero incluye también información sobre la calidad de la secuencia:
Utilizando la línea de comandos en Linux también es posible descargar archivos FASTQ después de instalar la herramienta SRA Toolkit
:
fastq-dump --stdout -X 2 SRR390728
También hay servidores que hacen sus datos disponibles mediante FTP, a ellos podemos acceder mediante una interfaz web o también mediante una línea de comandos en Linux:
ftp ftp.1000genomes.ebi.ac.uk
ENA (European Nucleotide Archive)
Este es un repositorio de datos similar al NCBI y que contiene información de muchos tipos diferentes. Vayamos allí y busquemos una secuencia.
OMIM (Online Mendelian Inheritance in Man)
OMIM como su nombre lo indica es una base de datos especializada en caracteres de Herencia Mendeliana en el ser humano.
Protein Data Bank
Esta es una base de datos de estructuras de proteínas, muy útil en biología estructural y dinámica molecular.
Vamos al tutorial y descarguemos algunos archivos.
Para visualizarlos vamos a usar el software PyMOL que es Software Libre ;)
Uniprot
Esta es una base de datos de proteínas, en donde se puede encontrar gran cantidad de información asociada a ellas.
Interpro (Antes llamado Pfam)
Base de datos sobre análisis funcional de proteínas, su clasificación en familias de proteínas y predicción de dominios funcionales y sitios importantes. También se pueden encontrar alineamientos múltiples de proteínas.
Si quieres aprender más sobre bioinformática puedes seguir este tutorial.