Introducción a las bases de datos biológicas

Bases de datos

Biología Computacional

Bioinformática

Author

Juan Camilo Arboleda Rivera

Published

October 2, 2023

Modified

July 16, 2025

¿Qué son las bases de datos biológicas y cómo usarlas?

Introducción

En la era de la información las bases datos son herramientas esenciales. Como su nombre lo indica, las bases de datos se encargan de almacenar de una forma organizada montones de datos para que los usuarios de la base de datos puedan hacer búsquedas y disponer de estos datos. En particular, las bases de datos biológicas almacenan información biológica proveniente de diferentes experimentos alrededor del mundo, así como literatura publicada y análisis computacionales.

La disponibilidad de los datos procedentes de diferentes experimentos es esencial para asegurar la transparencia en la ciencia, así como su reproducibilidad. Además, estos datos pueden ser usados múltiples veces por diferentes investigadores para realizar diferentes tipos de análisis que permitan el avance de nuestro conocimiento sobre los seres vivos.

Cada base de datos se especializa en un tipo de información determinada, de forma que existen algunas especializadas en almacenar secuencias biológicas, otras en información taxonómica, otras en información estructural de moléculas biológicas, otras en interacciones entre proteínas y muchas más. Cada una de estas bases de datos maneja formatos de archivos diferentes según el tipo de información que maneje y sus diferentes necesidades. En esta práctica conoceremos algunos de los formatos más usados, como el formato .fasta, el .gb, el .fastq y el .pdb.

Objetivos

Conocer las principales bases de datos usadas en bioinformática.
Conocer los principales formatos de archivos para almacenar información biológica.

Bases de datos biológicas

NCBI
- GenBank: Base de datos primaria
- Sequence Read Archive (SRA): Primaria
- Basic Local Alignment Search Tool (BLAST): En realidad no es una base de datos sino una herramienta de alineamiento de secuencias
- RefSeq: Base de datos curada
- Expressed Sequence Tags (ESTs)
Online Mendelian Inheritance in Man (OMIM)
ENA
Protein Data Bank (PDB)
Uniprot/Swiss-Prot: Curada
Protein families (Pfam)

¡Hay muchísimas más bases de datos!

Comic bases de datos biología

Mantenerse actualizado

Si quieren estar al día con las bases de datos biológicas, revisen la primera publicación de cada año de la revista Nucleic Acids Research, esta es dedicada a bases de datos.

GenBank

Base de datos de secuencias públicas. Es una de las bases de datos más grandes por el hecho de ser primaria.

Busquemos el gen Sonic hedgehog en GenBank y descarguemos la información en los formatos GenBank y FASTA y veamos la estructura interna de estos archivos.

En este enlace puedes encontrar la explicación detallada del formato GenBank, también conocido como GBFF (GenBank File Format).

El formato FASTA

Es el principal formato de archivo para almacenar secuencias biológicas (principalmente nucleótidos y proteínas). Tiene la siguiente estructura:

> Mouse Pikachurin
MDLISTFSLHFLLLACSLPPGAVSLRTALRKSGKVGPPLDIKLGALNCTAFSIQWKTPKR
SGSSIIGYTVFYSEVGSDKSLRERSHNVPVGQDTLITEEVIGDLKPGTEYQVSVAAYSQT
GKGRLSFPRHVTTLSQDSCLPPAAPQQPHVLVVSDSEVALSWRPGENEGSAPIQSYSVEF
IRPDFDKSWTIIQERLQMDSMVIKGLDPDTNYQFAVKAMNAHGFSPRSWPSNTVRTLGPG
EAGSGHYGPGYITNPGVSEDDDGSEDELDLDVSFEEVKPLPATKVGNKKFSVESKKTSVS
NSVMGSRLAQPTSASLHETTVAIPPTPAQRKGKNSVAMMSRLFDMSCDETLCSADSFCVN
DYAWGGSRCHCNLGKGGEACSEDIFIQYPQFFGHSYVTFEPLKNSYQAFQVTLEFRAEAE
DGLLLYCGESEHGRGDFMSLALIRRSLHFRFNCGTGIAIIISETKIKLGAWHTVTLYRDG
LNGMLQLNNGTPVTGQSQGQYSKITFRTPLYLGGAPSAYWLVRATGTNRGFQGCVQSLSV
NGKKIDMRPWPLGKALNGADVGECSSGICDEASCIHGGTCAAIKADSYICLCPLGFRGRH
CEDAFALTIPQFRESLRSYAATPWPLEPQHYLSFTEFEITFRPDSGDGVLLYSYDTGSKD
FLSINMAAGHVEFRFDCGSGTGVLRSEAPLTLGQWHDLRVSRTAKNGILQVDKQKVVEGM
AEGGFTQIKCNTDIFIGGVPNYDDVKKNSGILHPFSGSIQKIILNDRTIHVKHDFTSGVN
VENAAHPCVGAPCAHGGSCRPRKEGYECDCPLGFEGLNCQKECGNHCLNTIIEAIEIPQF
IGRSYLTYDNPNILKRVSGSRSNAFMRFKTTAKDGLLLWRGDSPMRPNSDFISLGLRDGA
LIFSYNLGSGVASIMVNGSFSDGRWHRVKAVRDGQSGKITVDDYGARTGKSPGLMRQLNI
NGALYVGGMKEIALHTNRQYLRGLVGCISHFTLSTDYHISLVEDAVDGKNINTCGAK

SRA (Sequence Read Archive)

Base de datos con secuencias en bruto. Busquemos en esta base de datos el gen Zelda y descarguemos archivos en formato FASTQ.

Tip

Los archivos FASTQ pueden ser muy pesados, para evitar una descarga lenta, podemos descargar archivos de ejemplo mucho más ligeros en este enlace.

El formato FASTQ

El formato FASTQ (FASTA with Quality) es muy similar al FASTA pero incluye también información sobre la calidad de la secuencia:

Utilizando la línea de comandos en Linux también es posible descargar archivos FASTQ después de instalar la herramienta SRA Toolkit:

fastq-dump --stdout -X 2 SRR390728

También hay servidores que hacen sus datos disponibles mediante FTP, a ellos podemos acceder mediante una interfaz web o también mediante una línea de comandos en Linux:

ftp ftp.1000genomes.ebi.ac.uk

Para visualizarlos vamos a usar el software PyMOL que es Software Libre ;)

Uniprot

Esta es una base de datos de proteínas, en donde se puede encontrar gran cantidad de información asociada a ellas.

Si quieres aprender más sobre bioinformática puedes seguir este tutorial.

Reuse

CC BY-SA 4.0

Introducción a las bases de datos biológicas

Introducción

Objetivos

Bases de datos biológicas

Mantenerse actualizado

GenBank

El formato FASTA

SRA (Sequence Read Archive)

El formato FASTQ

ENA (European Nucleotide Archive)

OMIM (Online Mendelian Inheritance in Man)

Protein Data Bank

Uniprot

Reuse