BLAST-Algorithmus

BLAST (Basic Local Alignment Search Tool) ist der Überbegriff für eine Sammlung der am meisten genutzen Tools zur Sequenzanalyse weltweit und wird vom National Center for Biotechnology Information betrieben. Prinzipiell geht es darum, experimentell ermittelte Sequenzen mit bereits in den BLAST-Datenbanken vorhandenen abzugleichen. Eine Suche in der Datenbank erfolgt entweder über ein Webinterface oder mit Hilfe von verschiedenen Stand-Alone-Programmen, die lokal installiert werden können.

Funktionsweise

Die Idee des Algorithmus basiert auf der Wahrscheinlichkeit, dass Alignments mit vielen Treffern kurze Stücke von großer Identität besitzen. Diese Teilstücke werden dann während der Suche nach besseren und längeren Alignments weiter vergrößert.

Indem diese Segmente kurzgehalten werden, ist es möglich, die Abfragesequenz vor einer Suche zu bearbeiten und eine Tabelle aller möglichen Teilstücke mit ihrem Ursprung in der Originalsequenz vorzuhalten.

Dabei stellt der Algorithmus eine Liste aller benachbarten Worte fester Länge auf, die einen Treffer auf der Abfragesequenz mit einem höheren Scoring als ein zu wählender Parameter erzeugen würden. Anschliessend wird die Zieldatenbank nach Worten in dieser Liste abgefragt und die gefundenen Treffer erweitert, um mögliche maximale zusammenhängende Treffer in beiden Richtungen zu finden.

Die Hauptanwendung von BLAST ist die Suche nach paralogen und orthologen Genen und Proteinen innerhalb eines oder mehrerer Organismen.

Siehe auch: Sequenzalignment

Suchmaschinen (Auswahl)

Programm Beschreibung
blastp Vergleicht eine Aminosäuresequenz gegen eine Proteinsequenzdatenbank
blastn Vergleicht eine Nukleotidsequenz gegen eine Nukleotidsequenzdatenbank
blastx Vergleicht eine Nukleotidsequenz (in allen Leserastern translatiert) gegen eine Proteindatenbank

Man kann diese Möglichkeit nutzen, um eine mögliche Translation einer unbekannten Nukleotidsequenz zu finden.

tblastn Vergleicht eine Proteinsequenz gegen eine Nukleotiddatenbank (dynamisch in allen Leserastern translatiert)
tblastx Vergleicht die six-frame-Translation einer Nukleotidsequenz gegen die six-frame-Translationen einer Nukleotidsequenzdatenbank.

tblastx kann nicht mit der Nukleotiddatenbank auf der BLAST Webseite verwendet werden, da sie technisch sehr aufwändig ist!

megablast megablast wird empfohlen zur Suche von identischen Sequenzen zu einer eigenen Sequenz. megablast wurde speziell erstellt, um besonders lange Sequenzen mit vorhandenen Gegenstücken aus der Datenbank abzugleichen.

discontigous megablast wird empfohlen zur Suche nach Übereinstimmungen zwischen Sequenzen, die verteilt vorliegen, z.B. von verschiedenen Organismen stammen, und eine niedrige Übereinstimmungsrate haben.

cdart cdart sucht Sequenzen mit einer möglichst identischen Anordnung von Proteindomänen unter Zuhilfenahme der CDD (=conserved domain)-Datenbank (Import von Übereinstimmungen aus SMART und Pfam) und vergleicht sie mit dem gesuchten Protein und dessen Domänen.

Suchergebnisse

Die Homologie der bearbeiteten Suchsequenz wird Anhand von Score und E-Wert definiert.

Der Score ist eine quantitative Bewertung der Ähnlichkeit der Suchsequenz mit einer bekannten Sequenz (je höher, desto homologer).

Der E-Wert gibt an, mit welcher Wahrscheinlichkeit man Ergebnisse mit gleichem Score in einer Datenbank, in welcher sich zufällig generierte Sequenzen befinden, erzielen könnte (je kleiner, desto besser).


  • Die Abkürzungen vor und innerhalb der Suchergebnisse bedeuten (Auswahl):


 GenBank                           gi|gi-number|gb|accession|locus
 EMBL Data Library                 gi|gi-number|emb|accession|locus
 DDBJ, DNA Database of Japan       gi|gi-number|dbj|accession|locus
 NCBI Reference Sequence           gi|gi-number|ref|accession|locus
 SWISS-PROT                        gi|gi-number|sp|accession|name
 General database identifier       gnl|database|identifier
 Local Sequence identifier         lcl|identifier

Anm: Die gi-Nummer ist eine Abfolge von Ziffern, die einen Datenbankeintrag des NCBI markiert.

Literatur

  • McGinnis S., & Madden T.L., (2004) BLAST: at the core of a powerful and diverse set of sequence analysis tools. Nucleic Acids Res. 32:W20-W25, [1]
  • Altschul, Gish, Miller, et.al.(1990) Basic local alignment search tool. Journal of Molecular Biology 215. p. 403-410
  • Altschul, S.F., Madden, T.L., Schdffer, A.A., Zhang, J., Zhang, Z., Miller, W. & Lipman, D.J. (1997) Gapped BLAST and PSI-BLAST: a new generation of protein database search programs. Nucleic Acids Res. 25:3389-3402. Medline
  • Geer, L.Y., Domrachev, M., Lipman, D.J. & Bryant, S.H. (2002) CDART: Protein Homology by Domain Architecture Genome Res. 2002 12: 1619-1623 [2]

Vorlage:Navigationsleiste Bioinformatik Harvester


Dieser Artikel nimmt am Schreibwettbewerb teil. Bitte hilf mit, ihn zu verbessern!