BLAST序列对比

源自豆包AI

BLAST(Basic Local Alignment Search Tool)是生物学领域超实用的 “序列比对神器”,能快速找出核酸或蛋白质序列之间的相似性。

一、BLAST 的核心作用:像 “文字查重” 一样比对序列

假设你有一段基因序列(比如 ATCGGTAC…),想知道它和已知的基因有啥关系:

  • BLAST 就像拿这段序列去 “图书馆” 查资料:这个 “图书馆” 里存着全世界已发表的核酸 / 蛋白质序列(比如 NCBI 的 GenBank 数据库)。
  • 它会把你的序列拆分成小片段(比如 3 个碱基一组),然后在数据库里 “扫街”,找长得最像的片段,最后拼出整体的相似性结果。

二、BLAST 的工作逻辑:用 “拼图思维” 找相似

举个例子:
你手里有段序列是 “ABCDEFG”,数据库里有一条 “ABXDEFGH”。
BLAST 不会直接对比整条序列,而是先拆成短片段(比如 “ABC”“BCD”“CDE” 等),然后:

  1. 找 “匹配碎片”:发现 “ABC” 和数据库里的 “ABX” 前两位相同(X 代表不同碱基),“DEFG” 完全匹配。
  2. 扩展匹配:以这些碎片为起点,向两边延伸,看看能连多长的相似序列。
  3. 打分评估:根据匹配程度、长度、差异碱基数量等算出一个分数,告诉你 “像不像” 以及 “有多像”。

三、BLAST 的常见类型:不同场景用不同工具

根据序列类型(核酸或蛋白质),BLAST 分好几种,常用的有:

  • 核酸 vs 核酸(BLASTN):比如用一段病毒 RNA 序列查它和已知病毒的亲缘关系。
  • 蛋白质 vs 蛋白质(BLASTP):比如分析某个蛋白质的氨基酸序列,看它和已知酶的功能是否相似。
  • 核酸 vs 蛋白质(TBLASTN/TBLASTX):比如用核酸序列查它能翻译成哪种已知蛋白质。

四、BLAST 结果怎么看:重点看这 2 个指标

假设你拿到 BLAST 结果,最关键的是:

  1. E 值(Expect value)
    • 通俗说就是 “撞大运的概率”。E 值越接近 0,说明结果越可靠(比如 E-100 表示几乎不可能是随机匹配)。
  2. 一致性(Identity)
    • 比如两段序列有 80% 的碱基 / 氨基酸完全一样,就是 80% 一致性。一致性越高,说明序列越相似。

五、BLAST 的实际应用:从科研到医学都离不开

  • 科研场景:发现新基因时,用 BLAST 查它的功能(比如和已知抗癌基因相似,可能也有类似作用)。
  • 医学检测:比对病毒序列(如新冠变异株),判断它的来源和传播性。
  • 农业育种:找抗虫植物的基因,和已知抗虫基因比对,筛选有用的品种。

总结:BLAST 就是生物学的 “百度搜索”

如果把生物序列比作文字,BLAST 就是用 “关键词” 在生物数据库里搜相似内容,帮科学家判断序列的功能、进化关系或潜在价值 —— 简单、直接,却撑起了现代分子生物学的半壁江山


BLAST序列对比
https://oldstory.cn/2025/07/02/blast_xu_lie_dui_bi/
作者
Ricardo
发布于
2025年7月2日
许可协议