人类基因组序列
Celera Genomics、国际人类基因组测序联盟和其他机构于 2001 年发表了人类基因组的初稿,彻底改变了基因组学。 这些草稿和随后的更新涵盖了基因组的常染色质部分。 然而,异染色质以及许多其他复杂区域未完成或不正确。 解决剩余 8% 问题的端粒到端粒联盟 (T2T) 已经完成了人类基因组的前 30.55 亿个碱基对 (bp) 序列。 这是自最初发布以来对参考人类基因组所做的最大改进。 新的T2T参考基因组包含所有22个常染色体和X染色体的无缝组装。它纠正了许多错误,引入了2亿个bp的新序列,包含2,226个旁系同源基因,其中115个预计编码蛋白质。 这些新完成的区域包括着丝粒阵列以及所有五个近端着丝粒染色体的短臂。 这允许对这些复杂区域进行功能和变异研究。
基因组参考联盟于 2013 年发布了人类参考基因组的最新重大更新,最近的补丁是在 2019 年 (GRCh38.p13)。 资助该大会的人类基因组计划在过去 20 年中不断改进它。 与 Celera 组装和其他现代基因组项目不同,GRC 人类组装主要基于来自细菌人工基因组 (BAC) 克隆的 Sanger 序列数据。 然后使用辐射杂交、遗传链接和指纹图对这些克隆进行排序并在基因组上定位。 这个费力过程的结果是当今可用的最准确和连续的参考基因组之一。 然而,对此类技术的依赖将基因组的组装限制在那些可以可靠地转化为 BAC 并作图的常染色质区域。
来源和详细信息:
https://www.biorxiv.org/content/10.1101/2021.05.26.445798v1.full