bioRxiv preprint Score 70

pg_gpu:GPU加速群体遗传学统计

新工具pg_gpu通过GPU并行化,将群体遗传学统计计算提速数百倍。

群体遗传学统计量(如多样性、分化度、连锁不平衡和选择扫描)在人类、农业和生态基因组学中至关重要。随着全基因组测序数据集增长至数十万个体,传统CPU实现的计算成本成为主要瓶颈:单个染色体臂的窗口扫描需数小时至数天,而用于推断种群历史的成对连锁不平衡统计量计算复杂度为O(n^2),常超出计算预算。

近日,研究人员开发了pg_gpu,这是一个基于Python的库,通过GPU加速计算这些统计量。该工具集成了基于GPU的算法,大幅度提升了计算效率,使大规模数据集的分析变得可行。在标准GPU硬件上,pg_gpu比高性能CPU实现快数百倍,甚至能处理数十万样本的数据集。

pg_gpu的推出有望加速群体基因组学研究,特别是在大样本量场景下。该工具已开源,并支持常见文件格式。需要指出的是,本研究为预印本,尚未经过同行评审。

population geneticsGPUbioinformatics