泛基因组基因家族鉴定方法需谨慎
水稻泛基因组研究发现,仅基于序列相似性的聚类可能导致错误的进化推断。
植物泛基因组研究常使用序列相似性聚类来鉴定基因家族,但这种方法可能忽略系统发育和共线性信息。一项未经过同行评审的预印本研究,分析了401份水稻泛基因组材料中五种转录因子家族(bHLH、MYB、NAC、WRKY、MADS-box),比较了不同聚类策略。结果发现,与基于图的直系同源方法(如OrthoFinder)相比,单纯使用cd-hit或MMseqs2等序列相似性方法会合并不同的直系群,导致直系群数量减少,并在不同基因家族中产生冲突的簇分配。研究警告说,这些方法学陷阱可能会导致对进化动态和基因功能的偏误推断。该研究强调了在泛基因组分析中整合系统发育或共线性信息的重要性。