不同
组装
软件
系统发育
基因组
中的
应用
比较
王耀卓
2 0 2 3年河北大学学报(自然科学版)2 0 2 3第4 3卷 第2期J o u r n a l o f H e b e i U n i v e r s i t y(N a t u r a l S c i e n c e E d i t i o n)V o l.4 3 N o.2D O I:1 0.3 9 6 9/j.i s s n.1 0 0 0 1 5 6 5.2 0 2 3.0 2.0 0 9不同组装软件在系统发育基因组学中的应用比较王耀卓,张文强,张俊霞(河北大学 生命科学学院,生命科学与绿色发展研究院,河北省动物系统学与应用重点实验室,河北 保定 0 7 1 0 0 2)摘 要:为了筛选出最适合于超级保守元件(u l t r a-c o n s e r v e d e l e m e n t s,U C E)序列组装的软件,分别使用5款组装软件S P A d e s、A B y S S、V e l v e t、T r i n i t y和M i n i a对1 7个U C E捕获测序文库进行组装.结果发现:5款组装软件对U C E数据的组装结果不同,T r i n i t y组装所耗时间明显比其他软件长;S P A d e s和T r i n i t y的组装结果较好,得到的可观长度的重叠群(c o n t i g s)总数较多,产生的长片段(2 5 0 b p)c o n t i g s较其他3款软件更多,但是S P A d e s捕获到的U C E数量最多,因此,相比于其他4款组装软件,S P A d e s更适合U C E数据的组装.本研究为基于U C E的系统发育基因组学分析提供了参考.关键词:数据分析;超级保守元件;系统发育基因组学中图分类号:Q 9 5 1 文献标志码:A 文章编号:1 0 0 0 1 5 6 5(2 0 2 3)0 2 0 1 7 1 0 8C o m p a r i s o n o f a p p l i c a t i o n o f a s s e m b l e r s i n p h y l o g e n o m i c s WA N G Y a o z h u o,Z H A N G W e n q i a n g,Z H A N G J u n x i a(K e y L a b o r a t o r y o f Z o o l o g i c a l S y s t e m a t i c s a n d A p p l i c a t i o n o f H e b e i P r o v i n c e,I n s t i t u t e o f L i f e S c i e n c e a n d G r e e n D e v e l o p m e n t,C o l l e g e o f L i f e S c i e n c e s,H e b e i U n i v e r s i t y,B a o d i n g 0 7 1 0 0 2,C h i n a)A b s t r a c t:T o s e l e c t t h e m o s t s u i t a b l e a s s e m b l e r f o r u l t r a-c o n s e r v e d e l e m e n t s(U C E)p h y l o g e n o m i c p r a c t i c e,f i v e d i f f e r e n t a s s e m b l y s o f t w a r e s,S P A d e s,A B y S S,V e l v e t,T r i n i t y a n d M i n i a w e r e a p p l i e d,t o a s s e m b l e 1 7 U C E c a p t u r e d s e q u e n c i n g l i b r a r i e s,r e s p e c t i v e l y.T h e r e s u l t s s h o w e d t h a t a m o n g t h e f i v e a s s e m b l e r s,T r i n i t y c o n s u m e d s i g n i f i c a n t l y l o n g e r c o m p u t a t i o n a l t i m e t h a n t h e o t h e r s;S P A d e s a n d T r i n i t y b o t h a s s e m b l e d m o r e c o n t i g s a n d o b t a i n e d m o r e l o n g e r c o n t i g s(2 5 0 b p)t h a n t h e o t h e r t h r e e a s s e m b l e r s,b u t S P A d e s c a p t u r e d t h e h i g h e s t n u m b e r o f U C E l o c i.T h e r e f o r e,S P A d e s i s m o r e s u i t a b l e f o r t h e a s s e m b l y o f U C E d a t a t h a n t h e o t h e r a s s e m b l y s o f t w a r e s.T h i s s t u d y p r o v i d e s a t e c h n i c a l r e f e r e n c e f o r t h e p r a c t i c e o f U C E-b a s e d p h y l o g e n o m i c s t u d i e s.K e y w o r d s:d a t a a n a l y s i s;U C E;p h y l o g e n o m i c s系统发育基因组学是系统发育学与基因组学融合而产生的一门交叉学科,基于基因组尺度序列数据来研究生物类群的进化历史和功能1-2,目前已被广泛应用于鸟类3-4、哺乳动物5和蛛形纲动物6等类群的系统发育关系研究.基于大数据的系统发育基因组学对构建可靠的系统发育树起到极大的推动作用3,7-8.超级保守元件(u l t r a-c o n s e r v e d e l e m e n t s,U C E)指的是基因组中在不同类群间存在的高度保守区域(序列相似 收稿日期:2 0 2 2 0 5 1 7 基金项目:国家自然科学基金资助项目(3 2 0 7 0 4 2 2);河北大学高层次人才科研启动项目(5 2 1 0 0 0 9 8 1 3 2 4)第一作者:王耀卓(1 9 9 7),女,蒙古族,内蒙古巴彦淖尔人,河北大学在读硕士研究生,主要从事蜘蛛的系统发育方向研究.E-m a i l:w a n g y a o z h u o 1 9 9 71 6 3.c o m 通信作者:张俊霞(1 9 7 6),女,河北沧州人,河北大学副教授,主要从事蜘蛛及昆虫的分类、系统发育及生物地理等方向研究.E-m a i l:j x z h a n g 1 9 7 61 6 3.c o m性8 0%且序列长度1 0 0 b p)9.自2 0 0 4年B e j e r a n o1 0等首次提出U C E概念以后,越来越多的课题组开始将U C E方法运用到系统发育研究,如四足动物1 1、哺乳动物1 2、鸟类1 3-1 6、鱼类1 7-2 0和爬行类2 1-2 2等脊椎动物类群,以及昆虫纲膜翅目2 3-2 5、半翅目8、弹尾目2 6和蛛形纲动物2 7-3 0等无脊椎动物类群.U C E杂交捕获富集实验流程主要包含D NA提取、D NA片段化、建库、杂交捕获富集,然后送公司进行测序.从测序公司得到U C E文库测序结果以后,使用P HY L U C E 3 1进行U C E数据分析.数据分析过程包含原始数据质控与筛选、数据组装、U C E序列的识别和提取、序列比对修剪、系统发育分析等.数据组装是U C E数据分析中非常重要的一步,而目前U C E数据组装可用的软件有很多,如S P A d e s3 2、A B y S S3 3、V e l-v e t3 4、T r i n i t y3 5、M i n i a3 6等.S P A d e s最初被用于组装细菌基因组,后来经过调整也被应用于组装细菌的宏基因组、真核生物转录组和小型真核生物基因组.V e l v e t是基于d e B r u i j n图算法,利用短r e a d s和p a i r e d-e n d s信息组装可观长度的重叠群(c o n t i g s),把c o n t i g从长到短进行排列,然后相加,当加到1 M b的5 0%时,1条c o n t i g的长度就叫做C o n t i g N 5 0.A B y S S也是一种基于d e B r u i j n图算法的组装软件,最初被开发用于基因组的d e n o v o组装,特别是对于大型基因组进行组装.T r i n i t y是专门为组装转录组设计的,由I n c h-w o r m、C h r y s a l i s以及B u t t e r f l y 3部分组成,每个部分都是一个单独的子程序,最后由T r i n i t y.p l主程序将其整合.M i n i a是一款所占内存空间比其他组装软件少1个数量级、可用于人类基因组组装且组装时间较快的组装软件.不同的组装软件在基于U C E的系统发育基因组学研究中均有应用.例如:S t a r r e t t等2 7在针对蛛形纲动物的系统发育研究中,使用T r i n i t y对捕获的U C E数据进行了组装,结果显示所有物种平均捕获到4 8 7个U C E;D e r k a r a b e t i a n等2 9在其研究中分别使用V e l v e t和T r i n i t y对U C E测序结果进行数据组装;M a d d i s o n等3 0在探讨跳蛛科跃蛛族的系统演化关系时,选用S P A d e s进行U C E数据的组装,平均每个物种获得7 0 0多个U C E.然而,目前尚没有研究对不同组装软件分析U C E数据的结果进行系统的比较和评估.本文比较5款组装软件对U C E数据的组装结果,通过比较组装所需的时间、不同长度c o n t i g s的数量、捕获到的U C E数量等方面来评估组装软件的性能,从而筛选出最适合于U C E数据组装的软件.1 材料与方法1.1 D N A提取、文库构建以及杂交捕获富集本研究运用1 7头蜘蛛标本的U C E数据(表1)对5款组装软件的性能进行测试.首先,使用Q i a g e n D N E a s y D NA 提取试剂盒(凯杰生物科技有限公司),按照其说明书对每个标本的头胸部或步足进行解剖并提取总基因组D NA.所有提取的D NA用Q u b i t 4.0(T h e r m o F i s h e r S c i e n t i f i c)进行定量,并通过凝胶电泳进行可视化检测,以评估其降解情况.然后使用超声波清洗机(D a i s y L e a f)将D NA打断到2 0 06 0 0 b p.文库构建使用N E X T F L E X R a p i d D NA-S e q 2.0试剂盒(B i o o S c i e n t i f i c,A u s t i n,U S A),每个文库的浓度用Q u b i t 4.0进行定量,然后将7个或者8个文库等量混