分享
鹿茸草全长转录组测序与次生...产物生物合成相关基因的挖掘_杨晚铃.pdf
下载文档

ID:2308113

大小:764.80KB

页数:12页

格式:PDF

时间:2023-05-06

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
鹿茸 全长 转录 组测序 次生 产物 生物 合成 相关 基因 挖掘 杨晚铃
收稿日期:2022-03-16基金项目:国家自然科学基金(31960370)和江西省自然科学基金(20202ACB205002)资助项目通信作者:张帆涛(1984),男,江西临川人,副教授,博士,主要从事植物生物技术与分子生物学研究 E-mail:zhang84004163 com杨晚铃,白芷懿,邹明珠,等:鹿茸草全长转录组测序与次生代谢产物生物合成相关基因的挖掘 J 江西师范大学学报(自然科学版),2023,47(1):99-110YANG Wanling,BAI Zhiyi,ZOU Mingzhu,et al The full-length transcriptome sequencing and identification of related genes involved insecondary metabolism biosynthesis in Monochasma savatieri J Journal of Jiangxi Normal University(Natural Science),2023,47(1):99-110文章编号:1000-5862(2023)01-0099-12鹿茸草全长转录组测序与次生代谢产物生物合成相关基因的挖掘杨晚铃,白芷懿,邹明珠,王欣茹,谢建坤,张帆涛*(江西师范大学生命科学学院,江西 南昌330022)摘要:为获得鹿茸草的全长转录组信息,挖掘鹿茸草次生代谢化合物生物合成途径相关酶的基因,该文基于单分子测序技术,利用 Pacbio 高通量测序平台,对鹿茸草进行全长转录组测序,共获得 48 005 条去冗余的高质量转录本,与 N、Swiss-Prot、GO、KEGG 等8 个数据库进行 BLAST 比对,共有45 362 个转录本被成功注释,注释率为 94 50%其中有 389 条转录本被注释到 KEGG 的 10 条标准次生代谢生物合成通路中 对转录组数据进一步分析发现:参与鹿茸草苯丙素类生物合成的转录本有 194 条,参与生物碱类生物合成的转录本有 115 条,参与类黄酮化合物生物合成的转录本有 23 条,参与其他次生代谢产物的转录本有 57 条,参与次生代谢后氧化与糖基化修饰的转录本有 204 条 鹿茸草全长转录组的获得极大地丰富了鹿茸草的遗传信息,初步揭示了参与鹿茸草次生代谢产物合成相关的基因通路,为深入研究鹿茸草次生代谢产物合成途径关键酶的功能及其调控机制奠定了基础关键词:鹿茸草;全长转录组;次生代谢;生物合成;遗传资源中图分类号:S 567文献标志码:ADOI:10 16357/j cnki issn1000-5862 2023 01 130引言鹿茸草(Monochasma savatieri Franch ex Max-im)为玄参科鹿茸草属多年生根半寄生植物,别称有沙氏鹿茸草、白花鹿茸草、千重塔等,常生于阳光充足的多沙山坡及灌丛中,主要分布在中国的东南地区,如江苏省、安徽省、浙江省、福建省、江西省、湖南省等,在日本九州也有分布1-2 鹿茸草的根、茎、叶皆可入药,其性质平和,味略微苦涩,主要功效是凉血止血、泻火解毒和祛风除湿止痛,可用于治疗咳嗽、发热、吐血便血和风湿关节疼痛等多种病症3 鹿茸草的化学成分分析显示:鹿茸草含有苯丙素类、黄酮类、生物碱类、酚酸类以及多糖类等4-5 多种成分,这使得鹿茸草具有十分广泛的药理活性 现代药理学研究发现鹿茸草具有抗氧化6、抑菌7、抗炎8 和抗病毒9 等生物学活性,是生产国家中药保护品种炎宁颗粒的主药材之一10 目前,关于鹿茸草的化学成分和药理活性的研究较多,但关于其基因组水平的研究(如基因功能的分析、次生代谢产物生物合成相关基因的发掘和重要活性成分合成机制的阐明等)鲜见报道鹿茸草至今还没有公布的基因组序列 近年来,高通量测序技术已十分成熟,可以在缺少基因组信息的情况下对其进行转录组测序,获得转录组信息11 第 2 代测序技术虽然为植物研究积累了丰富的基因组数据,但是也存在一些技术缺陷,如读长较短、容易产生 PC 扩增错误等,较难得到准确、全面第 47 卷 第 1 期江西师范大学学报(自然科学版)Vol 47 No 12023 年 1 月Journal of Jiangxi Normal University(Natural Science)Jan 2023的基因组测序信息,对深入挖掘和分析转录组数据有一定影响12-14 因此,第 3 代测序技术应运而生,其特点是超长读长,能读取包含单条完整转录本的序列信息,不需要模板扩增,且后期分析不需要组装就可得到高质量的全长转录本,可为许多无参考基因组的物种提供更全面的基因序列信息15-16 目前,第 3 代测序技术在植物(如薏苡17、艾蒿18、厚朴19、蒺藜苜蓿20、毛白菜21 和当归22 等)基因组的研究中已得到广泛的应用 本文利用 PacBio 第 3代转录组测序技术对鹿茸草进行全长转录组测序,得到了大量的高质量转录本序列,分析了鹿茸草的基因表达特征与功能信息,挖掘了鹿茸草次生代谢合成的相关基因,为进一步阐明及调控鹿茸草次生代谢合成途径奠定了基础1材料与方法1 1材料鹿茸草于 2021 年 6 月采自江西省宜春市袁州区渥江镇(2784 N,11444 E),经宜春市原农科所所长高海军研究员鉴定 取新鲜鹿茸草的叶片和茎,在清洗干净后,吸干水分,置于液氮中速冻后于80 冰箱中保存备用1 2NA 提取、转录组文库构建及测序委托北京百迈客生物科技有限公司(BiomarkerTechnologies,Beijing)进行鹿茸草总 NA 提取、全长转录组文库构建及测序 在总 NA 提取完成后,要对 NA 样品的浓度和完整性等进行检测,取检验合格的高质量 NA 样品用于全长转录组文库的构建以下为文库构建的简要流程:首先合成 mNA 的全长 cDNA23,将得到的全长 cDNA 进行 PC 扩增使其放大;然后修复全长 cDNA 末端并连上 SMT 接头,消化核酸外切酶;最后得到测序文库 取检验合格的文库,利用 PacBio SMT 测序平台进行全长转录组测序1 3全长转录组数据获取获取全长转录组序列的分析过程主要有 3 个阶段,它们分别是 circular consensus sequencing(CCS)序列的生成并校正、全长序列的识别和 isoform 水平聚类得到一致序列24 首先,将全部的原始序列对应其接头转换成 CCS 序列,同时对 CCS 序列进行校正,获得序列的质量信息;然后,通过检测在 CCS 序列中是否包含正确的 5引物、3引物及 polyA 尾,将序列分成全长序列(包含 5引物、3引物及 polyA尾)和非全长序列;最后,对在全长序列中相似的序列(即同一转录本的多个拷贝)聚成一簇(cluster),每簇得到 1 条一致序列(consensus isoform),去除冗余的高质量序列用于后续分析1 4序列信息注释为了分析转录本的不同功能,使用 BLAST25 软件将获得的高质量非冗余转录本序列与 N(NCBI非冗余蛋白质数据库)26、Swiss-prot(蛋白质序列数据库)27、GO(基因本体论)28、COG(蛋白质直系同源簇)29、KOG(真核生物蛋白相邻类的聚簇)30、eggNOG(直源同系蛋白分组比对)31、Pfam(蛋白质家族)32、KEGG(京都基因和基因组百科全书)33 数据库比对,从而获得转录本的注释信息次生代谢产物生物合成通路按照在 KEGG 数据库中标准的次生代谢通路进行筛选1 5CDS 及转录因子预测使用 TransDecoder34 软 件 基 于 开 放 阅 读 框(open reading frame,OF)的长度、对数似然函数值(log-likelihood score)、氨基酸序列与在 Pfam 数据库中蛋白质结构域序列的比对等信息,从转录本序列中识别可靠的潜在编码区序列(coding sequence,CDS),从而得到鹿茸草的 CDS 序列 转录因子的预测是使用植物转录因子预测软件 iTAK35 对植物TF、T 和 PKS 进行识别和分类,获得转录因子的类型和数量1 6LncNA 预测及靶基因预测LncNA 不编码蛋白可通过 CPC(coding poten-tial calculator)36 分析、CNCI(coding-non-coding in-dex)37 分析、pfam 蛋白结构域分析、CPAT(codingpotential assessment tool)38 分析对转录本进行编码潜能筛选,判断其是否具有编码潜能,过滤掉有编码潜能的转录本,取以上 4 种分析软件鉴定得到的非编码转录本的交集作为最终预测的 LncNA 结果LncNA 可与 mNA 进行碱基互补配对,利用 Lnc-Tar39 工具对得到的 LncNA 进行靶基因预测2结果与分析2 1全长转录组测序及序列分类校正根据 full passes3 且序列准确性大于0 9 的条001江西师范大学学报(自然科学版)2023 年件,从原始序列中共提取获得了 173 830 条 CCS 序列,总碱基数为 386 701 738 bp,CCS 序列平均长度为 2 224 bp,平均测序深度(passes)为 57 较高的测序深度为后续获取高质量转录本序列提供了保障去除在 CCS 序列中的 cDNA 引物序列及 polyA 序列共获得 141 331 条全长非嵌合(full-length non-chim-eric,FLNC)序列,占 CCS 序列的 81 30%使用SMTLink 软件的 IsoSeq 模块将在 FLNC 序列中相似的序列进行聚类分析,得到一致序列(consensusisoform)72 245 条,筛选准确度高于 99%的一致序列,共得到 72 231 条(99 98%)高质量转录本 去除在高质量转录本中的冗余部分,得到非冗余转录本序列 48 005 条,将其用于后续的各项分析2 2转录本功能注释2 2 1序列比对及功能注释将总共 48 005 条高质量的非冗余转录本与 N、Swiss-prot、GO、COG、eggNOG、KOG、Pfam 和 KEGG 等 8 个数据库进行序列比对和功能注释,成功注释了45 362 条(9450%)转录本(见表 1)表 1转录本功能注释数量统计数据库注释数量占总转录本比例/%N 数据库45 15894 07Swiss-prot 数据库29 64361 75GO 数据库32 34067 37COG 数据库20 79043 31eggNOG 数据库44 06591 80KOG 数据库29 65361 77Pfam 数据库37 71278 56KEGG 数据库20 95243 65成功注释的转录本45 36294 50全部转录本48 005100 00在 N 数据库中得到注释的转录本最多,有45 158条(占比 94 07%);其次是 eggNOG、Pfam、GO、KOG、Swiss-prot 和 KEGG 数据库分别注释了44 065条(91 80%)、37 712 条(78 56%)、32 340条(6737%)、29 653 条(61 77%)、29 643 条(61 75%)和 20 952 条(43 65%);而 COG 数据库注释到的转录本数量最少(20 790 条,43 31%)因为 N 数据库成功注释的转录本数量最多,所以根据该数据库比对结果进行同源性分析 结果表明:在序列匹配度较高的4 个物种中,芝麻(Sesamum indicum Linn)所占的比例最高,为 16 641 条(3685%);其次是紫花风铃木(Handroanthus impetiginosus(Mart ex DC)Mat-tos)为 7 432 条(16 46%)、斑点猴面花(Erythrantheguttata(DC)G L Nesom)为 3 951 条(8 75%)、木犀榄(Olea europaea Linn)为690 条(

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开