浙麦冬不同生长阶段转录组的无参拼接和注释
(浙麦冬学名:Ophiopogon japonicus (L.f.) Ker-Gawl)
Huijun Liu1, Ying Wang2,3, Tingzhang Wang2,3, Xuhui Ying6, Rongrong Wu4,5 amp; Huan Chen1,2,3
1浙江工业大学药学院,杭州,310014,中国。2浙江微生物研究所,杭州,310012,中国。3浙江省微生物技术与生物信息学重点实验室,杭州,310012,中国。4浙江大学医学院第二附属医院心内科,杭州,310009,中国。5浙江省心血管重点实验室,杭州,310009,中国。6正大青春宝药业有限公司,杭州,310012,中国。应向R.W.(电子邮件:realagatha@zju.edu.cn)或H.C.(电邮:chenhuan7809@gmail.com)发送信函及索取资料。
摘要:浙麦冬是一种百合科的传统药草,在免疫和心血管疾病方面具有重要的药理作用。本研究利用RNA-seq对浙麦冬三个不同生长阶段的转录组进行了研究,最终获得16.4 Gb的原始数据。经过筛选和组装,最终获得了96,738个平均长度为605.3 bp的单基因。通过五个数据库信息,对总共77,300个单基因进行注解。五个数据库包括NT、NR、SwissProt、Kyoto Encyclopedia of Genes and Genomes (KEGG)和Gene Ontology (GO)数据库。此外,还对黄酮类化合物、皂苷和多糖类化合物生物合成的调控机理及其在不同生长阶段的积累过程进行了研究。从第一年到第三年,黄酮类化合物、皂苷和多糖的含量均有所增加,但黄酮类和皂苷途径中相关基因的表达量下降,多糖途径相关基因的表达量先增加后降低。本研究的结果提供了浙麦冬最全面的表达序列资源,并将扩展现有的浙麦冬基因数据库,有助于对该物种进行全基因组的研究和分析。
关键词:浙麦冬,不同生长阶段,转录组,黄酮类化合物、皂苷和多糖生物合成途径
浙麦冬(ZMD),学名为Ophiopogon japonicus (L.f.) Ker-Gawl,属于百合科常绿多年生植物,是中国著名的传统药草。浙麦冬主要分布在浙江省慈溪市和浙江省杭州市[1]。现代药理学研究表明,浙麦冬的茎中含有丰富的类黄酮、皂苷和多糖,在免疫调节[2]、心脏保护[3]、神经保护[3]、抗菌素[3]、抗高脂血症[4]、抗氧化[5]、抗炎[6]、抗炎症[7]、抗糖尿病[8]等方面有一定的疗效。迄今为止,已从浙麦冬的块茎中分离出30多种黄酮[8]、70种皂素[9]和10种生物活性多糖[3]。浙麦冬是申脉注射液中两种基本原料之一,也是最广泛使用的中草药之一。浙麦冬常用于治疗动脉粥样硬化性冠心病和病毒性心肌炎,或在某些情况下作为一种器官保护剂与其他处方药物联合使用[10]。块茎是浙麦冬的储藏器官。块茎发育是一个复杂的过程,依赖于环境和内生因素[11]控制的基因的表达动态平衡。然而,人们对调节块茎生长的调控机制和代谢产物的积累变化知之甚少。
表1转录组和单基因长度分布情况
转录组 |
单基因 |
|
N50(bp) |
961 |
859 |
最大长度(bp) |
10,642 |
10,642 |
最小长度(bp) |
224 |
224 |
平均长度(bp) |
675.89 |
605.3 |
总数量(gt;0.2bp) |
159,701 |
96,738 |
总核苷酸量(bp) |
107,940,730 |
58,555,284 |
转录组是细胞在特定发育阶段的完整的基因表达谱,并提供有关初级或次生代谢产物生物合成[12、13]途径关键的基因表达和调控信息。由于新一代测序的快速发展,RNA测序技术已成为研究不同样本或组织中药用成分及其合成相关基因表达的一种有用的方法,例如黄酮类化合物在红花[14]、葛根[15]、虎杖[16]中的生物合成;皂苷在芦笋[17]、竹笋[18]、三七[19]和西洋参[20]的中生物合成;甘草酸在甘草[21]中的生物合成;杜仲[22]的脂肪酸生物合成等。通过这种方法,可以对不同样本或组织中相关基因的表达进行分析。对于浙麦冬,针对基因组和转录组的研究尚未见报告。仅有利用DNA序列[23、24]和EST-SSR标记[25]或SCAR[26]标记,来研究浙麦冬和湖北麦冬分子多样性的结果已经发表。浙麦冬通常需要3年的播种才能收获;根据种植的历史,浙麦冬块茎在三年后会逐渐腐烂并消失。由于这一独特的特性,RNA-seq被用于研究基因在三个不同生长阶段的表达差异。
图1从高质量的已处理的数据中获得转录本/单基因的长度分布。(长度从200bp-gt;2000bp)
图2描述5个不同数据库注释的单基因数量的维恩图:
对Nr、NT 、SwissProt、GO和KEGG数据库的搜索结果进行汇总。期望值E值 le;10minus;5。
总共有77,409个单基因被分入5个数据库,19329个单基因在五个数据库中均未能注释。
在本研究中,收集了三个不同生长阶段的浙麦冬块茎 (1年生:Y1, 2年生:Y2, 3年生:Y3),并使用Illumina HiSeq-2000平台进行测序,获得了16.4 Gb的原始数据。利用NCBI非冗余核苷酸序列(NT)、NCBI非冗余蛋白(NR)、SwissProt、Gene Ontology (GO)和Kyoto Encyclopedia of Genes andGenomes (KEGG)等公共数据库,对获得的基因序列进行了注释。经过拼接和注释,确定了基因的在三种不同年份表达差异。我们还确定了黄酮类化合物、皂苷和多糖生物合成的途径相关基因的表达。此外,采用高效液相色谱法和分光光度法对甲基麦冬酮、总黄酮、总皂苷和总多糖的含量进行了定量分析。进一步对三个不同生长阶段的转录组变化进行了研究,比较分析表明,所对应的合成研究途径也受到了明显的影响。因此,本研究的结果可以作为育种策略发展的指导。
图3汇编的单基因GO的功能分类。
单基因分为三个主要类别(分子功能、细胞成分和生物过程)和59个子类别。
y轴代表的是各自的单基因类别,而x轴表示的是单基因的数量。
图4 基于KEGG的单基因功能分类。单基因簇分为
5个主要类别(A)代谢,(B)遗传信息处理,(C)环境信息处理,(D)细胞过程和(E)有机体系统。
x轴表示的是单基因簇的数量,而y轴代表单基因簇各自的类别。
图5 由KEGG数据库注释的浙麦冬中与次级代谢和碳水化合物代谢有关的单基因。
共有4488个未单基因被鉴定,一些基因包含多种注释。
黑条代表二级代谢生物合成途径,灰色条形代表碳水化合物代谢途径。
结果与讨论
Illumina公司测序和重新注释
为研究基因表达差异,收集了三个生长阶段浙麦冬块茎(Y1, Y2, Y3)。提取总RNA,并对mRNA进行纯化,构建pair -end RNA-seq库。大约20346421(125times;2碱基对),21499762(125times;2碱基对)和125(125times;2碱基对)原始read被得到,分别占大约5.0,5.3和6.1 Gb的序列数据。用Trimmomatic[27]对原始数据进行了筛选,并将混合数据与Trinity软件组装在一起。最终拼接获得了159,701个转录本;这些转录本的平均长度为675.89 bp, N50长度为961 bp(表1)。每个基因的最长记录被选为单基因, 96,738个单基因的平均长度为605.3 bp, N50的长度为859 bp(表1)。单基因和N50的平均长度与人参[18]和百合[28]的平均长度相近,略长于红花[14]、蓼[16]和花椰菜[29]的长度。在图1中显示了浙麦冬转录本和单基因的详细长度分布。该转录组数据库可用于鉴定类黄酮,皂素和多糖相关的基因和表达途径。
功能注释和分类
为了研究它们的功能,基于Nr、Nt、SwissProt、GO和KEGG数据库对单基因进行了注释。在本研究中,通过五个数据库中搜索了96,738个单基因,并根据数据库对77,409(80.02%)的单基因进行了注释。其中,有23000个单基因在所有五个数据库中都有点击。另外,19329个单基因并没有显著地与五个公共数据库相匹配,这表明这些单基因可能是浙麦冬(图2)中新的转录序列。有些单基因簇数据对于统计意义上的匹配来说太短了。GO分析显示,57,157个单基因(59.08%)可以被分为59个功能组,有13,515个功能术语。细胞过程(47,399,82.8%),结合(41643,72.86%)和细胞部分(44,997,78.73%)是每个GO分类的主要分类(图3)。进一步分析发现了三种表达模式:表达上调的基因,表达降低的基因,和先先上调后下调的基因。根据结果,大多数基因表达水平先是升高,然后下降,而表达下调的基因数量比表达上调的基因的数量要大。值得注意的是,从第二到第三年,表达量下降的大多数基因都是“细胞过程”、“代谢过程”、“细胞部分”、“单一生物过程”、“结合”和“细胞器”(图S1、S2和S3),这表明,浙麦冬的块茎在第二年逐渐成熟。
KEGG数据库包含的数据来自于对细胞内代谢途径和基因产物功能的系统分析 [30]。基于代谢途径的分析有助于进一步了解基因的生物学功能和表达水平[14]。结果显示,根据KEGG数据库(Fig. 4和表S1),29010(29.99%)的单基因可以被富集到280个生物通路的5个类别中。值得注意的是,KEGG对23个二级代谢生物合成途径和15个碳水化合物代谢途径进行了注释,其中包括4,488个单基因。这些是与植物块茎发育有关的主要代谢途径,包括类黄酮、皂苷和多糖等药物成分的生物合成(图5)。利用FPKM方法每千碱基片段来计算这些基因的表达水平,结果表明,随着苗龄的增加(表S2),大多数基因表达水平显著降低。
鉴别差异表达基因(DEGs)和功能标注
为了定义不同年份的DEGs,我们将每个库中基因表达数据归一化,建立有效的表达文库,使用edge-R设置q值le;0.05和| log2-fold-change |ge;1,提取差异表达的单基因如图6所示,分别在Y2_vs_Y1、Y3_vs_Y1和Y3_vs_Y2组中分别确定了6,473、7,073和1,209个DEGs(表S3)。值得注意的是,我们发现两个组中的DEGs的数量都显著大于Y3_vs_Y2组中的Y2_vs_Y1和Y3_vs_Y1。在本研究中,所有的DEGs首先使用KEGG数据库进行注释。
在Y2_vs_Y1下调的2977个单基因簇中,有439个与“次生代谢”的生物合成途径相关,521个与“代谢途径”相关,但3496个上调单基因簇中只有93个与“次生代谢”的生物合成途径相关,196个与“代谢途径”相关(表2
剩余内容已隐藏,支付完成后下载完整资料
英语原文共 15 页,剩余内容已隐藏,支付完成后下载完整资料
资料编号:[281627],资料为PDF文档或Word文档,PDF文档可免费转换为Word
课题毕业论文、文献综述、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。