南京师范大学生命科学学院周长发教授团队利用线粒体基因组随机测序技术对蜉蝣线粒体基因组中新的基因重排模式进行了探讨,研究成果近期发表在《international journal of biological macromolecules》上。在这项研究中,周长发老师为该论文通讯作者,李冉博士为第一作者,天昊生物有幸承担了线粒体基因组的随机测序和部分生信分析工作。在恭喜客户发表高水平文章同时,我们也来详细了解一下本篇文章。
昆虫完整的线粒体基因组为典型的双链封闭环状dna,一般大小为14-20 kb,由37个基因(13个蛋白质编码基因、2个rrna基因和22个trna基因)以及1个控制区(也称为a t富集区)组成。它们的独特特征,如内含子缺失、母体遗传、重组水平相对较低和突变率快,使昆虫线粒体基因组作为物种鉴定、分子进化、系统地理学、系统学、系统发育推断和比较基因组研究的分子标记特别有效。同时,与单个或多个基因相比,线粒体全基因组中有更多的系统发育信息,如基因顺序、rna二级结构、密码子使用频率和控制区特征等。对于大多数昆虫的线粒体基因组,基因顺序与果蝇(一般认为是祖先基因顺序)相同。随着昆虫线粒体基因组的增加,在许多类群中发现了基因重排现象(基因顺序和基因数量)。目前,线粒体基因组结构的变化主要表现为基于可变基因的次要重排和主要重排。基因重排已被证明能有效解决某些类群的进化关系,这为系统发育重建提供了新的佐证。
在过去的几十年里,对蜉蝣(蜉蝣目)的研究主要基于形态学分类、生物学和生态学。由于缺乏有效的分子数据,对蜉蝣在有翅昆虫中的分类地位知之甚少,其高级分类单元之间的系统发育关系仍然不清楚。迄今为止,该目中仅有29个完整或部分线粒体基因组(12科21属)被提交给基因数据库(https://www.ncbi.nlm.nih.gov/)。在已知的蜉蝣线粒体基因组中,只有三个基因重排事件在三个家族的十个序列中得到验证。siphluriscus chinensis的线粒体基因组经历了一个微小的重排事件,其特征是带有一个新基因簇(s1-k-e)的染色体的重复和易位。此外,在alainites yixiani发现了第三种基因重排模式,其特征是几个基因的重排(cr-i-q-m-nd2-w-c-y改变为i-cr-c-q-y-m-nd2-w)。由于线粒体基因组的缺乏,在蜉蝣目中发现的基因排列模式仍然有限,需要对更多的类群取样和线粒体基因组测序来探讨基因组水平上不同类群之间可能的进化关系。
蜉蝣科是蜉蝣类的一个大科(蜉蝣目:蜉蝣科),由18个属组成,现存种类估计超过300种。该类昆虫丰富和广泛分布的水生生物,分布在整个东方、近北极和古北极动物地理区域。蜉蝣是食虫动物的重要食物来源,如某些鸟类、鲑科动物和其他鱼类。此外,大多数蜉蝣对环境敏感,通常被视为指示生物,用于检测淡水和河岸群落中的各种干扰和污染物。然而,关于蜉蝣科线粒体基因组的信息较少,只有一个部分线粒体基因组已报告。因此,蜉蝣线粒体基因组的进化特征和结构仍不清楚。
t. mikhaili和c. fusca属于蜉蝣科的两个常见属,广泛分布于亚洲。基于传统的形态特征,它们的分类地位非常明确。为了分析蜉蝣科昆虫线粒体基因组的基因排列及其在蜉蝣目中的系统发育关系,研究者确定了它们的线粒体全基因组序列并分析了它们的线粒体基因组结构。详细讨论了可能的重排过程和机制。此外,还重建了蜉蝣目的系统发育树,并在线粒体基因组水平上分析了蜉蝣科的分类地位。这项工作将提高我们对蜉蝣科线粒体基因组重排事件和进化机制的理解。同时,本研究的基因重排分析有望为蜉蝣目的进一步系统发育研究奠定基础。
样品制备和dna提取
t. mikhaili采自北京延庆,c. fusca采自江苏宜兴。收集的样品最初放置在100%乙醇中,并储存在-20℃。使用dna提取试剂盒从个体样本的整体中分别提取全基因组dna并质检。
线粒体基因组测序和组装
利用illumina hiseq 2500平台的pe150模式获得完整的线粒体基因组序列。每个样本原始读序达到2gb,然后使用ngs-toolkit对adapter进行修整,并通过priseq去除低质量和短读序。利用嵌入在geneious r 11 (http://www.geneious.com/)中的velvet 1.2.10进行组装,具体参数设置为:每条读序的最大不匹配率= 5%,最大gap大小= 3 bp,最小重叠= 30-50 bp,最小重叠一致性为80-100 bp。利用已发布的vietnamella dabieshanensis线粒体基因组(genbank登记号:hm067837)用于进行组装准确性分析。此外,为了验证illumina测序的准确性,通过pcr扩增了两种物种的三个不同片段,包括部分coi基因、部分nd4基因、含有基因(i’-cr-q-m)区域的片段,之后进行一代sanger测序。
线粒体基因组注释和分析
将两个组装好的线粒体基因组首先上传到mitos网络服务器(http://mitos2.bioinf.uni-leipzig.de/)进行注释。“genetic code”选择无脊椎动物,并使用ncbi的blast搜索来确认其准确性。基于无脊椎动物线粒体遗传密码,使用orf finder对所有蛋白质编码基因(pcgs)进行鉴定。对于pcgs的非正常起始和终止密码子通过比对蜉蝣目可用的线粒体基因组进一步调整和人工纠正。使用trnascan-se 1.21和arwen 1.2确定了22个trnas的基因座和二级结构。根据预测的结构,然后用adobe illustrator cs6手工绘制基因。通过与其他蜉蝣目同源序列的比较,鉴定出两个rrna基因。基因间隔区和基因间重叠区域是人工估算的。控制区中的串联重复(位置、数量和长度)是使用tandem repeat finder 4.07 (http://tandem.bu.edu/trf/trf.html)的默认参数预测的。碱基组成、密码子分布、相对同义密码子使用(rscu)是在mega x中计算的。
序列比对和系统发育分析
基于31个可用的线粒体基因组进行系统发育分析,包括两种新的蜉蝣线粒体基因组和29个以前报道的蜉蝣序列(siphluriscus chinensis被选为外群)。在分析中使用了所有13个pcgs和两个rrnas的核苷酸序列。在translatorx在线平台中,使用mafft算法将每个pcg的序列分别与基于密码子的多重比对进行比对。使用g-ins-i策略将每个rrnas的序列分别与mafft 7.0在线分析结果进行比对。利用gblock 0.91b识别具有默认设置的保守区域,然后通过phylosuite连接各个比对序列,并分成四个数据集。p123r数据集包含11,843个位点,包括13个pcgs加两个rrnas的所有密码子位置。p123的基质包含10,230个位点,13个pcgs的3个密码子位置。p12r矩阵包含8433个位点,第一和第二密码子位置为13个pcgs加上两个rrnas。p12数据集包含6820 bp,只有13个pcgs的第一和第二密码子位置。四个数据集的最佳划分方案和每个划分方案的最佳拟合模型由phylosuite程序中的partitionfinder 2根据贝叶斯信息标准在具有链接分支长度的搜索算法下确定。使用贝叶斯推理和最大似然法对每个数据集重建系统进化树。对于最大似然分析,利用raxml 8.2.0在自动模型1000的自举值下进行预测。贝叶斯推理分析在mrbayes 3.2.6中通过在线cipres科学网关进行。运行设置为1000万代,每1000代采样一次,每次运行的最初25%的树以bure-in被丢弃,一致性的树图从剩余的树中计算获得。用figtree 1.4.2编辑系统发育树。
基因组组织及组成
t. mikhaili和c. fusca线粒体全基因组序列为环状dna分子,大小分别为15,042 bp和15,135 bp (图1),提交到genbank的登记号为mt535766和mt535767。两种蜉蝣的线粒体基因组都具有大多数蜉蝣典型的基因含量,包括13个pcgs、22个trna基因、2个rrna基因(12s和16s)和一个被称为控制区的大的非编码区。值得注意的是,22个基因在多数链(h链)上,其余15个基因编码在少数链(l链)上。这与许多其他蜉蝣不一致,其中14个trnas编码在h链上。碱基组成分析表明,这两个全序列都表现出明显的a和t偏向性,其中a t在t. mikhaili中的含量为64.4%,在c. fusca中的含量为60.3%。在复制和转录过程中,核苷酸组成的不对称性通常被认为是基因方向和复制方向的指标。
蛋白质编码基因和密码子使用分析
在t. mikhaili和c. fusca的线粒体基因组中,大多数pcgs位于h链上,只有四个基因(nd1、nd4、nd4l和nd5)编码在l链上(图1)。在t. mikhaili的线粒体基因组中,pcgs的总长度为11,215 bp,占整个基因组的74.56%。c. fusca的pcgs总长为11,232 bp,占全基因组的74.21%。与其他蜉蝣一样,除了t. mikhaili的atp8、nd3和nd5以gtg,以及c. fusca的coi和nd3以acc和gta为起始密码子外,大多数pcgs都以常规起始密码子atn (atg、att、ata和atc)为起始密码子。在t. mikhaili中,除了coii、nd4和nd5以不完全密码子t或ta结束外,其余所有的pcgs都以典型的tan密码子(两个终止于tag,八个终止于taa)结束。在c. fusca中,10个pcgs使用典型的tan密码子(3个带有tag,7个带有taa),其余3个基因(coi、coii和cytb)以单个t密码子结束。在其他昆虫线粒体基因组中也报道了不完全终止密码子(t),它在其3’端与trna相连,这一过程被认为是通过转录后聚腺苷酸化完成的。
计算两个线粒体基因组的相对同义密码子使用(rscu)值后发现。除了终止密码子外,3,727个氨基酸在t. mikhaili中编码,而c. fusca中编码的为3733个(图2)。比较分析表明,两个线粒体基因组的密码子使用模式和主要常用密码子高度保守。同时,最常用的氨基酸是亮氨酸(leu)和苯丙氨酸(phe)(图2a)。此外,rscu分析还表明密码子偏向于在第三密码子使用更多的a / t (图2b)。类似地,密码子频率也反映了a t核苷酸的使用偏好性。
trna和rrna基因和非编码区
在两种蜉蝣线粒体基因组中鉴定出22个典型的trna基因,长度介于59-70 bp之间。几乎所有的trnas都可以折叠成典型的三叶草结构。除了大多数正常的碱基对外,在t. mikhaili的三叶草二级结构的茎中发现了35个非沃森-克里克碱基对,在c. fusca中发现了42个。形成弱键的g-u(或u-g)对的类型在两个线粒体基因组中都有发现,编号为25和37,可以通过编辑过程进行纠正,并且不应该影响运输功能。两个rrna基因(12s和16s)通过与蜉蝣目其他线粒体基因组的比对鉴定到。与其他昆虫线粒体基因组一样,蜉蝣目线粒体基因组的不同大小通常是由于非编码区(基因间隔区和控制区)的大小差异造成的。两个新的线粒体基因组有7个非编码区,总长度分别为440和576个碱基。除了对照区,两个线粒体基因组中分别存在总共36个和22个基因间核苷酸。
基因排列
像大多数昆虫一样,已发表的蜉蝣线粒体基因组中的控制区(cr)通常位于12s和trnaile基因之间。t. mikhaili和c. fusca线粒体基因组的这个位置没有基因间核苷酸,但是在trnaile和trnagln之间发现了一个大的非编码区。t. mikhaili线粒体基因组中的该非编码片段长度为346 bp,具有14个串联重复序列,片段长度为18 bp。进一步的分析表明,c. fusca的非编码区有一个18 bp的串联重复序列,共有10个拷贝数。尽管蜉蝣cr的序列和结构有很大的差异,本研究的分析表明trnaile和trnagln之间的长非编码区是一个假定的cr。此外,比较分析表明,两个线粒体基因组的trnaile基因编码在l链上。这种现象与其他蜉蝣不一致,它们的基因编码在h链上。
昆虫线粒体基因组的基因排列相对保守,而d. yakuba的顺序一般被认为是昆虫的祖先排列。随着完整线粒体基因组序列的大量增加,在不同的昆虫谱系中不断发现基因重排事件。然而,在蜉蝣目中,只报道了三种不同类型的重排。
本文研究的两种蜉蝣的基因顺序是相同的,但与其他已知的蜉蝣目的线粒体基因组及祖先的排列方式相比则不同(图3)。基因重排主要是由线粒体突变引起的,作者提出了两种常用的机制(串联重复-随机丢失和重组)来解释这种重排,并且对这两种线粒体基因组的基因重排的过程做出了假设(图4)。总的来说,在许多昆虫谱系中已经发现了许多基因重排模式。然而,本文在两种蜉蝣线粒体基因组中发现的新的基因重排模式只是蜉蝣目中的第四个事件,这有助于更好地理解蜉蝣科在蜉蝣目中的系统发育地位。随着越来越多的线粒体基因组基因组测序,基因重排可能为未来的系统发育分析提供确证。
系统发生分析
为了进一步研究蜉蝣目的系统发育关系和蜉蝣科的分类地位,用四个数据集建立了系统发育树。对于同一个数据集,使用贝叶斯推理和最大似然方法生成了相同的拓扑树。同时,六个系统发育树在具有高节点支持值的蜉蝣目不同科之间支持相同的拓扑结构(图5)。
除了小蠹虫科和蜉蝣科,所有超过两个物种的科在本系统进化树中都是单系恢复的。本研究线粒体基因组分析高度支持单系蜉蝣科。以前使用不同系统发育标记的研究也支持蜉蝣科是一个单系类群。随着线粒体基因组的积累,这种新的重排模式可能为蜉蝣科提供更多的进化和系统发育线索。
在这项研究中,作者确定并描述了t. mikhaili和c. fusca线粒体全基因组,它包含37个基因和一个假定的控制区,这是昆虫线粒体基因组的典型特征。在蜉蝣目中首次发现了新测序的线粒体基因组的一个新的基因重排,这可以用复制-随机丢失和重组模型来解释。基于不同的分析方法和数据集所得到的系统发育树均将三个蜉蝣科昆虫聚为一支。随着线粒体基因组重排数量的增加,这可能为蜉蝣科的进一步研究提供潜在的系统发育标记。
线粒体叶绿体基因组测序相关文章:
;
天昊生物具有丰富的ssr基因分型和动植物线粒体、叶绿体基因组测序检测项目经验,为客户高效发表sci文章提供技术保障,我们期待成为您ssr基因分型和细胞器基因组测序的优质服务太阳成tyc7111cc的合作伙伴,欢迎联系太阳成tyc7111cc具体咨询!
电话:18964693703(微信同号)
公司网址:www.geneskybiotech.com
邮箱:techsupport@geneskies.com