随着高通量测序技术的发展,越来越多的文章探讨测序方法而不是传统page或毛细管电泳方法进行ssr分型的优势。今天就给大家推荐一篇刚发表的文章,相信会对您有所启发。
题目:fast sequence-based microsatellite genotyping development workflow
基于序列的微卫星(ssr)基因分型快速开发流程
发表期刊:peerj 发表时间:2020-5-4 影响因子:2.35
研究内容速览:
基于高通量测序技术的ssr基因分型(ssrseq),已被证明可以去除基于电泳方法的许多局限性,并改进对群体的遗传多样性和结构的推断。本文展示了简化的ssrseq开发流程,包括ssr开发、多重ssr标记扩增和测序以及自动化的生信数据分析。研究举例说明了该方法在不同门(真菌、植物、昆虫和鱼类)物种中的应用。结果发现,依赖先前开发的ssr标记的分析并不是最佳方案,获得可靠的基因座分型数目低。相比之下,全新的特殊引物设计方法,提供了高度多重的ssr分析,可以测序产生20-40个基因座的高质量基因型。这里强调了前期开发因素在进行有效ssrseq重要性。利用测序分析能够快速产生出强大的基于多等位基因型的数据集,需要通过新的理论和分析框架来从多态性标记系统中提取更多有用信息。
研究背景
在高通量测序技术的时代,与势头越来越猛的snp多态性基因分型相比,高通量测序技术在ssr基因分型方面的应用一直落后。传统的基于毛细管电泳的ssr基因分型有几个缺点:相似性(相同大小的等位基因具有潜在的不同序列)、耗时耗力的开发和基因分型、低通量、缺乏自动化和数据标准化等。而所有这些限制都是由于目前ssr基因分型依赖于毛细管电泳的扩增子片段大小来识别等位基因,如果ssr基因分型转变为基于序列的基因分型则会不同。以前对毛细管电泳和基于序列的ssr基因分型(ssrseq)的直接比较证实ssrseq是一种可靠的方法。基于序列的ssr基因分型优于基于毛细管电泳的ssr基因分型,可以直接获取等位基因序列揭示了额外的多态性,当仅使用等位基因大小来识别变异时,这些多态性仍然是隐藏的。因此,序列数据降低了等位基因的相似性,因为相同大小的等位基因可能包含不能转化为大小变异的分子变异,如snp多态性、不存在掩盖重复数目的变异或存在两个具有互补大小变异的相邻ssr基序。因此,ssrseq提供了精确的遗传多样性估计和种群结构推断(darby et al., 2016; bradbury et al., 2018; neophytou et al., 2018; viruel et al., 2018; layton et al., 2020)。
更新ssr基因分型以适应现代技术仍然很重要。首先,生态学或进化生物学中的当前一些科学问题仍用十几到上百的高度多态性多等位基因座位。第二,重复寡核苷酸基序数量的变化是一种独特的多态性,具有特定的突变机制和速率,其本身对跨群体和跨基因组核苷酸替换的遗传变异提供了必要补充。第三,越来越明显的是,ssr多态性涉及许多生物学过程,如基因表达调控和表观遗传机制,以及更普遍的表型变异。因此,随着时间的推移进和技术进步,在一段时间内,标记主导基因分型的偏好性在不断演变,在高通量测序技术背景下,对任何类型标记多态性的检测都是重要且应该优先考虑。
迄今为止,人们已经探索了ssrseq的具体技术和分析,开发了几种生物信息学方法,测试了不同的实验方案,并在群体遗传推断中解释分子变异的方法进行了比较。总之,这些研究探索了许多关于ssrseq相对于传统方法的技术和分析优势的问题。
在这里,研究者开发了一个应用于非模型物种的ssrseq综合流程分析,并将这一工作流程应用于五个类群物种,它们在已经获得的基因组数据量上存在显著差异。通过比较多种可能的开发方案,包括传统上在毛细管测序仪上对已经优化的ssr分析进行测序,优化已经开发的ssr周围的引物,以及从一系列可用的基因组资源或从新生成的没有现有基因组资源物种的低覆盖率随机基因组序列中重新开发ssr。基于以前在开发高度多重ssr基因分型方案方面的经验,本研究提出了一种简化的方法,并证明了其在具有广泛遗传和进化特征的物种群体中的应用。研究者应用了一个ssr序列数据分析管线来产生单倍型数据,说明在测序等位基因中检测到的所有多态性,通过广泛的基因分型双盲重复来验证,以估计ssrseq错误率。结论表明高效和强大的基于多态性单倍型的基因分型方法易于开发和应用。
研究方法
研究物种、ssrseq开发策略和dna提取
本研究选择物种、ssrseq开发策略和dna提取相关信息如表1所示。采用以前开发的ssr、ssr引物重新设计,或者从各种基因组资源中重新开发。
表1、本研究所用物种的ssrseq开发策略和dna提取相关信息。
ssr的从头开发及引物重新设计
利用前人开发的qdd管线对(i)参考基因组序列,(ii)一组低覆盖率随机序列或(iii)已经表征ssr基因座的序列进行提取分析(表2),从一些低复杂性等有问题的序列中鉴定出高质量序列,并在ssr两侧设计引物对(图1)。qdd管线以默认参数运行,引物最佳大小设定为25 bp(最小21 bp,最大26 bp),最佳退火温度设定为68℃(最小60℃,最大75℃),同一对引物之间的最大差异为10℃,gc最佳百分比为50%(最小40%,最大60%)。此外,pcr产物大小设置在120到200 bp之间,以便与广泛的测序平台兼容,并产生可用于分析降解或低量dna样品的基因分型分析。qdd分析产生了大量具有设计引物对的候选基因座,从中可以选择有限数量的基因座(图1)。除了quercus sp.,当有数百到数千个候选ssr时,参考meglécz et al.在2014年的建议,使用几个质量标准从中选择60个ssr用于进一步测试,包括:通过从单体而非共有序列中选择ssr,对扩增成功可能性增加的引物对进行优先排序,选择单一重复而非多个基序序列,在引物和重复基序之间显示至少20 bp,侧翼区域显示高度复杂性(例如,没有微小卫星(minisatellite),侧翼区域没有其他ssr,侧翼区域或引物没有同聚物)。此外,我们进一步选择具有最高重复数的ssr,以增加选择多态性位点的概率,避免可能形成发夹的基序,如at重复,并在可能时包括多种二、三和四核苷酸重复。
表2、ssrseq基因分型的测试方案摘要。
图1、ssrseq标记优化或开发工作流程。
引物修饰和简单扩增试验
根据ion torrent和illumina测序平台要求设计添加了tag的引物(表2),使用primer pooler软件进行引物二聚体形成分析。显示deltag 低于-6 kcal/mol的引物对很可能形成二聚体,导致不良的多重pcr扩增。对于参与重要相互作用的基因座,选择备选引物,或者在没有备选引物的情况下,从候选名单中选择另一个基因座。之后进行简单扩增试验,跑琼脂糖凝胶选取清晰条带引物进行后续实验。
多重ssr扩增和测序文库的构建
本研究分析了192至960个个体,包括46至156个重复个体,以检查方法的可重复性(表2)。对于每个分组样本,使用三轮多重pcr方法同时扩增所有基因座,并提高扩增的同质性,从而覆盖基因座之间的序列。
生物信息学数据分析
使用fastqc对序列进行质控,使用cutadapt去除小于70 bp的读序,使用pear组装成contigs,最小重叠为50 bp,最大组装序列长度为450 bp。
使用fdstools管线对每个个体进行ssr分型,并获得基因型相对应的序列(图1)。之所以选择这种分析工具,是因为它考虑了在分析序列中检测到的任何类型的多态性(包括重复基序、snp或indels),同时整合了特定的工具,可从扩增过程的滑移突变中检测真正的等位基因。
对于每个基因座,使用以下标准按重要性顺序确定最佳分析策略:估计等位基因误差、缺失基因型数量和检测到的等位基因数量。超过6%的等位基因误差或超过50%的个体缺失数据的基因座被标记为失败,并从进一步的检查中移除。
基于序列信息(单倍型)鉴定的等位基因的数量与仅在所有分析的基因座中扩增子长度不同的等位基因的数量进行比较,以评估通过使用序列数据获得的信息的增益和估计大小的同质性。我们通过对每个基因座的重复数、重复基序中的snp和indels,以及单倍型之间不同侧翼区的变异数进行计数,进一步研究了检测到的多态性的性质。
实验结果展示
利用先前开发的ssr的基于序列的基因分型
从s. salar先前开发的ssr使用基因座的多重组合进行基因型分析,发现可靠基因座的基因型数量较少,总成功率在39%到47%之间,可靠基因座的数量在7到10之间(表2)。此外,生成的基因型数据集的质量相对较低,缺失数据率和等位基因误差分别高于10%和1%(图2)。在ion torrent pgm平台上的序列获得最低的基因型数据质量,而尽管在illumina miseq平台上对每个个体每个测序基因座产生的的平均覆盖率低2.3倍,但是却获得了更高的基因分型质量,具有更低的缺失数据和等位基因错误率(图2,表2)。ion torrent平台的最低性能是由于同聚物片段周围虚假插入-缺失相关的较高测序错误率,这导致了测序读序的浪费,噪声的增加。因此选择illumina miseq测序平台用于其他物种的后续分析。
图2、先前开发的微卫星的ssrsq开发结果。s. salar中一个由23个ssr组成新的多重序列,分别用 (a) ion torrent pgm测序平台,(b)illumina miseq测序平台,和(c) 由15个ssr组成的用illumina miseq测序平台的常规测序结果。对整个序列的所有多态性(full length),或者仅关注重复基序内的多态性(repeat focused),或者针对每个基因座的最佳策略的组合(combined)的可靠基因座的数量、等位基因的总数、缺失数据和等位基因错误率进行分析。
从头开发的ssr序列基因分型
相比之下,从头开发ssr的总成功率在67%到86%不等(表2)。鉴于通常从高通量测序或参考基因组序列中鉴定出的大量候选ssr,我们能够筛选出多达60个新的基因座,并将其中的大多数(从28个到60个)在单个多重pcr反应中进行扩增(表2)。
全序列与重复基序多态性比较分析
将分析集中在重复的基序上稍微增加了可靠基因座的数量,并且倾向于产生稍微更少的缺失数据和等位基因错误(图3)。然而,侧翼序列中可能存在的许多多态性没有被解释。事实上,分析在pcr反应引物之间检测到的所有多态性导致每个基因座的平均等位基因数更高,代价是丢失数据和等位基因错误率稍高(图3)。有趣的是,17%的基因座可以用全长或重复聚焦的分析方法进行可靠的分析。因此,通过为每个位点选择最佳方法来组合分析策略,得到优化的数据集(图3)。即使对于具有可靠基因型的基因座,不管所选择的分析方法如何,选择产生最佳质量数据(就等位基因数量、缺失数据和错误率而言)的基因座会提高数据集质量。这种组合策略导致最高数量的基因座和等位基因,同时将缺失数据和等位基因错误率保持在最低水平(图3)。
图3、基于新优化的ssr的ssrseq开发结果。
用illumina miseq测序平台对(a) quercus sp.,(b)alosa sp.,(c) a. ostoyae, (d) m. variegatipes进行检测,对整个序列的所有多态性(full length),或者仅关注重复基序内的多态性(repeat focused),或者针对每个基因座的最佳策略的组合(combined)的可靠基因座的数量、等位基因的总数、缺失数据和等位基因错误率进行分析。
跨物种检测到的多态性类型
虽然大多数常见的群体遗传学应用不需要描述区分等位基因的多态性的性质,但是序列数据的主要优势(除了分析更多数量的基因座之外)是能够识别不转化为大小变异的等位基因变异,即使用经典电泳方法时检测到的唯一变异 。除了重复数目的变异,研究者还在侧翼序列或重复基序本身中鉴定了许多snp和indels (图4,表3)。
表3、检测到多态性。
图4、每个物种组中每个样品在重复基序或侧翼序列中检测到的多态性类型的比例。
研究结论:
本研究提出了一个综合的方法来加速非模式物种的ssrseq协议的开发,并提供了一些提高开发效率的建议。两个最重要的建议是优化标记选择和引物设计,以实现有效的多重聚合酶链反应扩增和序列可解释性,并使用重复个体来评估产生的基因型数据的质量。
本研究选择illumina的384个条形码组合,因为研究者对20到300个位点进行分析时,发现它与miseq测序平台的输出非常吻合。然而,当研究单个物种中超过384个个体时,需要多次miseq运行或定制的双重索引策略,可在ion torrent pgm运行(使用了960种条形码组合),或之前使用miseq平台的研究(960种和1,024种条形码组合。
除了靶向ssr外,ssrseq表征序列中存在的snp和indel的能力代表了一个新的机会,可以产生经验数据来应用现有的理论和统计框架,将连锁多态性与不同的突变特征结合起来。依赖于比通过自动化生物信息学管线的传统毛细管电泳基因分型更容易标准化的序列数据的基因分型将促进实验室之间的数据共享和增加基因分型数据库,这对野生动物监测的应用至关重要。
最后,多物种并行开发的便利性使得这些方法便于开发用于比较种群和群落遗传学研究的强大的多位点数据集,并进一步研究自然种群中ssr变异的功能含义和适应潜力。
关于天昊:
天昊生物具有多年ssr分子标记检测及分析经验,如果您有类似ssr网站搭建及数据分析需求,欢迎联系太阳成tyc7111cc具体咨询!
此外,天昊生物可以提供ssr分子标记的一代毛细管电泳检测,并且基于二代高通量测序技术开发出ssrseqtm专利技术, 可以根据客户项目需求,提供不同数量样本和位点的高性价比ssr检测服务。
基于二代测序平台的ssrseqtm专利技术
我们期待成为您ssr分型检测的优质服务太阳成tyc7111cc的合作伙伴,欢迎联系太阳成tyc7111cc具体咨询!
电话:15611255286(微信同号)
公司网址:
邮箱:,
往期精选文章:
ssr研究进展 11月集锦(三)
ssr研究进展 11月集锦(二)
ssr研究进展 11月集锦(一)
生物遗传多样性类研究进展10月集锦(一)