许多遗传性神经和神经肌肉疾病是由短串联重复序列或微卫星的异常扩增引起的,导致具有病理性质的重复扩增rnas和蛋白质的表达。尽管这些微卫星扩增可能发生在基因组的编码区或非编码区,但三核苷酸cng重复序列在外显子编码区和非翻译区占主导地位,而内含子突变从三核苷酸到富含六核苷酸gc和富含a / at的重复序列变化。在此,本研究使用转录组分析结合互补实验方法来证明富含gc的内含子扩增与宿主内含子保留选择性相关。由于这些内含子保留事件在受影响的组织和外周血中都是可检测的,因此它们提供了敏感和疾病特异性的诊断生物标记。
发表期刊:pnas 发表时间:2018-4-17 影响因子:9.661
摘要一览:
简单序列重复序列或微卫星的扩增与30种神经肌肉疾病有关。虽然这些扩增发生在编码区和非编码区,但微卫星序列和重复长度多样性在内含子中更为突出,内含子具有8个不同的三核苷酸至六核苷酸重复序列,导致遗传性疾病,如肌强直性营养不良2型( dm2 )、fuchs内皮角膜营养不良( fecd )和c9orf 72肌萎缩性侧索硬化和额颞叶痴呆( c9-als / ftd )。在这里,研究人员检验了这些富含gc的内含子微卫星扩增选择性地触发宿主内含子保留( ir )的假设。以dm2、fecd和c9-als / ftd为例,本研究证明在受影响的组织和外周血淋巴细胞中容易检测到保留,并得出结论,即ir筛选是内含子重复扩增疾病的快速且廉价的生物标记物。
背景简介:
重复元件是真核基因组dnas的常见序列特征,占人类基因组的70%。这些重复序列包括转座子家族( dna转座子和ltr以及非ltr反转座子)和简单序列重复,例如端粒重复和各种卫星(着丝粒、微卫星、微卫星和兆卫星)。微卫星是≤10个碱基对(bp)的重复单元,是一个特别突出的重复元件类,因为它们由于倾向于形成不完全发夹、滑链、四链状等而具有高度多态性导致dna复制和修复水平升高的结构错误。虽然这些错误会导致重复收缩和扩增,从而提供有益的基因调节活性,但扩增会导致30种人类遗传性疾病。尽管与外显子相比,人类内含子在重复元件中显著较长且较密集,但只有8种内含子微卫星扩增障碍与内含子重复不稳定性相关。
研究方法:
southern印迹、重复序列引物pcr检测、rna-fish、小基因剪接报告基因、体内电穿孔、rt-pcr、rna-seq、cage-seq、microarray。
研究结果:
1、内含子微卫星扩张的序列多样性和位置偏差分析
人类基因组在内含子中含有80000个3至6 bp的微卫星,这些微卫星可能会发生扩增,但目前只有8个串联重复序列遗传性扩增疾病被报道。虽然富含gc的三核苷酸扩增(exp)在外显子区域占主导地位,但内含子突变由3至6 bp重复组成,gc含量(20-100%)差异很大。基于该序列特征,本研究将内含子扩增分为gc和a/at富集基团(图1a )。与大多数富含a/au的微卫星rna相反,预测富含gc的扩增形成高度稳定的rna二级结构,显著为增加内含子长度(图1b),甚至多次倍增内含子长度,例如nop56中sca36相关的ggcctgexp突变。sca10 auucu重复序列也由au对折叠成闭合的ucu内环组成的二级结构,但是这些结构与由可变长度的富含gc的重复序列形成的发夹和g -四链体相比相对不稳定。
为了鉴别致病性内含子微卫星与未扩增重复元件的区别特征,本研究绘制了内含子中重复元件的位置图,并指出与疾病相关的微卫星定位于剪接位点(ss),富含gc微卫星定位于剪接位点的0.07 - 0.8 kb范围内,而富含a/at重复定位于1.3 - 75.9 kb,通常位于下游内含子中(图1a )。因为前人研究已知rna结构和微卫星都会影响剪接调控,这些观察结果导致研究者推测富含gc的内含子微卫星扩增改变了rna结构,导致剪接体的损害。因此,研究者测试了富含gc微卫星扩增是否导致受影响的大脑和肌肉组织以及更易获得的宿主细胞和组织(包括成纤维细胞和血液)中内含子的错误产生。
图1、富含gc和a/at的内含子微卫星扩增突变。(a) 位于非翻译区( utrs )、编码序列( cds ),以及内含子中的疾病相关微卫星序列。 ( b )内含子微卫星疾病和相关基因微卫星剪接位点邻近排布,分别展示了宿主内含子(白色条)及相对的重复扩增(彩色条)相对长度及序列。
2、cnbp内含子1在dm2中的保留性检测
为了检验富含gc扩增破坏了其宿主内含子的剪接,研究者首先选择了dm2 cctgexp突变,因为它是迄今为止报道的最大的微卫星扩增。cnbp也是最广泛和高度表达的内含子扩增疾病基因,增强了研究者测量其在各种组织中的rna加工模式能力的自信。
为了检测潜在的cnbp前mrna错误处理,研究者从dm2、相关疾病dm1、duchenne肌营养不良症( dmd )和未受影响的骨骼肌和心肌获得的可公开获得的链特异性rna测序(rna-seq )数据集。如预测结果一致,在各种dm2肌肉中观察到cnbp i1上的相关reads覆盖,但在对照样品中没有观察到(图2a )。对于所有rna-seq实验,本文进行了三个不同的度量: ( i )跨越内含子-外显子连接的读数的相对富集;( ii )保留内含子中每个碱基对的平均读取覆盖率;和( iii )使用irfinder的所有四个cnbp内含子的内含分子的分数( ir比)。正如所预期的那样,ir以∼0.35的ir比特异性在dm2 cnbp i1中升高,而内含子2、3和4的剪接不受影响(图2b)。为了使用额外的患者样本和替代性实验方法确认cnbp i1保留,研究者分析了从dm2、dm1、面部肩胛肱型肌营养不良症( fshd )和未受影响的对照肌肉活检获得的微阵列数据集,并观察到与该大对照群组相比,dm2中的cnbp i1保留具有统计学显著性和特异性(图2c)。对其他肌营养不良症的分析增加了研究者的信心,即cnbp i1的保留是dm2特异性的,而不是反映在一般肌病特征。由于cnbp i1发生双向转录,研究者量化了链特异性rna-seq reads覆盖率,以确认分析没有被反义转录混淆,发现99.9 %以上的rna来自肌肉中。
采用rt-pcr方法对胫骨前肌活检标本中cnbp i1的保留率进行验证。因为在这些样品中rna降解被最小化。来自3’ss的ir检测允许从前rna中间体选择性扩增保留的内含子并同时分析内含子1、2和3 (图2d )。与整个转录组数据一致,研究者还检测到与疾病和未受影响的对照相比,dm2活检骨骼肌(图2e和f )、大脑额叶皮质和淋巴母细胞样细胞系( lcls ) (图2g )中的cnbp i1保留率有选择性,最多增加近6倍。
接下来,研究者讨论了cnbp i1是保留的还是不保留的内含子的问题,因为后者是不完全剪接的rna,不输出到细胞质。ccugexp rna的亚细胞定位通过使用重复特异性探针的rna - fish在患者来源的成纤维细胞中检测到,尽管在细胞核中病灶中突变rna的水平较高,但ccugexp rna也容易在dm2但不是对照细胞的细胞质中检测到(图2h)。这种原位分析通过对照和dm2成纤维细胞的亚细胞分级以及随后的rt-pcr证实。使用3’ss和5’ss rt-pcr检测,与对照不同,含cnbp i1的mrnas在dm2的细胞质中明显可见(图2i)。最后,通过用g418处理细胞以诱导ptc穿透,研究者确定cnbp i1的保留是否导致过早终止密码子(ptc)和无意义序列介导的衰变(nmd)的引入。对于dm2成纤维细胞g418显著提高ir比率,表明nmd降低了含cnbp i1的mrna的细胞质水平。因此,多种实验方法和患者样品证实了cnbp i1在dm2组织和细胞中的选择性保留,并且ccug扩增与体内和细胞培养物中的ir相关。
图2、图2。cnbp内含子1在dm2中的保留。(a) ucsc中cnbp基因的基因组示意图,显示内含子cctg位置(三角形)。wiggle图表示dm2骨骼肌(腓肠肌、胸肌和股四头肌)和心脏与疾病控制骨骼肌(dm1三角肌、趾肌、腓肠肌和直肠;dmd二头肌、股四头肌和ta)和未受影响的对照心脏和三头肌rna-seq数据。(b) cnbp ir ratios。(c)人微阵列分析7个dm2、8个fshd和8个未受影响的对照组股外侧活检以及8个dm1尸检肌肉的4个cnbp内含子相对于绝对外显子信号的倍数变化。(d) cnbp i1 5’ss (3-引物)和3’ss (2-引物) rt-pcr检测的示意图。ir比率反映保留i1的同工型相对于其它pcr产物的相对量。(e)对年龄匹配的活检dm2 (n = 4)和未受影响的对照(n = 4) ta肌肉的cnbp i1保持率进行rt-pcr分析。( f )基于cnbp i1 5’ss和3’ss rt-pcr分析计算的异构体比率。(g) dm2 (n = 18)、dm1 (n = 14)和als (n = 11)的cnbp i1 5’ss和3’ss分析。条形图显示了cnbp i1保持率的平均值sd。(h)使用重复特异性探针cagg8-cy3在dm2成纤维细胞中检测ccugexp的rna-fish。细胞核是基于dapi染色勾画的。(i)亚细胞分级dm2成纤维细胞证实细胞质中存在cnbp i1 mrna。用cnbp i1 5’ss和3’ss rt - pcr分析dm2和对照成纤维细胞细胞核和细胞质组分。
3、宿主内含子保留可作为易获得的生物标记
为了检测cnbp i1的保留作为潜在的血液生物标记物,研究者从dm2患者血液以及疾病(dm1和als)和未受影响的对照组中分离外周血淋巴细胞(pbls)。与其它组织中的发现一致,与对照相比,在dm2 pbls中cnbp i1的保留增强,而在dm2中内含子2、3和4的剪接未被破坏,并且als样品中的所有cnbp内含子被剪接(图3a和b)。为了阐明ir与cctgexp长度之间的关系,对dm2患者的pbls进行基因组dna southern印迹分析,所述pbls分为未携带 (对照,dm1 )、少量( 100 - 400 cctgs;这些患者中的一些是症状发生前的)或大量(>1000 cctgs ) cnbp扩张(图3c )。dm2、dm1和als pbls的rt - pcr分析表明,cnbp i1的保留依赖于重复长度(图3d ),在具有较大扩增的dm2 pbls与未受影响的疾病( dm1和als )对照(图3e )之间i1保留增加了四倍。有趣的是,主要具有小扩增的pbls也显示出cnbp i1保留率比对照增加了两倍,尽管这些群体也显示出长度镶嵌,在降低的水平上可检测到较大扩增。为了检查内含子保留是否限于突变的cnbp等位基因,研究者利用了先前报道与突变的dm2等位基因连接的dm2连锁的a>c ( rs1871922 ) cnbp i1 snp。使用cnbp i1 5’ss分析引物,研究者利用dm2 pbls和成纤维细胞扩增基因组dna (gdna)和cdna进行了sanger测序,结果显示与gdna相比,cdna中dm2连锁的snp过度表达,表明i1优先包含在突变cnbp rna中(图3f )。因为dm2是显性疾病,并且cnbp i1保留信号被来自未扩增等位基因的转录物稀释,我们还证实,在纯合子与杂合子dm2患者成纤维细胞中cnbp i1保留率是两倍高(图3g)。基于这些观察,本文得出结论,内含子保留是一种有用的dm2血液生物标记。
图3、cnbp内含子1在dm2中的保留作为血液生物标志物。( a )来自dm2 ( n = 3 )和als ( n = 5 )对照的pbl rna-seq数据的cnbp和ucsc示意图。( b )由irfinder计算的cnbp i1保留率。 ( c )来自dm2患者pbls的基因组dna的southern印迹分析。( d )对dm2患者外周血淋巴细胞进行cnbp i1 3’ss逆转录聚合酶链反应分析。( e )条形图显示cnbp i1保持率的平均值sd。( f ) cnbp i1保留的mrna对突变等位基因是特异性的。gdna与cdna的sanger测序结果表明,dm2特异性单核苷酸多态性在mrna / cdna群体中占优势。(g)杂合和纯合dm2和对照成纤维细胞的cnbp i1 3’ss分析。( h )小鼠uba5模型构建,其具有插入外显子2 5’ss下游的6个、140个或280个cctg重复。( i )小鼠ta肌肉用构建体电穿孔( n = 4 ),1周后通过rt - pcr评估uba52 i2保留。
4、微卫星扩增疾病中内含子在富含gc而不是富含a/at中的错误剪切
为了检测富含gc但不富含a / at的微卫星扩增是否导致选择性ir,研究者比较了另外两种富含gc和a / at的微卫星扩增疾病的ir。fecd是由tcf4 i3中的ctgexp引起的,但是与dm2 cctgexp相反,该突变位于内含子的中间,并且ctgexp显著较小( <1.7 kb )。为了检测可能的tcf4 i3保留,研究者检索了从fecd和对照角膜内皮样品获得的公开可用的rna-seq数据集。与dm2 cnbp i1相似,研究者在fecd中观察到tcf4 i3 reads覆盖的增加,但在未受影响的对照中没有观察到(图4a ),平均ir比率∼0.18。跨tcf4 i3的fecd reads分布偏向5’端,并且由于在该区域中存在具有多个5’ss的备选第一外显子( afe )而变得复杂(图4a )。因此,为了证实保留,研究者分析了支持i3和侧翼外显子之间的覆盖的reads的相对富集和tcf4 i3上的平均每核苷酸reads覆盖。正如预期的那样,这两个度量都在fecd样本中得到富集。尽管在fecd rna-seq数据集中不能区分有义和反义reads,但通过链特异性基因表达(cage)-seq分析测试反义转录是否发生在该位点,并发现有义而非反义转录起始位点是可检测的。本研究中使用的其他链特异性rna-seq数据集的分析也未能检测到跨该区域的反义转录。
接下来,研究者在c9-als / ftd中检测ir,其中ggggccexp突变位于afes 1a和1b之间的c9orf72 i1中(图s1 )。富含gc的重复序列的扩增改变了外显子1a和1b上游启动子的活性,尽管后者的转录受到更严重的损害。为了确定这种类型的扩增突变是否也导致脑和血液中的ir,研究者使用来自c9-als/ftd和对照样品的rna-seq链特异性数据集评估c9orf72 i1的保留。与来自细胞系的先前结果一致,研究者观察到c9-als/ftd皮层和小脑中c9orf72 i1上的rna-seq reads覆盖增加,但在散发的als和未受影响的对照脑样品中,尽管类似于fecd,但rna-seq reads分布偏向该内含子的5’端(图4b )。由于先前在lcls中注意到ir并且c9orf 72在髓系细胞中的表达特别高,研究者还分析了c9-als/ftd、sals ( gggccexp阴性)和dm2 pbls的rna-seq。与脑样品相似,在pbls中观察到c9orf72 e1b下游∼2.5 kb的高reads覆盖率,这表明存在未标记的afe和/或替代e1b 5’ss (图4b )。与这种可能性一致,在c9orf72 i1和e2之间获得剪接接头reads,并且通过使用pbl、lcl和皮层样品的rt-pcr和sanger测序验证先前未标记的接头。为了测试是否存在新的afe,研究者分析c9orf 72有义链cage-seq数据并鉴定支持存在新外显子的读数,将其命名为e1c,并且我们的分析得到fantom 5联合体注释转录物的证实。为了确定e1c在c9 - als / ftd脑中的表达是否改变,使用c9-37和500 bac转基因小鼠模型分别表达37或500个ggcc重复。使用人特异性c9orf72 e1c-e2引物,检测到c9-500与c9-37相比信号升高,这表明存在gggccexp dna,可能是由于e1c转录起始增加引起的。
除了富含gc的dm2、fecd和c9-als / ftd突变外,研究者还检测了两个富含a / at的扩增,fxn i1中的frda gaaexp和atxn10 i9中的sca10 attctexp。尽管frda gaaexp突变降低了突变fxn等位基因的转录,但先前的研究报告了gaaexp诱导杂交和fxn微基因剪接报告试验中的内含子错分裂。然而,本研究未能检测fxn i1在frda成纤维细胞和lcls中的ir (图4c )。此外,在sca10小脑或成纤维细胞中未检测到atxn10 auucuexp i9突变的ir (图4d)。总之,本研究重复诱导的宿主内含子错误产生是富含gc但不富含a/at的微卫星扩增疾病的一般特征。
图4、由富含gc但不富含a / at的微卫星扩增突变诱导的内含子保留。tcf4、c9orf72、fxn和atxn10基因及其相应内含子ctg、gggcc、gaa和atct扩增位置的ucsc数据rna-seq示意图。( a ) fecd和对照角膜内皮细胞。( b ) c9orf 72 c9-als/ftd、sals和dm2皮质、小脑和pbl。( c ) frda和对照成纤维细胞和低密度脂蛋白。( d ) sca10和对照小脑和成纤维细胞。
研究结论:
在本研究中,我们研究了与肌强直性营养不良2型( dm2 )、c9orf 72连锁的gc和a/at丰富内含子微卫星突变肌萎缩性侧索硬化伴额颞叶痴呆(c9-als/ftd),fuchs内皮型角膜营养不良(fecd),弗里德里希氏病共济失调(frda)和脊髓小脑共济失调10型(sca10)。证明富含gc的cctg、gggcc和ctg扩增分别导致dm2、c9-als/ftd和fecd中的宿主内含子保留(ir),而frda和sca10中的富含a/at的扩增则没有。基于这些和额外的观察,本研究提出ir作为诊断和治疗试验目的的可获得和廉价的生物标记物。
关于天昊:
天昊生物拥有多种ssr检测平台及ssrseqtm等专利技术,可以根据客户项目需求,提供不同数量样本和位点的高性价比微卫星检测服务。