-
西伯利亚白刺(Nitraria sibirica Pall)系蒺藜科白刺属植物,为第三纪孑遗植物,分布于蒙古、中亚以及我国西北、华北、东北的沙地、盐碱地地区[1]。西伯利亚白刺具耐盐碱、抗风沙等特性,能在沙漠盐碱等恶劣环境下生存,是一种优良的沙地、盐碱地改良物种,其果实富含多种氨基酸、糖类、黄酮等物质[2-4],营养价值丰富,其地上部分也可作为牲畜饲料。因此,西伯利亚白刺兼有生态和经济价值,有较好的开发利用前景。
目前,关于西伯利亚白刺的研究主要集中在繁殖技术优化[5-6]、果实成分测定[7-8]及生理生化测定[9-11]等方面,有关西伯利亚白刺的分子生物学方面的研究较少[12],基因组学方面的研究也尚未见报道。宏观的研究只能从表层揭示西伯利亚白刺抗逆适应现象 ,并不能从内部机制、进化等层面解释西伯利亚白刺抗逆机理,而全基因组测序可以获取典型基因组特征并获得大量基因序列,对于剖析其生长、发育、抗逆等机理,发掘西伯利亚白刺的生态和经济价值有积极意义[13-14]。
全基因组调查通过了解待测生物基因组的基本特征,可以对全基因组测序组装难度、组装时间和成本等作出大致的评估并作出相应的测序策略调整,是基因组测序前必不可少的步骤之一。
流式细胞术是一种快速预测基因组大小的技术,它通过比较待测植物和标定植物细胞悬液荧光吸收峰相对比值,再根据标定植物的基因组大小来计算待测植物基因组大小[15]。而随着基因组测序技术的成熟及成本的下降,通过全基因组survey来探究待测植物的基因组基本特征不失为一种有效的方法,作为近年来发展较快的基因组预测技术,全基因组survey可以对生物的基因组基本特征测定评估[16-17],相比于流式细胞术等基因组大小预测方法,不仅可以精准预测基因组大小,还可以对基因组复杂程度、杂合率、重复序列比例等有相应的评估,更能切合生物的基因组特征,因而有更好的参考价值。
SSR分子标记以其高重复性、高多态性、共显性遗传、丰度高等优良特性成为了研究群体遗传学、遗传变异和标记辅助选择的有力工具,对于了解西伯利亚白刺的进化有积极的作用。
本研究基于流式细胞术和全基因组survey测序的方法对西伯利亚白刺基因组大小、复杂程度、杂合率等基因组特征有一个较为详细的评估,同时也对其测序方案的制定提出建议,为后续西伯利亚白刺基因组组学研究奠定了良好的基础。
-
将西伯利亚白刺和番茄的叶片混合解离液放入流式细胞运行并在480 nm波长下检测其荧光吸收强度(图1),其中,P0为西伯利亚白刺的吸收峰,P1为番茄的吸收峰,番茄参考2C值为1.96 pg,实验重复3次。将平均值代入C值计算公式得出:2C西伯利亚白刺=2C番茄×(G0/G1西伯利亚白刺)/(G0/G1番茄)=1.96 pg×0.534,得西伯利亚白刺C值大小为523.4 Mbp。
-
取1 μL DNA样品于分光光度计的检测,结果显示OD260/OD280为1.89,浓度为206.9 ng·μL−1。再利用1%琼脂糖凝胶电泳检测其条带完整性,图2 表明:电泳条带单一,无明显杂带。综合二者推测,此DNA完整度较高,可用于下游实验。
-
过滤掉无效或低质量的reads数据,再经图像识别、去污染等步骤,得出最终的测序结果(表1):其中,测序的总reads数为212 852 294个,测序的总数据大小为63 855.69 Mbp,按照536.16 Mbp的预估基因组大小得出本次测序深度为119.09×,测序的错误率为0.04%,Q20的含量为95.59%,Q30的含量为89.33%,GC含量为36.78%。
reads数量
Raw paired
reads数据产量
Raw base/
Mbp测序错误率
Error rate/%Q20含量
Q20
Content/%Q30含量
Q30
Content/%GC含量
GC
Content%212 852 294 63 855.69 0.04 95.59 89.33 36.78 Table 1. Sequencing results statistics
-
测序数据的质量主要分布在Q30(≥80%)以上,这样才能保证后续分析的正常进行,如图3所示,实验Q30含量为89.33%满足后续分析要求。
此外,测序错误率也影响测序结果的准确性,对于下游分析至关重要,本实验2个reads的测序错误率均低于1%(图4),表明本次测序错误率控制良好。为进一步保证测序结果的可信性,还需对本次测序的碱基含量分布进行分析。GC含量分布检查用于检测有无AT、GC分离现象,理论上G和C含量以及A和T含量在每个测序循环上应分别相等,且整个测序过程中稳定不变,呈水平线。由于DNA模板扩增偏差等原因使测序前几个碱基测序质量值较低,发生小幅度波动,属于正常情况。本实验中(图5)测序的G和C的含量和A和T的含量接近也保证了测序的可信度。
-
利用K-mer分析法对西伯利亚白刺基因组大小进行估计,根据测序结果(表2、图6)发现:当K-mer深度为89×时存在明显的主峰,由K-mer相关公式计算得到的基因组大小为536.16 Mbp,并通过后续基因修正得修正后基因组大小为526.30 Mbp; 而在主峰前横坐标二分之一处出现次峰。一般当目标序列存在杂合现象时,存在杂合位点的K-mer被分成2份,频率变成原频率的1/2,因此,此峰为杂合峰,并统计得出西伯利亚白刺基因组杂合率为0.90%,杂合率较高,属于复杂基因组。此外,在约为主峰2倍depth的地方存在次峰,并有明显的拖带现象,该片段出现的期望值是大部分的2倍,这些片段为重复片段,由相关统计结果得重复序列数占总序列数的55.39%。
数据名称Data name 数据大小Data size K-mer数/bp 47 718 560 459 修正前基因组大小/Mbp 536.16 修正基因组大小/Mbp 526.30 杂合率/% 0.90 重复率/% 55.39 Table 2. K-mer=17 analysis of the data
-
运用Soapdenovo软件拼接上述测序数据,并对数据进行纠错,构建contig、scaffold等优化过程,得到初步的基因组组装信息(表3):针对组装好的长度大于等于100 bp的scaffold内部contig进行统计,得N50长度为1 076 bp,N90为147 bp,组装得到最长的序列长度为45 660 bp,组装的contig总数量为917 423个,总长度为424 458 883 bp。进一步将所有文库测序得到的reads比对回初步得到的contigs,利用reads之间的连接关系和插入片段大小信息,过滤掉长度<100 bp的contig序列,最终将contigs组装成scaffolds,结果显示:N50的长度的1 889 bp,N90为189 bp,最长序列长度为89 063 bp,组装总量为717 232个,总长度为443 258 576 bp。
数据类型Types of data 拼接序列Spliced sequence Contig Scaffold Total_length/bp 424 458 553 443 258 576 N90_length/bp 147 189 Max_length/bp 45 660 89 063 N50_length/bp 1 076 1 889 Total_number/个 917 423 717 232 Table 3. Genomic assembly results statistics
-
GC含量是反映植物基因组成的重要指标之一,GC含量深度分析图用于检测测序是否存在GC分布偏向,样品是否存在细菌的污染等。由图7可得:西伯利亚白刺基因组测序没有明显的GC偏向。图中有2处GC聚集处,为了确认低测序深度区域是否为细菌污染造成,将低测序深度序列比对到NCBI核苷酸数据库,并没有细菌序列被比对上,说明样品没有被细菌污染,推测这是由于西伯利亚白刺基因组高杂合度所造成的。由于在组装过程中同源染色体上杂合部位只能被识别出一半,导致此部位的GC含量分布在低测序深度区域。
-
由MISA脚本分析西伯利亚白刺基因组数据并统计(表4),共搜寻到521 125个SSR位点,其中,单核苷酸位点出现比例最高,达342 883个,占总SSR位点的65.80%;二核苷酸位点146 312个,占比28.06%;三核苷酸位点26 133个,占5.02%;四个及以上核苷酸位点8 678个,占1.67%。所以,单核苷酸重复是西伯利亚白刺主要的SSR重复位点,同时单核苷酸重复中A/T占比最多,达到了63.94%。
类型Type 结构structure 数目Number 所占比例Proportion/% 单碱基 A/T 333 188 63.94 G/C 9 695 1.86 双碱基 AC/GT 10 978 2.10 AG/CT 14 095 2.70 AT/AT 118 038 22.65 GG/CG 3 201 0.61 AAC/GTT 946 0.18 三碱基 AAG/CTT 4 311 0.83 AAT/ATT 16 521 3.17 ACC/GGT 1 601 0.31 ACG/CGT 87 0.02 ACT/AGT 121 0.02 AGC/CTG 452 0.09 AGG/CCT 653 0.13 ATC/ATG 1 259 0.24 CCG/CGG 182 0.03 ≥四碱基 8 678 1.67 合计 521 125 100 Table 4. SSR locus statistics of N. sibirica
A study on Nitraria sibirica Pall Genome
- Received Date: 2019-03-02
- Accepted Date: 2019-10-22
- Available Online: 2020-01-01
Abstract: