-
转录组学借助高通量测序技术快速获取海量转录本,从RNA水平解析物种在特定环境下的基因功能表达、生物学过程及分子运行机制,是一种快捷高效的分子生物学研究手段,更适用于基因组较大、且基因信息相对匮乏的非模式生物[1-2]。基于转录组的SSR标记,不仅具有SSR多态性高、重复性好等特性,更具有转录组经济、高效、信息量大等优势[3];众多林木已相继开展转录组SSR标记开发研究,如地中海松(Pinus halepensis Mill.)[4]、红松(Pinus koraiensis Sieb.et Zucc.)[5]等。同时,转录组SSR标记源自转录区编码序列,直接反映基因表达的变异[6],成为与基因表达直接关联的功能标记[7],涉及基础代谢、信号转导及转录等基因调控的各个方面[8];因此,通过转录组学分析手段,可快速精准地锁定目的基因的SSR功能标记,加快目的基因定位研究进程。但借助转录组数据挖掘SSR功能标记的研究非常少,仅见杨洋等[9]通过茄子转录数据找到1个与热胁迫相关的SSR候选位点。目前,SSR标记结合BSA法(Bulked Segregant Analys),在水稻(Oryza sativa L.)[10]、大豆(Glycine max (Linn.) Merr.)[11]、向日葵(Helianthus annuus L.)[12]等作物中找到耐旱基因的连锁标记,为耐旱功能基因定位及耐旱性育种奠定了基础。
马尾松(Pinus massoniana Lamb.)是中国南方主要造林树种,具有速生、丰产、综合利用程度高等特点,在我国森林资源发展和生态建设中具有重要地位[13]。马尾松分子遗传学研究发展迅速,SSR[14]、ISSR[15]、IRAP[16]等标记在马尾松遗传图谱构建、遗传结构变异、遗传多样性研究中被广泛运用;有学者曾利用马尾松近缘种EST序列[17]、基因组[2]或转录组[18]开发SSR标记,但开发的SSR标记仍较少,无法满足分子标记辅助育种需求。近年来,南方频发的季节性干旱严重威胁马尾松生长,抗旱种质选育已成为应对干旱逆境的关键。课题组前期选择3个速生性和适生性较好的马尾松优良家系进行干旱胁迫,通过对其形态、生长及生理等指标进行对比分析,筛选出马尾松抗旱种质[19], 并对其进行高通量测序获得干旱胁迫转录本数据。本研究将对该转录本进行Unigene功能注释及分类,分析SSR位点分布特征;在此基础上,对含SSR位点的Unigene序列进行差异表达以及GO、KEGG显著性富集分析,深度挖掘与功能基因直接关联的SSR标记,为后续马尾松SSR规模性标记开发、抗旱分子机制、功能基因定位等研究奠定基础。
HTML
-
基于马尾松干旱胁迫转录组,通过低质量Raw reads的筛除,高质量clean reads的Trinity拼接,共获得大于200 bp的Unigene 194 821个。通过7大数据库的Blast比对,有101 806个Unigene获得注释,注释率52.26%;其余的93 015个Unigene未获注释,可能为新基因。其中,NR数据库比对所获得的66 825个注释中,16 323个Unigene与云杉属(Picea)、3 040个Unigene与松属(Pinus)的序列同源,其序列匹配数远高于其它物种。
-
对注释成功的Unigene进行GO、KOG、KEGG功能注释并分别归类(图 1~3),该结果将反映马尾松干旱胁迫过程中表达基因的功能分布整体情况。GO功能分类显示,64 943个Unigene被成功注释,占总数33.33%。获得的128 326个功能注释,被划分为3大类:46 779个生物过程(36.45%)、52 470个分子功能(40.89%)和29 077个细胞组分(22.66%)(图 1)。生物过程包含25个功能亚类,主要涉及代谢过程(34 306, 73.34%)、细胞过程(34 293, 73.31%)、单细胞有机体过程(27 445,58.67%);与胁迫响应相关的有生物调控(9 993, 21.36%)、胁迫响应(6 741, 14.41%)、信号(3 679, 7.86%)等。分子功能包含10个功能亚类,代表性功能包括蛋白结合(32 711, 62.34%)、催化活性(29 984, 57.15%)、转运活性(4 442, 8.47%)等;与胁迫响应相关的有核酸结合转录因子(1 708, 3.26%)、转录因子活性(602, 1.15%)、抗氧化活性(467, 0.89%)。细胞组分包含21个功能亚类,主要类型有细胞(18 463, 63.50%)、细胞组分(18 441, 63.42%)、细胞器(12 184, 41.90%)、高分子复合物(11 475, 39.46%)及细胞膜(9 248, 31.81%)等。该结果表明马尾松参与了广泛的细胞过程和代谢活动,几乎涵盖所有干旱胁迫过程的生命活动。
KOG功能分类显示,35 880个Unigene比对到同源序列,占总数18.42%;共获得39 989个注释,涉及全部的26个KOG功能类别(图 2)。其中,一般功能预测比例最大(6 179,17.22%);随后依次为翻译后修饰、蛋白翻转、分子伴侣(4 486,12.50%),翻译、核糖体结构和生物合成(3 197, 8.91%),能量产生和转化(2 962,8.26%),信号转导机制(2 659,7.41%)、脂类转运及代谢(2 129,5.93%)等;而胞外结构和细胞迁移的比例最小,分别仅涉及72和23个Unigenes。
KEGG注释结果显示:30 882个Unigene获得KO注释,占总数15.85%,涉及284条代谢途径(图 3)。其中,Unigene注释最多的代谢途径主要涉及糖代谢(4 040,13.08%)、氨基酸代谢(3 082,9.98%)、翻译(2 970,9.62%)、信号转导(2 817,9.12%)、能量代谢(2 310,7.48%)、脂类代谢(2 118,6.86%)等各类代谢及环境适应,表明干旱胁迫下马尾松的各类代谢活动、信号转导过程非常活跃。
-
通过Misa搜索,从194 821个Unigenes中获得6 728个SSR位点,分布于6 367个Unigenes中,其中,6 031个Unigenes只含1个SSR位点,336个Unigenes含多个(≥2)SSR位点,出现频率3.45%,平均距离15.97 kb(表 1)。SSR出现频率随Unigenes长度的增加而增加,在各Unigenes长度分组中依次为1.64%、2.61%、4.77%、8.51%及15.71%。
长度
Length/bp基因数
Gene number含SSR的基因数
Number of unigene contained SSRSSR位点数
Number of SSR loci出现频率
Frequency/%平均距离
Mean distance/kb≤300 97 486 1 569 1 597 1.64 67.30 301500 45 841 1 156 1 197 2.61 89.79 5011 000 28 051 1 266 1 337 4.77 80.38 1 0012 000 15 081 1 188 1 283 8.51 83.77 ≥2 001 8 362 1 188 1 314 15.71 81.79 合计Total 194 821 6 367 6 728 3.45 15.97 Table 1. Number, frequency and mean distance of SSR in different unigene length distribution of P. massoniana
-
马尾松转录组中单核~六核苷酸的SSR重复类型均有分布(表 2)。单、二、三核苷酸重复类型的出现频率占优势,共6 329个,占总SSR位点的94.07%, 其中,单核苷酸最多,为2 410个,占35.82%,其次三核苷酸为2 222个,占33.03%;二核苷酸为1 697个,占25.22%;其余四、五、六核苷酸重复类型的数量较少,分布相对分散。
重复类型Repeat type 数目Number 比例Percentage/% 平均长度Mean length/bp 平均距离Mean distance/kb 出现频率Mean frequency/% 单核苷酸Mononucleotide 2 410 35.82 11.31 44.59 1.24 二核苷酸Dinucleotide 1 697 25.22 14.17 63.33 0.87 三核苷酸Trinucleotide 2 222 33.03 16.21 48.37 1.14 四核苷酸Quadnucleotide 108 1.61 21.36 995.12 0.05 五核苷酸Pentanucleotide 17 0.25 25.00 6 321.94 0.01 六核苷酸Hexanucleotide 21 0.31 39.16 5 117.76 0.01 复合型Composition 253 3.76 70.49 424.79 0.13 合计Total 6 728 100.00 16.09 15.97 3.45 Table 2. Occurrence SSR in P. massoniana transcriptome
-
马尾松转录组SSR包含70种重复基序,单核至六核苷酸的重复基序分别为2、4、10、22、12、20种。出现频率以单核苷酸A/T (2 332个,占34.66%),二核苷酸AT/AT(791个,占11.76%)、AG/CT(579个,占8.61%)、AC/GT(392个,占5.83%),三核苷酸AGC/CTG(443个,占6.58%)、AAG/CTT(317个,占4.71%)较多,其余基序频率均相对较低(表 3)。
重复基序Motif 数目Number 频率Frequency/% A/T 2 332 34.66 C/G 90 1.34 AC/GT 392 5.83 AG/CT 579 8.61 AT/AT 791 11.76 CG/CG 22 0.33 AAC/GTT 260 3.86 AAG/CTT 317 4.71 AAT/ATT 239 3.55 ACC/GGT 186 2.76 ACG/CGT 110 1.63 ACT/AGT 32 0.48 AGC/CTG 443 6.58 AGG/CCT 244 3.63 ATC/ATG 205 3.05 CCG/CGG 231 3.43 其余Other 255 3.79 Table 3. The number and frequency of the motifs in SSR of P. massoniana transcriptome
-
马尾松转录组SSR基序的重复次数介于5~23次之间,随重复次数增加,SSR数量呈递减趋势(表 4)。5~10次重复的SSR位点数5 447个,占总数80.97%;11次重复及以上的SSR位点数1 180个,占17.54%。其中,单核苷酸以10次重复的基序(1 284个,占19.09%)最多,二核苷酸以6次重复的基序(820个,占12.19%)最多,三~六核苷酸中均以5次重复的基序最多。SSR的长度从10~212 bp不等,长度为10~20 bp的SSR位点最多,共6 149个,占SSR位点总数的91.39%;长度大于20 bp的共579个,占8.61%(表 5)。
重复类型
Repeat type重复次数
repeat number合计
Total比例
Percentage/%5 6 7 8 9 10 11 12 13 14 15 >15 单核苷酸Mononucleotide 1 284 491 248 119 79 48 153 2 422 36.00 二核苷酸Dinucleotide 820 392 298 161 75 36 2 1 784 26.52 三核苷酸Trinucleotide 1 563 503 178 21 1 1 2 267 33.70 四核苷酸Quadnucleotide 89 26 2 1 1 119 1.77 五核苷酸Pentanucleotide 15 15 0.22 六核苷酸Hexanucleotide 10 3 2 3 1 1 20 0.30 合计Total 1 677 1 352 574 323 162 1 359 530 250 119 80 48 153 6 627 98.50 比例Percentage/% 24.93 20.10 8.53 4.80 2.41 20.20 7.88 3.72 1.77 1.19 0.71 2.27 98.50 Table 4. The number of repeats and distribution of the motifs in SSR of P. massoniana transcriptome
项目
Item基序长度motif length/bp 合计
Total10 11 12 13 14 15 16 17 18 19 20 >20 SSR数量Number of SSR 1 280 492 1 043 119 452 1 583 314 23 650 18 175 579 6 728 频率Frequency/% 19.02 7.31 15.5 1.77 6.72 23.53 4.67 0.34 9.66 0.27 2.6 8.61 100 Table 5. The length and frequency of the motifs in SSR of P. massoniana transcriptome
-
从含SSR位点的6 367个Unigenes中成功筛选4 446个Unigenes并设计出13 338对SSR引物。其中,引物长度18~27 bp,GC含量40%~55%,退火温度(Tm)57~63℃,正、反向引物退火温度差低于5℃,PCR产物大小100~280 bp。随机筛选11对SSR引物进行PCR扩增检测,5对引物能有效扩增出PCR产物(图 4),引物转化率45.5%,表明引物具有一定可行性。
-
基于转录组功能注释和SSR位点挖掘,对含SSR位点的6 367个Unigenes进行差异表达分析,共获得422个差异表达Unigene (图 5)。干旱胁迫10、15、25 d与正常供水相比,分别有325、147、183个差异表达Unigene, 其中,上调表达分别为196、66、87个,下调表达分别为129、81、96个;特异性差异表达Unigene分别为181、21、60个,不同程度胁迫的共差异表达Unigene为73个。其中胁迫10 d的差异表达Unigene数量最多,表明干旱10 d时马尾松响应胁迫的各途径中Unigene表达量丰富。
-
进一步确定差异表达Unigene行使的主要生物学功能以及参与的主要代谢途径及信号转导通路。GO显著性富集分析发现,422个含SSR位点的差异Unigenes中有261个参与了3大类生物学功能。生物学过程中,有机环化物合成(GO:1901362)富集的Unigenes最多(51),其次为氧化还原过程(GO:0055114)(43)、新陈代谢调控(GO:0019222)(37);分子功能中,氧化还原酶活性(GO:0016491)富集的Unigenes最多(42),其次为转运活性(GO:0005215)(29)、核酸结合转录因子(GO:0001071)(16);细胞组分中,胞外区(GO:0005576)富集的Unigenes最多(18),其次为线粒体内膜蛋白复合物(GO:0098800)等,表明上述显著富集的生物学功能可能涉及马尾松干旱胁迫响应过程。
KEGG显著性富集分析发现(图 6),422个含SSR位点的差异Unigenes中有97个被富集到53个代谢途径中,其中, 光合作用(ko00195)、类胡萝卜素合成(ko00906)、植物激素信号传导(ko040753)等3个代谢途径被显著富集(P<0.05),表明这3个代谢途径与马尾松干旱逆境应答相关。光合作用途径富集了4个含SSR位点Unigenes,包括2个ATP合成酶(ATP synthase; c94519_g2, c88154_g1),1个光系统Ⅱ(photosystem Ⅱ; c77320_g1),1个氧化还原酶(oxidoreductase; c85918_g1),均下调表达。类胡萝卜素合成途径富集了3个含SSR位点Unigenes,1个铁离子(iron ion binding;c89714_g1)呈上调表达,其余1个氧化还原酶(oxidoreductase; c78714_g)和1个黄素腺嘌呤二核苷酸(FAD; c69125_g1)均下调表达。植物激素信号传导途径富集了4个含SSR位点Unigenes,1个茉莉酸(JA; c88597_g2)呈上调表达,其余1个蛋白磷酸酶(PP2C; c68631_g1)和2个生长素(IAA; c92989_g1, c77087_g3)均下调表达。上述结果表明,11个含SSR位点Unigenes可能参与了马尾松干旱响应过程。一方面马尾松光合作用明显减弱,生理、生长变缓; 另一方面,马尾松启动干旱防御保护机制,通过上调JA表达、下调PP2C表达,延迟干旱损伤。结合转录组SSR位点数据,筛选出上述11个重要干旱响应基因的SSR位点信息。
-
qRT-PCR结果(图 7)显示,随干旱持续,2个Unigenes (c71819_g3、c85755_g1)的基因表达量呈递减变化,2个Unigenes (c95186_g2、c93699_g2)呈先升后降变化。3个Unigenes (c71819_g3、c85755_g1、c95186_g2)的qRT-PCR变化与转录水平DEG的变化基本一致;1个Unigene (c93699_g2)在第10天和第15天的qRT-PCR扩增倍数高于转录水平DEG的变化倍数,但二者变化趋势一致;说明转录组结果有效可靠。