-
穗花杉属(Amentotaxus)是红豆杉科(Taxaceae)的一个属,作为一个非常古老的家系存在于欧亚大陆。在第三纪和第四纪冰川时代,穗花杉属经历了多次群体扩张和紧缩,也因此形成了如今的分布格局[1]。穗花杉(Amentotaxus argotaenia (Hance) Pilger)是穗花杉属的一个种,有“冰川元老”的美称,主要分布于我国南部地区,以福建、江西、广东等省为主,也是我国三级重点保护的珍稀濒危植物。
在裸子植物系统分类上,穗花杉具有很重要的研究价值,因为研究者们从穗花杉被发现以来,一直对它的分类地位有争论[2]。早在1883年Hance发现穗花杉将其定名发表,并将其置于罗汉松属(Podocarpus)内[3]。20世纪初,Pilger根据穗花杉小孢子叶球形态,将它转入三尖杉属(Cephalotaxus)[4]。但是,随后Pilger根据穗花杉雄状花序的形态特征将穗花杉单独列为三尖杉科(Cephalotaxaceae)的一个属─穗花杉属[5]。1931年,通过观察穗花杉生殖器官的形成特征,工藤认为它应该成立一个穗花杉科或是作为红豆杉科的一个亚科或族[6]。1951年,Florin发现三尖杉属和穗花杉属间的气孔结构和大孢子叶球有差异,所以将穗花杉属归入红豆杉科。我国植物学者也在上世纪从各个学科领域对穗花杉的系统分类学做了大量的研究[7]。其中,马忠武发现穗花杉属植物不含有红豆杉属和榧树属的植物中存在的双黄酮类特征化学成分,所以他对穗花杉属归于红豆杉科提出怀疑[8]。
为了为穗花杉的研究提供基因层面的数据,本研究利用HiSeq2500技术对穗花杉茎叶进行了转录组测序。穗花杉转录组测序共得到约8.14 Gb的clean data,从头拼接后共获得82 884条Unigene和140 286条Transcript。通过功能注释,得到了萜类合成相关基因,以及紫杉二烯合成酶的同源基因。同时预测了穗花杉转录组序列的SSR位点。这为今后穗花杉萜类次生代谢和穗花杉分类学地位的研究奠定了一定的基础。
HTML
-
利用Illumina HiSeq2500技术对穗花杉茎叶进行转录组测序后,获得了32 321 978个reads片段,包含了8 141 132 186个核苷酸序列信息。质量值Q≥30碱基数占所有read的碱基数的比例即Q30%为89.91%。穗花杉转录组测序共得到约8.14 Gb的clean data,组装得到4 898 457条序列重叠群(Contig),总长度约为261 826 164 bp,平均长度及N50分别为53.45 bp和48 bp。进一步对Contigs进行拼接后,共获得82 884条Unigene序列和140 286条Transcript序列,总长度为分别为55 775 850 bp和143 129 259 bp,平均长度为673 bp和1 020 bp,N50的长度为1 314 bp和1 932 bp。长度大于1 000 bp的Unigene和Transcript序列分别占到18.14%和34.39%(表 1)。
Length Range Contig Transcript Unigene 200~300 43 871(0.90%) 43 593(31.07%) 37 524(45.27%) 300~500 22 709(0.46%) 26 027(18.55%) 19 081(23.02%) 500~1 000 13 501(0.28%) 22 426(15.99%) 11 247(13.57%) 1 000~2 000 9 636(0.20%) 25 925(18.48%) 8 724(10.53%) 2 000+ 4 045(0.08%) 22 315(15.91%) 6 308(7.61%) Total Number 4 898 457 140 286 82 884 Total Length 261 826 164 143 129 259 55 775 850 N50 Length 48 1 932 1 314 Mean Length 53.45 1 020 673 Table 1. The statistical result of de novo assembly of A. argotaenia transcriptome
-
为了能够直观地研究穗花杉转录组信息,将所拼接得到的82 884条unigene分别与NR、Swiss-Prot、GO、COG、KOG、KEGG数据库进行比对分析。结果显示,共有27 495条unigene至少被一个数据库注释,占unigene总数的30.14%(表 2)。
Anno_Database Annotated_Number 300≤length < 1 000 length≥1 000 COG_Annotation 8 206 1 673 5 517 GO_Annotation 13 453 3 726 7 154 KEGG_Annotation 5 145 1 154 3 330 KOG_Annotation 15 694 4 590 8 056 Pfam_Annotation 16 816 4 124 10 810 Swissprot_Annotation 17 575 5 299 9 464 nr_Annotation 26 996 8 499 13 002 All_Annotated 27 495 8 704 13 037 Table 2. The statistical result of functional annotation of A. argotaenia unigenes
利用COG数据库对得到的82 884条穗花杉unigene进行功能注释,其中被注释到的unigene一共有8 206条,分别被注释到24个COG分类中。其中,“一般功能基因”(General function prediction only)、“复制、重组和修复”(Replication, recombination and repair)和“转录”(Transcription)是最大的3个类群,分别有2 141、1 534和951条unigene。然而,“核结构”(Nuclear structure)是最小的类群,只有1条unigene(图 1)。
对82 884条unigene进行GO功能注释表明,其中有13 453条unigene分别注释到51个功能组,归纳为生物学过程(Biological Process)、细胞组分(Cellular Component)和分子功能(Molecular Function)三大部分,分别含有20、16及15个功能组。在生物学过程部分中,差异表达基因在代谢过程(metabolic process)和细胞过程(cellular process)功能组中注释的unigene数目最多,分别为8 846和7 206条;在细胞组分部分中,细胞部分(cell part)和细胞(cell)功能组差异基因数目最多,分别为5 609和5 551条;在分子功能部分中,催化活性(catalytic activity)和结合(binding)功能组分别含有6 989和6 676条(图 2)。
为了能够把穗花杉的基因信息作为一个整体的网络进行研究,我们利用KEGG数据库对穗花杉转录组进行分析。其中,代谢途径(ko01100)和次生代谢生物合成(ko01110)中的unigene数最多,分别为1 477和664条,这为查找特定次生代谢途径中的基因提供了很好的基础。
-
利用MISA软件搜索穗花杉的15 032条Unigene,共在2 420条unigene中搜索到2 827个SSRs位点。具有1个以上SSRs的unigene是339条。单核苷酸重复SSR出现频率最高(60.1%),其次为三核苷酸(25.4%)和二核苷酸(12.5%)。其它三种类型的都很少:四核苷酸(0.9%)、五核苷酸(0.6%)、六核苷酸(0.5%)(表 3)。
Motif Length Repeat Numbers Total % 5 6 7 8 9 10 >10 Mono - - - - - 894 805 1 699 60.1 Di - 191 71 29 20 16 25 352 12.5 Tri 464 160 70 21 2 - 1 718 25.4 Tetra 22 3 - 1 - - - 26 0.9 Penta 15 1 1 - - - - 17 0.6 Hexa 7 4 3 1 - - - 36 0.5 Total 508 359 145 52 22 910 831 2 827 % 18.0 12.7 5.1 1.8 0.8 32.2 29.4 Table 3. The analysis of SSR site of A. argotaenia
-
利用KEGG通路中的基因信息查找被KEGG数据库注释的穗花杉unigene,获得牦牛儿基焦磷酸合成酶(GPS)、法尼基焦磷酸合成酶(FPS)和牦牛儿基牦牛儿基焦磷酸合成酶(GGPS)的同源基因,分别为1、1和5个(图 3)。利用紫杉二烯合成酶TbTS基因序列对穗花杉本地转录组进行BLAST分析,得到13个同源基因,这为今后进一步验证穗花杉中是否存在紫杉二烯合成酶提供了基因基础(图 3)。