-
密码子是自然界中承载生命信息的基本遗传单位,是蛋白质与核酸的桥梁和纽带,在生物体传递遗传信息的过程中起到重要作用。密码子具备简并性,编码同种氨基酸的不同密码子称为同义密码子;同时,同义密码子在不同物种间的使用频率具有不均一性,这种现象被称为密码子使用偏好性[1]。密码子偏好性是生命体进化的重要特征,在自然界普遍存在并受到自然选择和基因突变等多种因素共同影响,自然选择使得不同物种的基因在选择同义密码子时倾向于使用最优密码子,而基因突变则会使部分非最优密码子存在[2-3]。由于不同物种在进化过程中受到的选择作用和突变压力的影响程度不同,因此,会形成自身独特的密码子使用偏好性[4-5]。研究表明,同一物种或亲缘关系较近的物种中基因一般具有相似的密码子使用模式[6-8],因此,对密码子使用偏好性进行研究有助于更好地了解物种的进化。
叶绿体是植物进行光合作用的场所,同时也是一种半自主性的细胞器,拥有相对独立的一整套基因组,同时拥有复制、转录及翻译的机制。被子植物的叶绿体基因组一般由4部分组成环状双链结构,包括1个短单拷贝区(SSC)、1个长单拷贝区(LSC)及2个相同的反向重复区(IR),且SSC和LSC之间被2个IR隔开[9]。与体细胞基因组相比,叶绿体基因组体量小,基因拷贝数多,进化速率快且保守度高,这些特点使其在研究物种间遗传差异和系统进化关系的过程中充当了理想的工具[10]。自从1986年首次公开了烟草[11]和地钱[12]的叶绿体基因组序列以来,越来越多的叶绿体基因组信息被NCBI数据库收录。
杓兰属(Cypripedium)隶属于兰科杓兰亚科,是兰科植物中较为原始的类型,全世界约50种,我国有36种和1变种[13]。杓兰属植物花姿优美、花色丰富,具有较高的观赏价值。然而,随着兰花热的兴起以及生境破碎化的不断加剧,滥采乱挖杓兰属植物的行为日益猖獗,不少种类已近濒危[14]。杓兰(Cypripedium calceolus L.)是杓兰属多年生地生植物,主要分布于我国东北、日本、韩国和欧洲地区。目前,该物种已被列入世界自然保护联盟(IUCN)濒危物种红色名录。杓兰的叶绿体基因组序列已被提交至GenBank数据库[15],但目前尚未有关于杓兰叶绿体基因组密码子使用偏好性的研究。本研究通过生物信息学方法分析杓兰叶绿体基因组密码子的使用偏好性,旨在为杓兰的叶绿体基因组学研究提供参考。
HTML
-
杓兰的叶绿体基因组去除长度小于300 bp的蛋白编码序列及重复序列后,共剩余53条蛋白编码基因,全长60618 bp,占基因组全长的35%,基因编码的氨基酸序列长度范围为100~2310,平均长度377。对这些基因的密码子组成和偏好性进行统计分析发现,平均GC含量为38%,其中,GC1(47%)大于GC2(39%)大于GC3(29%),表明GC在密码子3个位置上的分布并不均匀,且偏向于以A和T碱基结尾。各基因的ENC值介于37.92~61.00之间,平均值为48.05,ENC值大于45的基因有38条,表明杓兰叶绿体基因组密码子的使用偏好性较弱(表1)。
基因 Gene GC1 GC2 GC3 GC ENC Laa 基因 Gene GC1 GC2 GC3 GC ENC Laa accD 0.37 0.36 0.26 0.33 43.81 498 psbB 0.54 0.46 0.33 0.44 48.90 508 atpA 0.55 0.40 0.24 0.40 45.08 507 psbC 0.54 0.46 0.33 0.45 45.94 473 atpB 0.56 0.41 0.32 0.43 50.39 498 psbD 0.52 0.44 0.32 0.43 42.67 353 atpE 0.51 0.40 0.29 0.40 49.10 133 rbcL 0.58 0.43 0.31 0.44 48.63 484 atpF 0.49 0.34 0.31 0.38 44.60 184 rpl14 0.53 0.37 0.29 0.40 48.78 122 atpI 0.49 0.37 0.27 0.38 45.87 247 rpl16 0.51 0.54 0.26 0.44 37.92 137 ccsA 0.31 0.36 0.27 0.32 48.35 327 rpl2 0.51 0.49 0.33 0.44 51.58 271 cemA 0.40 0.28 0.32 0.33 52.71 229 rpl20 0.36 0.43 0.26 0.35 51.15 136 clpP 0.58 0.36 0.33 0.43 61.00 204 rpl22 0.44 0.36 0.19 0.33 41.56 120 matK 0.39 0.30 0.27 0.32 49.06 519 rpoA 0.46 0.34 0.29 0.36 51.53 337 ndhA 0.42 0.37 0.23 0.34 44.03 363 rpoB 0.50 0.38 0.28 0.38 47.97 1070 ndhB 0.41 0.40 0.32 0.38 47.28 510 rpoC1 0.50 0.39 0.30 0.40 49.79 681 ndhC 0.50 0.35 0.29 0.38 51.97 120 rpoC2 0.46 0.37 0.28 0.37 49.47 1390 ndhD 0.39 0.37 0.29 0.35 48.05 501 rps11 0.55 0.53 0.22 0.43 43.62 138 ndhE 0.42 0.33 0.35 0.37 54.85 101 rps12 0.52 0.48 0.27 0.43 46.07 123 ndhF 0.36 0.37 0.24 0.33 46.05 739 rps14 0.44 0.49 0.29 0.41 41.06 100 ndhG 0.42 0.35 0.28 0.35 44.20 176 rps18 0.37 0.44 0.27 0.36 39.57 101 ndhH 0.48 0.36 0.30 0.38 49.19 393 rps2 0.43 0.41 0.32 0.39 52.48 236 ndhI 0.39 0.34 0.21 0.32 40.88 169 rps3 0.45 0.33 0.25 0.34 44.70 218 ndhJ 0.48 0.38 0.31 0.39 58.48 158 rps4 0.49 0.38 0.29 0.39 51.67 201 ndhK 0.44 0.41 0.30 0.39 52.25 259 rps7 0.54 0.46 0.24 0.42 48.50 155 petA 0.54 0.36 0.25 0.38 46.33 320 rps8 0.39 0.38 0.23 0.33 43.24 131 petB 0.48 0.42 0.33 0.41 46.93 215 ycf1 0.39 0.31 0.33 0.34 54.30 487 petD 0.50 0.37 0.26 0.38 43.69 163 ycf2 0.42 0.35 0.37 0.38 52.71 2310 psaA 0.52 0.43 0.34 0.43 52.12 750 ycf3 0.47 0.40 0.26 0.38 53.92 168 psaB 0.48 0.43 0.33 0.41 49.95 734 ycf4 0.45 0.43 0.35 0.41 50.53 182 psbA 0.49 0.44 0.35 0.43 42.33 353 Average 0.47 0.39 0.29 0.38 48.05 377 Table 1. Main parameters in chloroplast genomics of Cypripedium calceolus
基因密码子各参数之间的相关性分析(表2)结果显示:GC1与GC2呈极显著相关,但GC1与GC3及GC2与GC3均不显著相关,表明密码子第1、2位碱基组成情况相近,而第3位上的碱基组成随机性较大,与1、2位碱基组成具有差异。ENC与GC不显著相关,但与GC2呈显著负相关,与GC3呈极显著正相关,表明密码子第2、3位上碱基组成的变化对密码子的使用偏好性影响较大,GC2含量越高,密码子的使用偏好性越强;GC3含量越低,密码子的使用偏好性越强。ENC与Laa相关不显著,表明基因序列长度并未对密码子使用偏好性造成较大影响。
GC1 GC2 GC3 GC ENC Laa GC1 1.000 GC2 0.426** 1.000 GC3 0.182 0.034 1.000 GC 0.830** 0.746** 0.463** 1.000 ENC 0.109 −0.308* 0.528** 0.094 1.000 Laa −0.055 −0.153 0.307* −0.013 0.172 1.000 注:“*”表示显著相关(p < 0.05),“**”表示极显著相关(p < 0.01)。
Notes: “*”indicates a significant correlation at p < 0.05 level, “**”indicates a significant correlation at p < 0.01 level.Table 2. Correlation analysis between the indexes of codon use
RSCU分析(表3)表明:RSCU>1.00的密码子共有34个,其中,以A和U结尾的有29个,占85%,表明杓兰叶绿体基因组偏向于使用以A或U结尾的同义密码子。RSCU<1.00的密码子则多以C或G结尾。
氨基酸
Amino acid密码子
Codon数目
NumberRSCU 氨基酸
Amino acid密码子
Codon数目
NumberRSCU 氨基酸
Amino acid密码子
Codon数目
NumberRSCU Phe UUU 740 1.28 Ser UCU 425 1.68 TER UAA 70 1.15 UUC 418 0.72 UCC 259 1.03 UAG 66 1.09 Leu UUA 654 1.83 UCA 305 1.21 UGA 46 0.76 UUG 457 1.28 UCG 128 0.51 CUU 437 1.22 Pro CCU 306 1.48 His CAU 380 1.51 CUC 155 0.43 CCC 190 0.92 CAC 124 0.49 CUA 299 0.83 CCA 239 1.15 Gln CAA 561 1.50 CUG 148 0.41 CCG 94 0.45 CAG 185 0.50 Ile AUU 821 1.45 Thr ACU 394 1.63 Asn AAU 681 1.55 AUC 351 0.62 ACC 175 0.72 AAC 198 0.45 AUA 531 0.94 ACA 284 1.18 Lys AAA 701 1.41 Met AUG 463 1.00 ACG 113 0.47 AAG 291 0.59 Val GUU 394 1.39 Ala GCU 479 1.78 Asp GAU 623 1.59 GUC 139 0.49 GCC 152 0.57 GAC 161 0.41 GUA 416 1.47 GCA 328 1.22 Glu GAA 759 1.44 GUG 186 0.66 GCG 116 0.43 GAG 298 0.56 Gly GGU 436 1.25 Arg CGU 262 1.37 Ser AGU 302 1.20 GGC 151 0.43 CGC 69 0.36 AGC 95 0.38 GGA 553 1.58 CGA 258 1.35 Arg AGA 352 1.84 GGG 259 0.74 CGG 84 0.44 AGG 121 0.63 Cys UGU 183 1.43 Tyr UAU 585 1.56 Trp UGG 370 1.00 UGC 73 0.57 UAC 163 0.44 Table 3. Relative synonymous codon usage (RSCU) analysis of genes on chloroplast genome in Cypripedium calceolus
-
中性绘图分析(图1)表明:GC12的取值范围为0.338~0.536,GC3的取值范围为0.190~0.372。所有基因都分布于中线对角线上方,GC12与GC3的相关系数为0.147,相关性不显著,表明杓兰叶绿体密码子3个位点的碱基组成具有较大差异,杓兰叶绿体密码子使用偏好性主要受自然选择因素影响。
-
ENC-plot分析(图2)发现:大部分基因位点都落在偏离标准曲线的位置,即ENC实际值与ENC预期值之间差异较大,表明杓兰叶绿体基因组密码子使用偏好性主要是外界自然选择压力等因素作用的结果。
-
PR2-plot分析结果(图3)表明:基因位点在平面图的4个区域中分布较均匀,其中,右下方区域集中了相对较多的基因位点,表明密码子第3位碱基使用T频率高于A,使用G的频率高于C,存在偏好性。因此,可推断杓兰叶绿体基因组密码子的使用模式虽然在一定程度上受到自身突变影响,但该影响作用效果有限,并非密码子偏好性产生的主要因素。
-
以ΔRSCU>0.08为标准共确定25个密码子为杓兰叶绿体基因组的高表达密码子,其中,以A结尾的有9个,U结尾的有8个,C结尾的有5个,G结尾的有3个(表4)。结合杓兰叶绿体基因的相对同义密码子使用度(表3),最终分析得出16个最优密码子,分别为GUA、GCA、UCU、UCC、ACU、CCU、CCA、GCU、UAU、UAA、CAU、AAU、CGA、AGU、AGA、GGA,其中,7个以A结尾,8个以U结尾,1个以C结尾(表4)。
氨基酸
Amino Acid密码子
Codon高表达基因
High expressed gene低表达基因
Low expressed geneΔRSCU 数目 Number RSCU 数目 Number RSCU Phe UUU 48 1.43 24 1.45 −0.02 UUC 19 0.57 9 0.55 0.02 Leu UUA 33 1.80 12 2.25 −0.45 UUG 18 0.98 10 1.88 −0.90 CUU 18 0.98 7 1.31 −0.33 CUC** 14 0.76 2 0.38 0.38 CUA*** 13 0.71 1 0.19 0.52 CUG*** 14 0.76 0 0.00 0.76 Ile AUU 37 1.19 20 1.15 0.04 AUC 16 0.52 17 0.98 −0.46 AUA** 40 1.29 15 0.87 0.42 Met AUG 32 1.00 11 1.00 0.00 Val GUU 25 1.69 13 2.60 −0.91 GUC 10 0.68 3 0.60 0.08 GUA** 17 1.15 4 0.80 0.35 GUG** 7 0.47 0 0.00 0.47 Ser UCU*** 21 1.50 5 0.43 1.07 UCC** 14 1.00 6 0.52 0.48 UCA 13 0.93 16 1.39 −0.46 UCG 11 0.79 15 1.30 −0.51 Pro CCU*** 15 1.50 3 0.80 0.70 CCC 8 0.80 6 1.60 −0.80 CCA** 13 1.30 3 0.80 0.50 CCG 4 0.40 3 0.80 −0.40 Thr ACU** 17 1.21 10 0.73 0.48 ACC 14 1.00 13 0.95 0.05 ACA 17 1.21 19 1.38 −0.17 ACG 8 0.57 13 0.95 −0.38 Ala GCU*** 24 1.71 3 1.20 0.51 GCC 10 0.71 2 0.80 −0.09 GCA*** 14 1.00 1 0.40 0.60 GCG 8 0.57 4 1.60 −1.03 Tyr UAU* 48 1.81 23 1.53 0.28 UAC 5 0.19 7 0.47 −0.28 TER UAA*** 4 2.40 12 0.92 1.48 UAG 0 0.00 18 1.38 −1.38 His CAU* 16 1.33 6 1.20 0.13 CAC 8 0.67 4 0.80 −0.13 Gln CAA 28 1.65 19 1.90 −0.25 CAG* 6 0.35 1 0.10 0.25 Asn AAU* 50 1.56 25 1.32 0.24 AAC 14 0.44 13 0.68 −0.24 Lys AAA 40 1.45 33 1.40 0.05 AAG 15 0.55 14 0.60 −0.05 Asp GAU 40 1.70 19 1.81 −0.11 GAC* 7 0.30 2 0.19 0.11 Glu GAA 67 1.44 18 1.44 0.00 GAG 26 0.56 7 0.56 0.00 Cys UGU 6 1.00 15 1.20 −0.20 UGC* 6 1.00 10 0.80 0.20 TER UGA 1 0.60 9 0.69 −0.09 Trp UGG 18 1.00 11 1.00 0.00 Arg CGU 9 0.84 5 0.83 0.01 CGC 5 0.47 3 0.50 −0.03 CGA*** 18 1.69 6 1.00 0.69 CGG 8 0.75 4 0.67 0.08 Ser AGU** 16 1.14 9 0.78 0.36 AGC 9 0.64 18 1.57 −0.93 Arg AGA** 19 1.78 8 1.33 0.45 AGG 5 0.47 10 1.67 −1.20 Gly GGU 12 0.84 7 0.85 −0.01 GGC* 9 0.63 4 0.48 0.15 GGA** 27 1.89 13 1.58 0.31 GGG 9 0.63 9 1.09 −0.46 注:加下划线的密码子代表基因组的RSCU>1,“*”代表ΔRSCU>0.08,“**”代表ΔRSCU>0.3,“***”代表ΔRSCU>0.5,加粗的密码子为最优密码子。
Notes: the underlined codon indicates the genomic RSCU > 1, “*”indicates ΔRSCU > 0.08, “**”indicates ΔRSCU > 0.3, “***”indicates ΔRSCU > 0.5, the bold codons are the optimal codons.Table 4. The optimal codons in chloroplast genome of Cypripedium calceolus
-
基于RSCU的对应性分析结果显示:第1、2、3、4向量轴分别显示了10.10%、9.00%、8.42%和6.89%的差异,四轴累积差异贡献率为34.42%,第1向量轴是影响密码子使用偏好性的主效因素。从各基因位点在以第1、2向量轴为坐标系的平面图(图4)分布看,编码光合系统蛋白的基因点分布较集中,说明该类基因的密码子具有相似的使用模式;而编码其它蛋白的基因点分布较分散,表明这些基因密码子的使用模式相差较大。