-
密码子是自然界中承载生命信息的基本遗传单位,是蛋白质与核酸的桥梁和纽带,在生物体传递遗传信息的过程中起到重要作用。密码子具备简并性,编码同种氨基酸的不同密码子称为同义密码子;同时,同义密码子在不同物种间的使用频率具有不均一性,这种现象被称为密码子使用偏好性[1]。密码子偏好性是生命体进化的重要特征,在自然界普遍存在并受到自然选择和基因突变等多种因素共同影响,自然选择使得不同物种的基因在选择同义密码子时倾向于使用最优密码子,而基因突变则会使部分非最优密码子存在[2-3]。由于不同物种在进化过程中受到的选择作用和突变压力的影响程度不同,因此,会形成自身独特的密码子使用偏好性[4-5]。研究表明,同一物种或亲缘关系较近的物种中基因一般具有相似的密码子使用模式[6-8],因此,对密码子使用偏好性进行研究有助于更好地了解物种的进化。
叶绿体是植物进行光合作用的场所,同时也是一种半自主性的细胞器,拥有相对独立的一整套基因组,同时拥有复制、转录及翻译的机制。被子植物的叶绿体基因组一般由4部分组成环状双链结构,包括1个短单拷贝区(SSC)、1个长单拷贝区(LSC)及2个相同的反向重复区(IR),且SSC和LSC之间被2个IR隔开[9]。与体细胞基因组相比,叶绿体基因组体量小,基因拷贝数多,进化速率快且保守度高,这些特点使其在研究物种间遗传差异和系统进化关系的过程中充当了理想的工具[10]。自从1986年首次公开了烟草[11]和地钱[12]的叶绿体基因组序列以来,越来越多的叶绿体基因组信息被NCBI数据库收录。
杓兰属(Cypripedium)隶属于兰科杓兰亚科,是兰科植物中较为原始的类型,全世界约50种,我国有36种和1变种[13]。杓兰属植物花姿优美、花色丰富,具有较高的观赏价值。然而,随着兰花热的兴起以及生境破碎化的不断加剧,滥采乱挖杓兰属植物的行为日益猖獗,不少种类已近濒危[14]。杓兰(Cypripedium calceolus L.)是杓兰属多年生地生植物,主要分布于我国东北、日本、韩国和欧洲地区。目前,该物种已被列入世界自然保护联盟(IUCN)濒危物种红色名录。杓兰的叶绿体基因组序列已被提交至GenBank数据库[15],但目前尚未有关于杓兰叶绿体基因组密码子使用偏好性的研究。本研究通过生物信息学方法分析杓兰叶绿体基因组密码子的使用偏好性,旨在为杓兰的叶绿体基因组学研究提供参考。
-
杓兰的叶绿体基因组去除长度小于300 bp的蛋白编码序列及重复序列后,共剩余53条蛋白编码基因,全长60618 bp,占基因组全长的35%,基因编码的氨基酸序列长度范围为100~2310,平均长度377。对这些基因的密码子组成和偏好性进行统计分析发现,平均GC含量为38%,其中,GC1(47%)大于GC2(39%)大于GC3(29%),表明GC在密码子3个位置上的分布并不均匀,且偏向于以A和T碱基结尾。各基因的ENC值介于37.92~61.00之间,平均值为48.05,ENC值大于45的基因有38条,表明杓兰叶绿体基因组密码子的使用偏好性较弱(表1)。
表 1 杓兰叶绿体基因组的主要参数
Table 1. Main parameters in chloroplast genomics of Cypripedium calceolus
基因 Gene GC1 GC2 GC3 GC ENC Laa 基因 Gene GC1 GC2 GC3 GC ENC Laa accD 0.37 0.36 0.26 0.33 43.81 498 psbB 0.54 0.46 0.33 0.44 48.90 508 atpA 0.55 0.40 0.24 0.40 45.08 507 psbC 0.54 0.46 0.33 0.45 45.94 473 atpB 0.56 0.41 0.32 0.43 50.39 498 psbD 0.52 0.44 0.32 0.43 42.67 353 atpE 0.51 0.40 0.29 0.40 49.10 133 rbcL 0.58 0.43 0.31 0.44 48.63 484 atpF 0.49 0.34 0.31 0.38 44.60 184 rpl14 0.53 0.37 0.29 0.40 48.78 122 atpI 0.49 0.37 0.27 0.38 45.87 247 rpl16 0.51 0.54 0.26 0.44 37.92 137 ccsA 0.31 0.36 0.27 0.32 48.35 327 rpl2 0.51 0.49 0.33 0.44 51.58 271 cemA 0.40 0.28 0.32 0.33 52.71 229 rpl20 0.36 0.43 0.26 0.35 51.15 136 clpP 0.58 0.36 0.33 0.43 61.00 204 rpl22 0.44 0.36 0.19 0.33 41.56 120 matK 0.39 0.30 0.27 0.32 49.06 519 rpoA 0.46 0.34 0.29 0.36 51.53 337 ndhA 0.42 0.37 0.23 0.34 44.03 363 rpoB 0.50 0.38 0.28 0.38 47.97 1070 ndhB 0.41 0.40 0.32 0.38 47.28 510 rpoC1 0.50 0.39 0.30 0.40 49.79 681 ndhC 0.50 0.35 0.29 0.38 51.97 120 rpoC2 0.46 0.37 0.28 0.37 49.47 1390 ndhD 0.39 0.37 0.29 0.35 48.05 501 rps11 0.55 0.53 0.22 0.43 43.62 138 ndhE 0.42 0.33 0.35 0.37 54.85 101 rps12 0.52 0.48 0.27 0.43 46.07 123 ndhF 0.36 0.37 0.24 0.33 46.05 739 rps14 0.44 0.49 0.29 0.41 41.06 100 ndhG 0.42 0.35 0.28 0.35 44.20 176 rps18 0.37 0.44 0.27 0.36 39.57 101 ndhH 0.48 0.36 0.30 0.38 49.19 393 rps2 0.43 0.41 0.32 0.39 52.48 236 ndhI 0.39 0.34 0.21 0.32 40.88 169 rps3 0.45 0.33 0.25 0.34 44.70 218 ndhJ 0.48 0.38 0.31 0.39 58.48 158 rps4 0.49 0.38 0.29 0.39 51.67 201 ndhK 0.44 0.41 0.30 0.39 52.25 259 rps7 0.54 0.46 0.24 0.42 48.50 155 petA 0.54 0.36 0.25 0.38 46.33 320 rps8 0.39 0.38 0.23 0.33 43.24 131 petB 0.48 0.42 0.33 0.41 46.93 215 ycf1 0.39 0.31 0.33 0.34 54.30 487 petD 0.50 0.37 0.26 0.38 43.69 163 ycf2 0.42 0.35 0.37 0.38 52.71 2310 psaA 0.52 0.43 0.34 0.43 52.12 750 ycf3 0.47 0.40 0.26 0.38 53.92 168 psaB 0.48 0.43 0.33 0.41 49.95 734 ycf4 0.45 0.43 0.35 0.41 50.53 182 psbA 0.49 0.44 0.35 0.43 42.33 353 Average 0.47 0.39 0.29 0.38 48.05 377 基因密码子各参数之间的相关性分析(表2)结果显示:GC1与GC2呈极显著相关,但GC1与GC3及GC2与GC3均不显著相关,表明密码子第1、2位碱基组成情况相近,而第3位上的碱基组成随机性较大,与1、2位碱基组成具有差异。ENC与GC不显著相关,但与GC2呈显著负相关,与GC3呈极显著正相关,表明密码子第2、3位上碱基组成的变化对密码子的使用偏好性影响较大,GC2含量越高,密码子的使用偏好性越强;GC3含量越低,密码子的使用偏好性越强。ENC与Laa相关不显著,表明基因序列长度并未对密码子使用偏好性造成较大影响。
表 2 基因密码子各参数之间的相关性分析
Table 2. Correlation analysis between the indexes of codon use
GC1 GC2 GC3 GC ENC Laa GC1 1.000 GC2 0.426** 1.000 GC3 0.182 0.034 1.000 GC 0.830** 0.746** 0.463** 1.000 ENC 0.109 −0.308* 0.528** 0.094 1.000 Laa −0.055 −0.153 0.307* −0.013 0.172 1.000 注:“*”表示显著相关(p < 0.05),“**”表示极显著相关(p < 0.01)。
Notes: “*”indicates a significant correlation at p < 0.05 level, “**”indicates a significant correlation at p < 0.01 level.RSCU分析(表3)表明:RSCU>1.00的密码子共有34个,其中,以A和U结尾的有29个,占85%,表明杓兰叶绿体基因组偏向于使用以A或U结尾的同义密码子。RSCU<1.00的密码子则多以C或G结尾。
表 3 杓兰叶绿体基因组各氨基酸的相对同义密码子使用度
Table 3. Relative synonymous codon usage (RSCU) analysis of genes on chloroplast genome in Cypripedium calceolus
氨基酸
Amino acid密码子
Codon数目
NumberRSCU 氨基酸
Amino acid密码子
Codon数目
NumberRSCU 氨基酸
Amino acid密码子
Codon数目
NumberRSCU Phe UUU 740 1.28 Ser UCU 425 1.68 TER UAA 70 1.15 UUC 418 0.72 UCC 259 1.03 UAG 66 1.09 Leu UUA 654 1.83 UCA 305 1.21 UGA 46 0.76 UUG 457 1.28 UCG 128 0.51 CUU 437 1.22 Pro CCU 306 1.48 His CAU 380 1.51 CUC 155 0.43 CCC 190 0.92 CAC 124 0.49 CUA 299 0.83 CCA 239 1.15 Gln CAA 561 1.50 CUG 148 0.41 CCG 94 0.45 CAG 185 0.50 Ile AUU 821 1.45 Thr ACU 394 1.63 Asn AAU 681 1.55 AUC 351 0.62 ACC 175 0.72 AAC 198 0.45 AUA 531 0.94 ACA 284 1.18 Lys AAA 701 1.41 Met AUG 463 1.00 ACG 113 0.47 AAG 291 0.59 Val GUU 394 1.39 Ala GCU 479 1.78 Asp GAU 623 1.59 GUC 139 0.49 GCC 152 0.57 GAC 161 0.41 GUA 416 1.47 GCA 328 1.22 Glu GAA 759 1.44 GUG 186 0.66 GCG 116 0.43 GAG 298 0.56 Gly GGU 436 1.25 Arg CGU 262 1.37 Ser AGU 302 1.20 GGC 151 0.43 CGC 69 0.36 AGC 95 0.38 GGA 553 1.58 CGA 258 1.35 Arg AGA 352 1.84 GGG 259 0.74 CGG 84 0.44 AGG 121 0.63 Cys UGU 183 1.43 Tyr UAU 585 1.56 Trp UGG 370 1.00 UGC 73 0.57 UAC 163 0.44 -
中性绘图分析(图1)表明:GC12的取值范围为0.338~0.536,GC3的取值范围为0.190~0.372。所有基因都分布于中线对角线上方,GC12与GC3的相关系数为0.147,相关性不显著,表明杓兰叶绿体密码子3个位点的碱基组成具有较大差异,杓兰叶绿体密码子使用偏好性主要受自然选择因素影响。
-
ENC-plot分析(图2)发现:大部分基因位点都落在偏离标准曲线的位置,即ENC实际值与ENC预期值之间差异较大,表明杓兰叶绿体基因组密码子使用偏好性主要是外界自然选择压力等因素作用的结果。
-
PR2-plot分析结果(图3)表明:基因位点在平面图的4个区域中分布较均匀,其中,右下方区域集中了相对较多的基因位点,表明密码子第3位碱基使用T频率高于A,使用G的频率高于C,存在偏好性。因此,可推断杓兰叶绿体基因组密码子的使用模式虽然在一定程度上受到自身突变影响,但该影响作用效果有限,并非密码子偏好性产生的主要因素。
-
以ΔRSCU>0.08为标准共确定25个密码子为杓兰叶绿体基因组的高表达密码子,其中,以A结尾的有9个,U结尾的有8个,C结尾的有5个,G结尾的有3个(表4)。结合杓兰叶绿体基因的相对同义密码子使用度(表3),最终分析得出16个最优密码子,分别为GUA、GCA、UCU、UCC、ACU、CCU、CCA、GCU、UAU、UAA、CAU、AAU、CGA、AGU、AGA、GGA,其中,7个以A结尾,8个以U结尾,1个以C结尾(表4)。
表 4 杓兰叶绿体基因的最优密码子
Table 4. The optimal codons in chloroplast genome of Cypripedium calceolus
氨基酸
Amino Acid密码子
Codon高表达基因
High expressed gene低表达基因
Low expressed geneΔRSCU 数目 Number RSCU 数目 Number RSCU Phe UUU 48 1.43 24 1.45 −0.02 UUC 19 0.57 9 0.55 0.02 Leu UUA 33 1.80 12 2.25 −0.45 UUG 18 0.98 10 1.88 −0.90 CUU 18 0.98 7 1.31 −0.33 CUC** 14 0.76 2 0.38 0.38 CUA*** 13 0.71 1 0.19 0.52 CUG*** 14 0.76 0 0.00 0.76 Ile AUU 37 1.19 20 1.15 0.04 AUC 16 0.52 17 0.98 −0.46 AUA** 40 1.29 15 0.87 0.42 Met AUG 32 1.00 11 1.00 0.00 Val GUU 25 1.69 13 2.60 −0.91 GUC 10 0.68 3 0.60 0.08 GUA** 17 1.15 4 0.80 0.35 GUG** 7 0.47 0 0.00 0.47 Ser UCU*** 21 1.50 5 0.43 1.07 UCC** 14 1.00 6 0.52 0.48 UCA 13 0.93 16 1.39 −0.46 UCG 11 0.79 15 1.30 −0.51 Pro CCU*** 15 1.50 3 0.80 0.70 CCC 8 0.80 6 1.60 −0.80 CCA** 13 1.30 3 0.80 0.50 CCG 4 0.40 3 0.80 −0.40 Thr ACU** 17 1.21 10 0.73 0.48 ACC 14 1.00 13 0.95 0.05 ACA 17 1.21 19 1.38 −0.17 ACG 8 0.57 13 0.95 −0.38 Ala GCU*** 24 1.71 3 1.20 0.51 GCC 10 0.71 2 0.80 −0.09 GCA*** 14 1.00 1 0.40 0.60 GCG 8 0.57 4 1.60 −1.03 Tyr UAU* 48 1.81 23 1.53 0.28 UAC 5 0.19 7 0.47 −0.28 TER UAA*** 4 2.40 12 0.92 1.48 UAG 0 0.00 18 1.38 −1.38 His CAU* 16 1.33 6 1.20 0.13 CAC 8 0.67 4 0.80 −0.13 Gln CAA 28 1.65 19 1.90 −0.25 CAG* 6 0.35 1 0.10 0.25 Asn AAU* 50 1.56 25 1.32 0.24 AAC 14 0.44 13 0.68 −0.24 Lys AAA 40 1.45 33 1.40 0.05 AAG 15 0.55 14 0.60 −0.05 Asp GAU 40 1.70 19 1.81 −0.11 GAC* 7 0.30 2 0.19 0.11 Glu GAA 67 1.44 18 1.44 0.00 GAG 26 0.56 7 0.56 0.00 Cys UGU 6 1.00 15 1.20 −0.20 UGC* 6 1.00 10 0.80 0.20 TER UGA 1 0.60 9 0.69 −0.09 Trp UGG 18 1.00 11 1.00 0.00 Arg CGU 9 0.84 5 0.83 0.01 CGC 5 0.47 3 0.50 −0.03 CGA*** 18 1.69 6 1.00 0.69 CGG 8 0.75 4 0.67 0.08 Ser AGU** 16 1.14 9 0.78 0.36 AGC 9 0.64 18 1.57 −0.93 Arg AGA** 19 1.78 8 1.33 0.45 AGG 5 0.47 10 1.67 −1.20 Gly GGU 12 0.84 7 0.85 −0.01 GGC* 9 0.63 4 0.48 0.15 GGA** 27 1.89 13 1.58 0.31 GGG 9 0.63 9 1.09 −0.46 注:加下划线的密码子代表基因组的RSCU>1,“*”代表ΔRSCU>0.08,“**”代表ΔRSCU>0.3,“***”代表ΔRSCU>0.5,加粗的密码子为最优密码子。
Notes: the underlined codon indicates the genomic RSCU > 1, “*”indicates ΔRSCU > 0.08, “**”indicates ΔRSCU > 0.3, “***”indicates ΔRSCU > 0.5, the bold codons are the optimal codons. -
基于RSCU的对应性分析结果显示:第1、2、3、4向量轴分别显示了10.10%、9.00%、8.42%和6.89%的差异,四轴累积差异贡献率为34.42%,第1向量轴是影响密码子使用偏好性的主效因素。从各基因位点在以第1、2向量轴为坐标系的平面图(图4)分布看,编码光合系统蛋白的基因点分布较集中,说明该类基因的密码子具有相似的使用模式;而编码其它蛋白的基因点分布较分散,表明这些基因密码子的使用模式相差较大。
杓兰叶绿体基因组密码子偏好性分析
Analysis of Codon Usage in the Chloroplast Genome of Cypripedium calceolus
-
摘要:
目的 分析杓兰叶绿体基因组密码子的使用偏好性,探究影响杓兰叶绿体基因组密码子使用偏好性的主要因素,为兰科叶绿体基因组学研究提供参考。 方法 从NCBI数据库中下载完整的杓兰叶绿体基因组序列并进行蛋白编码序列筛选,利用EMBOSS在线程序计算各基因及密码子的GC含量,利用CodonW软件计算各基因的氨基酸长度(Laa)、有效密码子数(ENC)、同义密码子相对使用度(RSCU)、最优密码子使用频率(FOP)及各基因密码子的第3核苷酸碱基含量,利用SPSS软件分析各指标之间的相关性,利用Origin软件绘图。 结果 杓兰叶绿体基因组编码序列的密码子第3位碱基富含A和T,GC含量仅为29%,ENC值介于37.92~61.00之间,密码子偏好性不强,ENC与GC2及GC3均呈极显著相关。RSCU值大于1的密码子有34个,其中,29个以U或A结尾。ENC-plot分析、PR2-plot分析及中性绘图分析表明:影响杓兰叶绿体基因组密码子使用偏好性的主要因素为自然选择。对应性分析结果表明:编码光合系统蛋白基因的密码子具有相似的使用模式,编码其它类型基因的密码子则具有不同的使用模式,并最终筛选出最优密码子16个。 结论 本研究明确了自然选择是影响杓兰叶绿体基因组密码子使用偏好性的主要因素,并筛选出杓兰叶绿体基因的最优密码子,研究结果能够对兰科系统发育及叶绿体基因组密码子进化研究提供参考。 Abstract:Objective To analyze the codon usage bias of Cypripedium calceolus chloroplast genome, and identify the main factors influencing codon usage bias of this species in order to provide reference for the chloroplast genomics research of Orchidaceae species. Method Downloading the complete chloroplast genome sequence of C. calceolus and screening the protein coding sequences, the EMBOSS online program was used to calculate the GC content of each gene and codon, and the software CondonW was used to calculate the length of amino acid (LAA), effective number of codon (ENC), relative synonymous codon usage (RSCU), frequency of optimal codons (FOP) and the acid base content of the third nucleoside of each gene codon. The software SPSS was used to analyze the correlation among each index, and software Origin was used to plot. Result The third codon position of C. calceolus chloroplast genome sequence was rich in A and T, and the GC3 content was only 29%. The ENC values varied from 37.92 to 61.00, indicating a relatively weak codon usage bias. The correlation between the number of effective codons and GC3 showed an extremely significant level. There were 34 codons with relative synonymous codon usage greater than 1 and 29 codons ending with A and U. Analysis of neutral plot, ENC-plot and PR2-plot showed that the preference of C. calceolus chloroplast genome codons was mainly influenced by natural selection. Correspondence analysis showed a similar pattern of codon usage bias of the genes encoding photosynthetic system proteins, while other types of genes were quite different. Sixteen codons were finally determined as the optimal codons. Conclusion This study confirms that natural selection is the main factor affecting codon usage bias of C. calceolus chloroplast genome. The optimal codon of this species is screened. The results can provide a reference for the phylogeny and chloroplast genome codon evolution of Orchidaceae. -
Key words:
- Cypripedium calceolus
- / chloroplast genome
- / codon usage bias
- / Orchidaceae
-
表 1 杓兰叶绿体基因组的主要参数
Table 1. Main parameters in chloroplast genomics of Cypripedium calceolus
基因 Gene GC1 GC2 GC3 GC ENC Laa 基因 Gene GC1 GC2 GC3 GC ENC Laa accD 0.37 0.36 0.26 0.33 43.81 498 psbB 0.54 0.46 0.33 0.44 48.90 508 atpA 0.55 0.40 0.24 0.40 45.08 507 psbC 0.54 0.46 0.33 0.45 45.94 473 atpB 0.56 0.41 0.32 0.43 50.39 498 psbD 0.52 0.44 0.32 0.43 42.67 353 atpE 0.51 0.40 0.29 0.40 49.10 133 rbcL 0.58 0.43 0.31 0.44 48.63 484 atpF 0.49 0.34 0.31 0.38 44.60 184 rpl14 0.53 0.37 0.29 0.40 48.78 122 atpI 0.49 0.37 0.27 0.38 45.87 247 rpl16 0.51 0.54 0.26 0.44 37.92 137 ccsA 0.31 0.36 0.27 0.32 48.35 327 rpl2 0.51 0.49 0.33 0.44 51.58 271 cemA 0.40 0.28 0.32 0.33 52.71 229 rpl20 0.36 0.43 0.26 0.35 51.15 136 clpP 0.58 0.36 0.33 0.43 61.00 204 rpl22 0.44 0.36 0.19 0.33 41.56 120 matK 0.39 0.30 0.27 0.32 49.06 519 rpoA 0.46 0.34 0.29 0.36 51.53 337 ndhA 0.42 0.37 0.23 0.34 44.03 363 rpoB 0.50 0.38 0.28 0.38 47.97 1070 ndhB 0.41 0.40 0.32 0.38 47.28 510 rpoC1 0.50 0.39 0.30 0.40 49.79 681 ndhC 0.50 0.35 0.29 0.38 51.97 120 rpoC2 0.46 0.37 0.28 0.37 49.47 1390 ndhD 0.39 0.37 0.29 0.35 48.05 501 rps11 0.55 0.53 0.22 0.43 43.62 138 ndhE 0.42 0.33 0.35 0.37 54.85 101 rps12 0.52 0.48 0.27 0.43 46.07 123 ndhF 0.36 0.37 0.24 0.33 46.05 739 rps14 0.44 0.49 0.29 0.41 41.06 100 ndhG 0.42 0.35 0.28 0.35 44.20 176 rps18 0.37 0.44 0.27 0.36 39.57 101 ndhH 0.48 0.36 0.30 0.38 49.19 393 rps2 0.43 0.41 0.32 0.39 52.48 236 ndhI 0.39 0.34 0.21 0.32 40.88 169 rps3 0.45 0.33 0.25 0.34 44.70 218 ndhJ 0.48 0.38 0.31 0.39 58.48 158 rps4 0.49 0.38 0.29 0.39 51.67 201 ndhK 0.44 0.41 0.30 0.39 52.25 259 rps7 0.54 0.46 0.24 0.42 48.50 155 petA 0.54 0.36 0.25 0.38 46.33 320 rps8 0.39 0.38 0.23 0.33 43.24 131 petB 0.48 0.42 0.33 0.41 46.93 215 ycf1 0.39 0.31 0.33 0.34 54.30 487 petD 0.50 0.37 0.26 0.38 43.69 163 ycf2 0.42 0.35 0.37 0.38 52.71 2310 psaA 0.52 0.43 0.34 0.43 52.12 750 ycf3 0.47 0.40 0.26 0.38 53.92 168 psaB 0.48 0.43 0.33 0.41 49.95 734 ycf4 0.45 0.43 0.35 0.41 50.53 182 psbA 0.49 0.44 0.35 0.43 42.33 353 Average 0.47 0.39 0.29 0.38 48.05 377 表 2 基因密码子各参数之间的相关性分析
Table 2. Correlation analysis between the indexes of codon use
GC1 GC2 GC3 GC ENC Laa GC1 1.000 GC2 0.426** 1.000 GC3 0.182 0.034 1.000 GC 0.830** 0.746** 0.463** 1.000 ENC 0.109 −0.308* 0.528** 0.094 1.000 Laa −0.055 −0.153 0.307* −0.013 0.172 1.000 注:“*”表示显著相关(p < 0.05),“**”表示极显著相关(p < 0.01)。
Notes: “*”indicates a significant correlation at p < 0.05 level, “**”indicates a significant correlation at p < 0.01 level.表 3 杓兰叶绿体基因组各氨基酸的相对同义密码子使用度
Table 3. Relative synonymous codon usage (RSCU) analysis of genes on chloroplast genome in Cypripedium calceolus
氨基酸
Amino acid密码子
Codon数目
NumberRSCU 氨基酸
Amino acid密码子
Codon数目
NumberRSCU 氨基酸
Amino acid密码子
Codon数目
NumberRSCU Phe UUU 740 1.28 Ser UCU 425 1.68 TER UAA 70 1.15 UUC 418 0.72 UCC 259 1.03 UAG 66 1.09 Leu UUA 654 1.83 UCA 305 1.21 UGA 46 0.76 UUG 457 1.28 UCG 128 0.51 CUU 437 1.22 Pro CCU 306 1.48 His CAU 380 1.51 CUC 155 0.43 CCC 190 0.92 CAC 124 0.49 CUA 299 0.83 CCA 239 1.15 Gln CAA 561 1.50 CUG 148 0.41 CCG 94 0.45 CAG 185 0.50 Ile AUU 821 1.45 Thr ACU 394 1.63 Asn AAU 681 1.55 AUC 351 0.62 ACC 175 0.72 AAC 198 0.45 AUA 531 0.94 ACA 284 1.18 Lys AAA 701 1.41 Met AUG 463 1.00 ACG 113 0.47 AAG 291 0.59 Val GUU 394 1.39 Ala GCU 479 1.78 Asp GAU 623 1.59 GUC 139 0.49 GCC 152 0.57 GAC 161 0.41 GUA 416 1.47 GCA 328 1.22 Glu GAA 759 1.44 GUG 186 0.66 GCG 116 0.43 GAG 298 0.56 Gly GGU 436 1.25 Arg CGU 262 1.37 Ser AGU 302 1.20 GGC 151 0.43 CGC 69 0.36 AGC 95 0.38 GGA 553 1.58 CGA 258 1.35 Arg AGA 352 1.84 GGG 259 0.74 CGG 84 0.44 AGG 121 0.63 Cys UGU 183 1.43 Tyr UAU 585 1.56 Trp UGG 370 1.00 UGC 73 0.57 UAC 163 0.44 表 4 杓兰叶绿体基因的最优密码子
Table 4. The optimal codons in chloroplast genome of Cypripedium calceolus
氨基酸
Amino Acid密码子
Codon高表达基因
High expressed gene低表达基因
Low expressed geneΔRSCU 数目 Number RSCU 数目 Number RSCU Phe UUU 48 1.43 24 1.45 −0.02 UUC 19 0.57 9 0.55 0.02 Leu UUA 33 1.80 12 2.25 −0.45 UUG 18 0.98 10 1.88 −0.90 CUU 18 0.98 7 1.31 −0.33 CUC** 14 0.76 2 0.38 0.38 CUA*** 13 0.71 1 0.19 0.52 CUG*** 14 0.76 0 0.00 0.76 Ile AUU 37 1.19 20 1.15 0.04 AUC 16 0.52 17 0.98 −0.46 AUA** 40 1.29 15 0.87 0.42 Met AUG 32 1.00 11 1.00 0.00 Val GUU 25 1.69 13 2.60 −0.91 GUC 10 0.68 3 0.60 0.08 GUA** 17 1.15 4 0.80 0.35 GUG** 7 0.47 0 0.00 0.47 Ser UCU*** 21 1.50 5 0.43 1.07 UCC** 14 1.00 6 0.52 0.48 UCA 13 0.93 16 1.39 −0.46 UCG 11 0.79 15 1.30 −0.51 Pro CCU*** 15 1.50 3 0.80 0.70 CCC 8 0.80 6 1.60 −0.80 CCA** 13 1.30 3 0.80 0.50 CCG 4 0.40 3 0.80 −0.40 Thr ACU** 17 1.21 10 0.73 0.48 ACC 14 1.00 13 0.95 0.05 ACA 17 1.21 19 1.38 −0.17 ACG 8 0.57 13 0.95 −0.38 Ala GCU*** 24 1.71 3 1.20 0.51 GCC 10 0.71 2 0.80 −0.09 GCA*** 14 1.00 1 0.40 0.60 GCG 8 0.57 4 1.60 −1.03 Tyr UAU* 48 1.81 23 1.53 0.28 UAC 5 0.19 7 0.47 −0.28 TER UAA*** 4 2.40 12 0.92 1.48 UAG 0 0.00 18 1.38 −1.38 His CAU* 16 1.33 6 1.20 0.13 CAC 8 0.67 4 0.80 −0.13 Gln CAA 28 1.65 19 1.90 −0.25 CAG* 6 0.35 1 0.10 0.25 Asn AAU* 50 1.56 25 1.32 0.24 AAC 14 0.44 13 0.68 −0.24 Lys AAA 40 1.45 33 1.40 0.05 AAG 15 0.55 14 0.60 −0.05 Asp GAU 40 1.70 19 1.81 −0.11 GAC* 7 0.30 2 0.19 0.11 Glu GAA 67 1.44 18 1.44 0.00 GAG 26 0.56 7 0.56 0.00 Cys UGU 6 1.00 15 1.20 −0.20 UGC* 6 1.00 10 0.80 0.20 TER UGA 1 0.60 9 0.69 −0.09 Trp UGG 18 1.00 11 1.00 0.00 Arg CGU 9 0.84 5 0.83 0.01 CGC 5 0.47 3 0.50 −0.03 CGA*** 18 1.69 6 1.00 0.69 CGG 8 0.75 4 0.67 0.08 Ser AGU** 16 1.14 9 0.78 0.36 AGC 9 0.64 18 1.57 −0.93 Arg AGA** 19 1.78 8 1.33 0.45 AGG 5 0.47 10 1.67 −1.20 Gly GGU 12 0.84 7 0.85 −0.01 GGC* 9 0.63 4 0.48 0.15 GGA** 27 1.89 13 1.58 0.31 GGG 9 0.63 9 1.09 −0.46 注:加下划线的密码子代表基因组的RSCU>1,“*”代表ΔRSCU>0.08,“**”代表ΔRSCU>0.3,“***”代表ΔRSCU>0.5,加粗的密码子为最优密码子。
Notes: the underlined codon indicates the genomic RSCU > 1, “*”indicates ΔRSCU > 0.08, “**”indicates ΔRSCU > 0.3, “***”indicates ΔRSCU > 0.5, the bold codons are the optimal codons. -
[1] 任桂萍, 董璎莹, 党云琨. 密码子中的密码: 密码子偏好性与基因表达的精细调控[J]. 中国科学: 生命科学, 2019, 49(7):839-847. [2] Buchan J R, Aucott L S, Stansfield I. tRNA properties help shape codon pair preferences inopen reading frames[J]. Nucleic Acids Research, 2006, 34(3): 1015-1027. doi: 10.1093/nar/gkj488 [3] Suzuki Y. Statistical methods for detecting natural selection from genomic data[J]. Genes and Genetic Systems, 2010, 85(6): 359-376. doi: 10.1266/ggs.85.359 [4] Hershberg R, Petrov D. Selection on codon bias[J]. Annal Review of Genetics, 2008, 42: 87-99. [5] Gu W J, Zhou T, Ma J M, et al. Analysis of synonymous codon usage in SARS Coronavirus and other viruses in the Nidovirales[J]. Virus Research, 2004, 101(2): 155-161. doi: 10.1016/j.virusres.2004.01.006 [6] 赵 森, 邓力华, 陈 芬. 秋茄叶绿体基因组密码子使用偏好性分析[J]. 森林与环境学报, 2020, 40(5):534-541. [7] Zhou H, Wang H, Huang L F, et al. Heterogeneity in codon usages of sobemovirus genes[J]. Archives of Virology, 2005, 150(8): 1591-1605. doi: 10.1007/s00705-005-0510-4 [8] Christianson M. Codon patterns distort phylogenies from or of DNA sequences[J]. American Journal of Botany, 2005, 92(8): 1221-1233. doi: 10.3732/ajb.92.8.1221 [9] 张韵洁, 李德铢. 叶绿体系统发育基因组学的研究进展[J]. 植物分类与资源学报, 2011, 33(4):365-375. [10] 邢少辰, Liu C J. 叶绿体基因组研究进展[J]. 生物化学与生物物理进展, 2008, 35(1):21-28. doi: 10.3321/j.issn:1000-3282.2008.01.004 [11] Shinozaki K, Ohme M, Tanaka M, et al. The complete nucleotide sequence of the tobacco chloroplast genome: its gene organization and expression[J]. The EMBO Journal, 1986, 5(9): 2043-2049. doi: 10.1002/j.1460-2075.1986.tb04464.x [12] Ohyama K, Fukuzawa H, Kohchi T, et al. Chloroplast gene organization deduced from complete sequence of liverwort Marchantia polymorpha chloroplast DNA[J]. Nature, 1986, 322: 572-574. doi: 10.1038/322572a0 [13] 陈丽飞, 刘树英, 江鹏道, 等. 杓兰属植物研究进展[J]. 湖北农业科学, 2012, 51(9):1733-1735. doi: 10.3969/j.issn.0439-8114.2012.09.002 [14] 邓 莲, 张 毓, 王苗苗, 等. 濒危兰科植物大花杓兰种子非共生萌发的研究[J]. 种子, 2012, 31(6):31-34. doi: 10.3969/j.issn.1001-4705.2012.06.008 [15] Zhang L J, Ding R, Meng W W, et al. The complete chloroplast genome sequence of the threatened Cypripediumcalceolus (Orchidaceae)[J]. Mitochondrial DNA Part B-Resources, 2019, 4(2): 4220-4222. doi: 10.1080/23802359.2019.1693933 [16] 吴宪明, 吴松锋, 任大明, 等. 密码子偏性的分析方法及相关研究进展[J]. 遗传, 2007, 29(4):420-426. doi: 10.3321/j.issn:0253-9772.2007.04.006 [17] Sharp P M, Li W H. The codon Adaptation Index-a measureof directional synonymous codonusage bias, and its potential applications[J]. Nucleic Acids Research, 1987, 15(3): 1281-1295. doi: 10.1093/nar/15.3.1281 [18] Fuglsang A. The ‘effective number of codons’ revisited[J]. Biochemical and Biophysical Research Communications, 2004, 317(3): 957-964. doi: 10.1016/j.bbrc.2004.03.138 [19] Jiang Y, Deng F, Wang H, et al. An extensive analysis on the global codon usage patternof baculoviruses[J]. Archives of Virology, 2008, 153(12): 273-282. [20] Liu X. A more accurate relationship between‘effective number of codons’and GC3s under assumptions of no selection[J]. Computational Biology and Chemistry, 2013, 42: 35-39. doi: 10.1016/j.compbiolchem.2012.11.003 [21] 杨国锋, 苏昆龙, 赵怡然, 等. 蒺藜苜蓿叶绿体密码子偏好性分析[J]. 草业学报, 2015, 24(12):171-179. doi: 10.11686/cyxb2015016 [22] Sueoka N. Near homogeneity of PR2-bias fingerprints in the human genome and their implications in phylogenetic analyses[J]. Journal of Molecular Evolution, 2001, 53(4-5): 469-476. doi: 10.1007/s002390010237 [23] 尚明照, 刘 方, 华金平, 等. 陆地棉叶绿体基因组密码子使用偏性的分析[J]. 中国农业科学, 2011, 44(2):245-253. doi: 10.3864/j.issn.0578-1752.2011.02.003 [24] 胡晓艳, 许艳秋, 韩有志, 等. 酸枣叶绿体基因组密码子使用偏性分析[J]. 森林与环境学报, 2019, 39(6):621-628. [25] Romero H, Zavala A, Musto H. Codon usage inchlamydia trachomatis is the result of strand-specificmutational biases and a complex pattern of selective forces[J]. Nucleic Acids Research, 2000, 28(10): 2084-2090. doi: 10.1093/nar/28.10.2084 [26] Carlini D B, Chen Y, Stephan W. The relationshipbetween third-codon position nucleotide content, codonbias, mRNA secondary structure and gene expression in thedrosophilid alcohol dehydrogenase genes Adh and Adhr[J]. Genetics, 2001, 159(2): 623-633. doi: 10.1093/genetics/159.2.623 [27] 叶友菊, 倪州献, 白天道, 等. 马尾松叶绿体基因组密码子偏好性分析[J]. 基因组学与应用生物学, 2018, 37(10):4464-4471. [28] 秦 政, 郑永杰, 桂丽静, 等. 樟树叶绿体基因组密码子偏好性分析[J]. 广西植物, 2018, 38(10):1346-1355. doi: 10.11931/guihaia.gxzw201805023 [29] 续 晨, 贲爱玲, 蔡晓宁. 蝴蝶兰叶绿体基因组密码子使用的相关分析[J]. 分子植物育种, 2010, 8(5):945-950. doi: 10.3969/mpb.008.000945 [30] 李冬梅, 吕复兵, 朱根发, 等. 文心兰叶绿体基因组密码子使用的相关分析[J]. 广东农业科学, 2012(10):61-65. doi: 10.3969/j.issn.1004-874X.2012.08.020