喜树(又名千丈树),主要分布于中国西南山地;由于生长速度快,也广泛用作绿化、行道树种,广泛种植于南方各地的大学校园、街道以及各生活区。喜树碱(Camptothecin)是一种新型抗肿瘤单萜吲哚生物碱,1966年首次喜树中分离出来,主要通过选择性地与拓扑异构酶I结合并阻止DNA链的重新连接,抑制增殖期肿瘤细胞DNA复制,导致细胞凋亡。临床上,常使用喜树碱的半合成类似物,广泛用于治疗肺癌、结直肠癌、宫颈癌和卵巢癌等多种癌症。喜树碱及其类似物在抗癌方面的使用量和市场价值,仅次于紫杉醇,是第二大木本抗肿瘤药物,每年有上百亿美元的市场份额。
由于具有较高的药用经济价值,喜树碱及其衍生物的生物合成和化学合成成为了近年来研究的热点和难点问题。以往关于喜树中喜树碱生物合成方面的研究主要基于转录组,缺乏高质量的基因组序列和相关基因的鉴定,喜树碱合成通路及其起源进化尚不清楚,从而限制了高效人工生物合成喜树碱及其类似物。
为了解决这一问题,刘建全研究团队首先通过PacBio和HiC技术组装注释了高质量染色体级别的喜树基因组,在组装准确性、连续性和基因注释质量上均优于先前发表的基于Illumina平台的二代非染色体基因组版本,基因注释完整性也明显高于先前的无参转录组版本。接着进行了系统发育树构建,分化时间估计和全基因组加倍事件分析,结果显示:除了与葡萄共享的古老加倍事件,在约107百万年前与其它邻近类群分化之后,喜树在约70百万年前还经历了一次独立的全基因组复制事件。进一步分析表明。该全基因组复制事件和串联重复也是喜树中基因家族扩张的主要原因,扩张的基因家族中也包含一些与喜树碱合成相关的关键酶编码基因,例如7-脱氧葡萄糖酸 7-羟化酶(7-DLH),断马钱子酸合酶(SLAS)等,可能与喜树中喜树碱的高效合成有关。
为了进一步研究喜树中喜树碱生物合成通路的进化,研究人员首先基于基因功能注释和基因家族分析鉴定了更为完整的喜树碱合成相关候选基因集,包括可能与后续合成步骤相关的细胞色素P450(CYP450)酶家族编码基因及其亚家族分类。使用先前发表的多组织转录组数据计算了候选基因的表达量,并进行了共表达网络分析,结果显示与吲哚生物碱合成核心通路相关的酶编码基因具有相似的组织表达模式。与吲哚生物碱合成代表物种长春花(Catharanthus roseus)合成长春花碱/长春新碱的生物合成通路相比,两种途径都使用相似的酶生成复杂的中间有机分子,但在生成马钱苷酸(loganic acid)之后,两者出现了分歧。在长春花中,马钱苷酸(loganic acid)首先通过马钱苷酸甲基转移酶(LAMT)转化为马钱苷(loganin),进一步通过断马钱子苷合酶(SLS)生成断马钱子苷(secologanin),而喜树中马钱苷酸(loganic acid)直接被断马钱子酸合酶(SLAS)转化为断马钱子酸(Secologanic acid),出现这种差异的原因可能就是喜树中马钱苷酸甲基转移酶和断马钱子酸合酶编码基因出现了功能分化。
为了研究出现这种进化分歧的分子机制,研究人员首先模拟了喜树中马钱苷酸甲基转移酶的蛋白三维结构,与长春花的马钱苷酸甲基转移酶比较发现,喜树马钱苷酸甲基转移酶中特有的、与马钱苷酸结合相关关键位点的突变,可能导致结合相关氢键减少,无法稳定的结合底物。
为了验证这一点,研究人员针对这些位点进行了突变序列构建、酵母表达和酶活性实验测定,发现这些结合相关位点的突变确实会严重降低或者破坏马钱苷酸甲基转移酶的活性。另外,喜树中的两个断马钱子酸合酶在先前研究中被证明同时具有断马钱子苷合酶和断马钱子酸合酶的活性,结合与其他物种断马钱子苷合酶编码基因的序列比对和选择压力分析结果,发现可能是喜树的断马钱子酸合酶编码基因经历了较强的正选择,导致功能结构域中关键位点突变的结果,而两个断马钱子酸合酶之间的活性差异可能是由于全基因组复制之后的亚功能化导致的。因此,马钱苷酸甲基转移酶的功能差异和断马钱子酸合酶编码基因的正向进化共同导致了喜树中喜树碱的高效生物合成。
该研究揭示了喜树中喜树碱生物合成通路可能的分子进化机制,发现高质量基因组组装在识别新次级代谢物进化起源中的遗传变化具有十分关键的作用。高质量的通路相关候选基因集也为未来少步骤、低成本、高产量的人工生物合成提供了基础。
该研究主要在中国科学院先导计划,国家重点研发计划和国家自然科学基金等资助下完成。