KEGG(Kyoto Encyclopedia of Genes and Genomes)KEGG数据库是最常见、使用频率最高的数据库之一,它是一个整合了基因组、化学和系统功能信息的数据库。它由日本京都大学生物信息学中心的Kanehisa实验室于1995年建立,是国际最常用的生物信息数据库之一。KEGG将基因组信息和高一级的功能信息有机地结合起来,通过对细胞内已知生物学过程的计算机化处理和将现有的基因功能解释标准化,对基因的功能进行系统化的分析。KEGG具有用一个细胞内分子相互作用的网络将基因组中的一系列基因连接起来的功能。KEGG主要包含以下数据库:
为什么要用KEGG的代谢通路
KEGG提供的整合代谢途径(pathway)查询十分出色,包括碳水化合物、核苷、氨基酸等的代谢及有机物的生物降解,不仅提供了所有可能的代谢途径,而且对催化各步反应的酶进行了全面的注解,包含有氨基酸序列、PDB库的链接等等。KEGG是进行生物体内代谢分析、代谢网络研究的强有力工具。与其他数据库相比,KEGG 的一个显著特点就是具有强大的图形功能,它利用图形而不是繁缛的文字来介绍众多的代谢途径以及各途径之间的关系。
-
从功能出发,研究功能到通路到基因,迅速锁定某些功能的基因;
-
从基因出发,获得某个基因在信号通路中的角色(上下游关系)和生物学功能;
-
发现涉及通路的差异变化和功能分布;
-
形象的图形使我们直观地对某一个基因有了一个由点及面的印象。
KEGG代谢通路怎么看
在KEGG分析结果中,需要分清例如K01000和ko01000这样的编号的生物学意义:
-
K01000:由大写K+五位数字组成,对应的是KEGG数据库中某类蛋白的编号,即某些基因注释到了该蛋白,该编号代表着这一类功能的蛋白,一个基因对应一个这种大K编号;
-
ko01000:由小写的ko+五位数字组成,是pathway的编号,对应的是某一条代谢通路;一条通路里可以有多个基因共同参与调控,所以会存在多个大K编号,同样,一个基因也可以参与多个代谢通路,所以一个基因也可以有多个ko注释。
代谢通路中其它各种符号标识 :
-
M+ num:模块名称
-
C+ num:化合物名称
-
E-,-,-,-:酶名称
-
R + num : 反应名
-
RC+ num :反映类型
-
RP+num:反应物对
图例作用关系:
KEGG注释很是常见,几乎涉及到功能注释的项目都会有KEGG注释及富集分析。下一期我们将介绍如何绘制感兴趣的基因的KEGG代谢通路图。