发布日期:2025-01-04 15:55 点击次数:92
氮循环是重要的生物地球化学循环,过量氮素的滞留会导致水体富营养化,含氮污染物更是污水处理的主要对象,了解和调控氮循环途径对解决环境问题至关重要[1]。微生物体内氮代谢相关作用酶是驱动环境中氮素转化的重要因素[2]。编码这些酶活性亚基的基因称为微生物的功能基因[3]。基于功能基因的检测分析,能够更加深入、全面、细致地揭示环境中微生物的组成、多样性及功能[4]。近年来,随着基因测序技术的发展,基因序列数量迅速增长,各种类型的数据库被开发并应用到功能分析中[5]。然而,目前对不同基因数据库在氮循环功能基因注释中的应用情况提出理论性指导的研究少见报道。 本文详细阐述了由微生物引起的6种无机氮循环途径及其功能基因,并对比了目前最常用的全基因组数据库、结构域数据库和氮循环基因数据库的设计理念、功能特点及氮循环功能基因收录情况,最后以2018年以来引用率较高的52篇文献为样本,从环境介质、表征基因、分析方法和比对方法4个角度分析了研究人员在进行氮循环功能基因注释时,对微生物基因数据库的选择及应用方式,以期为研究人员更好地利用数据库平台解析氮循环基因家族提供一定的参考依据。 1 微生物基因数据库
1.1 全基因组数据库
在微生物测序分析中,常常需要对未知的核酸或蛋白质序列进行物种、功能和类别注释,其中最常用的方法是与一些标准数据库进行相似性搜索,即序列相似性比对。因此,数据库的优劣至关重要。常见的包含全基因组序列的核酸或蛋白质数据库如下:
1.1.1 National Center for Biotechnology Information (NCBI)
NCBI是目前最权威的生物信息分析平台,其下GenBank数据库每天与European Molecular Biology Laboratory (EMBL)和DNA Data Bank of Japan (DDBJ)交换数据,包含超过7万种生物体的序列,但存在注释错误、术语混乱和序列重复等问题[6];Reference Sequence (RefSeq)数据库经NCBI和其他组织校正,可信度较高,收集了超过5.5万种生物体的核酸序列及其蛋白质产物,多用于物种注释分析[7];Non-Redundant Protein Sequence (NR)数据库是非冗余蛋白质数据库,多用于蛋白质功能注释,其子集Nucleotide Sequence (NT)数据库是非冗余核酸数据库。Yu等[8]提出了一种从NCBI-NR数据库中构建局部子数据库的方法,可用于大型宏基因组数据集的快速相似性搜索和注释,并发现被Metagenome Analyzer (MEGAN)注释为氮循环中氨化作用、反硝化作用、硝化作用和固氮作用的序列共4 318条。Integrated Microbial Genomes (IMG)数据库基于NCBI-RefSeq整合了包含古菌、细菌、真核生物、质粒、病毒和细胞富集物等更为详细的基因组信息,仅细菌基因组数目已超过5万条,而且条目清晰、输出方便[9]。
1.1.2 Universal Protein (UniProt)数据库
UniProt数据库是收录信息最全面的非冗余蛋白质数据库,包含3个部分:(1) UniProt Knowledgebase (UniProtKB)可进行交叉引用与物种注释;(2) UniProt Reference Clusters (UniRef)可进行不同相似度序列搜索,并根据序列相似度分为UniRef100、UniRef90和UniRef50;(3) UniProt Archive (UniParc)可进行序列历史资料存储与查询[10-11]。其下Swiss Protein (Swiss-Prot)数据库经手工核对,提供每条序列的详细物种注释、实验结果和计算特征,但更新速度较慢;Translation from EMBL (TrEMBL)数据库是计算机注释的Swiss-Prot补充数据库,能够暂时储存日益增多的蛋白质结构信息[12];Protein Information Resource (PIR)数据库可帮助研究人员鉴别和解释蛋白质序列信息,研究分子进化、功能基因组等[13]。
1.1.3 其他数据库
Kyoto Encyclopedia of Genes and Genomes (KEGG)整合了基因组、化学和系统功能信息,具有非常详细的分类模块,能够让研究人员更直观地了解代谢途径;目前已收录超过60种氮循环表征基因,是研究人员绘制氮循环基因表达热图和重构代谢通路图的主要参考依据[14]。Encyclopedia of Metabolic Pathway (MetaCyc)数据库收录了1 400多条代谢途径和相关酶;Encyclopedia of Microbial Genome and Metabolic Pathway (BioCyc)数据库以MetaCyc为参考,提供了500多个生物体的全基因组序列和预测的代谢网络[15]。The SEED Project (SEED)数据库能够提供直系同源基因的准确注释,研究人员常用其下Rapid Annotation using Subsystem Technology (RAST)引擎注释基因组功能和发现新的代谢途径[16]。Message Digest Algorithm 5 Non-Redundant Protein (M5nr)数据库实现了多个数据库的序列共享,包含存储标识符、功能注释和分类信息等,使用户可以在短时间内看到数据的多种解释分析[17]。Similarity Matrix of Proteins (SIMAP)数据库可对蛋白质序列进行同源计算,预测蛋白质序列相似性,并提供专业的序列检索工具[18]。Gene Ontology (GO)数据库基于基因本体论从生物过程、分子功能和细胞组成3个方面对基因和基因产物进行分类注释,是宏转录组分析的常用数据库[19]。 1.2 结构域数据库
蛋白质结构域指较大的蛋白质分子中具有特异结构和独立功能的区域。这些结构域共同决定了一个基因转录的蛋白质分子的功能,具有相同蛋白质结构域的基因共同构成一个基因家族。因此,通过蛋白质结构域鉴别微生物功能基因序列更为准确。常见的结构域数据库如下: (1) Protein Families (Pfam)数据库整合了一系列蛋白质家族,每个蛋白家族均具有隐马尔可夫模型(hidden markov models,HMMs)的表示形式,常用于蛋白质功能结构域的查询和分析[20]。 (2) Functional Gene (FunGene)数据库利用HMMs分类,包含了近30种氮循环基因序列,但其存在冗余序列且一次只允许下载1万条序列,较为不便[21]。 (3) Clusters of Orthologous Groups (COG)/ Clusters of Orthologous Groups for Eukaryotic Complete Genomes (KOG)数据库是由NCBI开发的用于原核/真核生物同源蛋白注释的数据库,其对21种完整微生物基因组的编码蛋白进行了系统发育分类,能够提供直系同源物和旁系同源物的可靠分配,但缺陷是收录的直系同源基因组数量相对较少,仅有4 631个[22]。 (4) Evolutionary Genealogy of Genes: Non- supervised Orthologous Groups (EggNOG)数据库使用无监督聚类算法将COG数据库的直系图扩展到超过19万个直系同源基因组,有效改进了上述问题[23]。 (5) Simple Modular Architecture Research Tool (SMART)数据库是一种模块较为简化的在线搜索和分析平台,常用于蛋白质结构域识别和功能注释,其集成了许多蛋白质结构预测和功能分析的工具,可以预测蛋白质的一些二级结构[24]。 (6) The Institute for Genomic Research defined Protein Families (TIGRfam)数据库能够自动进行蛋白质功能结构域注释和基因组分类,可针对性地用于区分细菌和古菌[25]。 (7) Conserved Domain Database (CDD)是NCBI数据库中蛋白质结构域数据库镜像,收集了来自Pfam、COG、SMART和TIGRfam等数据库中的结构域信息[26]。 1.3 氮循环基因数据库
NCycDB数据库专门用于分析环境样品中氮循环相关基因,其手动整合了KEGG、UniProt、COG、EggNOG和SEED数据库,共收录了8个氮循环途径、68种氮循环基因的219 146条参考序列,鉴定了1 958组与氮循环编码蛋白具有相似结构域但不能参与氮循环的蛋白质同系物[27]。Zehr数据库针对性地整理了固氮基因nifH序列,2014年,Heller等[28]开发了一个半自动平台ARBitrator,可识别GenBank数据库中的nifH基因序列;2016年,Frank等[29]利用Classification and Regression Trees (CART)平台快速将nifH序列分类并明确定义其系统发育关系,后用此法定期更新Zehr数据库。此外,康奈尔大学也曾于2014年提供了一个人工检索和管理、用于研究固氮作用的nifH基因蛋白质数据库[30]。 综合上述最新研究结果,可将目前最常用的不同类型微生物基因数据库对比,如表 1所示。
2 主要氮循环途径及其功能基因
2.1 主要氮循环途径
2.1.1 硝酸盐还原作用
同化硝酸盐还原(assimilatory nitrogen reduction,ANRA)、异化硝酸盐还原(dissimilatory nitrogen reduction,DNRA)和反硝化(denitrification)作用均可还原NO3−,是废水处理中生物脱氮的重要途径。其中,ANRA和DNRA均可将NO3−还原为NH4+,但二者的功能基因并不相同,而且ANRA发生于有氧环境中,产生的NH4+被同化为氨基酸[31];DNRA发生于低氧或缺氧环境中,产生的NH4+既可为异化硝酸盐还原菌提供生长所需氮源,又可释放到胞外为其他细菌生长提供氮源[32]。反硝化作用可将NO3−完全还原为N2,发生于低氧或缺氧环境中,其第一步反应(NO3−→NO2−)的功能基因与DNRA相同,因此,反硝化菌与异化硝酸盐还原菌在生物脱氮体系中具有较强的竞争关系[33]。
2.1.2 固氮作用
固氮作用(nitrogen fixation)将大气中的N2 还原成NH4+后,可被微生物利用于合成各种含氮化合物,是生态系统中氮素的主要来源。蓝藻(Cyanobacteria)[34]和γ-变形菌(Gammaproteobacteria)[35]是主要的固氮微生物。因为与固氮作用其他功能基因相比,利用nifH基因序列与16S rRNA基因序列构建的系统发育树具有高度一致的进化表征特性,因此,研究人员常将nifH作为固氮作用的表征基因,检测环境中固氮微生物的种群结构及多样性[30]。
2.1.3 硝化作用
硝化作用(nitrification)可将NH4+氧化为NO3−,对生态系统生产力、营养物质循环和废水处理均起着至关重要的作用,其作用菌被称为氨氧化古菌(ammonia oxidizing archaea,AOA)、氨氧化细菌(ammonia oxidizing bacteria,AOB)和硝化细菌(nitrite oxidizing bacteria,NOB)。最新研究表明,AOA是大气PM2.5中氨氧化作用的主要原因[36],也是北极泥炭地高N2O排放的主要驱动力[37],因此,近年来有关AOA的研究不断增加。2006年,Costa等[38]预测存在可直接将NH4+氧化为NO3−的微生物,并将其命名为完全氨氧化细菌(complete ammonia oxidizer,Comammox)。2015年,3个科学团队分别发现3种经过富集的细菌(Candidatus Nitrospira nitrosa、Ca. N. nitrificans和Ca. N. inopinata)和1种未经过纯培养的细菌(Nitrospira sp.)均具备单独将氨氧化为硝酸盐的能力,使学术界对硝化作用过程有了新的认识[39-41]。
2.1.4 厌氧氨氧化作用
厌氧氨氧化作用(anaerobic ammonium oxidation,Anammox)可将NO2−和NH4+转化为N2,解决废水系统中高氨氮、低碳氮比的问题,是目前最为经济高效的生物脱氮途径,但厌氧氨氧化菌增殖缓慢,如何使之有效富集是工程技术的关键[42]。针对这一问题,研究人员发现相较于常规膨胀颗粒污泥床(expanded granular sludge blanket,EGSB)反应器,生物质载体膨胀颗粒污泥床(carrier expanded granular sludge blanket,CEGSB)反应器对氨氮和亚硝酸盐的去除率均达到90%以上,总脱氮率稳定在70%以上,不仅可以有效提高厌氧氨氧化菌丰度,而且Ca. Brocadia和Asahi BRW2还可在反应体系中共存[43]。此外,Keren等[44]发现DNRA在与成熟氨氧化细菌群落相关的基因组中非常普遍,而且当含有DNRA基因的细菌繁殖速率增加时,可与Brocadia sp.直接竞争氮源。Carreño等[45]发现Comammox虽然会生成厌氧氨氧化菌不想要的硝氮,但也能同时为其提供亚硝氮。 综上所述,环境中由微生物引起的6种无机氮循环途径主要包括:同化硝酸盐还原作用、异化硝酸盐还原作用、反硝化作用、固氮作用、硝化作用(包括完全氨氧化作用)和厌氧氨氧化作用。接下来,反硝化菌与异化硝酸盐还原菌[33]、异化硝酸盐还原菌与厌氧氨氧化菌[44]、Comammox与厌氧氨氧化菌[45]的互作关系,以及根据微生物间的互作关系有效解决环境工程问题、深入解析生物地球化学循环势必成为研究热点。因此,相较于qPCR、DNA指纹图谱和基因芯片等分子检测技术,采用微生物组学技术根据数据库平台解析氮循环功能基因、代谢通路、微生物种群结构及互作关系更为重要。 2.2 氮循环功能基因及其在数据库中的收录情况
2.2.1 统计方法及收录概况
本文根据KEGG和NCBI-RefSeq数据库中的氮循环途径,结合最新文献,详细收录了6种无机氮循环途径中50种功能基因的基因名称及注释信息。随后,利用关键词检索并统计了常用数据库KEGG、NCBI-NR、UniProt和NCycDB中所包含的对应功能基因的序列数量(相关基因序列来自https://github.com/EMBL-PKU/RP-N);同时,比对筛选出了每种功能基因的HMMs信息,具体情况如表 2所示。
(1) KEGG数据库(版本号93.0,2020年1月1日)线上网页中,对6种氮循环途径进行了单独分类,共收录相关功能基因41种,共计序列22 970条。KEGG基于同源基因具有相似功能的假设,将同源的所有基因归为一类,其中narG、narZ与nxrA为同源基因,narH、narY与nxrB为同源基因,narI与narV为同源基因,amoABC分别与甲烷氧化功能基因pmoABC为同源基因。 (2) NCBI-NR数据库(2019年2月14日)共计121.5 Gb,包含序列1.98亿条,可抽取得到氮循环功能基因48种,共计序列85 971条。显而易见,本地构建NCBI-NR数据库非常占用存储空间,而且氮循环基因序列仅占数据库序列总数的0.04%,用户比对分析时相当耗时。 (3) UniProt数据库(版本号2019_09,2019年10月16日)可利用基因名称检索并批量下载得到氮循环功能基因49种,共计序列213 500条,相较其他数据库,其收录基因数量和序列数量最多。 (4) NCycDB数据库(2019年7月29日)共计106.6 Mb,包含序列219 146条,可抽取得到相关功能基因44种,共计序列134 341条。由此可见,人工构建的氮循环基因数据库NCycDB相较于大型综合数据库更具有针对性,而且大大缩短了用户下载和比对的时间。 本文将从NCBI-NR、UniProt和NCycDB数据库中下载的氮循环功能基因序列合并去冗余后,与Pfam数据库比对得到各功能基因的HMMs信息。基于HMMER[46],发现各功能基因占比50%及以上的比对结果与KEGG和FunGene数据库中已给出的部分氮循环功能基因的HMMs信息相近,因此以50%为截止值筛选得出每种功能基因的HMMs信息。
2.2.2 氮循环各途径功能基因收录情况
根据表 2计算可知,从本文统计的4个常用数据库中所收录的无机氮循环各途径功能基因序列数量来看,同化硝酸盐还原作用中nasA、narB和nirA基因序列数量相对较多,占该途径所有基因序列总量的85.21%;异化硝酸盐还原作用中nirB、nirD和nrfA基因序列数量相对较多,占该途径所有基因序列总量的78.19%;反硝化作用中norB和nosZ基因序列数量相对较多,占该途径所有基因序列总量的96.61%;固氮作用中仅nifH基因序列数量就占该途径所有基因序列总量的78.75%;硝化作用中仅amoA基因序列数量就占该途径所有基因序列总量的96.89%;厌氧氨氧化作用中hzsA、hzsB和hzo基因序列数量相对较多,占该途径所有基因序列总量的93.79% (以上计算未包含同时作用于多种途径的功能基因,如narG等)。 narGHJI、narZYWV和napABC基因可同时作用于反硝化与异化硝酸盐还原作用的第一步反应(NO3−→NO2−),nirKS基因可同时作用于反硝化与厌氧氨氧化作用的第一步反应(NO2−→NO),上述多用途基因相较其他基因其存在更为普遍,因此数据库中收录的基因序列数量相对较多,如:在异化硝酸盐还原作用中,多用途基因序列占序列总量的59.67%;在反硝化作用中,多用途基因序列占序列总量的73.95%;在厌氧氨氧化作用中,多用途基因序列占序列总量的88.85%。考虑到多用途基因可同时表征多种作用途径,因此本文对多用途基因进行了单独分析:反硝化与异化硝酸盐还原作用的的第一步反应中,narG、narH和napA基因序列数量相对较多,占该途径所有基因序列总量的58.79%;反硝化与厌氧氨氧化作用的第一步反应中,nirS相较于nirK基因序列数量更多,占比57.04%。 3 数据库在氮循环基因注释中的选择及应用方式
氮循环普遍存在于海洋、废水、饮用水、林地、农田甚至动物肠道等多种环境中,本文利用搜索引擎NCBI PubMed、Google Scholar和ScienceDirect,设置关键词‘nitrogen’ and ‘gene (genome)’ and ‘database’ and ‘marine (ocean, sea, etc.)’ or ‘freshwater (river, lake, groundwater, etc.)’ or ‘wastewater’ or ‘reactor’ or ‘pond’ or ‘reservoir (drinking water)’ or ‘soil (land, forest, basin, grass, hillslope, riparian, farm, etc.)’ or ‘microorganism (algae, bacteria, archaea, etc.)’,检索汇总了2018年以来应用微生物基因数据库注释不同环境中氮循环功能基因的引用率较高的相关文献52篇,并根据文献内容从多种角度分析了在进行氮循环功能基因注释时,影响研究人员选择数据库的主要因素及数据库的具体应用方式。具体统计结果见图 1。
3.1 环境介质对数据库选择的影响
本文统计的环境介质主要包括:表层[47-51]、上层[52]、深层[53]和底层[54]等不同地理位置和深度范围,以及低氧[55]、缺氧[56]和氨氧过度区[57]等不同氨氧含量的海洋/河流/湖泊的水体及沉积物[58-63];污水处理厂[64-68]和实验室反应器[69-74]等废水处理系统;养殖场[75-76]、池塘[77-78]、人工湿地[79]、地下水[80]和饮用水[81]等其他水体;林地[82-83]、湿地[84]、盆地[85]、草原[86]、山区[87]和农田[88-90]等土壤环境;菲律宾蛤仔(Ruditapes
philippinarum)[91]、分化龟蚁(Cephalotes varians)[92]、藻类[93-96]、细菌和古菌[97-98]等动物及微生物体内。根据图 1A可知,研究人员在注释不同环境介质中氮循环功能基因时所比对的数据库并无规律可循,因此,环境介质对数据库选择无显著影响。 3.2 表征基因对数据库选择的影响
根据图 1B可知,narB、nirA和nasA基因多用于表征同化硝酸盐还原作用,nrfA和nirB基因多用于表征异化硝酸盐还原作用,nosZ、norB和多用途基因nirK、narG多用于表征反硝化作用,nifH基因多用于表征固氮作用,amoA和hao基因多用于表征硝化作用,hzsA基因多用于表征厌氧氨氧化作用。值得注意的是,氨氧化菌中的hao基因[99]与厌氧氨氧化菌中的hdh基因都是八面体血红素羟胺氧化还原酶(octaheme hydroxylamine oxidoreductase)的同系物[100],因此hao有时被同时用于表征好氧和厌氧细菌的氨氧化作用[60, 65, 71, 75]。 当研究人员利用nifH基因专注于分析固氮作用时,通常会用到FunGene、Zehr或康奈尔大学的nifH基因数据库[48-49, 52, 82]。当研究人员利用amoA基因表征硝化作用的AOB和Comammox时,考虑到目前数据库未对两种作用菌的基因序列明确分类,通常选择自行补充下载最新报道的Comammox基因组序列,或结合FunGene数据库中的HMMs区分两种作用菌[66, 68, 89]。当研究人员同时分析多种氮循环途径时,数据库的选择不受各途径表征基因的影响,反而表征基因的选择往往与数据库收录基因情况相关[54, 74, 80, 98]。根据表 2和图 1B可知,研究人员在选择氮循环各途径表征基因时主要依据KEGG数据库,因为KEGG数据库中未收录的narC、nrfBCD、napC和nifW基因,在所有文献中均没有被用于表征氮循环作用。 3.3 分析方法对数据库选择的影响
本文汇总的52篇文献中,研究人员所采用的分析方法主要包括:16S/18S rRNA基因、宏基因组和宏转录组分析。其中,24篇文献同时提取了微生物16S/18S rRNA基因序列和全基因组DNA序列,先利用16S/18S rRNA基因分析进行序列分类、系统发育和种群结构分析,再通过宏基因组分析进行物种/功能基因注释和代谢途径分析;15篇文献仅利用宏基因组分析进行功能基因注释、代谢途径和物种多样性分析;10篇提取了微生物全基因组RNA序列,利用宏转录组分析或同时结合3种分析方法深入解析了微生物在特定环境或时期的基因表达情况。以上文献均采用了高通量测序(包括16S/18S rRNA基因测序、宏基因组鸟枪测序和宏转录组测序)技术,根据序列长度、碱基质量、错配率、基因组完整度和污染度等条件过滤数据。此外,还有3篇文献提取了微生物功能基因的PCR产物,根据克隆文库测序结果,结合16S rRNA基因或宏基因组分析注释功能基因[59-60, 66]。 值得注意的是,Phylogenetic Investigation of Communities by Reconstruction of Unobserved States (PICRUSt)能够扩展16S rRNA基因分析功能,基于操作分类单元(operational taxonomic units,OTU)表预测细菌宏基因组的功能基因组成[101]。如:Lai等[64]根据16S rRNA基因测序数据,分析了污水处理厂3个渗滤阶段脱氮相关的微生物组成和功能基因丰度变化,基于Greengenes数据库创建参考序列OTU表,利用PICRUSt将OTU表转换为KEGG直系同源基因信息表,获取氮循环功能基因相对丰度。由于Greengenes数据库更新于2013年,而且PICRUSt无法预测Greengenes数据库中没有同源参考基因组序列的物种,因此该方法虽有一定意义,但存在很大局限性和不确定性,无法与真正的宏基因组分析相提并论[101]。 根据52篇文献统计可知,16S/18S rRNA基因分析比对的数据库主要包括SILVA和Greengenes;宏基因组分析比对的数据库主要包括KEGG、NCBI、UniProt、IMG、FunGene、Pfam、COG和EggNOG;宏转录组分析比对的数据库主要包括KEGG、NCBI、Swiss-Prot、COG、GO和Pfam。虽然不同分析方法比对的数据库有所不同,但采用一种分析方法或多种分析方法,对数据库的选择并无显著影响,并且所有文献均利用宏基因组或宏转录组方法进行氮循环功能基因的注释,两种方法所用数据库基本相同。 3.4 比对方法对数据库选择的影响
研究人员在进行氮循环功能基因注释时,采用的比对方法主要分为:序列相似性比对和蛋白质结构域比对,不同比对方法使用的微生物基因数据库类型不同。
3.4.1 序列相似性比对
根据图 1A可知,KEGG和NCBI数据库在52篇文献中的使用率分别达到75%和59.62%,是研究人员进行序列相似性比对的首选;在NCBI子数据库中NR数据库应用最广,占比为54.84%。考虑到综合数据库中存在未经筛选的基因序列和错误的注释信息,仅使用一种数据库注释氮循环功能基因易产生许多错误信息,76.92%的研究人员同时使用了几种综合数据库对基因组序列进行基因预测和注释,或结合特定功能类型的基因数据库进行比对注释。如:Zhou等[47]同时使用KEGG、COG、SEED和NCBI-NR数据库进行氮循环功能基因注释,探究了海洋链状裸甲藻(Gymnodinium catenatum)赤潮过程中藻际微生物的功能特征。Hu等[92]为证实分化龟蚁肠道共生体细菌能否为宿主固氮,先利用NCBI-NR数据库进行基因分类注释,再根据KEGG和MetaCyc数据库手动构建了分化龟蚁体内氮降解和氨基酸合成途径。Li等[50]为分析浅水生态系统中微生物对碳、硫和氮循环的介导作用,首先将基因组序列与NCBI-NR和KEGG数据库进行相似性比对完成基因功能注释,而未注释的序列,则通过与EggNOG、碳水化合物活性酶(carbohydrate active enzyme)和抗生素抗性基因(antibiotic resistance genes)等特定功能类型数据库比对以获取更多信息。 此外,研究人员有时先筛选出属于氮循环的功能基因,再进行详细的物种和基因注释。如:Black等[61]为得出密西西比河上游沉积物中贻贝(Unionoida)聚集对氮循环基因丰度和组成的影响,首先根据ChocoPhlAn泛基因组数据库比对结果,快速注释泛微生物基因组的功能信息,随后利用MetaCyc和KEGG数据库中氮代谢功能模块注释代谢通路信息;对于确定在氮代谢通路中具有丰度差异的功能基因,利用NCBI-RefSeq数据库比对判定其起源物种,而NCBI-RefSeq中未明确分类的amoA基因,则通过与IMG数据库中参考序列的多序列比对,判定其属于AOB还是Comammox。
3-4-2 蛋白质结构域比对
根据图 1A可知,36.54%的研究人员在序列相似性比对的基础上,结合HMMs进行蛋白质结构域的比对分析。其中,FunGene和Pfam数据库在氮循环功能结构域比对上应用最广。蛋白质结构域比对的具体应用情境如下: (1) 在序列相似性比对注释功能基因前,先使用HMMs筛选基因组序列。如:Diamond等[86]为解析地中海草原土壤生态系统中土壤深浅和降雨量等对未知基因组微生物特征的影响,根据UniProt数据库自定义了HMMs,筛选得到10 158个核糖体蛋白(ribosomal protein,rp) S3序列,随后根据KEGG数据库对rpS3序列进行识别、聚类和多样性分析。 (2) 区分真核、原核和古细菌的基因序列。如:Lavy等[87]使用86个已发表的HMMs和KEGG数据库中KofamKOALA工具,鉴定了真核、原核和古细菌rpS3蛋白序列,并分别注释了山坡-河岸带土壤微生物中参与碳、氮和硫循环的基因。Orellana等[89]在UniProt数据库中抽取得到了古菌和细菌的amoA、hao、nxrA、narG、nirK、nirS、norB、nosZ和nrfA基因序列,并利用FunGene数据库的HMMs进一步检验氮循环序列,分析了不同排水特性土壤对氮肥的响应情况。 (3) 鉴定综合数据库中未收录的功能基因类别。如:Haas等[54]将鲍威尔湖冰期以来海底各层地质微生物的宏基因组数据集,与KEGG数据库比对计算氮循环相关功能基因丰度,而KEGG数据库中未包含的基因,则利用FunGene和UniProt数据库中的HMMs检索鉴定,最终发现了高铵浓度下的固氮作用和化变层潜在的微需氧硝化作用。
3.4.3 基因数据库的重构
根据图 1A可知,19.23%的研究人员在单独或结合使用上述两种比对方法的基础上,重新构建数据库以便于更好地分析研究。研究人员重构基因数据库的一般步骤为:首先在综合数据库中下载目标基因的参考序列,随后通过同一性聚类去除冗余序列,最后构建系统发育树筛选所需序列。如:Yang等[65]先从NCBI和UniProtKB/ Swiss-Prot数据库中下载了氮循环相关的所有氨基酸序列,随后使用USEARCH以80%的同一性对所有序列聚类,通过IQ-TREE进行系统发育分析,并与NCBI-RefSeq数据库比对进一步鉴定序列功能,最后用确定属于氮循环功能基因的序列重新构建数据库,以准确分析污水处理厂在直接接种外源Anammox颗粒后的脱氮过程。 在重构基因数据库时,研究人员往往先使用HMMs过滤下载的相关蛋白质序列,以确保数据库的准确性。因此,FunGene数据库是研究人员参考的首选,因为其具有明确的氮循环功能基因分类和蛋白质结构域信息。对于氮循环中唯一具有针对性数据库的固氮作用基因nifH,研究人员在重构数据库时均使用了Zehr等数据库中的参考序列;对于其他无针对性数据库的基因(近两年以Comammox的amoA基因为主),研究人员则根据最新报道补充添加相关的基因组序列。如:Cardenas等[82]为探究北美森林生态圈采伐过程中有机物去除对氮循环基因相对丰度的影响,在康奈尔大学的nifH基因数据库和NCBI-GenBank数据库中检索下载了氮循环相关蛋白质序列,并根据FunGene数据库中的HMMs拟合过滤古菌和细菌的amoA基因序列,自定义了代表固氮(nifH)、硝化(古菌和细菌amoA)、反硝化(nirK、nirS、norB和nosZ)和异化硝酸盐还原作用(nrfA)的氮循环关键酶基因数据库。Salazar等[49]为探究nifH基因的生物地理分布,利用FunGene和Zehr数据库中的nifH基因序列,以及Farnelid数据库中的表层海洋nifH基因扩增子序列重构固氮基因数据库,将海洋微生物参考基因集(Ocean Microbial Reference Gene Catalog,OM-RGC.v2)中检测得到的24个nifH基因序列与之比对,以重新注释编码nifH物种的相对基因和转录丰度。Wang等[66]为比较硝化作用活跃的污水处理厂中AOB和Comammox的基因丰度,利用已报道的4个全长的Comammox amoA基因序列与NCBI-NR数据库比对后,下载相似度较高的基因序列,并以99.5%的同一性聚类,将去冗余后的序列与FunGene数据库中变形杆菌(Proteobacterial)的代表性amoA和pmoA基因序列构建系统发育树,仅保留在Comammox amoA谱系内的序列构建Comammox基因数据库。 4 总结与展望
目前,已有大量研究人员通过检测氮循环功能基因的丰度和多样性,分析微生物氮代谢过程中的菌群结构和互作关系。随着基因测序技术的发展,环境中重要功能基因序列数量迅速增长,蛋白质功能结构域的比对受到广泛关注[49, 77, 87]。虽然已存在多种不同功能的综合数据库,但大多都有数据量过大、不便于按功能搜索、不利于本地构建和无法实现比对结果可视化的问题。NCycDB等小型氮循环基因数据库近年来才有所构建,而且大多无法自动更新,不具备线上比对、物种注释等功能。根据本文统计结果可知,UniProt数据库相较其他数据库,收录氮循环功能基因数量和序列数量最多。根据2018−2020年52篇文献中研究人员进行氮循环功能基因注释时对数据库的选择和应用方式可知: (1) 环境介质、表征基因对研究人员选择数据库无显著影响,KEGG数据库反而是研究人员选择氮循环各途径表征基因的主要依据。 (2) 采用一种或多种分析方法对研究人员选择数据库无显著影响。研究人员多采用宏基因组或宏转录组方法进行氮循环功能基因注释,两种方法所用数据库主要包括:KEGG、NCBI、UniProt、Pfam、FunGene、COG和EggNOG。 (3) 比对方法是影响研究人员选择数据库的主要因素。KEGG和NCBI数据库是研究人员进行序列相似性比对的首选,FunGene和Pfam数据库在蛋白质结构域比对时应用最广。综合数据库中存在未经筛选的基因序列和错误的注释信息,用其注释氮循环功能基因易产生许多错误信息。对此,研究人员应用数据库时的解决方法为:1)在序列相似性比对时,结合使用几种综合数据库或特定功能类型的数据库;2)在序列相似性比对的基础上,结合使用蛋白质结构域比对,预筛选基因组序列、判定数据库中未收录基因的类别和鉴别真核、原核及古细菌基因序列等;3)在单独或结合使用上述两种比对方法的基础上,根据FunGene、Zehr和最新报道的基因组序列重构数据库。 由于微生物基因数据库会不断更新,本文的统计结果和所得结论均限于2020年2月以前的各数据库收录情况。接下来,各大综合数据库在收录基因信息和进行自动注释时,应将序列相似性比对和蛋白质结构域比对更有效地结合,并将目前硝化作用中未明确分类的AOB和Comammox基因序列详细区分。此外,建立一个自动化、可视化的专注于研究氮循环功能基因的数据库平台势在必行,这将对预测环境工程系统中菌间关系,调控和解决氮环境污染起到至关重要的作用。
上一篇:PCL泊松盘采样具体流程
下一篇:MOLI万站,正式上线