[使用说明书] 霍乱弧菌的比较基因组学分析

[使用说明书] 健康人群与患者之间的呼吸道微生物比较
07/19/2017

[使用说明书] 霍乱弧菌的比较基因组学分析

欢迎!

使用介绍中一步一步介绍了EzBioCloud的全基因组比较 (comparative genomics)数据库(https://www.ezbiocloud.net/)的使用方法。为了更易于用户理解,使用广为人知的病原性微生物Vibrio cholerae cholera原菌)进行举例说明。

Vibrio cholerae

Vibrio cholerae是一种引起人类cholera的弧菌属细菌。Vibrio cholerae会引起一种烈性肠道传染病,发病急、如果感染后,未及时治疗,病死率高(详见WHO网站)。但并不是所有Vibrio cholerae带有病原菌,被感染者主要被含有cholera毒素(CTX)的菌株感染,CTX两种cholera基因(ctxActxB)编码,含有ctxAB基因的菌株被认为带有产生毒素的基因。有趣的是这个致命基因还存在于ctx bacteriophage(CTXφ)的病毒中,它主要通过横向基因转移的主要机制Temperate bacteriophage-mediated gene transfer来完成菌株间的传播。

Cholera 曾在亚洲和非洲广泛扩散,称为霍乱大流行(Cholera pandemic)霍乱大流行目前仍在发酵,第七期霍乱大流行是由 serotype O1 biovar El Tor (简称O1 El Tor) 克隆组菌株引起的,而第六期 Cholera 大流行是由 serotype O1 biovar Classical(O1 Classical)引起。改变的(Classical变为O1 ElTor)原因尚不明确,但有趣的是,现在再也找不到第六期 Cholera 大流行期间常见的O1 Classical菌株。

  • 开始使用介绍前,推荐您使用台式电脑安装MEGA Program 查看和编辑dendrogramphylogenic tree这将有助于提高报告质量,该软件支持MS WindowsMac OS X统;
  • https://www.ezbiocloud.net  http://www.ezbiocloud.net请账户;
  • 进入[MY LIBRARY]选择“Vibrio cholera tutorial set”

接下来,使用该Vibrio cholera tutorial set来了解EzBioCloud的全基因组比较分析的主要功能。

Vcholerae菌株目

StrainSerotype/BiotypePandemic
N16961O1 El Tor7th Pandemic
TSY216O1 El Tor7th Pandemic
IEC224O1 El Tor7th Pandemic
2010EL-1786O1 El Tor7th Pandemic
B33O1 El Tor7th Pandemic
MO10O1397th Pandemic
4260BO1397th Pandemic
O395O1 Classical6th Pandemic
ATCC 14035 (Type strain of the species)O1 Classical6th Pandemic
10432-62O27
1154-74O49
TM 11079-80O1 El Tor
LMA3984-4O1 El Tor
12129(1)O1 El Tor
HE39non-O1/non-O139
HE48non-O1/non-O139

快速浏览数据集

示例数据集包含16V. cholerae基因组,它们从临床和环境中分离,具有多种组合的抗原性、生物型、产毒菌株。

  • 选择[DATA SET][Genomes in This Data Set]查看各个菌株基因组的信息(=Metadata)EzBioCloud尽可能多的从公开数据库和论文中收集数据(metadata)

搜索单个基因组

如需搜索单一基因组数据,请打开EzBioCloud“Genome Explorer”。点[Open]钮(下方窗口截图中(a)指示位置),浏览MO10菌株的全基因组。该菌株是1992年在印度马德拉斯分离的血清型O139 Vibrio cholerae离株,它由27contigs组成,全基因组序列尚未完全确定。如果您想了解如何搜索单个基因组,请继续阅读Genome Explorer使用介绍。

Phylogenomic分析

进行全基因组比较(comparative genomics)分析,首先要仔细观察菌株间的系统学关系。通过观察可以知道哪些菌株间的关联更紧密。

  • 选择[Phylogenomics][OrthoANI]

OrthoANI是指两个全基因组序列之间,有效相似度测量。推断多个全基因组/菌株间的 phylogenetic 关系的最佳方法之一是使用OrthoANI值(一般为UPGMA)。

* 请注意,使用MEGA程序得到更多的信息(如下图)。可以确定,过去几十年间第6期和第7期流行性毒株造成人类大量死亡。

v_cholerae_orthoani
  • 选择[PHYLOGENOMICS][Tetra-nucleotide]
  • Tetra-nucleotide analysisTNA)利用全基因组序列中tetra-nucleotides频率进行分析,因此它不完全利用 phylogenetic统或实际序列对比。但它可以提供关于全基因组间如何相关的更多有价值的信息。下图为基于tetra-nucleotides成分,Vibrio cholerae菌株的UPGMA 类结果。

  1. 结果表明,该菌株的tetra-nucleotides频率组合与其他菌株完全不同。下面将找出其原因。

为什么该流行病毒会迅速扩散到了全世界?

大家可能最先想到如下问题:假设只有流行性毒株可能包含增强感染性和产毒的基因。那么流行性毒株会因为这些基因而淘汰自然界中其他的V. cholera菌株。先来一起确认这是否属实:

  • [PAN-GENOME][Identify Differentially Present POGs/Pathways]
  • 在中央面板选择包括第6期,第7期的所有大流行菌株, 将其移至左侧面板(Group#1)将其余菌株移动到右侧面板(Group #2)后,点[Fisher’s exact test]当研究者有足够个数的全基因组时,可以使用该统计学功能进行分析,全基因组数量不足时,可使用[Exclusive Or (XOR)]查找 POGs的存在。
after selecting DPG

EzBioCloud使用所有蛋白质编码基因(CDSs间的比较结果,生成“pan-genome”,包含不重复的CDSs组,又称pan-genome orthologous groups (POGs)

这提供两种输出:

  • Differentially present orthologous groups(DPG):查找两个全基因组间不同的基因。
  • Pathway enrichment:一旦发现这些同源组后,利用这些信息查找不同的KEGG 谢途径。

[Differentially present orthologous groups] 选项卡,生成以下图像。

  1. POG包含的CDS代表名称;
  2. 过费 Fisher’s exact test 得到的p-value数量越小差异越显著);
  3. 蓝色部分代表全基因组有该基因;
  4. 红色部分代表全基因组无该基因。

Fisher’s exact testp-value可以寻找差异最显著的基因,发现只有流行性毒株存在大量特异基因。其中需要关注的DPGsctxA, ctxB (cholera toxin编码基因)tcpA(编码pillin而同时管理毒素)这些基因可能对霍乱的病原性有重要的意义,因此可能找到了正确答案。那么,之前提到过是什么导致流行性毒株?的答案就是为这些菌株带有诱发流行性疾病的功能和很多与之密切相关的基因

接下来需要考虑的问题是流行性全基因组和非流行性全基因组间的功能(e.g. metabolic pathways)是否存在差异?。可以打[Pathway enrichment]选项卡查找答案。

p-value再次起到了核心作用。p-value小于0.05的四个最显著pathway:

  • Vibrio cholerae pathogenic cycle 与疾病相关);
  • Vibrio cholerae infection 与疾病相关);
  • Lipopolysaccharide biosynthesis 与血清型和抗原/免疫相关);
  • Pyruvate metabolism与代谢过程相关)。

除了 Pyruvate metabolism需要进一步研究以外,其他分析都具有明确的说服力。

菌株中共享多少个基因?

即使两个菌株是同种,也不会完全共享全部基因已是众所周知的事实。换句话说,即有些基因是共享的而有些不是。有时基因只存在于一个菌株而其他的没有。这些全基因组数据可以通过[Pan-genome][Venn Diagram]进行确认。

  • 选择4个基因组(N16961, TSY216, IEC2242010EL-1786),点[Draw]键。以下Venn 图片显示,这些菌株在全基因组序列水平上有很密切的联系 (OrthoANI值非常高)。如想确认其值,请到[Phylogenomics][OrthoANI]载包含ANI 值的CSV文件。
  1. 请标注TSY216e菌株有很多额外的基因。

结果显示4个菌株共享3,413个基因 (CDSs)100个基因只存在于单一基因组(singletons)。出乎意料的是,其中TSY216拥有其他全基因组所不具有的1034个基因。因为这些菌株在全基因组序列水平上非常相似,充分有理由相信这四个菌株共享同一祖先。有如此多额外基因的唯一解释就是细胞外部大规模的基因转移。在这里,该泰国分离株含有一个大约800,000 bp大小的巨型质粒 (Okada et al.,2015)

全基因组序列排序

全基因组之间的“Pairwise”排序可获得大量全基因组构成变化的信息。通过“Venn Diagram”分析可确定TSY216带有1153个额外的基因。现在查看该菌株和其他第7期的Vibrio cholerae 结构上的差异。

  • 请打开[PAIRWISE ANALYSIS][Whole genome alignment using NUCMER]
  • 选择“N16961”“Reference genome”
  • 选择TSY216“Query genome”后,点[Run]
  1. TSY216 额外DNA(巨大质粒) 参考全基因组N16961菌株没有任何相似性。
  2. 很明显,在TSY216种中存在的1,034个特异基因(上述提及)是巨大质粒(megaplasmid)。

基因的有/无分析

根据基因构成,可以使用不同的方法挖掘基因含量信息(表达为有/无基因)。在这里将对菌株之间的基因内容进行聚类分析,看看他们之间有什么关联。
  • 请选择[PAN-GENOME][Gene presence/absence analysis]

  1. 可以确定TSY216基因组含有大量只存在于该菌株的基因。因此,它在UPGMA树形图中作为离群值。

dendrogram与上图左侧的系统树一样没有展示基因含量信息。

  1. TSY216很多附加基因, 所以它在聚类分析中为离群值。

然而,如果只使用不同的基因(CDS)信息进行分析(去除singletons,例如TSY2161,034个特异基因)TSY216菌株的位置恢复成为正常值。

  1. 除了位于contig #3TSY216菌株中增加(巨大质粒)中的额外基因,TSY216与第7期大流行菌株的基因含量非常相近。

跟踪横向(侧面)基因转移

细菌世界里, 基因家族中的各成员紧密成簇排列成大串的重复单位,称为“gene cluster”“genomic island”。在全基因组查找它们的最佳方法是生成a pairwise gene content matrix。所以可以一一比(16X16组合) 题样本数据集中的16个菌株来识别直接同源。欲了解更多使用a pairwise approach查找直接同源的方法,请点击这里

下面将比较参考全基因组和除参考全基因组外的所有全基因组的基因含量,查看基因存在与否。先重点关注负责合成O抗原的全基因组区域,从而命名 O serotype

  1. 请点击 [Pairwise analysis][Browse Pairwise Ortholog Matrix]
  2. 选择“N16961”为参考全基因组,选择[RBH(Protein)] 算法。RBH表示‘Reciprocal Best Hit”(详情请点击这里)
  1. 选择N16961菌株作参考全基因组,点[Apply]
  2. 下拉ortholog matrix(热图)查找CDS GCF_000006745.1_00231。移动光标到CDS GCF_000006745.1_00231 提示工具将显示位置信息 (1:231:24514表示contig #1, feature #231, 它的位置在24514 bp)
  3. c.将光标移动到MOO139)中的GCF_000006745.1_00231 serotype O139)。将出现“23:89195”的工具提示,这意味着该基因位于 contig #23是在第345基因,位置89,195bp
  4. d.样的, 这些正方形代表菌株N16961“1:261:277002”基因。
  5. e.这一个正方形表示菌株MO10“23:382:131391”

该直接同源基质中, O1 serotype的全基因组与大部分基因共享。但是,O139 菌株(MO104260B显示大量的缺失基因/直接同源(红色和橙色标识)。 该区域(261-231; 正方形 d-b)共有30个基因。 相比起来,MO10的相对应区域多出37个基因(382-345;正方形e-c)。 然而,看不到MO10的基因组组织,在该基质中,N16961为参考全基因组。

现在,将MO10为参考,并调查MO10基因组中发生了什么。在上述基质中,可以注意到该区域的起始基因分别为 contig #3 345th基因。要确认这一点,将参考改为MO10,然后单击[Apply]。然后,向下浏览目标位置的同源基质。

现在,查看 serotype O139,特别是MO10contig #23 的位置在89195131391间的情况。将MO10设定为参考全基因后点击[Apply]。然后,向下浏览直系同源基质,查看目标区域。(查看“Contig #”“Location” contig #2323:89195 23:131391)。

在以下截图中,可以轻易的发现O1 serotypes 区域中插入了大量基因。由于O139菌株中的大多O1基因缺失,所以可以假O139中的该区域已被其他基因取代(通过缺失和插入)。

  1. .MO10为参考全基因组
  2. 大量基因只存在于O139菌株并代替了O1-specific的特殊位置。可以确定横向基因转移导致 serotype 发生了转化(O1O139 serotype)

查看这些基因的功能(参见[Product]栏),会发现许多基因赋予lipopolysaccharide biosynthesis

菌株(全基因组)或单一基因的phylogenetic历史

EzBioCloud CG务中,包含在该组中的所有基因/全基因组的CDSs被聚集成 non-redundant orthologous 请点击这里,查看如何生成泛基因组和核心基因组。下面一起来生成基于全基因组和单一基因的基础系统树。

与上图相同,下图为全基因组中编码O抗原部分的 “ortholog matrix” (参考=N16961 O1 El Tor)

  1. 菌株N16961为参考全基因组。
  2. 所有全基因组中都存在名为GCF_000006745.1_00227(基因名= VC0236 / waaFrfaF)的CDS

将该区域的这个基因命名为 VC0236 / waaF,rfaF 编码 ADP-heptose-LPS heptosyltransferase 2O lipopolysaccharide antigen所需)并绘制系统树。 16个全基因组中检索所有基因,请选择[PAN-GENOME][Browse Pan-genome Orthologous Groups (POGs)]即可看到整理为 pan-genome的所有全基因组。

  1. 请输入“waaF” 快速查找基因;
  2. 击数字部分,确认该POG16个基因信息。

现在看到的是在POG里包含的所有基因(被注释为waaF)页面。

[Download DNA]键,得到所有waaFDNA序列。如果您已安装MEGA program,可直接打 FASTA格式文件。通过多重序列比对和 phylogenetic分析,可以导出以下waaF基因的系统发育树(如果您使用的是MEGA7 版本, 请按以下步骤进行操作)

  1. 选择[Alignment][Align by ClustalW]运行多重序列比的默认选项;
  2. [Data][Phylogenetic analysis]动到”phylogenetic analysis”
  3. 选择MEGA窗口后,进入[Phylogeny][Construct Maximum Likelihood Tree]建立ML tree

图说明了菌株(全基因)和基因(该例中为waaF)间的系统差异(phylogeny)虽然这里没有太多细节,但是可以看到流行性菌株和waaF间没有横向基因移动。有趣的是, LMA3984-4(产毒的O1 El Tor菌株)在全基因组水平上互不相似,但在waaF水平上显示了较高的相似性。至少对于waaF基因,从编码 O-antigen合成的基因聚类的来源来说,大流行性菌株和LMA3984-4的祖先非常相近。

gene phylogeny3.PNG

结语

上述内容只是 EzBioCloud诸多功能中的一部分。EzBioCloud会陆续更新更具体的使用介绍和经典案例分析。Chun et al. (2009) 中,介绍了更详细的分析方法,欲了解更多全基因组比较和Vibrio cholerae内容请阅读以下论文。

参考文献

  1. Okada, K. et al. Characterization of 3 Megabase-Sized Circular Replicons from Vibrio cholerae. Emerg Infect Dis 21, 1262-1263 (2015).
  2. Chun, J. et al. Comparative genomics reveals mechanism for short-term and long-term clonal transitions in pandemic Vibrio cholerae. Proc Natl Acad Sci USA 106, 15442-15447 (2009).

责声明

本使用介绍由千宗湜教授(尔大学/ChunLab, Inc) Suyeon Hong (鲁大学)终修订于201772号。