不同的基因组轨迹早于动物和真菌的起源

   日期:2025-06-22     来源:本站    作者:admin    浏览:83    
核心提示:  我们对一系列培养基进行了测序,每种培养基包括四种感兴趣的物种之一(M. Vibrans,P。Atlantis,P。P. vietnamica和P. chil

  我们对一系列培养基进行了测序,每种培养基包括四种感兴趣的物种之一(M. Vibrans,P。Atlantis,P。P. vietnamica和P. chileana)。在ATCC(M. VibransTong。Atcc50519和Nuciasp。ATCC50694)购买了Vibrans和P. Atlantis(以前是Nucia sp。)的培养物。越越野疟原虫(以前为Opistho-1)和P. Chileana(以前是Opistho-2)从越南淡水湖中的环境分离株(越南越越南; P. chileanap。p.chileanap。12。正如预期的那样,起始文化包括不确定的污染物物种。特别是,vibrans和Atlantis的培养物包括细菌污染的不确定性多样性,而每种Pigoraptor物种的培养物还包括真核生物parabodo caudatus的污染。测序的宏基因组数据被提交给生物信息学去污管道,该管道由两到三轮检测和基于分类学和四核苷酸组成信息的污染物片段组成。对所有步骤进行了彻底的监督,以最大程度地从我们感兴趣的物种和去除污染物序列中保留真正的基因组片段。对污染的基因组进行注释,结合了基于RNA测序的BRAKER1 v1.9(参考文献34)和PASA v2.0.2(参考文献35)自动注释管道,其结果被处理以纠正错误的基因预测,这可能会导致错误的基因融合的选择。有关测序数据的性质以及衰减和基因组注释过程的详细说明,请参见补充信息1(请参阅补充信息1中的图1,有关摘要的例证)。

  构建了来自83种真核物种的1,463,920蛋白序列的数据集,Opisthokonta的59个(包括产生的四个基因组)和其他真核生物基团的24个数据集(包括draft_euk_db; draft_euk_db; dectionuk_db;参见补充表4)。使用BLASTP36 v2.5 [-seg yes,-soft_masking true,-evalue 1e-3]将蛋白质序列对齐全部。根据对齐的基础,将蛋白质聚集到Orthofinder37 v2.7 [-i 2]的正群(OGS)中。我们将OG视为基因家族的代理。矫形器生产的OGS使用Mapbos管道处理,以修复蛋白质结构域的异质性问题,这些问题会损害下游分析(有关此问题的讨论,请参见补充信息2,并解释了我们为纠正它而开发的算法的解释)。

  祖先基因的含量是通过基因树种对帐软件推断出来的。因此,我们需要为每个基因家族和整个真核生物超组的物种树重建一个系统发育树。物种树重建分析的结果可在补充信息3中获得。我们首先选择了> 77%的draft_euk_db分类单元中存在的342 OG,并且每个分类单元平均不超过1.16份。我们使用cos.pl和msa_set_score v2.02测量了342 OGS的对齐不稳定性,这些v2.02基于heads-or-tails近38,39,仅使这些OGS保持> 0.70均值列得分(MCS)。我们使用MAFFT40 v7.123b [-einsi]进行序列比对,trimal41 v1.4.4.4.4.4.4.4.Rev15 [-gappyout]使用MAFFT40 v7.123b [-einsi],使用MAFFT40 v7.123b [-einsi]手动策划了该过滤器的69个OG,使用iq-trimpappy Out和iq-trimee42 v1.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.6.7Modelfinder43用于模型选择。这69个OG中的三个被丢弃,因为拓扑与预期的物种拓扑存在强烈分歧。对于其余的66个OG(以下称为MCS70数据集),我们删除了其分支模式的序列,其分支模式表明它们很可能被错误地分类为OG成员。此外,要在每个OG中只保留每个分类单元的一个序列,对于核对案例,我们根据分支长度保持了最小的序列。我们从MCS70数据集中删除了总共630个序列,包括可能错误的OG成员和污染物序列。发现的大多数污染案例对应于Syssomonas Multiormis蛋白质组中的Stramenopiles污染,可能来自Spumella sp.12。然而,我们还检测到abeoforma whenleri的蛋白质组中的pirum gemmata污染,很少有来自sphaerothecum destruens sphaerophonus hoferi的hoferi,表明这些鱼皮孢子数据集之间的交叉污染问题。仍然, 这些污染的病例既没有影响系统发育推断,因为它们在筛选过程中被去除,也没有影响下游分析,因为这些物种仅用于物种树木的重建目的。

  我们创建了两个不同版本的MCS70数据集:第一个数据集,包括Holozoa(IndBroup)的所有序列,以及来自三个Holomycota分类群(Out -Group)(Holozoa MCS70)的所有序列,以及第二个数据集,包括Holomyoca(Ingroup)和三个Holomyoca(INGROUP)和三个Holozoa(三个Holozoa taga taga taga capsa)(Holozoa tuga(Outymomycota)的所有序列。An alignment supermatrix was created for each dataset, first aligning and trimming each OG per separate [MAFFT -einsi, trimAl -gappyout], and later concatenating the alignments into a supermatrix (Holozoa MCs70: 37 taxa, 17,475 sites and 9.27% of missing data; Holomycota MCs70: 28 taxa, 17,409 sites和7.81%的丢失数据)。我们使用ML和贝叶斯推断为两个MCS70数据集构建了系统发育树。ML推断是用智商进行的,为Holozoa和Holomycota MCS70数据集选择的模型分别为LG+C50+F+R7和LG+C30+F+R6。尽管Modelfinder建议对Holomycota MCS70使用C60(参考文献44),但我们使用了具有较少曲线的混合模型来避免潜在的模型过度拟合,因为一些优化的混合物估计接近零。ML树的节点支持由1,000个IQ-Tree Ultrafast Bootstrap Replicates(UFBOOT)和100个标准的非参数Bootstrap重复。在PMSF Model45下计算了非参数引导程序。我们使用先前推断的ML树作为指导树来推断混合物模型参数和特定于位点特定的频率轮廓,如IQ-Tree V1.6.7中实现。贝叶斯系统发育是在Phylobayes-MPI46 V1.8中的CAT+GTR+伽马(4)模型下完成的。Holozoa MCS70和Holomycota MCS70超级通用运行了两个链,并在Phylobayes-MPI软件包中使用BPCOMP和TRACECOMP程序评估了收敛性。当两部分频率中的链差异之间的最大差异低于0.1(燃烧33%)时,建立了共识树。我们还进行了三个其他分析(Supermatrix中的位置数量增加, 构图重新编码和最快发展的位点去除),以测试发现拓扑关系的稳健性(请参阅补充信息3)。

  在Mapbos处理步骤之前,我们将原核生物同源物纳入了簇。为了将核(和病毒)的同源物掺入簇中,我们首先使用Diamond47 v0.8.22.84 [ - 非常敏感的 - 敏感,-e 1e-05]使EUK_DB的所有真核生物序列对齐所有真核生物序列(包括drable_db of Drabtial 3 beet in Addression 3 beal in Addression 3 beatials in Addressight off Replatey tabiate in contressight offection 3)331,476个古细菌和20,955个来自Uniprot参考蛋白质组的病毒(发行2016_02; PROK_DB)(正向对准方法)。将PROK_DB的对齐序列与EUK_DB序列(反向比对方法)对齐。丢弃了查询和目标对准覆盖量低于75%的命中率,以及在给定PROK_DB查询的得分最高的EUK_DB目标的打击中,比最优秀的euk_db查询是一个prok_db序列的prok_db序列。在丢弃了无法满足这些条件的命中之后,我们仅将每个EUK_DB目标序列的得分最高的PROK_DB查询纳入簇中(也就是说,如果群集具有300个序列,并且所有这些序列的最佳得分查询,并且它们的得分最佳的查询是同一prok_db序列,则只有该序列将序列纳入序列,然后将其序列序列序列。在通过Mapbos管道处理之前,将PROK_DB序列纳入了Orthofinder -i 2簇(补充信息3)。在Mapbos之后,簇包含1,117,614个真核序列和58,017个非整形序列(分别来自细菌,古细菌和病毒的53,168、4,301和548)。所有这1,175,631个序列均分布在413,445个簇中,其中370,686个是单胎。在分类学水平上,在真核序列中,簇包括主要来自Opisthokonta(50种),但也包括来自其他主要真核基团的18位代表(EUK_DB数据集)。

  我们将每个后麦巴OGS(或簇)提交给基因树推理管道,包括使用mafft-linsi进行对齐步骤,三片[ - gypappyout]进行对齐的修剪和iq-Tree进行系统发育推理。特别是,使用LG+G4模型运行IQ-Tree,并针对每个基因树进行了1,000个优化的[-BNNI] UFBOOT重复。

  对于基因树种类对帐分析,我们使用了从ALE v0.4(https://github.com/ssolo/ale)中获得的Aleml_und。Aleml_unded需要为每个基因家族(在我们的情况下复制的UFBoot复制)和物种树的系统发育树分布。根据我们的分析,该物种树的Opisthokonta部分由最喜欢的拓扑组成,其中仅包括Opisthokonta分类群(补充信息3中的图1)。非opisthokonta分类单元之间的系统发育关系由当前可用的书目参考文献达成共识为48,49,50,51,51,52,52,53,54,55,56(在和解分析中包括所有EUK_DB物种)。对帐分析还纳入了非核序列(请参见上文),由于实际原因,该序列被分配给物种树中的同一末端节点(补充信息3中的图7中的“原核分子”)。仅具有转录组或不良基因组数据的真核生物被排除在和解分析(补充信息3中的图1中的灰色标记的真核生物)。请注意,由于以下原因,将转录组数据的包含在我们的研究中特别有问题:(1)转录组中的基因含量预测倾向于呈现膨胀的基因计数。例如,先前仅基于P. atlantis2和越野疟原虫和奇利亚疟原虫的转录组数据产生的蛋白质组织的蛋白质组织比我们从这些蛋白质组中预测到的蛋白质组织(29,620、46,018和37,783)更多的序列(29,620,46,018和37,783),其蛋白质组织与这些蛋白质组相比,这些蛋白质组织与这些蛋白质组相比,这些蛋白质组织与这些蛋白质组相比,这些蛋白质组与这些基因组序列相比,这些蛋白质组织(9,028,14,822和14,822和14,822)和14,822的基因组序列(甚至更好的完整性指标(补充信息1中的图23)。预计膨胀的基因计数将在对帐中产生过量的重复推断,而(2)未表达的基因可能会被基因丧失混淆。(3) 由于缺乏有关相邻基因,内含子序列或编码序列的组成特征的基因组上下文信息的缺乏,转录组更难进行净化,而(4)(4)(4)那些由部分同工型预测的序列预计将导致用于检测基因融合的软件的不准确性(见下文)。(5)准确的基因含量也很重要,因为使用的对帐软件(请参见上文)渗透了诸如基因复制和数据损失率之类的参数的值。

  我们使用CompositeSearch57来识别复合基因家族,即其蛋白质序列由馏分组成的基因家族(例如,蛋白质结构域),它们在其他成分,基因家族中分别找到。CompoSiteSearch要求作为输入全序列对齐,为此,我们使用了用于矫形器的相同的BLASTP结果(见上文),尽管除去了与draft_euk_db物种相对应的euk_db中未代表的draft_euk_db物种。在用作CompoSiteSearch的输入之前,将BLASTP结果与CleanBlastP(包括在CompoSiteSearch中)进行预处理,以仅保留所有涉及相同查询 - 目标对的所有命中率中最高得分的命中。CompoSiteSearch使用默认参数运行,并迫使软件[-f]在Mapbos Pipeline从Orthofinder处理的OG处理中工作。只有一个序列的家庭被丢弃为潜在组成部分[-y]。PROK_DB序列不包括在复合推断中,因为由于计算时间限制,使用钻石而不是BLASTP进行了Prok_DB和EUK_DB序列之间的比对。因为我们在基因家族水平(簇)上工作,所以我们仅将其视为那些将> 50%的成员视为复合序列的簇。其中包括48,066个集群,其中3229个不是单人。

  CompoSiteSearch将其作为复合序列在其序列的不同区域中与不同的序列(组件,来自其他OGS的组件)匹配的序列。融合事件可能导致复合序列,而不是所有被检测到的复合材料的序列必然起源于基因融合过程。例如,该软件发现的序列可以在给定的祖先谱系(基因X – domains a和b)中从头开始,然后在后代谱系中,该基因可以分为两个独立的基因(基因y – domain a – domain a and a和Gene z z – domain b)。在这种基因裂变的情况下,该软件将检测基因X作为复合材料,因为序列的某些部分将由基因Y(第一个成分)对齐,而另一部分则由基因Z(第二个成分)对齐。为了仅保留真正的融合复合序列,我们仅考虑了这些复合序列,其中将其所有组件推断为比复合材料具有更祖先的起源。这样做是为了最大程度地减少融合的假阳性推断,而牺牲了潜在的融合事件,例如,复合材料和组件都可能起源于系统发育的相同节点。

  使用PFAM A V29确定了EUK_DB序列和PROK_DB捕获序列的蛋白质结构域体系结构(见上文)。直系同源组功能类别(功能类别)和KEGG矫正组(KOS)59被注释到具有EUK_DB序列的EUK_DB序列,使用蛋Nog-mapper60 v1.0.0.3-3-g3e22728,使用钻石来使用diamond diamongents of the函数ASSbase(均为IT函数)(interional doctional at imational)(interional doctional at dotionality Ass)(均为不知情的功能)。信息)。一旦序列被注释,每个集群的功能类别和KO注释是通过平均相应群集成员的注释来确定的。例如,如果群集包含两个序列(SEQA和SEQB),并且用功能类别K和SEQB注释SEQA具有B和K功能类别的功能类别K和SEQB,则将群集注释为0.75k和0.25b和0.25b(0.5K(0.5K,来自SEQB的SEQA + 0.25K,来自SEQB,来自SEQB的0.25K)。

  从对帐分析(请参阅“基因树的推理与和解分析”),我们检索了系统发育中每个节点中每个OG的收益,损失和基因含量的数量。对于每个给定的节点,我们通过在节点中每个OG的副本数量与OGS功能信息中每个功能类别的每个函数类别的副本数之间跨越信息来确定所有功能类别的绝对表示。也这样做是为了确定每个节点的KO内容。每个节点的代谢基因的百分比是通过将KOS的代谢注释数除以节点中的基因总数(除了属于“代谢类别”的KO之外,属于“膜转运”类别的基因的总数也被认为是代谢基因)。每个节点中每个功能类别的相对表示是通过将节点中每个类别的绝对值除以节点中所有功能类别的绝对值之和的总和。功能类别和KO的收益和损失是通过将每个节点的内容与其紧接的节点的内容进行比较来确定的。

  统计分析是在Python中进行的,主要是使用PANDAS61和NOMPY62的库进行,或者在R中进行。所有描述性统计图(包括使用iTol63的系统发育树除外的那些除外的统计统计图)在R中进行了R,尤其是在R中进行的,尤其是在GGPLOT2 PAKSPAPPAPPAPPAPPAPPAPPAPPAPPAPPAPPAPPAPPAPPAPPAPPAPPAPPAPPAPS64中进行。Mann – Whitney U检验(单尾)是在Python的Scipy65(Scipy.stats.mannwhitneyu)进行的。下面详细介绍了更具体的统计分析。

  功能类别的相对基因组表示是组成数据(CODA)66的示例,其中每个列(功能类别)以相对分数表示,并且每个行的所有值的总和都是相同的(基因组)。由于没有正交性和共线性是Coda的属性,因此最常用的多元分析技术(例如主组件分析)是未对CODA分析的批准,并且建议将诸如对应分析之类的替代方案(例如,建议)改为66。使用FactoMiner软件包68在R67中进行了对应分析,并使用FactoExtra软件包69构建了图。

  对于内唑和真菌功能类别组成的分类器,我们对五个广泛使用的学习模型进行了基准测试:逻辑回归,k-nearest邻居分类器,支持矢量分类器,随机森林和人工神经网络,在每种情况下都使用五倍交叉销售的模型超级标准。总的来说,我们为每个学习模型生成了两个分类器:一个经过培训,可以区分后生动物的功能类别组成与Opisthokonta中的其他终端节点;另一个这样做,但对于真菌而不是后生动物。相对功能类别组合物不被用作训练模型的特征,因为它们之间的相关性。取而代之的是,对模型的相对功能类别组成的相对功能类别组成的分析进行了训练(对Opisthokont终端节点的相对功能类别组成(计算了相对组成)(计算了相对组成,不包括S“未知函数”类别,并在对通信分析进行通信分析之前首先进行列的“未知功能”类别,然后进行列范围的归一化)。一旦训练了模型,我们就计算了每个Opisthokont节点的属于给定类别的概率(metazoa或真菌,取决于模型),包括终端(用于模型训练)和内部(不用于模型训练)(请参阅补充表5中的值)。扩展数据中表示的概率图4D对应于从每个分类器中检索到的概率的加权平均值(不包括存在分歧的逻辑回归,并且显示出比其他分类器更差的预测)。权重以以下方式确定:对于每个节点,计算平均概率, 然后,我们计算了相对于该平均值的四个模型的方差。每个模型的重量对应于该模型的相对方差的倒数,除以四个模型的方差之和。该代码可在https://doi.org/10.6084/m9.figshare.13140191.V1('code.300322.zip中的'Fungimetazoa_predmodels')。我们期望预测因子可以很好地捕获基因组成分特征,例如,在metazoa的情况下,Trichoplax粘附剂(采样物种中表型复杂度最低)的动物是概率最低的节点(扩展数据图4D)。所有这些分析都是在Python中使用Sci-Kit Learn70,Tensorflow71和Keras72库中的包装进行的。

  有关研究设计的更多信息可在与本文有关的自然研究报告摘要中获得。

 
打赏
 
更多>同类资讯

推荐图文
推荐资讯
点击排行