水百合基因组和开花植物的早期演变

   日期:2025-06-23     来源:本站    作者:admin    浏览:71    
核心提示:  从幼叶中提取了基因组测序的总DNA。从18种水的种类中提取叶片RNA:N。Colorata,Euryale Ferox,Brasenia Schreberi,Victor

  从幼叶中提取了基因组测序的总DNA。从18种水的种类中提取叶片RNA:N。Colorata,Euryale Ferox,Brasenia Schreberi,Victoria Cruziana,Mexicana,Nymphaea prolifera,Nymphaea Tetragona,Nymphaea tetragona,Nymphaea Potamoblila,Nymphaea caerulea,Nymphaaea obhaa''nymphaa''''''''''''''''''''''''''''''''''''''''''“ Choolarp”,Nymphaea“ Paramee”,Nymphaea“ Woods Blue女神”,Nymphaea Gigantea'Albert de Lestang',N。Gigantea'Hybrid I’,Nymphaea'thong Garnjana'和Nuphar Lutea。另外,对于转录组测序,我们采样了来自n乳杆菌的几个器官和组织,包括成熟的叶子,成熟的叶扇,幼体花,幼体叶,少年叶茎,皮肤,雄蕊,坟墓,塞帕尔,花瓣和根。

  对于PACBIO测序,我们准备了大约20 kb的SMRTBELL库。在PACBIO RSII系统中,总共有34个SMRT细胞和49.8 GB数据,其中有550万个读取。使用Illumina平台对所有转录组库进行了测序,并生成配对末端读取。对于HI-C测序和脚手架,由N. Colorata的嫩叶创建了HI-C库。简而言之,将叶子用甲醛和裂解固定,然后用MBOI消化交联的DNA过夜。粘性末端是生物素化的,并结合近端形成嵌合结,它们在物理上剪切并富含500-700 bp的尺寸。然后将代表原始交联长距离物理相互作用的嵌合片段处理成配对的测序库和3.46亿150 bp配对末端读数,这些读数是在Illumina平台上测序的。

  为了组装由550万读的49.8 GB数据,我们过滤了读取以去除细胞器DNA,质量差或短长度以及嵌合体的读取。使用CANU Package22在完整的PACBIO长读取上进行重叠级组件。CANU v.1.3用于自校正和组装。然后,我们使用Arrow(https://github.com/pacificbiosciences/genomicconsensus)抛光了组装草案。为了提高议会的准确性,招募了Illumina简短读数,以进一步抛光PILON计划(https://github.com/baradinstitute/pilon)。基因组组装质量是使用BUSCO(基准的通用单拷贝直系同源物)测量的23 v.3.0。来自Hi-C的配对末端读数唯一地映射到草稿组件重叠群上,该重叠群被分组为染色体并使用软件Lachesis(https://github.com/shendurelab/lachesis)进行了脚手架。

  Genscan(http://genes.mit.edu/genscan.html)和Augustus24用于通过拟南芥训练的基因模型参数进行从头预测。此外,使用Maker25从头预测基因模型。然后,我们通过将制造商结果与相应的转录证据与选择基于AED度量最一致的基因模型进行比较来评估基因。

  基于Orthofinder26结果鉴定LCN基因。直系同源物是从六个单子叶植物(Spirodela polyrhiza,Zostera Marina,Musa acuminata,Ananas comosus,sorghum bicolor和Oryza sativa)和六个Eudicot(Nelumbo nucifera,nelumbo nucifera,vitis vis vinifera,vitis vinifera,vitis vinifera,populus vingrus trichocarocarian and solis solum and solanum and solanum and beta and beta and beta and beta anda and beta,Colorata,Amborella和Gymnosperms G. Biloba,P。Abies和P. Taeda。LCN基因需要满足以下要求:在N. Colorata,Amborella,G。Biloba,P。Abies或P. Taeda中严格单拷贝,以及至少12个Eudicots或Monocots中的五个。我们分别以G. biloba,P。abies或P. taeda为外部,我们分别确定了2,169、1,535和1,515直源LCN基因。此外,我们修剪了覆盖范围不到90%的地点。使用RAXML v.7.7.8从其余位点估算LCN基因树,使用核苷酸序列的GTR+G+I模型(图1C)和氨基酸序列的JTT+G+I模型(补充注释4.1)。为了说明谱系分类和不同的替代率,我们分别应用了多种聚集模型和Supermatrix方法,并将其应用于LCN基因,并为Amborella与所有其他现有开花植物之间的姐妹关系提供了进一步的支持(补充注释4.2)。

  我们进一步仔细选择了115种物种的五个LCN基因集(1,167、834、683、602和445),并应用了Supermatrix Method27,28,29和多物种合并模型来推断鼠尾草的系统发育(补充注释4.2)。从1,167个LCN基因推断出的系统发育如图1D所示,其其他四个LCN基因集的多种物种合并分析的支持值不同。

  为了估计被子植物的进化时间尺度,我们使用21种基于化石的年龄约束7校准了放松的分子时钟,包括与Eudicots30相关的最早的化石三媒体花粉(约125 mA)。我们串联了101个选定的基因(205,185个地点),并将树拓扑固定为从基于我们对115个分类单元的1,167个基因的基于合并的分析推断出的树木拓扑。我们对McMctree中的101个选定基因(PAML Package31,32的一部分)进行了贝叶斯系统基因年期分析,并使用了分支长度33的近似似然计算。使用分子速率变化,GTR替代模型和相对节点时间的均匀先验的自动相关模型进行分子约会。使用马尔可夫链蒙特卡洛采样估算了节点年龄的后验分布,在燃烧500,000步后,每250步超过1000万步。我们通过重复运行分析并检查了足够的抽样,从而检查了收敛性。

  我们还使用Treepl34和R8S35在可变替代率下实施了惩罚的可能性方法,因为在所有情况下,通过PAUP36中的可能比率测试,拒绝了整个系统发育树的恒定取代率(P <0.01)。在我们受到惩罚的可能性约会分析中,实施了三个对应于Lamiales,Corlales和Laures冠群的化石校准,除了最早的三氯酸酯花粉粒(约125 MA)30的外观以确定冠军的年龄。我们通过执行从0.01到10,000的一系列光滑参数的交叉验证(algorithm = tn; crossv = yes; cvstart = -2; cvinc = -2; cvinc = 0.5; cvnum = 15; cvnum = 15)。我们使用了100个由RAXML37产生的分支长度的自举树来推断年龄估计的95%置信区间(补充注释4.2)。

  使用大型基因组比对工具(最后; http://last.cbrc.jp/)将Colorata基因组与其他每个基因组进行比较。我们使用最后一个命中定义了同步块,其距离为20个基因,除了两个保留的同源对,其中至少需要连续四个连续的保留同源对。然后,我们获得了一对一的块,以使用配额-Align38排除古代重复块。

  如先前所述39,基于KS的旁程年龄分布构建。简而言之,通过使用BLASTP进行全蛋白序列相似性搜索,使用E-Value截止值为10-10来构建偏执圈,然后使用MCLBLASTLINE管道(V.10-201)(Micans.org/mcl)构建基因家族。使用肌肉(v.3.8.31)40对齐每个基因家族,并且使用PAML软件包(v.4.4c)31中的CodEML Program41中的最大可能性获得了基因家族中所有成对比较的KS估计值。然后,我们将基因家族细分为亚家族,其中KS估计成员之间的估计不超过5。

  为了纠正KS值的冗余(n个成员的基因家族对N -1的n -1保留重复事件产生n(n -1)/2成对KS估计值),我们使用默认设置使用PHYML42推断了每个亚家族的系统发育树。对于所得的系统发育树中的每个重复节点,将两个子进化枝之间的所有M KS估计值添加到KS分布中,重量为1/m(其中m是重复事件的KS估计值的数量),以便所有KS估计的重量估计值的单个重复事件的所有ks估计值总计为一个。使用I-Adhore(v.3.0)检测到来自N. n. colorata的重复的共线段(锚定)中的寄生基因对,其中'Level_2_only = true = true'43,44。假定已确定的锚点对与最新的WGD事件相对应。

  基于KS的直系同龄年龄分布是通过使用默认设置的Inparanoid45识别物种之间的一对一直系同源物来构建的,然后使用上述CODEML程序进行KS估算。使用N. Colorata和V. Cruziana,N。Advena,C。Caroliniana,I。Henryi和Amborella之间的一对一直系同源物的KS分布来比较N. Colorata中WGD的相对时机与Nymphaeales中的物种事件。亨利(N. Lutea),梅西纳(N.使用V. vinifera和Amborella作为外部物种而不是I. Henryi的其他比较给出了类似的结果(数据未显示)。

  如先前所述46,在n。简而言之,收集了位于WGD峰(基于峰值的重复)下的重复段(锚定)(锚定对)的寄生基因对(锚定对)和重复的对,以进行系统发育约会。我们选择了存在于N. Colorata WGD峰下的锚定对和基于峰值的重复物,并且KS值在0.7至1.2之间(扩展数据中的灰色阴影区域图2B)进行绝对日期。对于每条WGD寄生双对,创建了一个正式群,其中包括两个旁系同源物以及其他植物物种的几个直系同源物,使用了inparanoid45确定的几个植物物种,使用广泛的分类学取样:一个来自rosales的代表性直系同源物,两个来自Rosales,两个来自Malpighiales,两个来自Brapighiales的Farbales,两个来自MalpighiaLes,来自Brassicles,comerans,来自Brassicles,来自Brassicles solan,来自Brassicles solans and brassical solan,comeran solvials solvials solviles,cosulanes of brassicles,cosulanes of cucurbitales。Poaceae (Poales), one from A. comosus47 (Bromeliaceae, Poales), one from either M. acuminata48 (Zingiberales) or Phoenix dactylifera49 (Arecales), one from the Asparagales (from Asparagus officinalis50, Apostasia shenzhenica46, or Phalaenopsis equestris51), one from theAlismatales(来自S. polyrhiza52或Z. Marina53),一个来自Amborella,一个来自G. biloba54。总共收集了基于锚点对和142个基于峰值的重复项的217个正群。

  然后在不相关的放松锁定模型和具有四个站点速率类别的LG+G模型下使用Beast V1.7 Package 55加入N. Colorata的两个WGD旁边的节点。根据共识APG IV系统发育1,创建了满足所有化石先验约束的分支长度的起始树。在以下节点上使用对数正态校准先验实施了化石校准:基于化石dressiantha bicarpellata56的节点结合了malvidae,而先前偏移= 82.8,平均值= 3.8528和s.d.= 0.557;基于化石古鲁西亚chevalieri58与Fabidae统一的节点具有先验偏移= 82.8,平均值= 3.9314和S.D.= 0.559;基于化石liliacidites60的非alismasatalanean单子叶植物的节点与先验偏移= 93.0,平均值= 3.5458和S.D.= 0.561;基于化石记录中Eudicot Tricolpate花粉的突然丰富外观,将N. colorata WGD旁系同源物与Eudicots和Monocots结合在一起的节点,其先验偏移= 124,平均值= 4.8143和S.D.= 0.562;根部将上述进化枝与Amborella结合,然后将G. biloba与先验偏移= 307,平均值= 3.8876和S.D.= 0.563。这些校准的偏移代表了坚硬的最小边界,它们的平均值代表了根据这些特定进化枝的先前约会研究的各自峰值质量概率的位置63(有关正期的替代设置,请参见补充注释5.3)。

  执行没有数据的运行,以确保将边缘校准先验的正确放置,这不一定与上面指定的校准先验相对应,因为它们彼此相互作用和Tree PrifiT64。实际上,没有数据的运行表明,根部的边缘校准的分布与指定的校准密度不符,因此我们降低了结合N. colorata WGD par子与eudicots和eudicots和eudicots和eudicots and Monocots n. colorata wgd的校准中的平均值,并降低了eudicots和eudicots and Monocots的平均值。= 0.5以将边缘校准定位在220 MA62。

  Markov Chain蒙特卡洛对每个正型群的采样进行了1000万步,每1,000个步骤采样,以产生10,000个样本量。使用Tracer V.1.555检查所得的跟踪文件,并燃烧了1,000个样本,以检查收敛性和足够的采样(所有参数的最小有效样本量为200)。总共接受了263个正式群,并将基于锚固对和基于峰值的重复分组的节点的绝对年龄估计分组为一个绝对年龄分布,用于对核密度的估计和启动程序估计和启动程序的峰值wgd年龄的峰值估计和90%的限制性分配,并找到峰值的峰值。先前已经描述了更详细的方法39。

  为了确定在N. Colorata基因组中检测到的2,648个锚点对的重复事件,我们进行了系统基因组学分析,以确定重复事件相对于先前所述的若虫中谱系差异相对于谱系差异的时机。使用了来自12种的蛋白质编码基因,其中包括来自若虫的八种和一种来自若虫的cabombaceae的物种,一个来自Aprobaileyales的物种(I. Henryi),以及Amborella和G. biloba。从图1d获得了12种的系统发育,并且从图1D中使用的23个LCN基因中估算了KS单元中的分支长度(从图1D中使用的101 LCN基因中选择,因为使用PAML31在filetatio模型下使用PAML31共享了23个基因。Orthomcl(v.2.0.9)65与默认参数一起使用以识别基因家族。然后,我们删除了2,648个锚点对中的907,KS值大于五。如果其余的锚定对落入不同的基因家族,从而表明基因家族的分配不正确,我们将相应的基因家族合并,最后获得了53,243个多基因基因家族。接下来,为881个基因家族的子集构建了系统发育树,这些基因家族的基因不超过200个基因,这些基因至少有一对锚固和一个来自G. biloba的基因。通过肌肉(v3.8.31)40产生多个序列比对,并通过三序(v.1.4)66修剪以根据启发式方法(-automated1)去除低质量区域。

  然后,我们将RAXML(V.8.2.0)67与GTR+G模型一起估计最大样本树,从200个快速引导程序开始,然后在每个第五次引导树上进行最大可能的优化。如果这些基因在树上形成单系组,则基于biloba的基因植根于基因。否则,应用中点生根。然后推断出每个锚点对谱系差异事件的重复事件的时机。简而言之,根据基因树中基因的共同祖先,首先将基因树中的节间映射到系统发育中。然后将每个节点归类为一个复制节点,一个物种节点或没有旁系同源物的节点,并且与物种系统发育的差异不一致。将锚对支持的重复节点的父母节点朝向根部,直到达到基因树中的物种节点。因此,导致锚对的复制事件在重复节点作为下限和物种节点之间被限制为物种树上的上限。如果两个节点是通过物种树上的一个分支直接连接的,则认为重复发生在分支上。为了减少有偏见的估计,我们在分支上使用了引导节点的引导值作为对重复事件的支持。总共有473个基因家族中的497个锚锚对在物种系统发育中合并为重复事件,并且在246个基因家族中的254个锚点对重复事件(或364个基因家族中的380个锚对)的bootstrap值大于或等于80%(或50%)。

  如前所述,我们使用动态顶空采样系统收集了Colorata的花卉挥发物,并使用气相色谱 - 质谱(GC -MS)分析了它们。从玻璃腔中的N. Colorata脱落开的花朵的顶空收集2小时后(直径为10厘米,高度为30厘米),使用含有100 µL含有Nonyl actate的Nonyl actetate的甲基甲基乙二甲酸甲酯作为内标作为内标的,从SuperQ挥发性收集阱中洗脱挥发性。然后,我们使用Agilent Intuvo 9000 GC系统与Agilent 7000D三倍四极杆质量检测器一起分析了样品。用氦气作为载气(流速为1 ml min -1),在敏捷的HP 5 ms毛细管柱(30 m×0.25 mm)上进行分离。我们应用了1 µL样品的无裂射,注射温度为250°C,初始烤箱温度为40°C(3分钟保持)和每分钟5°C的温度梯度从40°C升至250°C。使用国家标准和技术质谱数据库(https://chemdata.nist.gov)确定产品。

  使用逆转录PCR(RT – PCR)从N. Colorata的开放花中放大了NC11G0120830的全长cDNA,并将其克隆到PET-32A(Milliporesigma)中。通过测序确认后,在大肠杆菌菌株BL21(DE3)(Stratagene)中表达NC11G0120830,并使用改良的镍硝基三环酸琼脂糖(Invitrogen)纯化产生的重组蛋白,如前所述69。对于甲基转移酶测定,我们使用了放射化学和非放射化学反应系统。放射性反应系统(50 µL)由50 mM Tris-HCl,pH 7.8、1 mM底物,1 µL 14C-S-S-腺苷 - 甲硫代氨酸和1 µL纯化的NC11G0120830组成。在室温下孵育30分钟后,加入150 µL乙酸乙酯以提取14C标记的反应产物。使用闪烁计数器(Beckman Coulter)对提取物进行计数,以测量NC11G0120830的活性。为了确定反应产物的化学身份,我们进行了非放射化学测定,其中非放射性S-腺苷 - 甲硫氨酸被用作甲基供体。如前所述70,通过顶空固相微萃取收集反应产物,并通过GC-MS进行分析。

  有关研究设计的更多信息可在与本文有关的自然研究报告摘要中获得。

 
打赏
 
更多>同类资讯

推荐图文
推荐资讯
点击排行