我们分析了3,030个数据集,其中包括2,329个表观雄厚的染色质免疫沉淀,然后进行测序(CHIP – SEQ)数据集,635个DNASE-SEQ数据集和66个ATAC-SEQ数据集,来自https:///wwwwwwww.encodeprodeptss ass ass ass ass ass ass ass ass as as as as as as as as as as as as as as as as as as的均为2018年9月24日。DNase-Seq,H3K4ME1,H3K4ME3,H3K27AC,H3K36ME3,H3K9ME3和H3K27ME3;第2层测定:ATAC-SEQ,H3K9AC,H3K4ME2,H2AFZ,H3K79ME2和H4K20ME1;第3层测定:POLR2A,P300,CTCF,SMC3和RAD21;和4组组蛋白标记:16个非输液组蛋白乙酰化标记,4个甲基化标记(H3K9ME2,H3K79ME1,H3K9ME1和H3K23ME2),H3.3和H3T11PH。我们将独特的样本ID分配给了:扩展生物样品摘要,捐赠者,性别,年龄和生命阶段的每个唯一组合,无论每个属性都可以使用。我们清除了具有遗传扰动的样品,并且仅保留具有适当匹配的芯片式对照的样品。我们提供了一个元数据矩阵,包括编码访问和我们唯一的示例ID之间的映射(补充表1;也http://compbio.mit.mit.edu/epimap)。如果在旗舰路线图表观基因组学分析中使用了附件,我们将111个路线图生物样本和16个编码2012生物样本映射给了我们的任何生物样本,并将其与重叠的数据集接收。该映射分配了25个样本,用于编码2012年,并将184个样本送到RoadMap 2015,其中一些样本是通过质量控制的最后833个样本中的路线图合并了多张子样本。这些分别在2015年路线图出版物中分别合并为1611种组织类型。
我们每个重复下载了一个对齐文件,请在可能的情况下优先考虑与HG19中BWA对齐的过滤对齐。我们根据路线图表观基因组学共同体建立的处理管道统一处理芯片seq和dnase-seq数据集。简而言之,我们滤除了不当配对和非唯一映射的读数,截断为36 bp,过滤了一个低复杂性和人工制品区域的黑名单(Encode Accession encsr636HFF),并针对36 bp读取的独特绘制区域的可映射区域进行过滤的读取。截断的读取长度不可避免地错过了一些重复的区域,这些区域较长的读取可能有助于解决,但有助于避免对准差异的潜在偏见,因为超过三分之二的数据集的读取长度为36 bp或较低(补充图9)。我们将.bam文件转换为Tagalign,使用Liftover48将GRCH38对齐映射到HG19,并在每个ID和测定组合中汇总了所有实验。我们将汇总的芯片塞克数据集二次采样至最多3000万次读取,而DNASE-SEQ和ATAC-SEQ数据集则最多为5000万次读取。我们使用SPP峰Caller49估计片段长度。在ATAC-SEQ和DNase-Seq数据集中片段长度极低的情况下,我们使用了其余轨道的平均值的平均片段长度(73 bp)。我们使用MAC250和SPP49峰呼叫者和互相关分析生成了针对芯片seq和可访问性数据集的匹配的全细胞提取物的-LOG10 P值信号轨道,并生成了合适的片段长度。
我们使用Chromimpute20对859个独特的生物样品进行了表观遗传学插补,在13层1上进行了10,778个估算的数据集,并使用对在859个样品的所有35个表观基因组测定法进行培训的预测因子。我们还为五个与DNA相关的因子估算了4,345个数据集,仅使用35个表观基因组学测定作为用Chromignute训练预测因子的特征。我们在https://epigenome.wustl.edu/epimap21提供了所有估算和处理的观察到的轨道以及833质量控制样品的轨道集。
为了归纳质量控制和验证,我们将观察到的轨道与两者可用时的估算轨道进行了比较(即,当至少两个原始观察到的数据集可用于该生物样品时)。我们计算了原始Chromignute Publication20的所有插补质量控制指标,包括全基因组相关性,估算和观察到的峰值回收率(%),以及对所有估算和观察到的轨道的接收器操作器特征曲线(AUC)下的面积。除了定量指标外,我们还可以视觉检查表观基因组预测作为我们质量控制的一部分。我们显示了两个随机选择的样品中的每个样品中的每个样品中的每一个(25 kb,200 kb和1.5 mb)的三个密度和各种区域(25 kb,200 kb和1.5 mb),其中包含每个测定的观察和估算轨道。我们计算了所有数据集的链互相关系数(NSC),相对链互相关系数(RSC)和所有数据集的读取深度,并将其与插入质量控制指标进行了比较(请参见补充表1中的表)。我们通过检测排名相关指标中的肘部来标记低质量轨道,我们计算为相关性变化超过相关性的5%的点。在数据冻结后的八个分数和编码的51个实验轨道上,对外部数据集进行了验证,同样将其从GRCH38到HG19进行了类似的子采样至3000万(分数)和5000万读(可访问性),并在Chromosome 1(90.1%)中从GRCH38到HG19进行了重新估算,并在完全重塑的200 bp bin(90.1%)上进行了评估。对于数据均匀性分析,我们将数据限制在每个标记中的生物样本中,都观察到的数据和估算数据(补充图10)。
为了系统地识别潜在的样品或抗体掉期和质量较差的实验,我们计算了每个观察到的实验的相关性,用于组蛋白标记和测定的所有10,734个估算的轨道(所有10,734个估算的轨道(所有估算的轨道)(在通过质量控制下删除样品之前,所有估算的轨道)。然后,我们计算了与每个观察到的轨道最相似的十大轨道之间的平均相关性。我们通过将平均相关性与推定标记的样本与针对其他标记计算的样本进行比较来标记潜在的抗体掉期。我们将一个多元线性模型拟合到每个标记比较,标记的数据集,残差大于平均相关的3个标准偏差,并且在视觉上确认了7种抗体掉期(六个低质量轨道)。同样,我们通过比较估算和观察到的轨道之间的相关性与在同一标记中前10个轨道中的平均相关性进行比较来标记潜在的样本掉期。我们拟合了一个多元线性模型和标记的数据集,残差大于剩余分布的标准偏差。我们报告了19种可能交换的样本,其中5个也被标记为低质量轨道(补充图8)。
除了全基因组对估算轨道的质量控制外,我们还专注于观察到的轨道和估算的轨道之间的特定差异。对于每个观察到的标记,我们生成了一个全基因组的“三角洲”轨道,计算为观察到的数据和估算数据之间的信号强度差异,重新估算了估算的轨道,以匹配观察到的轨道的信号强度特性,因为观察到的轨道显示出更高强度的一般偏置。这些“三角洲”轨道中的某些轨道表现出与非探针标记的“主要”轨道相关的高度相关性,表明潜在的二抗反应性。为了标记这些反应率,我们将每个三角洲轨道的平均相关性与每个标记的最接近10个最接近的赛道。与抗体掉期一样,我们将每个标记组合中的多元线性模型拟合到标志异常值。我们标记了19条曲目,并在视觉检查后报告了13个曲目,作为潜在的二次反应率或单个复制掉期(例如,在DNase-Seq的情况下)(补充图7、8)。我们指出,某些情况显示出明显的差异轨道,这些差异轨迹与可用的抗体不匹配,这表明次级反应性不是我们纲要中的常见标记。
为了评估跨样品的估算和观察到的轨道的相似性,我们计算了所有成对的估算和观察到的信号轨道之间的成对基因组相关性。我们在层次上使用Ward的方法汇总了每个单独标记的归纳或观察到的相关矩阵。我们将所有归为六个主要标记(H3K27AC,H3K4ME1,H3K4ME3,H3K36ME3,H3K27ME3和H3K9ME3)的所有归为矩阵,以创建融合的相关矩阵,我们类似地聚集了。我们使用Circlize R Package51绘制了融合矩阵的层次群簇树,并为每个生物样品的元数据信息绘制。
此外,我们计算了特定于标记的长矛人相关性,这些相关性仅限于每个观察到的每个分数和估算的轨道中的相关特征。我们通过在Chromhmm 25州模型和任何其他具有超过80%的状态的状态中,通过排放概率将13个标记中的每个标记映射到其最高状态。对于ATAC-SEQ,我们使用了与DNase-Seq相同的区域列表。对于每个标记,我们将每个25 bp信号轨道平均并减少到任何被标记为与25态型Model6,20下127个估算的路线图生物样本中的标记为与标记相关的州之一的200 bp区域。我们计算了这些区域限制的标记信号轨道集合之间的Spearman相关性,并在所有数据集中生成了相似性矩阵以获得标记。使用这些Spearman相关矩阵在所有观察到的信号轨道上,我们计算了每个标记的UMAP尺寸降低,并使用UWOT R Package52使用带有默认参数的UWOT R Package52,除N_neighBours = 250,MIN_DIST = 0.25 = 0.25和copulsion_strength and uspuls_strength = 0.25 = 0.25。
我们对3,533个估算和1,465个观察到的数据集计算了3,533个估算的注释,该数据集使用Chromhmm与Roadmap6的固定18态模型的833个样品进行了6分,并具有相同的助图和颜色。我们在可能的情况下使用了观察到的数据,除非没有观察到的数据或在质量控制中删除观察到的数据的情况下。用于计算注释的信号轨道的表可作为补充表2提供。从信号轨道中将观察到的数据二进化,其中-LOG10 p值信号截止为2。为了将估算的数据进行二进制,并促进与观察到的数据进行比较,我们确定了标记特定的二进制划分。我们首先分别计算了每个标记的所有估算和观察到的轨道的总体概率分布。然后,对于每个标记,我们将估算的二进制截止值设置为与观察到的-LOG10 P值> 2截止的分位数匹配的分位数的值。我们使用LifeOver48将所有833(在质量控制之后)映射到GRCH38的所有833(后质量控制),并使用严格的相互映射策略来绘制groMHMM注释,以确保所有结果的GRCH38区域也为200 bp and non Over-Over-Over-Over-Overlapping,我们已将这些区域与HG19的注释和轨道设置一起提供了HTTTPS://epigimenome。
我们将主动增强子定义为DHS区与增强子注释和高H3K27AC信号的相交(在包含DHS±100 bp的区域中的平均信号> 2)。我们从GRCH38中3,591,898 DHS元素共识位置的索引列表中定义了DHS区域,该指数由733个DNase-Seq实验确定,我们使用Liftover48至3,568,912 HG19位置进行了映射。我们将HG19区域与833个估算的增强子注释相交(状态7、8、9、10、11和15中的18态模型中)。这导致了2,842,995个区域,在任何生物样品中至少有一个增强剂注释。最后,我们将此基质与±100 bp区域的H3K27AC信号相交,该矩阵涵盖了每个DHS,从相同的组织特异性估算的每个DHS和用于计算ChroMHMM注释的数据集中。该程序产生了2,356,914个主动增强区域。我们使用启动子注释创建了一个等效的启动子元素区域(在18态模型中的状态1、2、3、4和14)。我们注意到几个地区既有增强子和启动子注释。作为保守的截止,我们将所有区域分配给增强子或启动子,如果将超过75%的活性事件标记为该类型的元素(补充图13)。最终的阈值程序产生了2,069,090个增强子,204,104个启动子和122,358个二元元素(既不具体启动子也不是增强子)。矩阵和增强器位置可在http://compbio.mit.edu/epimap上找到。
For all images using tissue group order, including ChromHMM tracks and module heat maps, groups were ordered alphabetically within six major groups: tissue or organs (adipose, bone, digestive, endocrine, heart, kidney, liver, lung, mesenchymal, muscle, myosatellite, pancreas, placenta and EEM, reproductive, smooth muscle and urinary), other primary cells (endothelial,上皮和基质),血液和免疫(血液和T细胞,HSC和B细胞,淋巴母细胞,脾和胸腺),神经系统(脑,眼睛,神经球和PNS),茎(胚胎干细胞源自细胞的,胚胎源,胚胎干细胞,以及诱导的多型干细胞)以及其他(癌症)。
为了定义增强子模块,我们聚集了通过将增强子注释与DHS区域相结合的二进制增强子矩阵,以及使用k-centroids algorithM与jacccard距离的平均值和数字组合的平均值和数字的平均模量,将增强子注释与平均中心和侧翼(±100 bp)H3K27AC信号(±100 bp)H3K27AC信号相结合。6,897个增强剂,最大的模块(列举本构元素)包含93,554个增强剂区域。在模块中心的所有热图(以及相关的富集数字)中,我们通过生物样本中的热图(模块中心)中的每一列对矩阵进行对角,从而贡献了最大信号。首先显示所有信号超过25%的信号超过25%的列。我们在所有对角热图上使用了这种对角度化程序。我们通过包含其最大信号的组织组为每个模块着色。模块突出了样品分组,并根据细胞类型和组织进行组织。根据Ward Method在模块中心矩阵的jaccard距离的聚类中,在六个主要组中按字母顺序排序的主要组。我们通过超几何测试对元素的元数据(信号超过25%)进行了富集,并用-Log10p> 2显示富集(图2B)。
我们使用出色的v3.0.0在每个增强子模块上进行了基因本体富集,以实现生物过程,细胞成分和分子功能本体论53。我们以与路线图Core Paper 6相同的方式分析和可视化结果。我们仅在多个测试校正的P中考虑2或更高的富集 < 0.01. For Fig. 4c, we reduced the gene ontology enrichment by modules matrix to terms with a maximal −log10P > 4在不到10%的模块中富集。完整的富集矩阵如图16所示。如对角度化模块中心的情况,我们根据包含其最大信号的模块标记了每个项。我们使用一袋单词方法(如Roadmap6中所述)选择了扩展数据的865个总项中的36项代表性术语图6b,因此每个组织组至少具有一个术语,其余的则在各组之间代表分配。
如路线图纸6,54所述,我们对增强器模块进行了基元富集分析。简而言之,我们测量了由Jaspar(2018)55核心非脊椎动物基序,Hocomoco V1156人类基序集和Jolma等人的SELEX主题组成的1,690个基序的富集。我们计算了相对于关节DHS和基因间背景的1,690个基序中的每个基序的富集,每个基序还由100个洗牌基序控制。我们报告了286个先前确定的基序原型中的每个模块中每个模块中每个模块中的富集最高的基序。26。我们仅报道了最大log2转换的倍数变化至少1个,导致160个基序原型(对应于1,175个总基序),我们使用其位置权重矩阵(PWM)徽标显示,相对于所有300个模块,在扩展数据中的所有300个模块。
我们使用基因表达与附近增强子的组蛋白标记活性(在1 MB之内)(H3K27AC,H3K4ME1,H3K4ME1,H3K4ME2,H3K4ME3,H3K4ME3和H3K9AC)之间的Pearson相关性预测了每个生物样品的增强剂 - 元素链接。我们在304个生物样本中使用配对表达数据的所有基因和附近增强子之间的所有基因之间的相关性。使用不同染色体中的随机基因计算每个增强子的负相关组。我们分别预测了每个生物样品和Chromhmm增强子态的链接(状态E7,E8,E9,E10,E11和E15)。通过训练XGBoost分类器在所有有效链接的正面链接中,通过训练XGBoost分类器与其配对的负面链接的正面集合,使用预先计算的相关性和与转录起始站点的距离作为功能,并以5/7以上的概率保持所有链接(参考文献58)。
我们使用CD34,GM12878,HELA和K562细胞中的策划的金标准数据59验证了增强子 - 元素链接(扩展数据图8)。我们将四组基于相关的预测(单独或与H3K27AC和H3K4ME1活性相比,以及与距离基于距离的重新分组),与距离,Roadmap的增强子 - 基因链路,以及H3K27AC相关性和/或活动时间距离(使用Epimap Tracks and Enhancers in epimap Tracks and Activation Time距离)60。对于没有阈值的方法,例如单独距离,仅将最接近或最高分基因用作F1的截止值。此外,我们从基因本体学术语中创建了基于基因本体的金标准链接集,这些链接富含增强子簇中的伟大53。对于每个群集的每个基因本体学项,我们为在基因本体论项中至少两个基因的1 Mb中的增强子添加了增强子 - 基因链接。负面链接集是通过将物理和表达定量性状基因座(EQTL)负面链路集构建的,这些链接集也不富含基因本体论。
我们修剪了NHGRI-EBI GWAS CATALOGUE34(从https://www.ebi.ac.uk/gwas/gwas/gwas/docs/file-downloads于2019年5月3日下载):使用一种贪婪的方法:在每个性状 + pmid组合中,我们在5个特征 + PMID组合中添加了SNPS nonevence(p值),如果他们在5中添加了SNPS nons kb,则在5个snps中添加了kb。我们还删除了HLA基因座的所有关联(对于HG19:CHR6:29,691,116–33,054,976)。这将目录从121,000降低到113,000个协会。最后,我们将目录减少到926个独特的GWA(从5,454 GWAS),初始样本量至少为20,000例或个人(无论何时何地没有注释)。这导致了66,801个铅SNP,当我们将基因组分为10,000 bp的间隔时,它以33,417个独特的基因组间隔降落。
我们进行了超几何测试,以评估对平面氏病和模块的GWA富集。对于这些平坦的富集,我们将每个增强剂集(平面遗传学组或模块)的每个数量的SNP-增强剂交叉点与所有M增强剂中的完整相交组进行了比较。如上所述,我们使用为树富集生成的无效目录来计算和校正每个GWAS和增强子集合组合的多次测试,并使用无效的表观基因态和模块进行校正。通过迭代添加显着富集的样品或最剩余的GWA的最大富集来计算稀疏曲线,直到所有GWA都占用所有GWA(扩展数据图10c,d)。
我们通过使用完整的链接聚类来构建树构造树的二进制增强子矩阵的jaccard相似性。然后,对于树上的每个节点,我们计算了其共有的表观基因组集,定义为子树的所有叶子中存在的所有增强剂的集合,因此每个节点的集合都是其父母的超集。对于每个GWA,我们询问通过比较两个逻辑回归之间的可能性比测试测量的每个节点与其母体之间的富集,是否可以通过比较每个节点与其母体之间的富集来显着富集铅SNP。
简而言之,对于每个GWAS目录独特的性状和PubMed ID,我们发现其修剪的SNP的所有交集与M = 2,069,090个增强剂。然后y是大小M的指示向量,它显示了相交的增强子。我们发现了感兴趣的节点(向量XN)及其母体(XP)中所有共识增强子(子树中表观基因组的相交)。所有向量均为1×m。我们计算了XD = XN -XP(特定增强器),该XD = XD = XN -XP,它也位于{0,1}(1×M)中,因为每个节点都包含其父级增强器的超集。然后,我们计算以下两个逻辑回归:M1:y〜xp + 1;M2:Y〜XP + XD + 1。我们计算了对数 - 样式差异,并应用了似然比测试来测试添加特定增强子(M2)是否与父型模型(M1)显着不同。为了以每GWAS和节点为基础进行多次测试,我们通过整个GWAS位置的性状关联,总共为243,000个null GWAS生成了1,000个NULL GWAS,为每个铅SNP设置的大小生成了1,000个NULL GWA。我们使用这些目录来计算每个排名的GWAS的无效p值,并将0.1%和1%的最高分位数用作错误的发现率截止。
在CAD示例中,使用铅SNP击中的每个增强子的最近基因计算基因本体学术语61。我们通过计算每个组织组的平均RNA-seq谱图,将基因修剪为表达基因,并排除每个样品组平均RNA-SEQ中具有log2 fpkm <2的基因。在833个样本中,有341个样本匹配RNA-Seq,除了在http://compbio.mit.mit.edu/epimap上释放处理的数据外,我们列出了该样本。我们仅保留25%或更少的节点中的基因本体术语,并在图4D中报告每个节点的前两个基因本体术语,以及补充图26中的所有基因本体论术语。
为了进行基因座研究(在NTN4,CACNA1C,EDNRA和PLPP3中),我们发现了每个节点中的每个铅SNP最近的活跃增强子(2.5 kb之内),仅在210万增强子中绘制了H3K27AC信号,仅在210万个增强器中,(1)直接绘制了启动的铅SNP的链接,该链接靠近EPER,或者在Eppig附近的EPER分别(eptig)或(eptig e Eptig)。在选定组织组之一中,至少一半的样品中存在基因座。
如果超过50%的子树的叶子来自该组织,我们将树中的每个内部节点分配给了独特的组织,如果子树不是一个组织中的大多数,则为“多重”。我们将组织标签分配到832(77%)的641个内部节点中的641个,其中大多数叶子对应于单个组。使用这些分配,我们通过从树上所有的GWAS富集设置的每个组织节点添加了GWAS矩阵的组织。我们对该矩阵进行了二进制,并计算了整个组织之间的JACCARD相似性,以计算组织相似性矩阵。为了评估组织重叠的重要性,我们比较了每个重叠值与10,000个排列富集的重叠。我们通过GWAS基质将每个置换的矩阵折叠成组织,以计算零下的重叠。我们通过通过GWAS矩阵对节点上的富集p值进行了富集p值,对其他组织进行了对其他组织的排列。具体而言,我们(1)对富集矩阵进行了二进制,(2)固定了感兴趣的组的色谱柱,(3)将矩阵的其余部分定位,保持其行和柱边缘相同,然后(4)计算了底座距离和富集的原始矩阵之间的余弦距离。
为了评估Cross-GWAS的相似性,我们通过GWAS矩阵将组织归一化,以获得每个GWA的每个组织归因于每个组织的显着性比例(补充图21)。我们将矩阵降低至538个显着的GWA,至少有20,000例(或指定未指定病例的个体)在每节点和每GWAS尺寸水平下以0.1%的速度通过了错误的发现率校正。我们使用余弦距离矩阵作为邻接矩阵创建了一个GWAS -GWAS网络,保持5,547个链接,余弦距离为0.25或更小。我们使用Fruchterman -Reingold算法来布置Graph62。我们使用GWAS矩阵的组织根据每对节点之间的最大组织和根据每个节点的最大组织染色节点的最大组织来染色(补充图22)。
为了将表观遗传网络与特质遗传相似性进行比较,我们将GWAS目录中的SNP从每个染色体的开头开始。我们计算了两个性状之间的相交垃圾箱的数量,并保持了与Jaccard相似性至少1%的任何特征对。为了将其与表观遗传网络进行比较,我们仅在表观遗传网络中绘制了与任何SNP共享GWAS对的链接。此外,我们绘制了树的富集距离矩阵的热图和遗传相似性矩阵并排,首先是通过分层聚集富集矩阵,然后通过聚类遗传相似性矩阵(补充图23-25)进行组织。
有关研究设计的更多信息可在与本文有关的自然研究报告摘要中获得。

