本节介绍用于生成本文分析数据的方法。服务器端分析脚本旨在自动处理原始数据,剥离个人标识符的数据并生成聚合结果,我们分析了本文中的结论。然后,该脚本迅速删除了该项目生成的原始数据(请参阅“隐私与道德”部分)。
我们从截至2022年5月28日在25至44岁之间的同伴Paper7:25至44岁之间构建的分析样本开始,该样本居住在美国,在过去的30天中至少在Facebook平台上活跃,至少有100个基于美国的Facebook朋友,并且有一个无误的预测Zip代码。然后,我们将注意力限制在个人可以为其分配至少一种友谊的个人(使用下面描述的方法)。由此产生的样本由7030万Facebook用户组成,根据美国社区调查(ACS),对应于25至44岁的美国人口的82%。
我们没有将任何外部个人级信息链接到Facebook数据。但是,该项目使用各种公开可用的总统计来源来补充分析,例如2014 - 2018年ACS的Block Group中位数收入数据的数据;国家教育统计中心(NCE)和民权数据收集(CRDC)的学校级变量;以及综合学院教育数据系统(IPEDS)和参考的各种大学级统计数据。46。我们在补充信息A中详细描述了这些数据。
我们为分析样本中的每个人构建以下变量集;前四个变量与我们的同伴Paper7中使用的变量相同,而第五个变量是本文的新变量。
数据包含有关Facebook用户之间所有友谊链接的信息。双方都需要确认Facebook友谊链接,并且大多数链接都是在persey47互动的个人之间。结果,可以将Facebook友谊网络解释为提供有关人们现实世界中朋友和熟人的数据,而不是纯粹的在线联系。
我们的分析样本中的每个人都根据Facebook上的信息和活动分配了邮政编码和县,其中包括其Facebook个人资料中所述的城市以及设备和连接信息。正式地,我们使用2010年人口普查邮政编码制表区域来执行邮政编码级数据的所有地理分析。我们将这些邮政编码制表区域称为邮政编码,以简单起见。根据2014 - 2018年ACS的数据,每个各自的地理位置都有219,214个人口普查组,32,799个邮政编码和3,220个县,平均人口为1,488、9,948和101,332。
社会科学家已经使用许多不同的变量来衡量社会经济地位(SES),从收入和财富到教育程度,职业,家庭背景,邻里和消费21。为了捕获这些不同的定义,我们构建了一个模型,该模型为工作年龄成年人(25至64岁的个人)生成了SES的综合度量,该模型结合了各种特征(请参阅“隐私和道德”部分,以讨论如何在此项目中保护用户隐私)。我们分为三个步骤构建基线SES测量(有关详细信息,请参见我们同伴Paper7的补充信息B.1)。首先,对于启用了位置历史记录(LH)设置的Facebook用户,我们计算其人口普查集团中的家庭收入中位数。位置历史记录是Facebook帐户的选择设置,可在应用程序运行时设备操作系统提供的位置信号的集合和存储。我们观察到位置历史记录子样本中个人的人口普查组群体;相比之下,我们可以分配一个只能启用邮政编码的位置历史记录的个人。如果个人随后选择退出位置历史记录,则未保留其先前存储的位置信号。
其次,我们估计了一种增强梯度的回归树,以使用对样本中的所有个人观察到的变量,例如年龄,性别,语言,关系状态,位置信息(邮政编码),大学,捐赠,电话模型价格和移动载体,网络上的Facebook(而不是移动设备)以及其他与Facebook使用的变量。我们使用此模型为样本中的所有个体生成SES预测。
Finally, individuals (including the location history users in the training sample) are assigned percentile ranks in the national SES distribution on the basis of their predicted SES relative to others in the same birth cohort.
We do not use any information from an individual’s friends to predict their SES, ensuring that errors in the SES predictions are not correlated across friends, which would bias our estimates of homophily by SES. We also do not use direct information on individuals’ incomes or wealth, as we do not observe these variables at the individual level in our data; however, we show below that our measures of SES are highly correlated with measures of income across subgroups. Note that the algorithm described above is one of many potential ways of combining a set of underlying proxies for SES into a single measure; other methods discussed in our companion paper7 yield very similar results.
We link individuals in our primary analysis sample (that is, those aged 25–44) to their parents (who may not be in the analysis sample themselves) to construct measures of family socioeconomic status during childhood. To link individuals to their parents, we use self-reported familial ties, a hash of user last names, and public user-generated wall posts and major life events7. We then use the SES of parents, constructed using the algorithm described above, to assign parental SES to individuals. We are able to assign parental SES ranks for 31% of the primary analysis sample.
We assign friendships to the groups in which they were made by focusing on six settings (group types) that we can identify reliably in our data: high schools, colleges, employers, neighbourhoods (ZIP codes), faith-based (religious) groups and recreational groups. These settings span the most common places in which users make friends, excluding family19,20.
我们首先使用自我报告的数据(用于大学,雇主和高中),喜欢礼拜场所(宗教团体)和团体成员资格(娱乐和宗教团体)的页面,以每个环境中最多的一个组(补充信息B.1)分配个人。对于一些不报告高中的人,我们使用他们的友谊网络上的数据将高中归为高中。对于在设置中是多个组成员的一小部分人(例如,3.3%的用户报告以高中分配为条件的高中),我们选择了用户拥有最多朋友的组。根据与外部统计的比较,我们小组分配的质量似乎很高。例如,我们对每个邮政编码,高中和大学在每个邮政编码中的份额的估计值高于0.85,而从公开可用的管理数据集中得出相应的统计数据(扩展数据表2)。
然后,我们根据补充信息B.2所述,根据共同的小组成员身份将友谊链接分配给小组。例如,如果一个人和他们的朋友是同一社区的一部分,则将他们确定为邻里朋友。如果在多个环境中拥有共享的小组成员资格(例如,当两个朋友都是同一娱乐小组和同一工作场所的成员时,友谊链接在所有相关设置中都计算在内。我们能够将约30%的友谊链接分配给至少一个环境。由于缺少数据(例如,在用户或朋友的工作场所缺少数据)之外,其余的朋友不能连接到组,或者是在我们考虑的设置之外进行的。请注意,这项研究不涉及对个人宗教的推论;取而代之的是,它的重点是在一个基于信仰的(宗教)群体中是否形成了友谊。
扩展数据表3a显示了本文中使用的主要分析样本的摘要统计数据(截至2022年5月28日),以及比较2014 - 44年龄在2014 - 2018年ACS中的25-44岁年龄段。如我们的同伴Paper7中所述,在年龄,性别和语言方面,Facebook样本与全部人群非常相似。伴侣论文7进一步表明,Facebook样本在地理上广泛代表了美国人口的广泛代表,并且下面的分析中使用的SES措施与SES和代表性数据集的外部估计的同性恋统计数据和质量估算的公共统计数据和收益率息息相关。
在分析增加高中和学院的EC的干预措施时,我们专注于可以分配高中或大学的个人的子样本,并且可以与父母进行SES预测(以父母的SES来衡量联系)。扩展数据表3B介绍了1,940万用户的子样本的摘要统计数据,这些用户可以分配父母SES和高中,占完整分析样本的28%。该子样本的特征与完整样本的特征大致相似。
在本文中,我们专注于可以分配给人们互动的群体的30%的友谊,这是确定暴露和朋友偏见所必需的。我们发现,在可以分配给群体的友谊子样本中,同质性类似于在友谊的完整样本中观察到的(扩展数据图5)。此外,在个人层面上,一个人在分配给一个小组的朋友子样本中的高级朋友的份额与总体上的高SES朋友的相关性超过0.90。此外,为了解决对小组报告不足的偏见的潜在问题,我们制定了一种程序,以使用有关小组成员资格的外部统计数据(补充信息B.3)纠正小组成员资格的报告。在这个扩展的样本(占友谊的44%)中,我们的结论仍然相似(补充图4)。
在此分析的基础上,我们得出的结论是,我们在这里分析的友谊子样本是人们在Facebook上和总体人口中建立的更广泛友谊的合理代表。
遵循我们的同伴Paper7,我们将个人的经济联系定义为他们与高SES个人的朋友的程度。正式地,让FH,我表示个人我所占的高级朋友,让WH = 0.5代表大多数人在人口中的份额。我们将我的个人经济联系(IEC)定义为高SES个人的个人:
如果iech,我> 1,我的个人朋友的朋友比一个人多于一个人预期的,如果是随机和低级和高级人士建立友谊的人,人们结识了相等数量的朋友。相反,Iech,我< 1 means that i has fewer high-SES friends than one would expect under random friending.
To decompose IECH,i into exposure and friending bias, let ϕi,g denote the fraction of friends that individual i makes in group g (out of all friends of i that can be assigned to groups) and let G denote the set of all available groups, so that ∑gGϕi,g = 1 for each individual. Here, a group g represents a specific school, college, recreational group, and so on, to which an individual can belong. Individuals’ friending shares ϕi,g are positive or 0 in the specific groups to which they belong and are 0 for all other groups. Let wH,g denote the fraction of members of group g who have high SES and fH,i,g the fraction of friends individual i makes in group g who have high SES (see Supplementary Information B.4 for a discussion of how we define fH,i,g when ϕi,g = 0).
We can express each individual’s connectedness to high-SES individuals as the product of three components, summed across groups:
where
is the normalized fraction of high-SES individuals in group g. Exposure is below 1 for groups that have a below-average share of high-SES individuals and above 1 for groups that have an above-average share of high-SES individuals. The final term,
measures the deviation from uniformly random friending conditional on exposure.
If friendships were formed at random and if people with high and low SES made the same number of friends, then fH,i,g = wH,g and friending bias would be equal to 0. In practice, high-SES individuals make 25.4% more friends than low-SES individuals do on average7. Maintaining this difference in the number of total friends, in a setting with no homophily by SES (that is, a setting in which low- and high-SES individuals have the same probability of befriending a given high-SES person), friending bias would be negative. In particular, if high-SES individuals have xg >在G组中的低SES人数是1倍,但SES没有同质性的人,
在代表整体人口的小组中,XG = 1.254和WH,G = 0.5的偏见是-0.11,而低SES个人的高SES朋友比该小组中的高SES个人的份额高11%。相对于这个基准,朋友偏见的积极价值构成了与SES不同性表现出同性恋的社会的实质性,因为这意味着,低SES个人的朋友中只有不到一半的人具有很高的SES,即使高SES个人平均地形成了更多的友谊。
在“ SES分解连接性”部分中,我们量化了低SES和高SES人之间高级SES朋友所占份额的差异是由于跨环境的朋友股票的差异,曝光率差异以及朋友偏见的差异。由于公式(2)中的参数即使在给定的SES级别上也有所不同,因此我们采用代表代理的方法来分解这三个因素的相对贡献。特别是,我们考虑了代表性的低SES代理商和高SES代理商,它们具有设置级别的朋友股份,敞口率和朋友的偏见水平,分别与人口中的低名和高级SES人士相匹配(图1和2和扩展的数据表4)。为了进行分解,我们首先使用这些平均值和类似于等式的公式(2)(补充信息B.5)计算代表性低SES和高SES代理的IEC。然后,我们依次将低SES代理的每个参数设置为匹配高SES代理的值,从而使我们确定两个SES组的代表性IEC中的差异有多少,这是由三个因素中的每个因素解释的。我们将代表性的低SES和高SES代理称为主要文本中的平均低和高SES人。
由于公式(2)不是加性的,因此归因于朋友偏见与暴露的总差异的份额取决于我们执行分解练习的每个步骤的顺序。对于主要文本中讨论的SES的分解,我们将接触率的暴露率等同于交友偏见的速度,有效地检查了社会经济整合的影响将不存在任何变化的朋友偏见。相反,如果我们将接触率之前的朋友偏差率等同(图3A,第四个bar),则会通过朋友偏见来解释34%的EC差距,而通过暴露率为54%。较低的朋友偏见和更大的曝光是补充,因此,如果最后一个等同,则其效果最大。换句话说,减少朋友的偏见会导致更多的高SES朋友在曝光度更高时(反之亦然)。
我们使用类似的方法来分析为什么低调人群中的EC在地理位置上会变化。我们首先要计算每个邮政编码,通过设定,平均朋友偏见(Biass,L,A)和平均高SES暴露(曝光,L,A)的平均朋友偏见(居住在该领域)(有关正式定义的补充信息B.5)。然后,我们考虑具有跨环境中的朋友分享的代表性代理,并设置特定的曝光和朋友偏见,这些偏见与这些参数的平均值相匹配,这些参数的平均值居住在邮政编码中的低SES个体与Zip-Code-code级EC分布的顶级五分位数相匹配。然后,我们将代表性底部ZIP- Quintile代理的每个参数依次设置,以匹配代表性的Top-Zip-Quintile代理的值(补充信息B.5)。
在表1中,我们分析了跨县和邮政编码的向上收入流动性与EC之间的关系,并比较暴露与朋友偏见的影响。从低SES个体之间的面积级别平均值和朋友偏见的平均值开始(请参阅“跨区域的分解”部分),我们首先创建了EC的重新组装度量,作为平均暴露价值的产物,每个区域中的一个减去朋友的偏见是:
请注意,与我们同伴Paper7中分析的面积ec的度量不同,因为(1)此处的措施仅基于可以分配给组的子集友谊,并且(2)面积级别平均值的乘积并未考虑到朋友的占领,暴露量,敞口,敞口,个人级别之间的协方差。然而,在县和邮政编码中,面积级别EC的两个度量的人口加权相关性高于0.95。
由于EC与曝光和一个减去朋友偏见成正比,因此我们使用方程(6)的日志转换来获得添加剂规范:
然后,我们根据这些对数字转换的EC措施(表1的第1、3和5列)或暴露和朋友偏见(表1的第2、4和6列),对县的上收入流动性的日志和邮政编码级别进行了回归。在表1的第7列中,我们将因变量定义为一个县对向上流动性的因果效应的对数,我们将其计算为美国总体上下移动性的平均水平,加上20倍chetty和Hendren的S32估计该县成长的年度因果关系效应。
对于使用自己的SES进行朋友偏见和接触的高中和大学水平的估计,我们专注于1986 - 1996年的出生队列(2022年的SES,年龄在26-36岁之间)。对于基于父母SES的估计,我们专注于1990 - 2000年出生队列中的个体。我们专注于近期的父母SES出生队列,以最大程度地提高我们可以链接到父母的个人的份额,并在许多父母开始退休之前(2022年)衡量父母SES(2022年)。对于1990 - 2000年的队列,我们能够将分配给高中的46%的个人与无数SES等级的父母联系起来。我们在几个同类中汇总数据以获得更精确的估计。随着时间的流逝,学校级别的EC估计通常是稳定的。例如,在整个学校中,1978 - 1982年出生队列的EC与1993 - 1997年人群的EC相关性为0.87(补充图5)。
为了估计高中暴露和偏见的可靠性,我们首先将每个高中的人口随机分为两个亚群,并计算这两个亚群形成的子图表的暴露和偏见。然后,我们对分裂样本的这些暴露或偏见统计数据进行了加权关联,这取决于学校中的低SES学生的数量。为了调整一个事实,即仅在样本的一半估计中,估计值自然更加嘈杂,而不是我们实际用来构建基线估计的完整样本,我们将原始的分型样本相关系数除以EC的(加权)全样本的EC的(加权)全样本的EC的(加权)全样本的EC跨学校的分裂样本差异。
与父母SES7低的人相比,父母SES高的人在高中时的朋友多22%。因此,应用等式(5),我们希望在一所学校中,有50%的学生拥有高父母的SES和友谊的学校中的朋友偏见为-0.10,但与低育儿SES学生相比,高级父母SES学生继续结交22%的朋友。
我们将每个学校G对经济联系(TCEC)的总贡献定义为:
曝光和朋友biasg是学校中的平均高空SES曝光和朋友的偏见。在此方程式中,曝光×(1-朋友BIASG)≈ECG,其中ECG是学校中低SES学生的平均EC。请注意,这种平等仅是由于学校内部人群之间的偏见与偏见之间的潜在协方差。出于类似的原因,(1-曝光)×ECG仅等于每个学生形成的跨SES链接总数。TCECG从接触和朋友偏见之间的任何协方差中抽象,衡量学校对每个学生的EC的总体贡献。
在识别假设下,跨同伴组成的波动与其他不可观察的学生选择选择的决定因素是正交的,可以使用学校内部同类群体中高SES同伴的波动来识别EC暴露对EC的造成责任效应。同行效应文献中的先前工作已经使用各种平衡和安慰剂测试对这种识别假设找到了支持48。
为了实施跨科罗特研究设计,我们首先根据他们的高中和出生日期将1990年至2000年间出生的每个人分配给高中群体。我们将父母SES用于此分析,与一个人的高中同龄人组相比,这与儿童自己的未来SES相反。由于该设计依赖于暴露的小样本变化,我们专注于最低和最高SES五分之一的父母之间的联系(而不是低于中位数SES),以增加变异。
与假设实验类似,该实验会随机增加给定的队列中高级学生的数量,让Δexposuresc表示在同伙中学校S中的高级SES(顶级遗传五分之一)同伴的份额减去学校中所有其他队列中的高级同伴的平均份额在所有其他c(不包括Top-sep-quintile)中(分别为20%的人群20%)。同样,让ΔECSC表示同一学校中所有其他队列的同伴C与平均EC之间的EC差异。在这里,我们在同伙中衡量EC,也就是说,低“ SES学生”在高中的同伙中所占的高级朋友的份额。图6a提供了ΔECSC与Δexposuresc的归纳散射图,从而汇总了所有学校。
为了构建图6b,我们首先根据同一学校所有其他队列中的朋友偏见的平均水平将学校 - 霍特细胞分为十分位,丢弃了焦点队列c。我们使用这种放弃方法来反映校长的决策问题,他使用现有高中同胞的数据来估计学校级别的偏见,然后使用该估算来预测未来暴露对EC的影响。我们估计了类似于图6A所示的回归,分别是朋友偏差分布的每个十分位数中的同类记录。图6b显示了每个十分位数中每个十分位的估计回归系数(基于所有其他同类群体(不包括焦点队列))中的估计回归系数。
在估计图6中的朋友偏见时,我们使用所有其他队列(包括将来的队列)来最大程度地提高精度,但是当我们仅使用先前的队列来计算给定同类c的学校级别的朋友偏见时,获得了类似的结果。当我们使用一定差而不是固定效应时(即,比较邻近同类的EC的变化和暴露的变化,而不是相对于学校中的所有队列,我们还获得了相似的估计),以及在每个队列中的EC和暴露与两个邻近的队列中的eC和暴露时(补充图6)。
回归不连续性设计诱导了跨相邻队列的准随机分配,因此解决了跨核心设计中可能从暴露和EC的相关趋势中引起的潜在偏见。回归不连续设计的识别假设是,朋友行为的其他决定因素不会以与跨同类群体高级学生的份额相关的方式离散地跳跃。我们在补充信息B.6中评估了该假设的有效性,在该信息中,我们表明可观察到的特征不会随着暴露变化而离散地跳下。
就像在跨科罗特设计中一样,我们专注于五分之一的五分之一的学生之间的友谊与顶级父母五分之一的人之间的友谊。为了实施设计,我们首先要关注相邻的队列对,其中顶级Quintile(高SES)暴露量的跳跃幅度ΔESC= Exposersc - 曝光,C-1位于跨队列PairsΔESC分布的顶部四分位数。平均而言,在入口日期截止日期,高空SES暴露量大约增加0.40个单位,将所有队列对汇总在ΔESC的顶部四分位数中。
在扩展数据图4A中,我们研究了这些跳向高级父母SES的同龄人的跳跃如何影响低(底部四分位数)与高(顶级四分位数)朋友偏见的学校中的个人EC。如上所述,我们使用对同一学校所有其他队列中的平均朋友偏见计算的每个队列的朋友偏差的估计值,不包括回归不连续分析中使用的两个焦点队列。图中图中的每个系列ec中的每个系列(低母亲SES学生在其高中队列中都有0.2(高SES人口份额)的高级育种朋友的份额,其出生日期,减去了先前的队列意味着隔离同类群体的变化。
对于每个朋友的偏见四分之一,我们通过在出生日期进行回归的EC临界值时估计EC的跳跃幅度,该指标的指标超过了进入日期截止日期,以及出生日期的相互作用与超过入口日期截止日期的指标(请参阅估计方程中的补充信息B.6)。在此回归中,我们在截止的两侧使用200天的带宽;我们在补充信息B.6中显示了对其他带宽的估计的鲁棒性。
扩展数据图4b收集了从所有四个四分位数的分布分布分布的四分位数中获得的回归不连续性估计。然后,它将这些估计值与每个四分位数中的ΔESC的平均变化,分别用于朋友偏见的顶部和底部四分位数的学校。
该研究的重点是了解有关社区和人群而不是个人的高级见解。我们使用了一个旨在自动处理原始数据,剥离个人标识符的数据并生成汇总结果的服务器端分析脚本,并分析了本文中的结论。然后,脚本迅速删除了该项目生成的原始数据。虽然我们使用各种公开可用的汇总统计来源来补充我们的分析,但我们并未将任何外部个人级信息与Facebook数据联系起来。作为这项研究的一部分做出的所有推论都是为这项研究而创建和使用的,并且没有被meta用于任何其他目的。
可在www.socialcapital.org上获得公开可用的数据集,其中仅包括社会资本的总统计数据。我们使用差异隐私文献中的方法为这些汇总统计数据增加噪音,以保护隐私,同时保持高度的统计可靠性;有关这些程序的更多详细信息,请参见https://www.socialcapital.org。该项目获得了哈佛大学IRB 17-1692的批准。
有关研究设计的更多信息可在与本文有关的自然研究报告摘要中获得。

