多哥是一个小国,西非人口约为800万。超过50%的人口生活在国际贫困线以下。在2020年3月上旬在多哥确认了第一个Covid-19案件后不久,政府施加了经济锁定令,以防止疾病的传播。这些锁定迫使许多多哥人停止工作,这引起了人们对粮食不安全不安全感的潜力的担忧(补充图1)。
2020年4月8日,政府启动了Novissi计划(Novissi意味着以Ewé语言的方式团结)。根据多哥部长劳森(C.Novissi最初旨在为大洛米(GreaterLomé)的非正式工人提供福利,大洛米(GreaterLomé)是围绕锁定命令最初集中的首都大都市地区。针对非正式工人的理由是,他们更有可能脆弱,更有可能受到锁定命令的影响。
为了确定诺维西的资格,政府依靠在2019年底更新的国家选民注册表,其中个人指示其家中的位置和职业。当时,选民注册表包含3,633,898个条目,选举委员会的报告相当于成人总人口的87%(有关详细信息,请参见表2)。
接收Novissi的福利要求个人通过手机拨打Novissi非结构化补充服务数据(USSD)平台来注册。因此,注册最初需要(1)与合格地点相关的有效和独特的选民ID;(2)有效的SIM卡,(3)访问手机。注册不需要智能手机;可以从基本手机访问USSD平台。由于在多哥中共享电话共享很常见,因此可以通过一部手机注册多个SIM卡(只要将每个SIM链接到有效的选民ID)即可。有关讨论选民和电话要求可能导致计划排除的程度的讨论,请参见“计划排除”。
然后,符合条件的女性受益人每月支付12,250 FCFA(22.50美元);男性每月收到10,500 FCFA(20美元)。两周分期付款,使用该国两个移动网络运营商管理的现有移动货币基础设施进行了三个月的两周分期付款。该系统的设计为100%数字,因此可以在没有面对面联系的情况下完成注册,资格确定和付款。诺维西通过广播广告和社区领导者积极促进,并在该计划启动的那天报告了440万次注册尝试。在关注大洛米的诺维西的第一阶段中,大约有510,000名受益人获得了付款。
在2020年夏季,为了响应Covid-19的本地爆发,政府根据地理位置针对的是扩展Novissi。在这一地理位置针对的扩张中,所有在Soudou Canton投票的个人都有资格获得Novissi福利。地理目标主要取决于公共卫生的考虑,而不是由贫困率决定。通过该地理位置针对的计划,总共支付了大约5,800名受益人。
我们的分析重点是Novissi的第二阶段,该阶段是在大洛梅的Novissi计划终止之后启动的。具体而言,政府希望与非政府组织合作,将诺维西的资格扩大到农村穷人。政府的政策任务是(1)优先考虑在多哥最贫穷的州(全国397个州)中居住的人的优先福利,在那里,政府选择了数字100,以平衡专注于最贫穷村庄的愿望,而不会过多地专注于特定地区;(2)优先考虑这100个州中最贫穷的人。
在Novissi的第二阶段,注册和注册使用了上述几个相同的步骤:个人必须在100个最贫穷的州之一中注册选民ID,他们必须使用带有独特的SIM卡的手机自注册。但是,个人的职业并未用于确定资格。取而代之的是,基于本文所述的机器学习方法,个人的估计财富用于将资格限制在这100个州的估计最贫穷的订户中。
我们的核心分析在很大程度上取决于多哥研究所(Dogo ant des'tesétudesEconomiques etdémographices(Inseed))进行的两项调查。第一项调查是全国代表的,于2018年和2019年在该领域进行(n = 6,171)。第二次调查是在2020年9月通过电话进行的,是移动网络订户的代表,被推断出居住在符合Novissi AID的农村各州(n = 8,915)。我们使用这两个不同的调查数据集,因为这两个数据集本身都足以进行我们需要的分析:2020调查没有收集消费数据,这对于评估某些反事实是很重要;2018 - 19年的调查仅在县级别具有代表性,并且仅对有资格获得Novissi的100个最贫穷的州中的少数家庭进行了调查。(我们计划在2021年初进行大规模的面对面调查,该调查将为本文提供重点,但由于Covid-19的复兴,因此被迫无限期地推迟调查。
我们的第一个调查数据集是从全国代表性家庭调查中获得的。具体而言,从多哥的大约6,000个EA中随机抽取了540个枚举区域(EAS),其重量与上次全国人口普查中的EA大小成正比(2011年进行)。然后从每个选定的EA中随机抽取十二个家庭,共有6,172个家庭。持续约3小时的调查是在两波浪潮中进行的,2018年10月至2018年12月的第一波浪潮以及2019年4月至6月之间的第二波浪潮。我们删除了一个缺少消费支出和资产数据的观察结果,留下了6,171个观察结果。在可能的情况下,与家庭负责人进行了访谈,或者是最有知识的成年人。枚举者使用Soundercto软件在平板电脑上记录了答案。
作为调查的重新连接协议的一部分,每个家庭的代表都要求电话号码。4,618个家庭(75%)的家庭与电话号码相匹配。数据不包括电话号码所属家庭成员的标识符。在调查日期之前的三个月中,共有4,171个家庭的电话号码在我们的手机交易日志中至少包含一项交易(占电话号码的90%),导致匹配的调查 - 零件手机数据集,n = 4,171。请注意,该匹配的数据集在全国范围内代表或一定代表手机订户,因为有选择的家庭和家庭成员提供电话号码。
我们的第二个调查数据集是从2020年9月在两周内进行的电话调查获得的。该调查持续了大约40分钟,并涵盖了人口统计,资产所有权和福祉。枚举者使用Soundercto软件在平板电脑上记录了答案。2020年电话调查的电话号码是从手机交易日志中绘制的,样本是根据其手机数据推断出的订户的代表,这些订户生活在符合Novissi AID资格的农村广州(请参阅第4节补充方法)。请注意,由于根据推论位置绘制样本,因此并非所有受访者都一定居住在符合援助的州。该调查包括一个关于居住地的问题,有68%的观察报告报告了居住在Novissi-Cimi-Canton中的问题。
在绘制的电话号码中,有35%的人对调查做出了回应,并完成了整个调查。总体而言,在删除了低质量的调查和缺失贫困结果之后,数据集包含8,915个观测值,与单个订户相对应。我们使用“预测手机数据预测贫困”中描述的相同的手机功能和机器学习方法对无响应进行调查。我们的样品权重由抽奖概率的倒数和预测响应概率的倒数组成。有关2020年电话调查内容,采样程序和重新加权程序的内容的更多详细信息,请在补充方法中获得第5节。
我们从调查数据中构建了四个贫困结果:消费支出(仅在2018 - 2019年现场调查中捕获),基于资产的财富指数,贫困概率指数(PPI)和PMT。
消费支出结果仅在2018 - 2019年现场调查的数据集中可用。每次家庭面试都会引起200多种食品和非食品物品的分组支出。然后,根据在县级别计算的价格指数调整消费量。最终的结果措施是人均成人等效的家庭消费支出,我们每天将其转换为$ $。
我们计算2018 - 2019年现场调查中家庭的主要成分分析(PCA)资产指数以及2020年电话调查中接受采访的个人相关的家庭。资产指数由PCA构建。资产指数是由2018 - 2019年现场调查中的24个基本二元资产变量和2020年手机调查中的10个基本二进制资产变量构建的。这两个调查的资产指数是由不同资产集的独立构建的,因此不共享基础向量。补充表2中显示了每个指数的基础向量。资产指数在2018 - 2019年现场调查中解释了资产所有权差异的31.50%,在2020年电话调查中,资产所有权差异的53.45%。但是,在两个指数中解释的差异不应直接比较,因为2020年电话调查中记录的资产要比2018 - 2019年现场调查所记录的差异要少得多。我们还注意到,2020电话调查数据集的资产指数主要取决于三个资产的所有权(厕所,无线电和摩托车;请参阅补充表2),因此比2018- 2019年电话调查数据集中的资产指数要低得多。
我们将记分卡用于创新用于贫困行动的当前PPI(https://www.povertyindex.org/country/togo)。该指数是根据Inseed在2015年进行的全国代表性调查(n = 2,335)进行校准的。“贫困概率”是根据十个家庭问题进行评分的,包括居住区,成人和儿童教育,资产所有权和糖消费。我们仅在2018 - 2019年现场调查中为家庭计算PPI,因为在2020年电话调查中未收集所有组件所需的数据。
使用2018 - 2019年现场调查中的数据,我们遵循逐步前进的选择过程,以选择12个资产和人口统计学变量,这些变量共同预测了人均家庭消费(请参阅补充图4,补充方法,第3节,有关详细信息)。我们使用这些变量为2018 - 2019年现场调查和2020年电话调查构建一致的PMT。遵循最近的文献,我们使用正规化的线性模型(脊回归),而不是简单的线性回归来最大化样本外精度30,33。对于2018 - 2019年现场调查,PMT消费量估计值是在十倍的交叉验证中取下的。在2020年的电话调查中,我们在整个2018 - 2019年现场调查样本中训练Ridge回归,并使用合适的模型为每个电话调查观察产生PMT消费量估算值。在十倍的交叉验证中,PMT解释了2018 - 2019年现场调查中对数转换消费支出差异的48.35%。这种解释能力与印度尼西亚,秘鲁和牙买加报道的其他国家规模的PMT相似,3,22,26(41%–66%)。PMT的权重包含在补充表3中。由于对它们进行了预测的培训以预测消费,因此PMT消费估计值可以解释为每天估计的$ $。
我们遵循另一个逐步前进的选择过程,使用2018 - 2019年的现场调查仅限于农村地区的家庭(n = 3,895),以创建针对农村地区有12个组成部分的PMT。补充表4中显示了农村特异性PMT的权重。在十倍的交叉验证中,农村特异性PMT解释了2018 - 2019年现场调查中对数转换消费支出的17%,仅限于农村地区。我们注意到,这种解释能力大大低于牙买加和布基纳FASO47,48(36%–45%)的其他工作中其他特定于农村特定的PMT。我们为2018 - 2019年现场调查的交叉验证提供了针对农村特异性PMT的样本外值,并使用合适的模型为2020年电话调查产生值。我们的意思是,在2020年手机调查数据集中没有所有必要组件的观测值(n = 18)中,这意味着对农村特异性PMT的影响。在2018 - 2019年限于农村地区的2018 - 2019年调查数据集中,农村特异性PMT和普通PMT之间的相关性为0.75,在2020年电话调查数据集中的相关性为0.76。
我们使用自我报告的职业(2018 - 2019年现场调查的户主,以及2020年电话调查的被告的职业)来对职业进行分类,然后模拟基于职业的目标。我们首先根据Novissi注册表中的职业类别对每个自我报告的职业进行分类。我们确定其中哪些类别是非正式的(在诺维西注册表中,有2,000多个独特的职业被认为是非正式的 - 最常见的职业是供应商,美发司机,出租车司机,裁缝,建筑工人和失业者)。根据Afrostat系统(https://www.afristat.org/nomenclatures/),我们进一步将职业分为10个广泛类别。补充表5记录了这些类别,以及两个调查中每个类别的比例和相关的平均消费。
补充表6列出了两项调查中的每个调查的汇总统计数据;在2018 - 2019年家庭调查中,提供了提供电话号码的家庭(进一步分解为与手机元数据匹配的电话号码的家庭,而电话号码不匹配的家庭)以及没有电话号码的家庭。请注意,由于收集了2018 - 2019年家庭调查的电话号码以进行重新接触协议,因此没有电话号码的家庭可以代表一个没有电话的家庭,或者拒绝联系以进行进一步调查的家庭。我们发现,提供电话号码的家庭(平均消费=每天2.56美元)的贫困较差(平均消费=每天1.75美元);在与电话号码相关的人中,与手机元数据不匹配的家庭(平均消费=每天2.21美元)比那些(平均消费=每天2.59美元)差。这些模式与阿富汗的相关工作一致,其中收集电话号码是为了与手机元数据匹配。这项研究发现,手机的家庭比没有手机的家庭更富有,与匹配电话号码相关的家庭比不匹配的家庭更富有。
比较了2020年电话调查和2018 - 2019年家庭调查的摘要统计数据,2020年调查的受访者往往较差(PMT = 1.62 Verrss 2.10),年轻(平均年龄= 33对44对44)和更多的男性(23%的女性比28%的女性)。鉴于2020年的调查是在农村地区进行的,而2018 - 2019年家庭调查却是全国代表的,这些差异并不奇怪。
为了模拟地理目标,我们依靠多哥县(Admin-2级,40个县)和州(Admin-3级,397个州)的贫困图。在2018 - 2019年的现场调查中,枚举者记录了每个家庭的纬度和经度,作为访谈的一部分,因此我们将每个观察结果映射到一个县,并使用地理坐标将其绘制为州。在2020年的电话调查中,我们要求每个受访者报告其县和居住地。
Indeed在2017年完成了基于调查的贫困制图练习。具体来说,在2015年进行的少量消费样本调查中校准了PMT(n = 2,335)。然后,在530 EA中,在三周内在该领域对26,902个家庭进行了调查,并在县级上进行了采样。访谈包括有关构成PMT的人口统计学,教育,资产所有权和家庭特征的问题。然后使用校准的PMT推断每个家庭的“消费”,并进行了观察,以估计每个县每天居住在多哥特异性贫困线下生活的人口百分比。补充图5显示了由此产生的贫困图。为了进行验证,我们评估了2018 - 2019年现场调查中贫困制图练习和平均消费的县级贫困率之间的相关性。Pearson相关系数为-0.78,Spearman相关系数为-0.70。
当Covid-19于2020年初首次在多哥出现时,自从在多哥进行家庭调查以来,至少已经十年了。多哥的最后一次人口普查是在2011年进行的,但没有包括有关收入,消费或资产所有权的信息。因此,我们依靠最近生产的公开可用的贫困估计值,该估计使用了对邻国人口统计和健康调查(DHS)数据培训的深度学习模型,以估算Togo16中每2.4公里瓷砖的平均相对财富。我们覆盖了由此产生的瓷砖级财富估计值,并从卫星图像中推断出的人口密度的高分辨率估计值49可获得每个广州的人口加权平均财富估计,如图5所示。如参考文献5所示。16,相对财富措施的估计是不确定性的。因此,为了进行验证,我们评估了基于卫星的贫困图中的平均财富与2018 - 2019年现场调查中的平均消费之间的相关性(尽管注意到后者的调查不是广州级别的代表)。Pearson相关系数为0.57,Spearman相关系数为0.52。
我们在2018 - 2021年的一定时间段内从多哥的两个移动网络运营商那里获得了手机元数据(呼叫详细记录(CDR))。我们专注于三片移动网络数据:2018年10月至12月至12月,2019年4月至9月至2020年3月。2018年和2019年的三个月时期分别与在现场调查的第一波和第二波中接受采访的家庭相匹配。2020年的七个月时期与2020年9月在电话调查中采访的个人的结果相匹配。补充图6中显示了有关这些时期网络活动的摘要统计数据。
我们的CDR数据包含以下信息。呼叫:呼叫者电话号码,收件人电话号码,通话日期和时间,通话时间,呼叫塔的ID;SMS消息:发送者电话号码,收件人电话号码,消息的日期和时间,发送消息的天线的ID;移动数据使用:电话号码,交易日期和时间,消耗的数据量(上传和下载组合);移动货币交易:发送者电话号码,收件人电话号码(如果对等点),交易的日期和时间,交易金额以及交易类型的广泛类别(现金IN,现金,现金,点对点或账单付费)。
在2018年10月1日至12月30日之间,两个手机网络之间共有484万个独特的移动网络订户(其中订户是任何至少在网络上拨打电话或SMS的电话号码)。在2019年4月1日至6月30日之间,共有489万移动网络订户。我们将网络上的垃圾邮件发送者确定为任何电话号码,每天平均输入100多个电话或100个SMS消息,并从数据集中删除与这些数字相关的任何交易。在2018年期间,我们删除了232个垃圾邮件发送者,在2019年期间删除了162个垃圾邮件发送者。在2018 - 2019年CDR中,我们只观察到电话,SMS消息和移动货币交易(我们不观察移动数据使用情况)。
对于2020年3月1日至9月30日之间的数据,我们观察到总共583万移动网络订阅者(请注意,该订户人口不一定反映了2018 - 2019年以来订户增长19%,因为切片是七个月而不是三个月,而不是三个月,而不是三个月,并且在订户中有很大的月份销售销售销售者,从2010年7月至2010年7月的订阅中,我们在2020年以来的订阅中销售了6%的销售; 5. 2000年,我们的订阅时间为5. 2000年。时期)。我们如上所述确定垃圾邮件发送者,从而删除了与2020 CDR数据集中107个垃圾邮件发送者相关的交易。在2020年CDR中,我们观察到电话,SMS消息,移动数据使用和移动货币交易。
对于在三个时间段的每个阶段中观察到的每个订户,我们计算了一组857–1,042的“ CDR功能”,描述了订户手机行为的各个方面。其中包括:
致电和短信功能。我们使用开源库Bandicoot50来生成大约700个功能,这些功能与呼叫和SMS消息有关,每个订户的位置和接收。这些范围从一般统计数据(例如,呼叫或SMS消息的数量,或传入交易的平衡)到社交网络特征(例如,接触的数量和多样性)到基于单元塔位置(,唯一的塔和旋转半径的数量)的衡量行动能力。
位置功能。根据多哥的每个小区塔的位置,我们计算有关每个订户放置其交易位置的信息。具体而言,我们计算了多哥40个县中每个呼叫的数量和百分比,以及每个订户访问的独特天线,州,县和区域的数量。
国际交易功能。使用与电话号码相关的国家代码,我们分别计算出呼叫和SMS消息的外向国际交易的数量。我们还计算了在即将卸下的国际电话上花费的总时间。
移动货币功能。对于与交易规模 - 交易量有关的四个变量,余额的百分比,交易前的余额百分比以及交易后的平衡 - 我们计算出传入和传出移动货币交易的平均值,中位数,最小值和最大值。我们还计算每个订户的总交易数量(分别用于传入和外向)以及独特的移动货币联系人的总数(分别用于传入和传出)。我们一起对所有交易进行了这些计算,并通过交易类型(现金,现金出局,点对点,账单付款和其他交易)分别执行这些计算。
移动数据功能。我们计算每个订户的总体,平均值,中值,最小和最大移动数据交易,以及交易大小的标准偏差。我们还计算了移动数据交易的总数以及消耗数据的唯一天数。请注意,移动数据功能仅在2020 CDR期间计算,因为我们的2018 - 2019年CDR不包括移动数据记录。
操作员。在我们的功能数据集中,我们包括一个虚拟变量,每个订户的两个移动网络运算符中的哪个与哪个相关联。
使用在调查中收集的电话号码,我们将调查观察结果与CDR功能匹配。正如“调查数据”中指出的那样,2018 - 2019年现场调查中有4,618户家庭提供了电话号码,其中4,171次与CDR匹配(占电话号码的家庭中有90%,总计68%的家庭)。我们将在第一次调查浪潮中调查的家庭与2018年10月至12日的CDR期间生成的特征相匹配,第二次调查浪的家庭与2019年4月至6月CDR时期生成的特征进行了调查。为了建立与电话相关特征与贫困之间关系的直觉,补充图7比较了2018 - 2019年家庭调查中贫困线以上和下方的CDR功能的四个CDR功能。由于根据CDR数据集对2020年的调查进行了采样,因此,在2020年调查数据集中所有8,915个观察结果都与CDR匹配。
我们为每个订户获得的CDR数据包含以订户电话号码的形式识别个人识别信息(PII)(它不包含个人的名称,地址或其他PII),以及其他潜在敏感的信息,例如有关订户网络和单元格塔的数据。为了保护这些数据的机密性,我们通过将每个电话号码编码为唯一的ID来进行分析之前对CDR进行了匿名化。数据存储在安全的大学服务器上,该服务器根据加州大学伯克利分校批准的保护人类受试者批准的数据管理计划限制了访问权限。
在将CDR记录匹配到调查响应之前,我们在电话调查中获得了所有研究主题的知情同意。但是,关于不良演员使用CDR的使用仍然存在公开关注,尤其是即使是假名的数据集经常可以匿名地进行观察的一部分37,51。对将差异隐私的保证应用于CDR数据集和相关的机器学习模型的积极研究有望平衡CDR数据的实用性与隐私问题52,53。有关这些考虑因素的其他讨论,请参见补充讨论,第2节。
我们遵循先前工作17,18,19中描述的机器学习方法,以训练从CDR功能中预测贫困的模型。具体来说,我们将使用Microsoft的LightGBM分别使用Microsoft的LightGBM训练梯度提升回归器,分别为两个匹配的COUSPER-CDR数据集训练。我们在三倍的交叉验证上调整模型的超参数,并从以下网格中选择参数:
功能的胜利:{{no winsorization,1%限制}
叶子中的最小数据:{10,20,50}
叶子数:{5,10,20}
估计数:{20,50,100}
学习率:{0.05,0.075,0.1}
我们对五倍的交叉验证进行训练和评估模型,并在每个折叠上独立调整超参数,以获取我们匹配的调查数据集中每个观察结果的准确性和样本外贫困预测的样本外估计。然后,我们将模型重新介绍了所有调查数据(分别为两个数据集中的每个数据集),记录特征的重要性(整个森林中功能分配的总数),并使用最终模型在相关时间期间为移动电话网络上的每个订户生成财富预测。
我们以这种方式尝试培训模型,以解决每个相关的贫困结果:2018 - 2019年现场调查数据集的消费支出,PMT和资产指数以及2020年电话调查数据集的PMT和资产指数。在扩展数据表6中发现了模型准确性的评估。基于电话的贫困预测与传统PMT的相关性为0.41,如2020年手机调查数据集中受过训练和评估(扩展数据表6,面板C)。当使用全国2018 - 2019年家庭调查对消费数据进行培训和评估时,基于电话的贫困预测与消费之间的相关性为0.46(扩展数据表6,面板A)。
每个模型的特征重要性在扩展数据表3中列出。我们注意到,在检查特征重要性时,与位置相关的功能(在该国每个县中放置的呼叫的数量和百分比)非常重要。通过使用这些位置功能,基于电话的贫困预测与标准PMT进行的相关性在2020电话调查进行培训和评估时(使用所有功能为0.41)。当对2018 - 2019年现场调查进行培训和评估时,仅基于位置的贫困预测与消费之间的相关性为0.42(使用所有功能时,为0.46)。鉴于位置功能的相对重要性,我们对地理在“基于位置的目标”中的基于电话的目标方法中的作用提供了更深入的分析。完整的基于电话的贫困分数中的其他重要功能与夜间通话行为,移动数据使用和移动货币使用情况有关。
我们的机器学习模型使用交叉验证来帮助限制预测过度拟合对其训练的特定调查的潜力(并在目标模拟中对其进行评估)。为了对基于CDR的估计的有效性进行更独立的测试,我们根据家庭调查数据将基于CDR模型的区域财富总计与财富的区域估计进行比较。在本练习中,我们使用2018 - 2019年全国家庭调查的机器学习模型预测了多哥中大约500万订户的消费,然后计算每个县和Canton的平均消耗量(其中每个订户的住所位置是使用补充方法中描述的标准方法从CDR推断出的,第4节)。
补充图8中显示的结果表明,基于CDR的区域贫困估计值与基于调查的区域贫困估计值相关。在县级别,基于CDR的消费与基于调查的消费的Pearman和Spearman相关性分别为0.92和0.83。与生活在贫困中的每个县的比例的相关性为-0.76和-0.74。在广州级别上,将基于CDR的估计值与卫星提取的广州贫困图进行了比较,我们发现Pearson相关性= 0.84,而Spearman相关性= 0.68;与2018 - 199年现场调查中的平均州消耗相比,皮尔逊相关性= 0.57和Spearman相关性= 0.59。这些相关性是在先前努力估算CDR14,15,17的区域贫困方面观察到的相关范围的下端。
除了上述财富预测的机器学习方法外,我们对与CDR近似贫困的直观,简约的方法的性能感兴趣。我们将重点介绍“电话支出”的量度,以每个订户发送的所有呼叫和SMS消息的费用。我们在多哥(Togo)应用通话和短信消息的标准费率:30 CFA(US $ 0.06),以发送SMS消息和50 CFA(0.09美元)每分钟通话时间。(这些价格代表了典型的多哥电话计划,尽管特殊促销活动以及多哥的两个手机运营商MOOV和TOGOCOM的朋友和家庭计划都有相当多的多样性。)我们使用这些价格来推断每个订户从其即将出发的手机交易日志中花费的(大约)数量。我们发现,电话支出方法在基础上的准确性不如基于机器学习的方法,其相关性与2020年电话调查PMT和2018 - 2019年家庭调查的消费量的相关性为0.13(扩展的数据表6A,C)。
We simulate phone-based and counterfactual targeting methods for reaching the poorest individuals in Togo, using the two survey datasets described in ‘Survey Data.’ Specifically, for each dataset, we simulate providing benefits to the poorest 29% of observations in the dataset based on a suite of counterfactual targeting options (with sample weights applied), and compare the population targeted to the population that is ‘truly poor’, where ground truth poverty is determined using两个不同的测量。借助2018 - 2019年面对面调查数据集,我们的主要基础财富措施基于消费支出:我们评估贫困的代理措施达到最低消费的贫困措施。对于2020年电话调查数据集,我们的主要基地财富措施基于“调查数据”部分中描述的PMT(这是必要的,因为在电话调查中未收集消费信息)。
我们的主要目标评估模拟了目标29%的个人,因为Novissi计划有足够的资金,可以针对合格的州的29%的注册人。第29个百分位数对应于2018 - 2019年现场调查数据集中每天1.17美元的消费门槛,而在2020年电话调查数据集中,每天的PMT门槛为1.18美元。我们的分析表明,每种目标方法的准确程度如何达到29%的真正贫穷(表1),即极端贫困线以下的方法,定义为贫困线的四分之三,或每天1.43美元(扩展数据表1)以及每天1.90美元的国际贫困线以下的贫困线(扩展数据表1)(扩展数据表2)。
我们的评估旨在衡量下面描述的几种不同的靶向方法的有效程度,即在两个调查人群中的每个人群中达到最贫穷的单个手机所有者。我们专注于个人而不是家庭,因为Novissi计划的设计和支付是作为个人利益。尽管其他国家 /地区的社会援助计划通常认为家庭是决定计划资格的分析单位,但诺维西计划中没有一个家庭单位的概念(部分是因为政府没有将个人与家庭联系起来的数据)。有关个人与家庭水平分析的含义的其他讨论,请参见补充讨论第2节。
同样,我们对手机所有者的关注反映了多哥的Novissi系统通过移动货币分配付款;因此,无论目标方法如何,任何没有手机的人都无法获得收益,请参见“程序排除”以讨论该约束导致的排除错误。实际上,此约束仅使用2018 - 2019年面对面调查影响分析,其中6,171名受访者中有4,171名提供了一个有效的电话号码。为了使用2020电话调查进行分析,我们将所有受访者都包括在内,因为每个受访者都可以访问电话。未来的工作可以将基于电话的目标与可以实施的反事实定位方法进行比较,从而解释了由电话所有权导致的排除错误。
我们的评估使用两个调查数据集来衡量实施Novissi计划时可行的三种目标方法的性能:地理覆盖(针对某些地理位置中的每个人),基于职业的目标(针对某些职业类别中的每个人)和基于电话的目标。在补充图9中显示了这些方法针对每种方法的订阅者的位置。考虑排除错误或社会福利时,不考虑家庭规模。未来的工作可以通过为所有家庭成员收集电话号码并计算分配给每个家庭的总福利来模拟基于电话的目标;给定调查数据限制,我们无法执行此分析。
通过地理定位,多哥政府在实施其农村援助计划方面考虑的主要反事实方法,我们假设该计划将以最贫穷到最富裕的方式针对地理单位,并且所有有针对性单位的人都有资格获得福利。我们报告了两种不同的地理定位方法的结果:(1)针对最贫困县(Admin-2区域)的程序,定义为基于2017年Indeed调查PMT的平均预测消耗最低的县;(2)一个针对最贫穷的州(Admin-3地区)的程序,该计划定义为基于从卫星图像推断出的高分辨率微观估计财富的高分辨率微观估计的平均财富最低的州。当针对N最贫穷的地理区域将导致超过29%的个人接收益处,然后将N -1个区域完全靶向,并随机选择来自最贫穷区域的个人,直到达到29%的阈值。有关用于地理目标的贫困图,请参见图5和“贫穷地图”。(虽然多哥政府仔细考虑了这种纯粹的地理方法,但在非紧急情况环境中它不太常见,当其他数据可以为目标决策提供信息时。
在基于职业的目标中,我们首先评估针对非正式工人的有效性,这是诺维西在2020年4月首次推出时使用的资格标准,这是支付大约500,000个城市居民的基础。在实践中,此过程涉及将两项调查中每个被告人的职业分类为正式或非正式(包括失业者),并采用了与Novissi计划使用的非正式定义相同的定义。在模拟中,非正式的工人首先是针对的(如果非正式工人比获得福利更多的非正式工人,则以随机顺序为目标),正式的工人是最后的目标(如果可用的福利超过了非正式工人的数量,则以随机顺序为目标)。
我们还开发和测试了一种基于假设的职业方法,我们将其称为“基于最佳职业的目标”,该方法假设决策者拥有有关每个职业工人消费的高质量消费数据,并使用该信息首先针对最贫穷的职业。尽管多哥的大流行反应中没有考虑这种方法,但与当时多哥可用的数据源相比,这是可行的,并且代表了基于假设的基于职业的目标系统的性能的上限。我们通过计算2018 - 2019年现场调查中每种职业的平均消费来模拟这种基于职业的最佳方法;然后以增加平均消费的顺序对职业进行针对目标。补充表5中显示了每个职业类别的平均消费。
目标评估的主要兴趣是基于手机数据的定位方法的性能。基于电话的(机器学习)方法是主要文本中描述的方法,该方法使用机器学习来从手机使用的丰富数据中构建贫困评分,并优先考虑贫困分数最低的个人(“机器学习方法”)。作为参考,我们还计算出更简单的“电话(支出)”模型的性能,该模型优先考虑总部手机支出最小的个人(“帕尔西姆手机支出方法”)。
为了完整性,我们的仿真还包括针对诺维斯计划不可行的定位方法的结果,因为在启动Novissi时,实施这些方法所需的数据(尽管Togo计划在2022年创建基础独特的ID系统和全面的社会注册表)54。特别是,我们使用基于资产的财富指数模拟定位,如“调查数据”中所述。对于使用2018 - 2019年现场调查数据集的假设国家模拟,我们还使用PPI和PMT模拟了定位。最后,当模拟针对限于农村地区的假设国家计划(补充表1)时,我们还模拟了针对特定于农村特定PMT的目标(请参阅农村和国家评估的差异)。由于未收集必要的数据,因此我们无法使用2020电话调查模拟基于PPI或PMT的定位。
一个重要的警告是,我们在2018 - 2019年调查中使用的PMT是“完美校准”的,因为它既经过同一样品训练又经过评估。在现实世界中,随着校准时间和应用程序时间之间的时间增加,PMT的预测准确性下降了27,29。因此,我们报告的PMT的性能可能是现实世界中PMT性能的上限。
对于2018 - 2019年现场调查数据集以及两个数据集中基于CDR的财富估算的PMT,对跨验证的样本进行了样本,以便在靶向模拟中进行公平评估。具体而言,在每种情况下,培训数据集都分为十个交叉验证折叠;机器学习模型是在十倍中的9个训练的,用于为最终折叠提供预测。对所有十倍重复训练和预测制度。
对于每种定位方法,我们计算了针对准确性的两个“阈值 - 敏捷”指标,即捕获贫困持续度量之间的关系,而不是专注于针对特定部分人群的准确性。这些都是:
斯皮尔曼(Spearman)的等级相关系数是贫困的真实和代理度量的等级值之间的皮尔逊相关性。我们专注于Spearman的相关性,而不是标准的Pearson相关性,以衡量靶向质量,因为靶向仅与贫困的观察订购有关。Spearman的相关系数计算如下:
其中n是观察总数,根据地面真理衡量标准,RI是观察i的等级,并且是根据代理贫困度量的观察i的等级。
以下参考。3,我们追踪接收器操作员特征(ROC)曲线,以描述反事实靶向阈值处靶向方法的质量(扩展数据图4,左图)。在每个反事实靶向阈值t上,我们根据所讨论的代理贫困度量模拟靶向T%的观测值,并根据基于基础贫困措施,计算分类器的真正正率(TPR)和误报率(TPR)和误报率(FPR)。通过将t从0%变化到100%,我们构造了扩展数据中显示的ROC曲线。曲线下的面积(AUC)用于总结靶向质量,随机靶向方法的AUC为0.5,实现AUC,完美靶向AUC的AUC为1。为了方便地,我们还包括“覆盖率vs vs vs vs vers formige vs vers formige formige”(图4)图4),图4),图4),图4),图4),图4)。人口增加。请注意,由于召回是真实正率的另一个名称,因此扩展数据图4b,d表示扩展数据中ROC曲线的重新缩放图4A,c。
我们的分析重点是分析基于配额的方法的表现,该方法将从预测最贫穷的人到预测最富有的人进行排名,然后以最贫穷的29%的个人为目标。我们使用的配额为29%以来,诺维西(Novissi)计划拥有足够的资金,可以为最贫穷的29%的符合条件的注册人提供福利。(尽管这是我们评估的唯一方法,但这种基于配额的方法并不是贫穷得分可以使用的唯一方法:例如,基于阈值的方法可能针对以下每个人的贫困分数低于阈值贫困分数的每个人;替代方法可能会提供不同尺寸的现金转移,这可能会根据29 the the Altementive的贫困分数提供不同规模的现金转移。在2020年电话调查数据集中,现场调查数据集和PMT阈值每天1.18美元。我们计算以下指标,以描述每种靶向方法的准确靶向29%的准确靶向29%(1)29%真正贫穷的最贫困者,(2)国际贫困线以下的每天1.90美元的57%的观察结果为57%(2018- 2019年现场调查中的观察结果中有76%,以及在2020个手机调查中的76%,以及(3),以及(3),以及(3),以及(3),以及(3)。贫困线(每天1.43美元)(2018 - 2019年现场调查中的观察值占41%,在2020年电话调查中观察的53%):
请注意,贫困线适用于2018 - 2019年现场调查数据集中的消费支出,以及2020年电话调查数据集中的PMT估计。
表1中的结果表明,基于电话的定位方法以及反事实的定位方法在实际的Novissi计划中(表1的第3至6列)在假设的全国性计划(表1的第7至10列)中都要有效。可能有几个因素可以解释这些差异。这些因素中的一些因素很难进行经验测试,例如,调查是在不同时间点进行的,使用了不同的枚举团队以及不同的数据收集方式(电话与亲自与人相比)。我们研究了我们可以从经验上探索的两个因素:每个调查的地理集中度和贫困的基础真理度量(消费与PMT)。我们还探讨了靶向结果是否对使用全国PMT与农村特异性PMT的使用敏感。
诺维西乡村评估的重点是多哥最贫穷的州,但假设的国家计划在全国范围内进行评估(397个州)。因此,我们在补充表1中介绍了结果,该表1将假设国家计划的模拟限制在农村地区的2306个家庭(共4,171个)。将补充表1中的结果与表1的最后四列进行比较,我们发现所有方法的性能下降了,正如受益人人群更加均匀时所期望的那样。在扩展数据表6中,估计农村人群中贫困的相对困难也很明显:基于CDR的方法预测消费和PMT的性能较低,而对2018 - 2019年调查的分析仅限于农村人口(面板A VS面板B)。重要的是,我们还观察到,基于电话的靶向的相对性能增加:基于CDR的方法的性能比资产指数差,并且在全国范围内的全国评估中(表1的最后四列)中基于CANTON的靶向略差,而基于CDR的方法与资产指数相当,并且比基于Canton的Targeting在全国范围内的表格1均优于基于CANTON的目标1)。
国家评估将消费量作为基础真理,而农村的诺维西评估则以PMT为基础真理。因此,补充表7使用PMT作为地面真理模拟了假设的国家计划。将补充表7中的结果与表1中的最后四列进行比较,我们发现使用PMT而不是消耗,因为地面真相会提高所有靶向方法的靶向准确性。但是,从消耗转换为PMT并不能显着改善相对于反事实方法的基于电话的方法的性能。后者的发现表明,PMT的使用可能不是诺维西(Novissi)计划中基于CDR方法的相对性能(表1的第3至6列)和假设的全国计划(表1的第7至10列)之间差异的主要来源。
由于福利的最佳预测因素在农村和城市人口方面有所不同,因此我们探讨了当使用农村而不是国家人口校准PMT时,目标结果是否会发生变化。具体而言,我们使用“调查数据”中描述的相同方法构建了一个针对农村的PMT,但将培训数据限制为在农村地区的2018 - 2019年现场调查中的观察结果。该农村PMT解释了农村地区对数转换消费的17%,并且与一般PMT高度相关(Pearson相关= 0.75)。然后,我们为2020年电话调查的受访者提供农村PMT估计,并重新培训基于电话的贫困预测模型,以预测该人群中的农村特定PMT。然后,补充表8列出了与农村PMT作为地面真理进行模拟的结果。将补充表8与表1的第3至6列进行比较,我们观察到资产指数绩效的明显改善,但其他结果在很大程度上没有变化。
相关的,扩展数据表3显示了针对不同基于电话的预测模型的特征。面板A和B显示了表1中介绍的主要模型的前10个功能,也就是说,可以预测2020年农村电话调查中的PMT,并预测2018 - 19年全国家庭调查中的消费。面板C和D显示了预测2018 - 19年度调查中PMT的前10个功能,并预测了2018 - 2019年家庭调查中的PMT,仅限于农村地区。对于两个国家规模的模型来说,特征的重要性是相似的,这表明地面真理贫困度量的作用可能不如地理在创建贫困预测模型中的作用那么重要。这两个以农村为中心的模型的重要性不那么相似,这可能是由于2020年电话调查集中在100个最贫穷的州,而在面板D中,我们限于农村地区,但这些农村地区仍然覆盖整个国家。
综上所述,本小节的结果表明,当所考虑的人群更加均匀时,并且在更传统的定位方法中使用的其他因素(例如居住地)的差异较小时,基于电话的目标的好处可能是最大的。
一些结果强调了地理信息在有效定位中的重要性。特别是,我们观察到,基本的地理定位几乎与特定模拟中的基于电话的目标相同,特别是在全国范围内的计划中,该计划有能力负担目标总人口的很大一部分(例如,扩展数据表2)。我们还发现,CDR的与位置相关的功能在基于电话的预测模型(“机器学习方法”)中很重要。
由于这些原因,补充表9探讨了针对目标的程度,它基于仅使用CDR来推断个人的家庭位置的CDR -Location模型(请参阅第4节第4节)。与电话(支出)模型一样,由于数据和技术要求减少了55,因此CDR-Location模型可能对实施者有吸引力。55。在补充表9中,我们观察到,使用电话提取的家居位置的地理定位质量略低于使用调查记录的家居位置的地理定位,比使用机器学习方法的定位要差得多。
我们还研究了个人位置上不同信息来源之间的相关性。补充表10使用2020年电话调查的大约4,500名受访者比较了识别个人位置的三种不同方法。在县(admin-2)级别上,大多数人(90%)生活在他们注册投票的同一州;个人的CDR授予位置与自称位置(70%)之间也有很强的重叠。在广州级别上的准确性大大降低,这可能是由于空间单位较小时CDR推断算法的错误,以及受访者对他们居住的广州的困惑(例如,大多数受访者对居住的村庄都有信心,但并不总是知道他们的Canton)。
补充表11列出了其他分析,以将每个订户的手机活动与他们的家庭位置进行比较,如调查中记录,并从CDR中推断出来。我们发现,平均订户的62–85%的活动发生在其家庭县,并且所有模态订户的活动都发生在其家庭县。这些结果与预测算法中与位置相关特征的重要性(以及多哥农村人口的迁移率相对较低)。
该分析还可以为表1中的农村评估和国家评估之间的地理目标方法的准确性提供一些背景。而基于广州的靶向在国家评估中的性能更好,这与过去的工作一致,表明较优质的地理地理目标是优先于较低的地理位置目标21,56,基于预挖掘的靶向性能更好地表现出较低分辨率的替代性,以更好地表现出色的柜台表现出色。我们怀疑这种差异是由三个主要因素引起的。首先,我们预计平均广州财富的估计值可能比平均县财富的估计值更嘈杂,因为县估计估计在较大的人群中汇总,并且广州估计依赖于基于卫星的推论。其次,在农村评估中,县是PMT的重要组成部分,它被用作贫困的基础真理度量(请参阅补充表3),因此,针对的县依赖于结构上纳入地面真实结果中的信息(与国家评估不同,地面真相是消费的地方)。补充表7中的结果与第二个假设一致:在将地面真相贫困结果从消费切换到PMT时,表1中的县和广州靶向之间的差距较小。第三,农村电话调查中的位置是自我报告的,而国家调查中的枚举者在GPS设备上记录了位置;如前所述,许多受访者对他们的家园表示困惑。(但是,补充表9中的结果与第三个假设不一致:它们表明,从移动电话数据推断出的广州的目标比针对从移动电话数据推断出的县的目标弱, 表明在调查中,县和州之间的响应质量差异并不是靶向模拟结果差异的主要因素。)
在模拟基于电话的目标的性能时,我们的主要分析使用每个调查数据集既训练机器学习模型,又通过交叉验证来评估其性能。因此,这些定位绩效的措施表明,在计划部署之前,立即收集了训练数据(即贫困和匹配的CDR的基础真相指标)时应该预期的。这种最佳情况是2020年多哥发生的情况:电话调查于2020年10月完成,诺维西从2020年11月开始扩大。但是,在其他情况下,可能无法在启动新程序之前进行调查;同样可能无法访问最新的手机数据。
为了表明基于电话的模型和预测保持准确的时间,扩展数据表4比较(1)(1)(1)(1)(2)(2)培训数据旧但CDR是最新的,但(3)培训数据是旧的,而CDR也是旧的。在这些模拟中,“旧”数据来自2018 - 2019年全国性家庭调查和相应的2019电话数据集;“当前”数据是2019年和2020年可用于CD的2020个电话调查受访者的子集(n = 7,064)。在所有模拟中,2020 PMT都用作贫困的基础真理度量。(1)的预测是在十倍的交叉验证上产生的;(2)和(3)的预测相对于培训数据取样,因为模型在2018 - 2019年现场调查中进行了培训。((3)的另一个问题是在移动电话网络上流动:2019年在2020年调查中收集的1,851(21%)的电话号码不在2019年的移动电话网络上,因此不能与(3)中的财富预测相关联。另请参见图6中的补充图6,以获取有关手机网络中失误率的详细信息。
扩展数据中的结果表4表明,当模型过时时,预测性能会降低,并且当CDR不在日期之外时,预测性能甚至进一步降低。这是可以预期的,因为在旧时期和当前时期之间大约两年:除了人们使用手机的方式变化(这会破坏预测模型的准确性)之外,某些人的实际经济状况可能已经改变,例如,由于共同-19的流行病。2018 - 199年全国家庭调查与2020年电话调查之间还有其他重要差异,可能会影响对前者训练的模型的程度,可以准确预测后者的结果(例如数据收集方式,样本的地理浓度,依此类推;请参见“农村和国家评估的差异”)。
对于集中于达到最贫穷29%的主要模拟,扩展数据表4表明,当使用日期和CDR用于靶向时,准确性降低了3-4个百分点(4-6%),精度降低了5-7个百分点(10-14%)。这些损失几乎与表1中观察到的基于电话的定位相比,基于电话的目标的增加,这强调了拥有当前和代表性的培训数据以实现基于电话的目标的现实部署的重要性。但是,在绝对层面上,尽管训练和测试环境之间存在两年的差距,但基于电话的预测仍然相当准确(即,与地面真相的Spearman相关性(ρ)为0.35-0.36。
使用两个匹配的Survey-CDR数据集,我们使用社交福利功能在每种目标方法下计算了汇总实用程序。以下参考。3我们依靠CRRA实用程序,该工具将单个实用程序建模为转移消耗和转移大小的函数:
如果n是人口规模,则yi是单个i的消费,而bi是分配给个人的好处。以下参考。3,我们使用相对风险规避的系数。为了反映Novissi计划的政策设计,我们假设所有获得福利的受益人都会获得相同的价值bi = b。(原则上,支付给我的BI的好处可能取决于I的特征,例如I的贫困水平。尽管这种方法将大大提高全部福利,但实际上,实施更加困难)。为了构建社会福利曲线,我们:
我们有兴趣审核我们的目标方法,以确保跨敏感亚组公平性。请注意,在机器学习和政策社区中,均等和公平的概念是有争议的:参考。57描述了三个最受欢迎的奇偶校验标准(人口统计学奇偶校验(与其大小相称分配给子组的好处),阈值奇偶校验(使用所有亚组的同一分类阈值)和错误率平等(跨亚组的均等分类误差) - 相互紧张。此外,参考。33描述在奇偶校验标准,优先亚组和积极歧视方面的紧张局势如何导致针对性社会保护计划管理的复杂优先级妥协。
在这里,我们重点介绍两个针对特定的奇偶校验标准:
人口统计。满足人口统计学奇偶校验的目标方法将以亚组在感兴趣的人群中的存在成比例地为亚组分配利益。我们评估了穷人之间的人口统计学差异:也就是说,我们比较了生活在贫困中的每个亚组的比例(就消费而言低于第29个百分点)与目标的每个亚组的比例(根据用于目标的代理贫困措施,低于第29个百分点)。
归一化等级残差。我们对某些亚组是否始终如一地排名或一致排名低于相反的靶向方法的排名。因此,我们比较跨亚组和靶向方法的等级残差的分布:
根据代理贫困措施,单个I的贫困等级在哪里是根据地面贫困措施的个人I的贫困等级。
我们专注于奇偶校验的七个维度:性别,种族,宗教,年龄段,残疾状况,儿童人数和婚姻状况。我们还评估个人是否是“脆弱”的奇偶校验,其中脆弱性被定义为以下特征之一:{{女性,60岁以上,患有残疾,有五个以上的孩子,是单身}。我们使用有关2018 - 2019年现场调查数据集的家庭负责人的人口统计信息进行了此分析,因为这些人口统计学变量并非全部收集到2020年的电话调查中。
在表2中,我们介绍了有关Novissi计划中排除源的信息,这些信息与定位无关。这些估计来自不同的行政和调查数据来源,特别是:
选民ID穿透。根据政府行政数据集的数据,到2019年底,有3,633,898个人在多哥进行了投票。多哥的选举委员会报告说,这对应于86.6%的合格成年人。尽管多哥的成年人总人口很难固定(最后一次人口普查是在2011年),但多哥的国家统计局(https://inseed.tg/)估计,多哥有3,715,318名成年人在多哥有3,715,318名成年人,而联合国则估计有440万成人在TOGO45中估计有42.6%的投票者ID渗透率为82.6%。
电话穿透。在2018 - 2019年的现场调查中,有65%的人报告拥有手机(补充图3A),而85%的家庭包括至少一个拥有手机的人(补充图3B)。在农村地区,这些比率降至50%的个人和77%的家庭。女性的电话所有权(53%)的男性(尤其是在农村地区为33%,男性为71%)的人电话所有权的比率大大低于男性(79%)。鉴于2018年至2020年之间电话渗透率稳步增长,这些基于家庭调查的估计可能代表了下限。多哥政府估计该国的SIM卡渗透率为82%(尽管有些人可能有多个SIM卡)58。根据手机公司的数据,我们在3月至2020年9月之间观察到多哥的583万个独特的活跃模拟人生。
过去的电话使用。为了为订户构建基于电话的贫困估算,他们必须在该计划启动之前(2020年3月 - 2020年9月,在2020年11月至12月至12月至12月的计划注册)之前,在移动网络观察期间至少将一个传出的呼叫或文字放在手机网络上。在多哥,这种排除来源的下限是手机周转率的典型月度率,我们估计这将大约2.5%(参见补充图6)。上限接近27%,这是2020年11月至12月注册的SIM卡的数量,他们在3月至9月没有进行外交交易。这种差异可能是由于(1)个人购买新的SIM卡专门为Novissi注册;或(2)使用未积极使用的现有SIM卡注册Novissi的个人,例如Multi-Sim手机中的SIM卡。基于定性观察,多功能手机在多哥非常普遍,并且很少使用次级或第三级模拟人生(或根本不使用)。家庭可能在主要的SIM上注册了一个家庭成员,而其他人可能没有以前没有网络活动。
计划意识。由于个人必须注册Novissi计划以获得福利,因此计划广告和人口意识是一个关键目标。该计划是通过广播,SMS,现场团队进行宣传的,并在县和广州级别与社区领导者进行直接沟通。总共有245,454个订户试图注册该计划。尽管我们没有观察尝试但未成功在我们的行政数据中注册的订户的县和州,但我们知道有87%的成功注册人是有资格获得福利的州。假设算术的速率大致相同,我们预计大约有213,545个在符合条件的州中。符合条件的州的总投票人口为528,562,估计试图注册率为40.40%。
注册挑战。Novissi计划的注册需要完成简短(5个问题)USSD调查。在试图注册该计划的245,454个订户中,有176,517个成功,获得了71.91%的注册成功率。
上述排除源不是独立的,因此不是累积的。例如,未注册投票的个人也可能会系统地使用手机。因此,扩展数据表5使用2020电话调查数据集,该数据集(限制在符合条件的州中报告的受访者)来计算排除穷人的排除源的重叠,包括拥有选民ID,计划意识,注册挑战,并使用基于电话的目标方法来定位错误。自2020年调查是通过电话进行的,并根据过去的CDR进行采样(请参阅补充方法,第5节)以来,我们无法在此分析中考虑手机所有权。
扩展数据表5的最后三列显示,根据2020年电话调查数据集,人口的平均特征在每个步骤中“成功”:平均PMT,女性和平均年龄。第一个小组显示了整个人群的连续排除。第二个小组仅着眼于最贫穷的29%(也就是说,“应该”获得援助的人,每个人都可以注册该计划,并且是目标算法的完美之处)。在A面板A中,我们观察到,在一定程度上,“正确”的人在每个步骤中都辍学了,这与在其他情况下观察到的自我目标是一致的26:特别是,那些试图注册的人比整体人口差(平均PMT = 1.45 vs 1.62)。除了目标阶段,妇女或平均年龄的成功人群的份额几乎没有差异。
比较扩展数据表5的面板A和B,我们观察到,在拥有选民ID并成功注册该计划的人群中,对靶向算法的回忆要高(如2020年的总体调查中所示的总体人口,如图47%所示,如表1所示,如表5所示,该计划的注册为61%(61%)。这可能是由于自我选择(即,注册Novissi的穷人的类型往往也具有低基于电话的贫困分数)。但是,可以或者,可以表明,基于电话的定位算法最好是识别意识到并注册到Novissi计划的订户中的穷人。
有关研究设计的更多信息可在与本文有关的自然研究报告摘要中获得。

