美国劳工统计局使用机器学习自动执行数据编码

发布时间：2020-08-27 09:24:57 所属栏目：模式来源：51cto

导读：政府机构永远充斥着各种文件，其中又不乏大量纸质文档；即使是对于电子文档，实际处理与解读仍然需要耗费大量的人力。为此，联邦机构寄希望于AI技术，即通过高级机器学习、神经网络以及自然语言处理（NLP）技术帮助改善这类文档的处理效率，尽可能将宝贵的

结果就是，在随后的六年时间里，越来越多的常规编码工作逐渐被速度更快、质量更好的数据审查与收集自动化方案所接管。这还带来令人意外的结果，即我们对常规手动编码的需求虽然大大减少，但模型无法处理的高难度情况仍然依赖于人类专家。因此，自动化程度越高，能够处理的总数据量就越大，其中需要人为介入处理的数据同样更多。结果就是，负责人为调整以及验证机器学习系统是否正常运行的雇员反而有所增加。

问：您能否分享一些在劳工局的应用场景中，AI技术发现的有趣或者令人意外的洞见？

Alex Measure: 就个人来看，我认为这里有两个令人印象深刻的惊喜。首先就是自由开源软件的存在，居然让机器学习系统的构建变得如此轻松，且实际表现远优于我们以往使用的高成本、基于规则的方法。第二点在于，这类系统在编码分配准确率方面比经过培训的人类编码员更高。这一切都是我们刚开始难以想象的，事实上整个劳工局都花了一段时间才适应如此出色的效果，而且其结果确实非常稳定。

平均来看，我们的机器学习系统自上线以来就一直在编码准确率方面超越了人类雇员，而且二者的差距随着大量数据的涌入以及随之进行的后续训练而越来越大，这也促使我们逐步转向更强大的机器学习算法——例如深度神经网络。

问：我们在数据使用方面面临着哪些独特挑战？这些挑战是否会成为政府机构在使用AI技术方面的障碍？

Alex Measure:最大的挑战之一在于数据保密性。机器学习需要大量数据，政府机构则拥有着丰富的实用性数据，但却不能任意公开加以使用——这无疑限制了各机构使用机器学习技术的具体途径。例如，在我们第一次尝试使用深度神经网络时，我们无法直接使用云资源，因为现有政策对此明令禁止。这就构成了大问题，因为劳工局自身显然没有充足的硬件以训练我们需要的各类神经网络模型。最终，我们通过内部采购及安装必要硬件解决了这个问题，但相当一部分其他机构恐怕难以跨过这道门槛。

另一大重要挑战在于模型共享。当劳工局开发出能够自动对职业或伤害进行标准化类别划分的机器学习模型时，这一成果不仅能够服务于劳工局自身，对于其他处理类似任务的联邦机构也同样意义深远，甚至能够给外部研究机构及研究人员带来巨大帮助。由于我们掌握着大量相关数据，因此劳工局等政府机构在训练这类模型方面拥有着特殊的优势地位。但有研究表明，这类模型可能在无意之间透露出训练过程中所使用的的数据信息，这就要求我们在模型共享方面小心再小心。近期其他研究表明某些技术有望缓解这些风险，劳工局已经开始进行探索，但这仍是一项极为艰难的挑战。

问：从更广泛的角度来看，联邦政府中的哪些领域有望在AI技术的推动下实现显著的效率提升？

Alex Measure: 我在政府机构工作的时间不短了，在我看来几乎每个联邦机构都有望利用有监督机器学习技术，实现相当一部分日常任务的自动化转型。统计机构就是最典型的一例，他们的主要工作内容就是语言编码与分类。目前，越来越多的统计机构已经在使用类似的技术自动检测错误，并匹配来自不同数据集的记录内容。

问：联邦机构可以采取哪些措施以吸引那些具备技术创新能力的高水平劳动力？

Alex Measure: 我认为联邦机构最好的人才吸引方法，就是强调使命感与荣誉感。联邦机构关注的往往是那些最重要的任务，一旦成功将造福整个国家，这对于具有强烈公民意识的人才极具吸引力。毕竟有意义的项目可不是那么容易接触到的。我还想强调的是，外部招聘并不是吸引熟练劳动力的唯一途径。劳工局的不少编码项目及后续机器学习尝试依靠的并不是外部AI专家，而是经过培养、对于自动化技术抱有浓厚兴趣的内部雇员。当然，在此期间Coursera等免费在线教育资源也发挥了重要作用。

劳工局之所以能够走通这条道路，是因为员工已经在统计领域拥有丰富的经验。可以肯定的是，成功的机器学习项目既需要强调技术的一面，也需要关注专业知识方面的积累。政府雇员对专业的认识已经非常深刻，互联网上又有着大量能够自由获取的资源建立技术基础，二者就这样和谐统一了起来。

问：展望未来几年，您最期待哪些AI技术成果？

Alex Measure: 我的工作主要依赖于有监督机器学习，但其中仍存在着一大局限。我们需要丰富的训练数据才能获得良好的性能，这里说的不是少量数据，而是体量庞大、远超普通人学习所需的数据集合。在大多数情况下，我们需要为模型提供成百上千的训练数据示例，才能让其掌握一种相关概念。这是个巨大的障碍，因为大多数应用场景中并不能提供这么丰富的数据。

过去几年当中，研究人员们已经在这方面取得了巨大的进展。这种进展主要来自两个方面：

其一是迁移学习，即将一项任务中学习到的知识转移到另一项任务上，有时候人们也将其称为自我监督学习。这基本上就是将有监督学习技术应用于无明确标记的数据。最近，一种流行的自我监督语言任务开始被人们所重视，即首先收集大量文本、而后重复采样其中的部分小规模子集、隐藏采样中的某些单词，训练模型根据上下文预测缺失的片段。只要能够正确完成这一操作，我们即可获得一套对语言拥有深刻理解的模型，且不需要任何显式标签。接下来，我们就能通过迁移学习将该技术应用于指向不同语言处理任务的模型，例如预测伤害分类等。如果一切顺利，那么其能够显著降低任务自动化所需要的训练数据总量。这无疑为目前由于缺乏训练数据而无法实现自动化的众多应用场景，打开了通向机器学习的大门。

我们关注的另一个重要领域在于差异化隐私，其在AI内部与外部皆有应用。最新进展已经带来一种全新机制，能够在实现机器学习模型共享的同时，为基础训练数据提供严格的隐私保护。一领域的进展有望加快受信数据收集方之间的自动化成果流通（例如经过训练的机器学习模型以及统计估计值），同时提升基础数据的保密性水平。

（编辑：应用网_阳江站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

2/2

首页