美国劳工统计局使用机器学习自动执行数据编码
政府机构永远充斥着各种文件,其中又不乏大量纸质文档;即使是对于电子文档,实际处理与解读仍然需要耗费大量的人力。为此,联邦机构寄希望于AI技术,即通过高级机器学习、神经网络以及自然语言处理(NLP)技术帮助改善这类文档的处理效率,尽可能将宝贵的人力资源解放出来。虽然其中不少技术在其他行业中早已拥有成熟的应用,并被拓展以增强各类工作流程及任务,但在部分政府部门内,这些技术还完全属于新鲜事物。 以美国劳工统计局(BLS)为例,该机构的主要职责在于执行职业伤害与疾病调查,以确保各类工作场所中常见的健康危害问题并协助制定指导性政策。为了完成这项任务,劳工局在全国各地的办公室中设有数十名训练有素的员工,专职通过工作场所内的调查数据对各类伤害及疾病进行分类。但是,这方面工作一直以手动方式执行,并导致各类标记、编码错误乃至速度与成本瓶颈一直妨碍着整体流程的效率提升。 为了简化整个流程,劳工局决定引入机器学习技术。约十年之前,劳工局经济学家Alex Measure决定探索机器学习(ML)技术如何帮助该机构改进流程效率,他本人也与我们分享了将AI技术纳入劳工局乃至整个联邦政府当中可能出现的独特挑战、各机构在AI应用过程中面临的数据难题、外加未来几年内他最为期待的重要发现。 在本文中,我们将一同了解他对于将机器学习应用于政府业务场景,特别是文档与人工流程中方面的宝贵见解。 问:劳工局在数据收集与处理方面面临的特殊挑战是什么? Alex Measure: 劳工局需要面向众多方向收集大量专题信息,具体涵盖就业、人力成本、工作时间以及工作场所伤害风险等各个方面。在调查当中,各领域间唯一的共通点在于,调查结果往往以自然语言的形式存在。在信息收集过程中,无论是采取访谈、调查或者还是其他方式,收集到的大部分内容都是以语言形式传达。为此,我们需要将语言转换为统计数据,这就是我们常说的编码过程。 在此过程中,我们需要分配标准化分类指标以指示值得关注的关键特征。例如,《职业伤害与疾病调查》每年收集数十万份与工作相关的伤害与疾病调查资料。为了回答诸如“门卫人员在工作中最常见的伤害原因是什么?”这类问题,我们需要认真阅读每一份描述,以编码方式将对方的职业与造成伤害的因素关联起来。接下来,我们汇总结果信息以回答实际问题。直到最近,整个流程仍然相当枯燥繁琐,而且大部分工作需要以手动方式完成。 在职业伤害与疾病调查方面,我们每年大约需要25000个工作时。如果希望尽快完成任务,则意味着需要同时雇用更多人力、培训更多新雇员,并保证他们能够以统一的方式对内容做出解读。这相当困难,实际上我们发现,即使是两位同样经验丰富的专家,在编写同一份伤害说明材料时也只有70%左右的几率针对相同的素材给出完全相同的伤害编码分类。这样的挑战不仅存在于劳工局之内,也广泛存在于全球各类从事类似任务的组织当中。 问:那么劳工局是如何使用机器学习技术解决这些问题的? Alex Measure: 七年之前,劳工局完成了《职业伤害与疾病调查》的全部编码工作。过去一年中,我们使用有监督机器学习(特别是深度神经网络)自动完成了超过85%的处理任务。随后,劳工局开始逐步将这些技术用于处理其他相关任务,涵盖从职业/生产分类,到医疗福利及工作要求的各个方面。 问:多年以来,劳工局对于AI技术的看法与应用方式经历了哪些转变? Alex Measure: 我加入劳工局大概是12年前,那时候人们主要还是在用知识工程或者基于规则的方法进行素材编码。其中的基本思路是,如果希望计算机执行某项操作,则需要明确告知它执行任务所需要的每条规则与信息。例如,如果要对职业进行分类,则可能需要创建一份清单,列出所有可能出现的职称以及与职称相对应的职业代码。 这种方法在处理简单及标准化任务时表现不错,但遗憾的是,即使是在职位分类这种相当具体的应用领域当中,系统也几乎无法直接处理人类语言。例如,在《职业伤害与疾病调查》中,我们发现每年收到的职位中约有2000种被系统直接对应为“管理员”。更糟糕的是,总会出现某些以往从未出现在数据中的新职位,而且部分职位与所在行业紧密相关,具体取决于特定企业的命名惯例或者行业中的传统用语。结果就是,我们需要制定体量庞大且相当复杂的规则,而这一切最终也只能支持840多种职业分类。更要命的是,这套系统的构建与维护都极为困难。 有监督机器学习带来了一种替代方案——相较于明确告知计算机其需要了解以及执行的任务内容,现在我们可以引导计算机通过数据进行学习,由其自主找到执行某些任务的最佳方法。只要大家拥有成规模的数据素材(多年以来,我们已经积累到可观的数据资源),那么往往只需要很少的人工投入就能构建起一套效率极高的系统。在我们的案例中,劳工局在短短几周之内就使用自由开源软件构建起我们的第一套机器学习系统,并发现其性能远远超越我们以往长期使用的、基于规则的昂贵方案。更令人惊讶的是,其性能甚至比我们的编码员还要高。 与传统方案相比,机器学习方法也给自动化带来了更多发展空间。如今,劳工局与全球各统计机构已经在类似的任务中迅速推广此项技术。当然,机器学习在其他领域也拥有良好表现。我们正使用机器学习技术自动检测数据错误,并自动匹配并标记数据集中的缺失记录。这对我们可谓意义重大,能够帮助劳工局通过更多不同来源收集到大量数据。 问:AI/ML技术的介入,给原本的编码员们带来了怎样的影响? Alex Measure: 在最初考虑引入自动化解决方案时,人们普遍感到担心,不少员工抵制自动化并将其视为一种威胁。但实际情况并非如此,我认为这得益于我们采取的具体实施方式以及对整体状况的综合考量。首先,我们很早就做出决定,将自动化的重点放在提高数据质量方面。这非常重要,因为除了数据质量本身的意义之外,这也代表着一种非常新颖的处理方式,要求我们保证编码流程的正确执行、并在出现问题时及时启动预先制定的可靠备份计划。我们的规划基本如下: 第一,将计算机最擅长的工作交由自动化处理,将人类最擅长的工作留给雇员。 第二,逐步引入自动化机制,保证员工有时间适应工作量与工作方式的变化。 第三,由雇员负责监督自动分配的代码,并在他们认为计算机存在错误时分配人员做出调整。 第四,将节约下的资源用于其他重要任务,例如数据收集与数据审查。 (编辑:应用网_阳江站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |