百度世界2020文心ERNIE吸引众多开发者目光 推动NLP技术向产业落地
语言与知识技术,被归类为认知智能,一直是人工智能最热门的研究与应用领域。9月15日,百度世界2020召开,作为“AI新型基础设施”百度大脑6.0的重要组成部分,百度语义理解技术与平台文心(ERNIE)在大会上的发布吸引了大量NLP开发者的目光,尤其基于多流机制的预训练语言生成技术ERNIE-GEN、知识增强跨模态语义理解技术ERNIE-ViL等,均达到了世界领先水平。 文心(ERNIE)是百度在语言与知识领域深耕多年的技术大成,同时登顶国际权威榜单GLUE也代表着中国语义理解技术在世界舞台的地位。 随着企业智能化转型的深入,智能文本处理得需求广泛存在,通用API/SDK已无法充分满足需求,而传统的NLP 定制方法在实际的产业应用中面临着不少问题,包括:需要较多高质量的人工标注数据、缺少NLP技术选型与模型调优经验、迭代调优耗时长等,再加上往往需要高昂的算力花费,让不少企业望而生畏。对此,在今年8月25日的百度大脑语言与知识技术峰会上,百度集团副总裁吴甜重磅发布语义理解技术与平台文心(ERNIE),为企业提供了一种革新性的应用范式,集先进的预训练模型、全面的NLP算法集、端到端开发套件和平台化服务于一体,提供一站式NLP开发与服务,让企业用户更简单、高效地定制企业级文本模型。 百度通过将世界领先的NLP技术成果开放给业界,降低了NLP技术的准入门槛,让各大产业都能快速拥有构建和应用文本智能的能力,为产业智能化提供了全新的加速度。在今年7月的世界人工智能大会(WAIC)上,文心(ERNIE)更是摘得了大会最高荣誉SAIL奖(Super AI Leader,卓越人工智能引领者),在人工智能领域技术创新和应用探索等方面获得权威肯定。 目前,文心(ERNIE)累计支持2万余名开发者,覆盖金融、通信、教育、电商等行业,并在多个公开权威语义评测中获得了近十项世界冠军。 破局NLP建模难题,为企业NLP应用按下加速键 从数据到应用,文心提供一整套文本建模能力 文心(ERNIE)基于领先的语义理解核心技术,内置百度自研业界效果领先的预训练模型集ERNIE和全面领先的算法集,将文本数据处理、基于深度学习的模型训练、模型评估和上线部署等NLP开发流程进行易用性封装,为NLP开发者提供一整套效果领先、简单易用、高效灵活的NLP模型开发服务。 丰富的文本数据处理能力,摆脱繁琐数据处理流程 不论是互联网领域还是传统行业,大量的企业核心信息都分布在非结构化的文本数据中。在IDC的报告中也提及:“最近几年全球新增的数据中,有80%来自非结构化数据。”一方面,这些文本数据蕴含着的高价值信息,对企业的良性发展至关重要;另一方面,对这些信息的处理往往要耗费大量的人力,也是一笔不小的成本。 数据是模型训练的起点。而在实际业务应用中,文本数据在数据处理的环节就要面临数据标注成本高、数据样本不均衡、数据质量不高、格式处理繁琐等一系列问题。 数据标注成本高?交给文心“智能标注”能力 一般来说,高质量的标注数据越多,模型的效果就会越好。但数据标注本身就是件耗时耗力又耗钱的事情,如何能够低成本获取大量高质量标注数据对企业来说至关重要。文心(ERNIE)提供了全新的“智能标注”能力,开发者只需要标注少量数据,文心就可以基于这部分数据学习、优化,结合人工校正,快速完成大量无标注数据的高质量标注。 (体验文心智能标注功能,可登录EasyDL) 数据样本分布不均?“数据增强”功能试一试 在实际的应用场景中,往往会面临文本数据的样本分布不均的情况。比如NLP领域常见的文本审核任务,需精准分类出正常文本和敏感文本,是一个典型的文本分类问题。但在实际的数据收集中,正常样本与敏感样本的数量很容易失衡,经常会遇到9:1(90%的正常样本),甚至差异更大的情况,但又要求训练出的模型能够更全召回敏感文本。这种情况就需要文本“数据增强”的功能,来丰富和扩展敏感样本的数量,让数据更丰富、比例更适合。 此外,还有数据噪声多、格式处理繁琐等问题,文心也一一提供了解决方案:文本“数据降噪”帮助开发者快速定位高噪声数据,支持丰富数据格式和配套的预处理能力。 超强实力的预训练模型和算法集,快速get高质量模型 文心(ERNIE)内置百度自研业界效果领先的中文预训练模型和NLP优质算法集。其中ERNIE预训练模型开创性地将大数据预训练与多源丰富知识相结合,通过持续学习技术,不断吸收海量文本数据中词汇、结构、语义等方面的新知识,实现模型效果不断进化,如同人类持续学习一样。这些硬核实力也让它在去年12月,斩获自然语言理解权威榜单GLUE榜首。 文心(ERNIE)模型集包括通用模型、任务模型、领域模型、轻量级模型等预训练模型,为业界提供最完备的预训练模型能力。 全面的评估工具和部署能力,模型落地无忧 为了满足各行业模型应用的需求,文心(ERNIE)还配套了完整的模型评估与部署能力。文心提供了10余套常用NLP评估工具,包括多标签分类评估、准召率、宏/微平均、正逆序比、BLEU值、ROUGE值、马修斯相关系数等,同时也支持用户灵活自定义评估指标。 在部署方面,文心(ERNIE)也很好地支持了模型的公有云部署和本地化部署两种方式,方便用户根据不同的业务需求来选择合适的部署方式。 从世界级技术突破到产业级NLP应用能力 聚焦企业业务价值,面向不同业务需求提供丰富产品形态 为了让文心(ERNIE)的世界级技术突破转化为企业发展的动能,在产业应用中发挥更大价值,文心还提供了多种使用方式,让不同需求、不同开发层次的企业开发者都能快速掌握。 零门槛、无代码的云端开发体验:EasyDL-NLP (编辑:应用网_阳江站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |