加入收藏 | 设为首页 | 会员中心 | 我要投稿 应用网_阳江站长网 (https://www.0662zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 运营中心 > 产品 > 正文

2019大数据产业峰会|中国信通院王卓:第八批大数据产品能力评测解读

发布时间:2019-06-05 14:50:42 所属栏目:产品 来源:中国IDC圈
导读:为了深入落实国家大数据战略,推动大数据产业交流与合作,展示我国大数据产业最新发展成果,2019年6月4日至5日,由中国信息通信研究院、中国通信标准化协会主办,大数据技术标准推进委员会承办的2019大数据产业峰会在北京国际会议中心隆重举办。 6月5日上

为了深入落实国家大数据战略,推动大数据产业交流与合作,展示我国大数据产业最新发展成果,2019年6月4日至5日,由中国信息通信研究院、中国通信标准化协会主办,大数据技术标准推进委员会承办的2019大数据产业峰会在北京国际会议中心隆重举办。

6月5日上午,大数据前沿技术分论坛举行,来自中国信通院云计算与大数据研究所工程师王卓为我们带来了第八批大数据产品能力评测的精彩解读。

vbox12118_C09A4418_090738_small

中国信通院云计算与大数据研究所工程师王卓

大家好,昨天在主会场第八批整个大数据产品能力评测证书已经颁布了,今天我主要介绍评测详细的情况。内容主要分四部分:总体介绍、测试观察、详细结果、未来展望。

一、总体介绍

这些年大数据软件产业发展在不断扩大,比例从2013年刚刚开始测评时的20%左右到现在已经达到30%多,按照预测增长趋势还会不断扩大。大数据产品能力评测促进了大数据软件产业发展成熟,现有的评测体系包含多项多方面评测,既有已经展开的评测也有未来计划开展的评测,测评项不只包含基础能力还有相应的性能。目前共有112款产品通过评测,完成测试数量171个。

根据评测的数据统计,测评包括现在全球最大规模的测试数据集100TB,测试最大基础能力集群规模是10000节点批处理平台,在性能测试规模测试中,华为300节点、阿里300节点、新华三200节点。下图是对测评产品的统计,哪些企业具有更多的产品监测,前十有星环信息、阿里、腾讯云等。明显可以看到这些产品的基础能力和性能相对于其他的产品更加严格。

    二、测试观察

测试观察部分主要针对这批产品能力测试的概览,以及概览中发现的一些有用信息。第八批里两个比较有特点的是华为512节点大规模集群的能力和新华三200节点能力集群。

观察一:大数据基础产品的稳定与变化

分布式批处理平台产品已经成熟稳定,总体来看73%的产品是基于HDP和CDH的开源版本进行二次开发,23%基于开源社区或者完全自研。经过10多年的发展,大数据基础技术开源生态趋向成熟,国内技术人员对开源生态群体的熟悉程度逐渐增高。

观察二:分布式分析数据库规模不断突破

分析型数据库发展加快,部分原因是Greenplum的开源让更多厂商能使用和研究分布式分析数据库,据统计参与评测的14款MPP数据库中43%都是基于Greenplum,14%基于PostgreSQL。分布式分析数据库正在努力突破扩展性的限制,大规模能力有很大突破,华为完成了512节点基础能力的测试,新华三完成了200节点性能的测试。

观察三:分布式事务数据库产品迎来春天

分布式事务数据评测只做了两批,但是从两批情况来看,已经测了十几家。我们统计了国内超过20-30款产品,这两批测评已经测了现有产品的近一半左右。从图中可以看到,分布式事务数据库基础能力是在不断提升的,两批测评之间产品能力和水平都有了相应的提升。在架构方面,82%的产品是采用中间架构,18%的产品使用新型一致性协议。新型产品基于MySQL是最多的,现在基于PG的厂商正在兴起。

观察四:数据管理与数据集成

在数据管理、数据集成部分,近两年,国内诞生了20多款数据管理软件,由于开源生态缺乏,企业均自主研发数据管理工具。数据管理工具的标准化程度较低,需要进一步进行规范。数据集成工具是大数据生态很重要的组成,开源生态较为完备,大多数产品基于Kettle、Sqoop和Nifi等开源框架开发、少数企业进行自研。

观察五:行业解决方案丰富多样

在行业解决方案中,这里新加入了知识图谱的测试。知识图谱是跟行业非常相关的,我们测的有金融、公安、游戏行业。每个行业的形式都有很大不同,可能是对外的产品,也有可能是对内自用的,在这种差异化中可以看到测试项里,必选项很少,大部分是可选项。数据的接入以结构化为主,对于文本数据的关系、属性识别还不完善,后续还值得加强,可能要有一些针对性的技术。通用知识图谱构建工具需求巨大。在很多不同行业,在提供对外产品或者服务的时候,一般以对一个需求方直接进行结构化建设,但是如果有一个共通的产品而不是以介入化的方式做这个产品会是这样一个结果。

三、详细结果

这部分对于每个项目会展示一下评测项目的整体标准和这个项目的测试情况。对于分布式批处理平台测评,整体分为八大项37个小项——原来是44项,后来进行了删减变成了12个可选项的形式。第八批测评通过的情况如图,共有8家企业5家新测企业,累计38个批处理平台产品通过了我们的测试。测试通过率是非常高的,所有产品都通过整体测试用例的完成度均在95%以上,在运维、多用户、拓展性、安全性、数据处理能力方面测试用例完成度全部是百分之百的通过率。每一年每一批都有很多企业参与,这说明我们大规模的测试趋势是非常明显的。

分布式批处理平台性能测试。我们这次评测跟之前情况有非常大的不一样,之前测试用例是SQL任务、机器学习,从头到尾是一组测试用例。这次进行了改变,而且有难度上的提升,分成10节点、20节点、30节点三种规模,在10TB和30TB两种数据集两种规模下,三种节点之内做了测试,SQL分到10节点下。性能测试因为需要一个统一的测试基准,测试全部是在机房做的标准化测试,右图是机房给的测试环境。这批通过的三家企业的情况如图,分别是滴滴、浪潮、联想大数据,这三个产品具体情况是不对外公布的,所以这里公布的是一些统计结果,包括平均值、中位值、最优值。

机器学习的结果如图,包括10节点、20节点、30节点,上面一行是SVM的情况,下行是内部的情况,每个也都是平均值、中位值、最优值,蓝色是小数据量、黄色是大数据量。

分布式批处理平台性能测评趋势。再总结一下我们进行了很多批的性能评测,从多批性能评测里面看到什么样的规律?比较清晰的是SQL的趋势,从SQL的总执行时间上看,在30TB上的比较量,可以看出来它的趋势是比较明显的,而且在不断优化的。但是在机器学习方面看到的趋势不是那么明显,在小数据量和大数据量上有一定的差异,第五和第八批分别使用258G的Kmeans和1T的SVM,从数据量上可以看到呈现不断优化的趋势。

接下来是分布式流处理平台基础能力评测标准。这个是新的评测标准,设了参考的可选项。分布式流处理平台基础能力测评包括六大项:基本功能、管理能力、兼容能力、容错能力、扩展能力、安全性,共46项测试用例。总体通过的情况是阿里云的实时计算和星环的流处理引擎,这两家的不太一样。

(编辑:应用网_阳江站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!