大数据信息安全技术解决方案V3.0.pptx
1、大数据信息安全技术解决方案
《大数据信息安全技术解决方案V3.0.pptx》由会员分享,可在线阅读,更多相关《大数据信息安全技术解决方案V3.0.pptx(89页珍藏版)》请在悟道方案网上搜索。 1、大数据信息安全技术解决方案,汇 报 内 容,大数据“浪潮汹涌”,“人人都知道,都说好,但究竟是什么,怎么做?” 有关大数据浪潮的贴切描述,真有很“大”的数据么?,反映到数据量上是什么情况?,“网上一分钟,人间一万年!”,大数据的背景意义信息爆炸增长,*,GB,TB,PB,EB,ZB,地球上至今总共的数据量:在2006 年,个人用户才刚刚迈进TB时代,全球一共新产生了约180EB的数据;在2011 年,这个数字达到了1.8ZB。而有市场研究机构预测:到2020 年,整个世界的数据总量将会增长44 倍,达到35.2ZB(1ZB=10 亿TB)!,如此庞大数据的源头是什么?,1PB = 250字节1 2、EB = 260字节1ZB = 270字节,大数据的背景意义信息爆炸增长,大数据的背景意义感知设备的普及,大数据的背景意义物联网体系架构,大数据背景意义社交网络的承载,大数据的背景意义社交网络承载,商业模式驱动(新壶装旧酒),内在需求驱动(新酒装新壶),“蓝蓝的天上白云飘,白云下面数据跑”云计算技术是大数据发展的基础和支撑,云计算,大数据,大数据的背景:网络互联技术发展、感知设备普及以及物联网架构成熟,并由社交网络承载所引起的信息爆炸。云计算为其提供强大的支撑动力!,大数据的背景意义云计算为支撑,大数据的概念和内涵,“大数据:或称巨量数据、海量数据、大资料,指的是所涉及的数据量规模巨大到无法通 3、过人工,在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息。” 维基百科,大数据的概念和内涵,“大数据指的是大小超出常规的数据库工具获取、存储、管理和分析能力的数据集。尺寸并无主观度量。”麦肯锡,大数据的概念和内涵,仅仅是“大”?,比“大”更重要的是数据的复杂性,有时甚至大数据中的小数据如一条微博就具有颠覆性的价值,海量,异构,劣质,高维,大数据的背景意义大数据的特性,体量Volume,多样性Variety,价值密度Value,速度Velocity,非结构化数据的超大规模和增长总数据量的8090%比结构化数据增长快10倍到50倍是传统数据仓库的10倍到50倍,大数据的异构和多样性很 4、多不同形式(文本、图像、视频、机器数据)无模式或者模式不明显不连贯的语法或句义,大量的不相关信息对未来趋势与模式的可预测分析深度复杂分析(机器学习、人工智能Vs传统商务智能(咨询、报告等),实时分析而非批量式分析数据输入、处理与丢弃立竿见影而非事后见效,大,杂,“海量化(Volume)、多样化(Variety)、快速化(Velocity)、价值密度低(Value)”就是“大数据”的显著特征,或者说,只有具备这些特点的数据,才是大数据。,低,快,大数据的背景意义大数据的4V特性,海量沙漠,充满杂质,只为粒金,争分夺秒,大,杂,“海量化(Volume)、多样化(Variety)、快速化(Veloc 5、ity)、价值密度低(Value)”就是“大数据”的显著特征,或者说,只有具备这些特点的数据,才是大数据。,低,快,大数据的背景意义大数据的4V特性,大数据科研属于“数据密集型”的科学发现第四范式,2007年,已故的图灵奖得主吉姆格雷(Jim Gray),大数据研究的科学价值,李国杰(中国工程院院士,大数据专委会主任),“现代生命科学信息已具备大数据公认的4V特征,同时,大数据彻底颠覆了传统生命科学以假说指导实验和以模式生物为研究主体的科学发现模式,使生命科学研究开始进入“数据密集型”的科学发现第四范式时代。”,赵国屏(中科院院士,国家人类基因组南方中心执行主任,分子微生物学专家),大数据研究 6、的科学价值,Gartner2013年技术成熟度曲线,大数据正处于高速发展的巅峰期(热度巅峰),但在研究中仍然面临严峻挑战,亟需研究突破。待热潮之后,虽可能转向低谷期,但未来将走向成熟!,Gartner2013年技术成熟度曲线,大数据的数据够“大”,数据不再是稀缺资源,不能像小数据时代那样,用最小的数据获得最多的信息;而应该要拿到与领域相关的全数据,大数据的数据够“杂”,来源广泛,格式五花八门,用户需从海量数据中提炼有价值信息,个体数据(或严格因果模型)的精确性不再重要,重要的是大多数数据群共同指出的结论(相关性关系);,大数据的数据够“快”,数据产生得快,数据增加得快,数据随时间的折旧也快大数据安全技术,数 7、据的时效性成为关键。,大数据新思维,大数据新思维,大数据思维研究方法,各国大数据发展战略,各国大数据发展战略,我国大数据发展战略,大数据在公共领域的应用,互联网与大数据,互联网与大数据企业家的声音,1、区分识别城市的功能区域(如文教、商业和住宅区轨迹数据包含乘客上车和下车地点的信息。人的移动性数据可以很好地区分相同类别的兴趣点的热度,也可以揭示一个区域的功能,2、搜寻城市道路网中不合理的规划(拥堵)利用高速和环路等主干道将城市分割成区域,然后分析大规模车流轨迹数据在不同区域之间行驶的一些特征,便可找到连通性较差的区域对,从而发掘现有城市道路网的不足之处,北京市3万多辆出租车3个月轨迹,城镇化、 8、智慧城市与大数据城市计算(MSRA),3、细粒度空气质量预测 利用地面监测站有限的空气质量数据结合交通流道路结构、兴趣点分布、气象条件和人流规律等大数据,基于机器学习算法建立数据和空气质量的映射关系,从而推断空气质量,4、加油站排队时间及实时油耗估计 利用装有GPS的出租车在加油站的等待时间来估计加油站的排队长度,估算出此时加油站内的车辆数目及加油量。通过将全城的加油站数据汇总计算任意时刻消耗的燃油数,城镇化、智慧城市与大数据城市计算(MSRA),金融与大数据,目前,中国的大型商业银行和保险公司的数据量已经达到100TB以上级别,并且非结构化数据量在迅速增长。,中国金融行业已步入大数据时代的初 9、级阶段,并且呈现快速发展势头。优秀的大数据分析能力是当今金融市场创新的关键。,金融与大数据,国有金融机构依靠大数据技术和思维进行自我变革案例(中信银行信用卡中心),医疗与大数据,目前全球共拍摄了超过3.5万亿张照片每2分钟拍摄的照片数比19世纪拍摄的照片总数还多Facebook上累计有超过1400亿张照片发布,医疗图像的存储量占全球全部照片30!,大数据,卫生经济学与药品定价,疫情监测,公共健康监控,医疗统筹分析系统,医疗“大数据”(BigData),临床实验数据分析,医疗与大数据应用领域,网络通信与大数据,3大运营商加速推进大数据应用的具体举措:,信息成为企业战略资产,基于大数据的商业智能应 10、用将为运营商带来巨大的机遇,网络空间安全与大数据,大数据在处理网络空间安全问题上具有先天优势:,组建国家网络安全力量是网络安全大数据应用的重要目标,人机结合成为网络安全领域大数据分析工具的基本形态,真正可靠的安全保障必须与大数据时代发展同步,能源与大数据,能源行业数据特征,能源行业面临的大数据问题,能源行业企业对大数据产品和解决方案的需求集中体现在:可扩展存储、高带宽、可处理不同格式数据的分析方案。,能源勘探开发数据的类型众多,不同类型数据包含的信息各具特点,综合各种数据所包含的信息才能得出地下真实的地质状况。,汇 报 内 容,分布式文件系统、数据库,计算系统,旅游,1、采集、预处理,2、存储 11、管理,3、计算模式,4、分析挖掘,5、可视化,6、隐私和安全,大数据关键技术体系,大数据采集方法,大数据预处理方法,主要完成对已采集数据的抽取、清洗等操作,因采集数据具有多种结构和类型,数据抽取可将这些复杂的数据转化为单一的或者便于处理的构型,以达到快速分析处理的目的,对于大数据,并不全是有价值的(无关数据、冲突或错误干扰项),需清洗“去噪”从而提取出有效数据。,为随后的数据管理和分析挖掘提供良好支撑!,处理海量数据时,如果不对数据进行预处理,单纯地依赖服务器的计算能力,是否能够满足大数据场景下对处理速度、处理精确性等要求呢?,大数据存储管理关键技术分布式文件系统,分布式文件存储系统需满足容错 12、性和高吞吐量。代表技术为:Google的GFS和Hadoop的HDFS,HDFS是GFS的开源实现。,采用主从控制模式,即主节点存储元数据、接收应用请求并且根据请求类型进行应答,从节点则负责存储数据。当用户访问数据时,与主节点交互的只有指令,并根据主节点返回的数据存储位置,直接与存储节点交互获得数据,避免主节点出现瓶颈。,GFS,数据规模和吞吐量的增长需求对传统的关系型数据库管理系统在并行处理,事务特性的保证,互联协议的实现,资源管理以及容错等各个方面带来了很多挑战,去除关系数据库的关系型特性,采用NoSQL(Not Only SQL)以及NewSQL数据库,简化了数据库结构,便于对数据和系统 13、架构进行扩展。,通过放松对事务ACID语义的方法来增加系统的性能以及可扩展性(CAP定理),大数据存储管理关键技术分布式数据库,大数据计算模式关键技术MapReduce计算模式,工作原理:先分后合。Map即“分解”,把海量数据分割成若干部分,分给多台处理器并行处理;Reduce即“合并”,把各台处理器处理后的结果进行汇总操作以得到最终结果。,大数据分析关键技术深度学习(Deep Learning),深度学习的概念源于人工神经网络的研究。含多隐层的多层感知器就是一种深度学习结构。通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。充分利用大量的非标记数据,有效挖掘数 14、据中的层级特征,具有更强的表征能力,尤其适合于在图像、语音等有大量的非标记数据而又非常抽象的领域。,简单浅层神经网络(1980),深层神经网络(2006),为何沉寂了20多年?最主要原因:计算能力支持(深层),How Many Computers to Identify a Cat? 16,000 New York Time, Jun, 2012 处理器: 16,000个 神经网络:11亿个连接 训练数据:10M 图像 方法:深度学习 多层神经网络 (NN) 无人监管的数据,成功的让机器从大量的图片中学到了猫的感念,且将这种毛茸茸的小动物与单词“cat”联系到了一起,可以自行鉴别什么样的事物是 15、“cat”,Google Brain项目,大数据分析关键技术深度学习(Deep Learning),2012年6月,纽约时报披露了Google Brain项目,吸引了公众的广泛关注。,2012年11月,微软在中国天津的一次活动上公开演示了一个全自动的同声传译系统,2013年1月,李彦宏高调宣布成立百度研究院,其中第一个就是“深度学习研究所”,能很好解决所有问题么?能代替人脑?,大数据分析关键技术深度学习(Deep Learning),大数据可视化关键技术,大数据可视化关键技术主要包括:,科学大规模数据的并行可视化,包括数据流线化,任务并行化,管道并行化和数据并行化,充分结合大规模的网络数据的节 16、点之间的相互联系,设计图的排布算法,直观有效体现,基于维度压缩、平行坐标等可视化手段,提供一些子空间选择,用户根据分析需要进行交互,更好发掘最新的图形硬件潜力,提供更加灵活的大数据可视化和绘制的解决方法,大数据隐私与安全,“On the Internet, nobody knows youre a dog”纽约客1993年7月5日刊登的一则由彼得施泰纳(Peter Steiner)创作的漫画,在大数据时代,还是这样吗?,大数据时代:手机、社交网络等大数据来源可从时空和社会情境两个维度对人进行了双重锁定。,我的隐私和安全去哪儿了?,大数据隐私与安全关键技术,1、加密保护技术:保证数据的真实性,可 17、逆性和无损性,如SMC模型,差分隐私等。但是该技术的计算开销很大,对大数据的支持不大适用。,2、文件访问控制技术:通过文件访问控制来限制呈现对数据的操作,在一定程度解决数据安全问题,大数据隐私与安全关键技术,3、匿名化保护技术:适用于各类数据和众多应用,算法通用性高,能保证发布数据的真实性,实现简单,如聚类、k-anonymity,l-diversity等,匿名化过程不可逆,本质上是损失数据精度和数据隐私的折中。,4、可信计算(Trusted computing)技术:通用于各类数据和众多应用,在计算和通信系统中广泛使用基于硬件安全模块(可信根)支持下的可信计算平台,以提高系统整体的安全性。, 18、大数据发展趋势,大数据发展趋势十大趋势预测,2013年度预测1. 数据的资源化2. 大数据的隐私问题突出3. 大数据与云计算等深度融合4. 基于大数据的智能的出现5. 大数据分析的革命性方法6. 大数据安全7. 数据科学兴起8. 数据共享联盟9. 大数据新职业10.更大的数据,2014年度预测1、大数据从“概念”走向“价值”2、大数据架构的多样化模式并存3、大数据安全与隐私4、大数据分析与可视化5、大数据产业成为战略性产业6、数据商品化与数据共享联盟化7、基于大数据的推荐与预测流行8、深度学习与大数据智能成为支撑9、数据科学的兴起10、大数据生态环境逐步完善,大数据发展趋势,汇 报 内 容,背 19、景,“果园行动”以色列轰炸叙利亚核设施,2007年以色列导弹袭击叙利亚时,叙利亚的防御雷达系统并没有做出必要的预警,科学家分析其原因是由于叙利亚雷达系统使用的商业芯片在制造过程中被植入了的“木马”或者“后门”,这些芯片收到攻击者发送的预设代码,其正常的功能会被破坏或停止,导致雷达失效,背景,2014美国国安局“量子”项目电脑不联网也可被监控可以通过数据采集节点对安装特定芯片的电脑进行数据收集而不需要这些电脑打开wifi等上网数据通道,这些芯片的硬件电路中存在木马或者后门,集成 电路芯片中的这些恶意电路可以绕过系统软件的安全防御和用户的设防,进行“电子间谍”,背景,背景,系统功能出错、失效,背景 20、,泄露秘密,使系统安全形同虚设、陷于完全暴露的境地,可造成国家安全和政治安全的巨大损失,背景,卫星失控,背景,飞机坠毁,背景,通讯网络瘫痪,针对芯片的各种外部攻击手段,如电磁攻击、测试扫描攻击、失效攻击等,会破坏芯片正常功能,造成关键应用的故障和巨大损失,可信芯片,芯片安全保护技术,芯片设计和制造的可信保障 芯片设计制造整个流程中,原始设计感染恶意电路或者遭到恶意修改的机会非常多,如何保障如此长流程、多参与者的芯片设计生产过程的“既不能多也不能少”的可信性,同时不能明显改变传统设计流程以保证可用性,是一个极具挑战的全新问题。不能少:功能完备,无缺陷;不能多:杜绝额外冗余,避免木马、后门等,芯片 21、安全保护技术,可信芯片的身份认证芯片身份认证:通过对芯片唯一标识的查看和追溯,实现对芯片来源、功用和合法性等方面进行检查和确认。在电子系统中芯片的身份合法性和可信性认证,确保了正在使用的芯片不是被仿制和篡改的芯片,是安全信任的基础保障。通常把身份信息存储于芯片的非易失性存储器中,认证时对比芯片的身份信息。另外还有一些其它手段如水印、指纹等技术。,芯片安全保护技术,芯片知识产权的有效保护经济:设计和制造成本高,经济价值可观。每年因为芯片知识产权侵害造成的经济损失高达2500亿美金,损失75万个工作岗位。更重要的是对芯片安全和可信的危害,对以此为基础的信息系统安全的危害,对国家和国防安全的威胁。防 22、护方法主要从两个方面入手,即1)对芯片逻辑设计和物理版图的保护2)对芯片产品的授权保护对设计和版图的保护主要针对逆向设计和设计资料外泄,通过混淆、加密等方法;对授权保护,主要基于加密认证、水印指纹等方式。,国外芯片安全技术现状,美国自然科学基金委,美国国防部,9000万,主要集中研究抵抗可信性攻击的方法学、规范以及关键技术,提高芯片从生产到流通全过程的安全。,积极从传统的软件、通信安全领域向芯片安全领域聚焦,研究硬件安全的各种攻击技术(如旁路侦听、时钟攻击等)和防护技术(物理不可克隆函数、混淆等)。,澳大利亚,欧盟,美国,国内芯片安全技术现状,极端保密领域信赖“物理隔离”的安全被奉为“金科玉律 23、”。,自主芯片设计和制造能力相对较弱,芯片安全技术研究更处于基本空白和起步阶段,仅确保底层的芯片安全,信息安全大厦(信息系统安全)仍未健全。,汇 报 内 容,2011年4月,索尼的PSN网络平台遭到了黑客的入侵,超过7000万用户资料外泄。,2011年9月,日本军工生产企业三菱重工电脑网络遭到黑客攻击,内部资料被窃取。,2012年3月,信用卡支付中介机构 “全球支付”公司遭到黑客入侵,约1000万账户被盗。,2012年4月,美国中情局网站遭到黑客攻击,被迫宕机数小时,部分内部法庭文件被曝光。,信息系统的安全威胁,目前,信息系统的安全正面临严峻的挑战,信息系统的安全威胁,代码篡改,恶意代码植入, 24、访问控制越权,病毒漏洞肆虐,基于PC机软硬件结构的信息系统结构简单,缺乏可靠的代码一致性、访问权限审查,无法确保系统安全。,核心安全问题,核心安全问题,核心安全问题,核心安全问题,可信计算的理念,为了解决信息系统潜在的安全威胁,一种依赖于可信芯片,从源头解决安全问题的技术可信计算技术脱颖而出。,沈昌祥(中国工程院院士,中国计算机学会信息保密专业委员会主任),冯登国(现任中共中央办公厅机要局副局长,原信息安全国家重点实验室主任),可信计算的理念,可信计算是安全的基础,从可信根出发,解决PC机结构所引起的安全问题。,可信计算将是“下一代信息安全技术”。,可信计算的核心,可信平台模块(TPM),可信 25、平台模块,可信计算技术的核心是可信平台模块TPM,一个具备系列安全功能的协处理器。,可信平台模块 TPM,完整性测量,远程认证,保证自身信息系统安全,保证远程端实体可信,保证自身实体可信,通过基于可信平台模块TPM来确保子信息系统安全,从而实现信息系统整体安全。,完整性保护机制 TPM 1.0,可信模块,完整性度量,权利移交,完整性度量,完整性度量,权利移交,启用程序,应用程序,操作系统,Bootloader,操作系统内核规模大,形式化证明困难,容易被攻击,完整性保护机制 TPM 1.2,TPM1.2,新增CPU指令支持,NTLDR,GRUB,绕过操作系统,直接发出CPU特殊指令,完整性测量, 26、隔离OS,直接使用CPU和内存等资源,国外可信计算发展,国内可信计算发展,芯片产品型号:SSX44 芯片性能指标0.25mCMOS,数模混合设计工艺芯片面积25mm2 以下功耗小于200mw内置NVRAM内置真随机数发生器具备高低电压检测、高低频率检测、总线加扰、关键存储区域加密、版图保护、功耗平滑、开启检测等多种方法来实现芯片的防逻辑攻击、芯片级的防解剖和防物理攻击的能力,Page 85,核心产品:自主可信TCM芯片,Page 86,台式机联想 Thinkcenter M4000T/M6000T/M8000T 台式机方正 君逸 M530/M580 台式机同方 超翔/超越台式机长城安全电脑台式 27、机笔记本联想 昭阳 K43A 笔记本Dell Latitude E4310笔记本研祥JIN1401加固笔记本服务器联想 R525 G3服务器麒麟天机存储服务器,基于TCM的可信计算产品体系,同方银联理财电脑,君逸M530,DELL E4310,研祥JNB1401加固笔记本,ThinkCentre系列,昭阳 K43a,麒麟天机存储服务器,R525 G3,长城世恒S,Thinkpad PC上配备的是国际标准的TPM可信平台模块,Page 87,联想基于可信计算的安全应用,U盘无忧(安全移动存储),合法USB设备,合法USB设备,数据流入,数据流出,TCM芯片,交叉认证,交叉认证,产品特性:TCM代 28、表主机身份,USB设备在主机上使用必须验证USB身份不符合授权的USB不能使用,授权的USB只能在指定的主机上使用,非法USB设备,拒绝,非法主机,拒绝,优点1:公司范围中,限制机密文件的传播范围 无权限用户不能查看其内容,优点2:公司范围中,限制外来U盘不能使用 限制外来U盘数据拷贝/交换,造成泄密 避免外来U盘带来恶意程序或病毒,优点2: 低硬件成本,低管理、学习培训成本 无需专用U盘硬件 简单易管理,不用专门培训和学习,银联电子支付示范应用,可信支付终端 在系统终端嵌入TCM,经过与后台服务器完成认证后,支持用户使用银联卡完成网上支付、账户查询等功能。遵循用户传统的刷卡支付习惯,同时利用TCM保证支付过程安全可信。 系统在08年度“金融电子展”亮相后,获得强力关注。,可信计算应用电子支付,Page 88,谢谢大家!, (编辑:应用网_阳江站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |