-
深度挖掘,你的工资拖后腿了吗?
所属栏目:[大数据] 日期:2021-01-07 热度:84
编辑推荐 嗯,不管是官方统计局还是民间组织,每次有数据机构发布“平均工资”这种信息的时候,大家都是无比感兴趣的。不过,除了少数土豪之外,想必不少人在看过数据之后,都会感慨自己又拖后腿啦!等等,如果所有人都在拖后腿,这样的评估方法是不是有什[详细]
-
字符串相似性的几种度量方法
所属栏目:[大数据] 日期:2021-01-07 热度:109
副标题#e# 无论是做科学研究,还是工程项目,我们总是会碰上要比较字符串的相似性,比如拼写纠错、文本去重、上下文相似性等。度量的方法有很多,到底使用哪一种方法来计算相似性,这就需要我们根据情况选择合适的方法来计算。这里把几种常用到的度量字符串[详细]
-
计算机指令的流水处理--挖掘之四
所属栏目:[大数据] 日期:2021-01-07 热度:138
计算机指令的处理方式有三种:顺序、重叠、流水。 1.顺序执行就是一个接一个的处理指令,好处是控制简单,缺点是速度慢,利用率低。 2.重叠是分析完一条指令执行当前指令的时候,可以继续分析下一条。这样看上去至少利用率提高了,当然缺点还是有的,例如[详细]
-
相联存储器--挖掘之五
所属栏目:[大数据] 日期:2021-01-07 热度:147
相联存储器是一种按内容访问的存储器。 工作原理:把数据和数据的某一部分作为关键字,按顺序写入信息,读出时并行地将该关键字与存储器中的每一个单元进行比较,找出存储器中所有与关键字相同的数据字,特别适合信息的检索和更新。 具体的工作流程:输入[详细]
-
高速缓存--挖掘之六
所属栏目:[大数据] 日期:2021-01-07 热度:84
·高速缓存用来存放当前最活跃的程序和数据,其特点:容量一般在几千字节到几兆字节之间;速度一般比主存快5到10倍,由快速半导体存储器构成;其内容是主存局部域的副本,对程序员是透明的。 高速缓存有两部分组成:控制部分和存储器部分 控制部分的功能是[详细]
-
统计学相关概念及机器学习中样本相似性度量之马氏距离
所属栏目:[大数据] 日期:2021-01-07 热度:114
均值、标准差、方差: 样本均值描述的是集合的中间点、平均值、均值的信息是有限的,有时候甚至是完全没有参考意义的,比如各统计局最喜欢发布的平均工资、年收入等等,只有个文字游戏而已。 标准差描述的是样本集合中的各个样本点到均值的距离的平均值。[详细]
-
流数据处理的博文
所属栏目:[大数据] 日期:2021-01-07 热度:173
副标题#e# The world beyond batch: Streaming 101 A high-level tour of modern data-processing concepts. By Tyler Akidau August 5,2015 Three women wading in a stream gathering leeches (source: Wellcome Library,London). Editor's note: This is[详细]
-
大数据为企业带来了竞争优势的4种方式
所属栏目:[大数据] 日期:2021-01-07 热度:187
副标题#e# 点击上方蓝色字体关注。 您还可以搜索公众号“ D1net”选择关注D1net旗下的各领域(云计算,数据中心,大数据,CIO,企业协作,网络数通,信息安全,企业移动应用,系统集成,服务器,存储,呼叫中心,视频会议,视频监控等)的子公众号。 ======[详细]
-
国内外主流BI工具介绍和点评
所属栏目:[大数据] 日期:2021-01-07 热度:104
商业智能的应用在国外已广为普及,并且开始不断探索大数据和云技术。而国内,商业智能BI工具在这几年才开始慢慢被接受,企业开始有意识地建立一体化数据分析平台,为经营决策提供分析。 从国内企业使用情况来看,BI工具的应用以国外产品为主,包括SAP BO、[详细]
-
中国金融科技50强之“百分点”大数据分析
所属栏目:[大数据] 日期:2021-01-07 热度:175
副标题#e# 中国金融科技50强之“百分点”大数据分析 公司:百分点集团 百分点简介:成立于2009年,已完成D轮融资,D轮融资4亿元,累计融资7亿元,主要投资商有光大证券、高瓴资本、东方星空创投、IDG资本、名信中国成长基金。 业务领域:大数据 核心技术:[详细]
-
虚拟存储器--挖掘之七
所属栏目:[大数据] 日期:2021-01-07 热度:126
虚拟存储技术是把很大的程序或者数据分成许多较小的块,全部存储在辅存中。运行时,要把用到的程序块或者数据块先调入主存,并且把马上要用到的程序块从主存调入到高速缓存。这样,一边运行程序,一边进行所需的程序块或者数据块的调进/调出。只要及时供应[详细]
-
大数据分析界的“神兽”Apache Kylin有多牛?
所属栏目:[大数据] 日期:2021-01-07 热度:120
本文是5月23日大数据杂谈群分享的内容。 关注“大数据杂谈”公众号,点击“加群学习”,更多大牛一手技术分享等着你。 实习编辑:Melody 大家好,我是今天做微信分享的李栋,来自Kyligence公司,也是Apache Kylin Committer PMC member,在加入Kyligence之[详细]
-
从大数据中挖掘什么?
所属栏目:[大数据] 日期:2021-01-07 热度:157
副标题#e# 本文内容来自:李航博士的新浪博客 网址:http://blog.sina.com.cn/s/blog_7ad48fee0101cgy0.html 导读 大数据挖掘中最重要的是决定挖掘什么样的知识,这是在数据的收集、处理、挖掘的整个过程中都需要认真考虑的问题。本文首先提出大数据挖掘的[详细]
-
输入/输出技术--挖掘之八
所属栏目:[大数据] 日期:2021-01-07 热度:144
副标题#e# 微型计算机中最常用的内存与接口的编制方法 ? ?计算机系统中存在多种内存与接口地址的编址方法,常见的是下面的两种:内存与接口地址独立编址、内存与接口地址统一编址。 ? 1. 内存与接口地址独立编址方法 在这种编址方法下,内存地址和接口地址[详细]
-
顶级大数据处理框架
所属栏目:[大数据] 日期:2021-01-07 热度:81
摘要 讨论了五个大数据处理框架:Hadoop,Spark,Flink,Storm,Samaza 如今大量数据不断产生,去纠结具体多大才算大数据没什么意义。 就像“人工智能”一样,大数据这个词的具体含义是变化的。几十年前对人工智能的期待大多已经实现,如今已经不管这部分[详细]
-
计算机可靠性--挖掘之九
所属栏目:[大数据] 日期:2021-01-07 热度:66
计算机可靠性概述 计算机系统的可靠性是指从它运行开始(t=0)到某时刻t这段时间内能正常运行的概率,用R(t)表示。所谓的失效率是指单位时间内失效的元件数和元件总数的比例,用c表示,当c为常数时,可靠性和失效率的关系为: ln(R(t))=-ct Note:没有数学[详细]
-
闲话用户画像amp;数据价值挖掘
所属栏目:[大数据] 日期:2021-01-07 热度:159
文·blogchong 引子 大伙儿看到题图是不是感觉有点奇怪? 哈哈,没错,这个截图是我用某个微信公众号分析工具提取的我公众号的画像报告。 其他的不说了,单就截图的这些信息吧来分析一下吧。 男女比例各50%? 公众号阅读者族群分布,宅男宅女19.94%,家庭[详细]
-
蓝桥杯,算法训练,区间k大数查询
所属栏目:[大数据] 日期:2021-01-07 热度:60
问题描述 给定一个序列,每次询问序列中第l个数到第r个数中第K大的数是哪个。 输入格式 第一行包含一个数n,表示序列长度。 第二行包含n个正整数,表示给定的序列。 第三个包含一个正整数m,表示询问个数。 接下来m行,每行三个数l,r,K,表示询问序列从左[详细]
-
免费报名参加“大数据时代的大数据分析与展现”技术分享会
所属栏目:[大数据] 日期:2021-01-07 热度:62
大数据时代已经到来,大数据技术及应用正在以前所未有的深度和广度蓬勃发展,大数据的价值正快速攀升。在这样一个新时代,摆在IT人员面前的问题是:如何追踪大数据技术的最新进展以形成创新工程的重要增长点?随着互联网+行动计划进一步推进实施,大数据正[详细]
-
目前最常用的文本挖掘包是 tm 包,该包已经成了事实上的分析标准
所属栏目:[大数据] 日期:2021-01-07 热度:53
目前最常用的文本挖掘包是 tm 包,该包已经成了事实上的分析标准, 几乎所有的其他 R 包都是基于这个框架的。但是 tm 包具有一些缺陷, 在R中进行分析的时候不是很方便。 ? ? ? ? 最明显的问题是中文支持得不够好, 其函数的设计并没有考虑到国际化的需求[详细]
-
hdu1002——A + B Problem II(大数加)
所属栏目:[大数据] 日期:2021-01-07 热度:169
Problem Description I have a very simple problem for you. Given two integers A and B,your job is to calculate the Sum of A + B. Input The first line of the input contains an integer T(1=T=20) which means the number of test cases. Then T[详细]
-
从Quora和Spotify案例看数据处理与背后的思考——QCon旧金山参会
所属栏目:[大数据] 日期:2021-01-07 热度:177
副标题#e# 编者按:QCon 是由 InfoQ 主办的全球顶级技术盛会,每年在伦敦、北京、纽约、圣保罗、上海、东京和旧金山等城市召开。前不久,阿里云工程师子嘉赴美参加了 QCon 旧金山,并撰写了几篇笔记。第一篇我们已经发布:容器与调度——QCon旧金山参会总结[详细]
-
视音频数据处理入门:RGB、YUV像素数据处理
所属栏目:[大数据] 日期:2021-01-07 热度:181
===================================================== 视音频数据处理入门系列文章: 视音频数据处理入门:RGB、YUV像素数据处理 视音频数据处理入门:PCM音频采样数据处理 视音频数据处理入门:H.264视频码流解析 视音频数据处理入门:AAC音频码流解析[详细]
-
(ZT)《openssl 编程》之大数
所属栏目:[大数据] 日期:2021-01-07 热度:139
original url from http://caisenchen.blog.163.com/blog/static/552865502008764841738/ 11.1 介绍 大数一般指的是位数很多的数。计算机表示的数的大小是有限的,精度也是有限的,它不能支持大数运算。密码学中采用了很多大数计算,为了让计算机实现大数[详细]
-
4款最具影响力的自助式BI工具
所属栏目:[大数据] 日期:2021-01-07 热度:179
数据为王的时代,人人都需要掌握一些数据分析技能。不懂SQL,不懂数据库,Excel不精通,VBA不敢碰,这些都是横亘在面前的一道坎。 然而,企业数据分析日益上涨,数据人才供不应求,为了降低入门门槛,近几年市面上大量涌现了一批自助式BI工具。 自助式BI工[详细]