加入收藏 | 设为首页 | 会员中心 | 我要投稿应用网_阳江站长网（https://www.0662zz.com/）- 科技、建站、经验、云计算、5G、大数据,站长网!

当前位置：首页 > 创业 > 模式 > 正文

数据科学家都应该知道的5个统计学知识

发布时间：2019-07-03 19:52:56 所属栏目：模式来源：it168网站

导读：数据科学实际上可以定义为我们从数据中获取额外信息的一个过程，在做数据科学时，我们真正想要做的其实就是解释除了数字之外，所有数据在现实世界中的实际含义。为了提取潜藏在复杂数据集中的信息，数据科学家采用了许多工具和技术，包括数据挖掘、数据可

我们可以用以下等式计算偏斜度：

数据科学家都应该知道的5个统计学知识

偏斜度可以让我们知道数据分布与高斯分布的距离。偏斜度越大，我们的数据集离高斯分布越远。

这很重要，因为如果我们对数据的分布有一个粗略的概念，我们就可以为特定的分布定制我们要训练的ML模型。此外，并非所有ML建模技术都能对非高斯数据有效。

再次提醒大家，在我们开始建模之前，统计数据能够带给我们非常富有洞察力的信息!

如何在Scipy代码中计算偏斜度: scipy.stats.skew(array)

五、协方差(Covariance)和相关系数(Correlation)

协方差

两个特征变量的协方差衡量它们之间的相关性。如果两个变量有正协方差，那么当一个变量增加时，另一个也会增加;当协方差为负时，特征变量的值将向相反的方向变化。

相关系数

相关系数简单来说就是标准化(缩放)的协方差，除以被分析的两个变量的标准偏差的乘积即可得到。这有效地迫使关联范围始终在-1.0和1.0之间。

如果两个特征变量的相关系数为1.0，则两个特征变量的相关系数为正相关。这意味着，如果一个变量的变化量是给定的，那么第二个变量就会按比例向相同的方向移动。

数据科学家都应该知道的5个统计学知识

用于降维的PCA图解

当正相关系数小于1时，表示正相关系数小于完全正相关，且相关强度随着数字趋近于1而增大。同样的思想也适用于负相关值，只是特征变量的值在相反的方向变化，而不是在相同的方向变化。

了解相关性对于主成分分析(PCA)等降维技术非常有用。我们从计算一个相关矩阵开始——如果有两个或两个以上的变量高度相关，那么它们在解释我们的数据时实际上是冗余的，可以删除其中一些变量以降低复杂性。

【凡本网注明来源非中国IDC圈的作品，均转载自其它媒体，目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。】

延伸阅读：

竞争对手向美国FTC投诉谷歌亚马逊支持反垄断调查
容器已成运维必备能力，你知道它是如何出现的吗？
云是数据库市场的未来

（编辑：应用网_阳江站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

2

相关内容

推荐文章

站长推荐

热点阅读