当前位置:首页 > 上门服务 >

统计基本概念中的标志(统计的基本概念举例)

来源:原点资讯(www.yd166.com)时间:2023-06-19 00:42:35作者:YD166手机阅读>>

常见的概率分布,均匀分布(上)、正态分布(中间)、泊松分布(下):

  • 均匀分布是其中最基本的概率分布方式。它有一个只出现在一定范围内的值,而在该范围之外的都是0。我们也可以把它考虑为是一个具有两个分类的变量:0或另一个值。分类变量可能具有除0之外的多个值,但我们仍然可以将其可视化为多个均匀分布的分段函数。
  • 正态分布,通常也称为高斯分布,具体是由它的平均值和标准偏差来定义的。平均值是在空间上来回变化位置进行分布的,而标准偏差控制着它的分布扩散范围。与其它的分布方式的主要区别在于,在所有方向上标准偏差是相同的。因此,通过高斯分布,我们知道数据集的平均值以及数据的扩散分布,即它在比较广的范围上扩展,还是主要围绕在少数几个值附近集中分布。
  • 泊松分布与正态分布相似,但存在偏斜率。象正态分布一样,在偏斜度值较低的情况下,泊松分布在各个方向上具有相对均匀的扩散。但是,当偏斜度值非常大的时候,我们的数据在不同方向上的扩散将会是不同的。在一个方向上,数据的扩散程度非常高,而在另一个方向上,扩散的程度则非常低。

如果遇到一个高斯分布,那么我们知道有很多算法,在默认情况下高思分布将会被执行地很好,因此首先应该找到那些算法。如果是泊松分布,我们必须要特别谨慎,选择一个在空间扩展上对变化要有很好鲁棒性的算法。

03 降维

降维这个术语可以很直观的理解,意思是降低一个数据集的维数。在数据科学中,这是特征变量的数量。请看下图:

统计基本概念中的标志,统计的基本概念举例(5)

上图中的立方体表示我们的数据集,它有3个维度,总共1000个点。以现在的计算能力,计算1000个点很容易,但如果更大的规模,就会遇到麻烦了。然而,仅仅从二维的角度来看我们的数据,比如从立方体一侧的角度,可以看到划分所有的颜色是很容易的。通过降维,我们将3D数据展现到2D平面上,这有效地把我们需要计算的点的数量减少到100个,大大节省了计算量。

另一种方式是我们可以通过特征剪枝来减少维数。利用这种方法,我们删除任何所看到的特征对分析都不重要。例如,在研究数据集之后,我们可能会发现,在10个特征中,有7个特征与输出具有很高的相关性,而其它3个则具有非常低的相关性。那么,这3个低相关性的特征可能不值得计算,我们可能只是能在不影响输出的情况下将它们从分析中去掉。

用于降维的最常见的统计技术是PCA,它本质上创建了特征的向量表示,表明了它们对输出的重要性,即相关性。PCA可以用来进行上述两种降维方式的操作。

04 过采样和欠采样

过采样和欠采样是用于分类问题的技术。例如,我们有1种分类的2000个样本,但第2种分类只有200个样本。这将抛开我们尝试和使用的许多机器学习技术来给数据建模并进行预测。那么,过采样和欠采样可以应对这种情况。请看下图:

统计基本概念中的标志,统计的基本概念举例(6)

在上面图中的左右两侧,蓝色分类比橙色分类有更多的样本。在这种情况下,我们有2个预处理选择,可以帮助机器学习模型进行训练。

欠采样意味着我们将只从样本多的分类中选择一些数据,而尽量多的使用样本少的分类样本。这种选择应该是为了保持分类的概率分布。我们只是通过更少的抽样来让数据集更均衡。

过采样意味着我们将要创建少数分类的副本,以便具有与多数分类相同的样本数量。副本将被制作成保持少数分类的分布。我们只是在没有获得更多数据的情况下让数据集更加均衡。

05

贝叶斯统计

完全理解为什么在我们使用贝叶斯统计的时候,要求首先理解频率统计失败的地方。大多数人在听到“概率”这个词的时候,频率统计是首先想到的统计类型。它涉及应用一些数学理论来分析事件发生的概率,明确地说,我们唯一计算的数据是先验数据(prior data)。

统计基本概念中的标志,统计的基本概念举例(7)

假设我给了你一个骰子,问你掷出6点的几率是多少,大多数人都会说是六分之一。

但是,如果有人给你个特定的骰子总能掷出6个点呢?因为频率分析仅仅考虑之前的数据,而给你作弊的骰子的因素并没有被考虑进去。

贝叶斯统计确实考虑了这一点,我们可以通过贝叶斯法则来进行说明:

统计基本概念中的标志,统计的基本概念举例(8)

栏目热文

统计的七个基本术语(统计术语口诀)

统计的七个基本术语(统计术语口诀)

对于资料分析这一类题型,由于它的题干都是一些统计类材料,所以其中会出现一些统计资料中的专业名词,而为了更好地答题,掌握一...

2023-06-19 00:05:05查看全文 >>

统计的三种基础含义(统计的定义通俗理解)

统计的三种基础含义(统计的定义通俗理解)

一年一约 如期而至第十三届“中国统计开放日”来啦!!!今年的主题是数说新时代 奋进新征程下面,我们一起来了解一下吧“中国...

2023-06-19 00:15:55查看全文 >>

统计学中的基本概念(简述统计学的基本概念)

统计学中的基本概念(简述统计学的基本概念)

统计分析的目的:收集数据,整理分析数据和由数据得出的结论的一组概念、原则和方法。描述性统计,利用表格、图形或者数值来展示...

2023-06-19 00:18:55查看全文 >>

统计的基本术语(统计术语大全简短)

统计的基本术语(统计术语大全简短)

当进行数据分析时,理解以下统计学常见术语将有助于更好地解释和解读数据:样本:从总体中选出的一部分数据。总体:研究对象的全...

2023-06-19 00:09:35查看全文 >>

统计各种概念解释(统计的概念从哪几个方面理解)

统计各种概念解释(统计的概念从哪几个方面理解)

本文讲述了数据分析师应当了解的五个统计基本概念:统计特征、概率分布、降维、过采样/欠采样、贝叶斯统计方法。从高的角度来看...

2023-06-19 00:43:25查看全文 >>

统计的三种定义(统计有三种含义如何理解)

统计的三种定义(统计有三种含义如何理解)

撰文:喵喵君审校:叔宇1、统计的定义(1)指对某一类的数据进行搜集、整理、计算和分析等。例:六年级二班人数统计。(2)指...

2023-06-19 00:07:19查看全文 >>

统计的定义通俗理解(统计的含义与本质是什么)

统计的定义通俗理解(统计的含义与本质是什么)

其实在日常生活中,我们常常会听到“统计”这个名词,例如看电视的时候有收视率统计、计算人数也用统计,甚至每当大选来临之际,...

2023-06-19 00:32:48查看全文 >>

统计的种类有哪些(统计指数的种类有哪些?)

统计的种类有哪些(统计指数的种类有哪些?)

统计学的性质及分类1. 统计学的性质(1)统计学的概念统计学是研究如何有效地搜集数据、整理数据、分析或推断数据,并以此为...

2023-06-19 00:42:24查看全文 >>

统计的定义及内容(统计的含义包括以下哪些方面)

统计的定义及内容(统计的含义包括以下哪些方面)

统计概念:基期量:作为比较对象的量,“比”字后面一般为基期。现期量:与基期量对应的量。【例】与2016年相比,2017年...

2023-06-19 00:41:52查看全文 >>

边牧成年能长多长(边牧长大能长多高)

边牧成年能长多长(边牧长大能长多高)

边牧全称苏格兰牧羊犬,是柯利牧羊犬的一种。作为世界犬类智商排名第一的犬种,它精力充沛,天性聪颖,善于察言观色,能够准确的...

2023-06-19 00:13:27查看全文 >>

文档排行