当前位置:首页 > 体育 >

数据分组的标准是什么(数值数据分组的步骤)

来源:原点资讯(www.yd166.com)时间:2023-10-31 06:53:09作者:YD166手机阅读>>

差异性统计

比较两组或多组数据之间是否存在差异,以及差异是否具有统计学意义。

t检验

t检验是基于t分布的统计理论,处理两个总体间的计量资料之间的差异。

数据分组的标准是什么,数值数据分组的步骤(5)

方差分析

当我们处理多个总体之间的比较的时候,t检验就已经无能为力了。R.A Fisher就发明了一种处理K个总体间计量变量比较方法——方差分析。方差分析是用变异的思想,将总的变异分为组间变异和组内变异,组内变异往往是个体变异导致,一般不会太大;而组间变异除了个体变异外,还有组间干预措施导致的变异,因此,R.A. Fisher认为,如果组间的变异除以组内的变异,结果远远的大于1,就有理由认为,组间的干预措施在发挥着作用,为了纪念Fisher,这种方法简称F检验。

数据分组的标准是什么,数值数据分组的步骤(6)

卡方检验

t检验和F检验是用于比较组间计量资料的。计数资料组间比较采用的方法是卡方检验。该检验被誉为二十世纪科学技术所有分支中的20大发明之一,它的发明者是卡尔·皮尔逊(Karl Pearson)。其基本思想是真实值与理论值的吻合程度,简单到不难理解。

虽然独立样本t检验和方差分析都是要求自变量为定类,但是卡方检验自变量的组别仅仅为两组,方差分析的自变量组别可以是两组以上。

数据分组的标准是什么,数值数据分组的步骤(7)

统计模型

统计分析三级,初级说一说,中级比一比,高级找关系。找关系的核心就是建立模型,构建变量之间的数量依存关系,以便进行预测或者控制。

找到关系有几个用处:第一,发现规律,如多因素线性回归模型中的回归系数,可以衡量各个因素的重要性;第二,预测未来,有了公式化的模型,就可以代入可以控制的变量而得到未来期望的因变量。

回归分析

常用的回归有:线性回归(一元、多元)、Logistic回归。

线性回归分为解释性回归与预测性回归,解释性回归用于阐明几个自变量对因变量的作用大小,更是从专业的角度去理解模型,一些P>0.05的变量依据专业可以进入模型,常采用输入法。预测性模型是为了有更好的预测效果,也就是在统计学上追求最佳的模型,此时常采用逐步回归法。

线性回归要求因变量Y为连续性变量,自变量X可以是连续性,也可以是二分类、等级或无序多分类,当是无序多分类时,需要设置哑变量。

一个好的模型,不仅仅是统计学上的最佳模型,更需要得到专业上的可解释。

R方是衡量模型解释度的指标,一般在描述性研究,简单回归中,R2>0.5较好,>0.8就非常好;多重回归>0.3尚可,>0.5良好,>0.6非常好;但对于实验性研究,>0.8以上才有应用的价值。

Logistic回归适用于预测结果是二分类问题,如发病(y =1)与不发病(y =0)。本质上跟线性回归差不多,只是需要多做一个logit变换。

时间序列

时间序列适用于指标数量少的情况,特别是只有一个DAU/销售量的情况。

平滑:用于相对平稳的数据。

自回归:用于趋势性递增、递减的数据。

带季节因素自回归:用于有周期性波动的数据。

探索性分析

聚类

理想的聚类,首先应该稳定,并且专业上很好解释。同时在聚类图上,有一个特点,就是组间的差异很大,而组内的差异较小。

主成分分析

其实就是对变量进行聚类。可用于指标降维。

统计谬误

相关≠因果

人们常常将相关性和因果关系混淆。举个很简单的例子,一个小朋友从8岁到18岁,身高和体重强相关,但我们不能说身高是由体重决定的。身高和体重都与小朋友的年龄相关,随着他年龄的成长而增长了身高和体重。

辛普森悖论

这个悖论一句话总结,就是每个部分都很好的情况下,总体反而更糟糕。一般案例中,当每组数据对比与整体数据给出不同的结果时,我们就称之为辛普森悖论。如此命名是因为它是由爱德华·辛普森(Edward Simpson)于1951年描述的。然而,同样的观念早在1900年就被苏格兰统计学家乔治·尤尔(George Yule)准确地描述过。

举个例子,下边是某个病症的治愈率,从整体情况看,旧方法整体的治愈率为42÷90=46.7%,新治疗方法整体的治愈率为42÷110=38.2%。总体而言,旧的治疗方法有更高的治愈率。

数据分组的标准是什么,数值数据分组的步骤(8)

栏目热文

数据库高级分组和分组的区别(数据库什么时候需要分组查询)

数据库高级分组和分组的区别(数据库什么时候需要分组查询)

1. 数据分组1.1. SQL的语句中具有分组功能的是GROUP BY和PARTITION BY1.1.1. 两者都有数...

2023-10-31 06:41:37查看全文 >>

数据分组的基本原则(数据分组具体步骤)

数据分组的基本原则(数据分组具体步骤)

按病种分值付费是指在基本医疗保险统筹基金支付本统筹区内住院医疗费的总额预算内,根据各病种均次费用与某固定值(或基准病种)...

2023-10-31 06:56:35查看全文 >>

简单的数据排序和分组要知道什么(数据如何排序和分类汇总)

简单的数据排序和分组要知道什么(数据如何排序和分类汇总)

在登记各类的销售数据或者是部门分组数据的时候,我们经常会需要在上百条或者上千条数据中去进行数据筛选,以便可以得到我们想要...

2023-10-31 06:33:35查看全文 >>

数值型数据分组的方法有哪些(数值型数据分组有哪些方法)

数值型数据分组的方法有哪些(数值型数据分组有哪些方法)

为帮助学习pandas,特意从和鲸社区中提炼出120道经典数据处理常见操作例题,从基础入门到进阶来更快速、更专业的角度理...

2023-10-31 07:08:57查看全文 >>

数据分组的最后一个步骤(如何以固定值将一组数据平均分组)

数据分组的最后一个步骤(如何以固定值将一组数据平均分组)

来源:我得学城本文约5900字,建议阅读10分钟本文我们将介绍比较两个(或多个)分布以及评估它们之间差异的大小和显著性的...

2023-10-31 06:33:54查看全文 >>

金骏眉的十大功效(金骏眉十大排名)

金骏眉的十大功效(金骏眉十大排名)

金骏眉,这款红茶中的珍品,源自于中国的武夷山,被誉为茶中佳人。它那独特的甜味和诱人的香气,使其在茶中独树一帜。那么,金骏...

2023-10-31 06:44:38查看全文 >>

金骏眉的功效与禁忌(正确喝金骏眉的功效与作用)

金骏眉的功效与禁忌(正确喝金骏眉的功效与作用)

金骏眉茶,属于红茶中正山小种的分支,原产于福建省武夷山市桐木村。由正山小种红茶第二十四代传承人江元勋带领团队在传统工艺...

2023-10-31 06:37:22查看全文 >>

金骏眉的功效(金骏眉的功效与作用价格)

金骏眉的功效(金骏眉的功效与作用价格)

二、如何分辨金骏眉的真假?品味 辨别。品味方面,金骏眉的浓郁口感和花香味,是鲜明的特点。如果泡出来的茶汤,香味不够,口感...

2023-10-31 06:46:19查看全文 >>

金骏眉属于什么档次(金骏眉价格一览表)

金骏眉属于什么档次(金骏眉价格一览表)

最近金骏眉在茶友圈中风声鹊起,也许很多茶友对金骏眉都没怎么听过,但是我想对于爱喝红茶的人而言肯定都知道红茶之中的翘楚——...

2023-10-31 07:07:39查看全文 >>

接龙多了一个怎么删除(接龙接了两个怎么删掉一个)

接龙多了一个怎么删除(接龙接了两个怎么删掉一个)

微信在最近上线了微信群的“接龙表格”功能,今天测试结果显示,不分苹果和安卓系统,在所有的微信用户中,都已开通微信群聊“接...

2023-10-31 06:53:17查看全文 >>

文档排行