数据分组的标准是什么（数值数据分组的步骤）

差异性统计

比较两组或多组数据之间是否存在差异，以及差异是否具有统计学意义。

t检验

t检验是基于t分布的统计理论，处理两个总体间的计量资料之间的差异。

数据分组的标准是什么,数值数据分组的步骤(5)

方差分析

当我们处理多个总体之间的比较的时候，t检验就已经无能为力了。R.A Fisher就发明了一种处理K个总体间计量变量比较方法——方差分析。方差分析是用变异的思想，将总的变异分为组间变异和组内变异，组内变异往往是个体变异导致，一般不会太大；而组间变异除了个体变异外，还有组间干预措施导致的变异，因此，R.A. Fisher认为，如果组间的变异除以组内的变异，结果远远的大于1，就有理由认为，组间的干预措施在发挥着作用，为了纪念Fisher，这种方法简称F检验。

数据分组的标准是什么,数值数据分组的步骤(6)

卡方检验

t检验和F检验是用于比较组间计量资料的。计数资料组间比较采用的方法是卡方检验。该检验被誉为二十世纪科学技术所有分支中的20大发明之一，它的发明者是卡尔·皮尔逊（Karl Pearson）。其基本思想是真实值与理论值的吻合程度，简单到不难理解。

虽然独立样本t检验和方差分析都是要求自变量为定类，但是卡方检验自变量的组别仅仅为两组，方差分析的自变量组别可以是两组以上。

数据分组的标准是什么,数值数据分组的步骤(7)

统计模型

统计分析三级，初级说一说，中级比一比，高级找关系。找关系的核心就是建立模型，构建变量之间的数量依存关系，以便进行预测或者控制。

找到关系有几个用处：第一，发现规律，如多因素线性回归模型中的回归系数，可以衡量各个因素的重要性；第二，预测未来，有了公式化的模型，就可以代入可以控制的变量而得到未来期望的因变量。

回归分析

常用的回归有：线性回归（一元、多元）、Logistic回归。

线性回归分为解释性回归与预测性回归，解释性回归用于阐明几个自变量对因变量的作用大小，更是从专业的角度去理解模型，一些P>0.05的变量依据专业可以进入模型，常采用输入法。预测性模型是为了有更好的预测效果，也就是在统计学上追求最佳的模型，此时常采用逐步回归法。

线性回归要求因变量Y为连续性变量，自变量X可以是连续性，也可以是二分类、等级或无序多分类，当是无序多分类时，需要设置哑变量。

一个好的模型，不仅仅是统计学上的最佳模型，更需要得到专业上的可解释。

R方是衡量模型解释度的指标，一般在描述性研究，简单回归中，R2>0.5较好，>0.8就非常好；多重回归>0.3尚可，>0.5良好，>0.6非常好；但对于实验性研究，>0.8以上才有应用的价值。

Logistic回归适用于预测结果是二分类问题，如发病（y =1）与不发病（y =0）。本质上跟线性回归差不多，只是需要多做一个logit变换。

时间序列

时间序列适用于指标数量少的情况，特别是只有一个DAU/销售量的情况。

平滑：用于相对平稳的数据。

自回归：用于趋势性递增、递减的数据。

带季节因素自回归：用于有周期性波动的数据。

探索性分析

聚类

理想的聚类，首先应该稳定，并且专业上很好解释。同时在聚类图上，有一个特点，就是组间的差异很大，而组内的差异较小。

主成分分析

其实就是对变量进行聚类。可用于指标降维。

统计谬误

相关≠因果

人们常常将相关性和因果关系混淆。举个很简单的例子，一个小朋友从8岁到18岁，身高和体重强相关，但我们不能说身高是由体重决定的。身高和体重都与小朋友的年龄相关，随着他年龄的成长而增长了身高和体重。

辛普森悖论

这个悖论一句话总结，就是每个部分都很好的情况下，总体反而更糟糕。一般案例中，当每组数据对比与整体数据给出不同的结果时，我们就称之为辛普森悖论。如此命名是因为它是由爱德华·辛普森（Edward Simpson）于1951年描述的。然而，同样的观念早在1900年就被苏格兰统计学家乔治·尤尔（George Yule）准确地描述过。

举个例子，下边是某个病症的治愈率，从整体情况看，旧方法整体的治愈率为42÷90=46.7%，新治疗方法整体的治愈率为42÷110=38.2%。总体而言，旧的治疗方法有更高的治愈率。

数据分组的标准是什么,数值数据分组的步骤(8)