当前位置:首页 > 实用技巧 >

数据分析有哪几大类(数据分析的三个主要步骤)

来源:原点资讯(www.yd166.com)时间:2023-05-07 23:47:59作者:YD166手机阅读>>

数据分析有哪几大类,数据分析的三个主要步骤(1)


数据分析方法,知乎上有充斥着多篇文章。而在我个人从业的经验中,发现在网上这篇文章对分析方法的描述是比较全面的,所以特意摘录。后续会针对每个方法,逐步展开讲述。

01


描述性统计


描述性统计是一类统计方法的汇总,揭示了数据分布特性。它主要包括数据的频数分析、数据的集中趋势分析、数据离散程度分析、数据的分布以及一些基本的统计图形。


1. 缺失值填充:常用方法有剔除法、均值法、决策树法。

2. 正态性检验:很多统计方法都要求数值服从或近似服从正态分布,所以在做数据分析之前需要进行正态性检验。常用方法:非参数检验的K-量检验、P-P图、Q-Q图、W检验、动差法。


02


回归分析


回归分析是应用极其广泛的数据分析方法之一。它基于观测数据建立变量间适当的依赖关系,以分析数据内在规律。


1. 一元线性分析

只有一个自变量X与因变量Y有关,X与Y都必须是连续型变量,因变量Y或其残差必须服从正态分布。


2. 多元线性回归分析

使用条件:分析多个自变量X与因变量Y的关系,X与Y都必须是连续型变量,因变量Y或其残差必须服从正态分布。


3. Logistic回归分析

线性回归模型要求因变量是连续的正态分布变量,且自变量和因变量呈线性关系,而Logistic回归模型对因变量的分布没有要求,一般用于因变量是离散时的情况。


4. 其他回归方法:非线性回归、有序回归、Probit回归、加权回归等。


03


方差分析


使用条件:各样本须是相互独立的随机样本;各样本来自正态分布总体;各总体方差相等。


1. 单因素方差分析:一项试验只有一个影响因素,或者存在多个影响因素时,只分析一个因素与响应变量的关系。


2. 多因素有交互方差分析:一顼实验有多个影响因素,分析多个影响因素与响应变量的关系,同时考虑多个影响因素之间的关系


3. 多因素无交互方差分析:分析多个影响因素与响应变量的关系,但是影响因素之间没有影响关系或忽略影响关系


4. 协方差分祈:传统的方差分析存在明显的弊端,无法控制分析中存在的某些随机因素,降低了分析结果的准确度。协方差分析主要是在排除了协变量的影响后再对修正后的主效应进行方差分析,是将线性回归与方差分析结合起来的一种分析方法。


04


假设检验


1. 参数检验

参数检验是在已知总体分布的条件下(一股要求总体服从正态分布)对一些主要的参数(如均值、百分数、方差、相关系数等)进行的检验 。


2. 非参数检验

非参数检验则不考虑总体分布是否已知,常常也不是针对总体参数,而是针对总体的某些一般性假设(如总体分布的位罝是否相同,总体分布是否正态)进行检验。


适用情况:顺序类型的数据资料,这类数据的分布形态一般是未知的。

1)虽然是连续数据,但总体分布形态未知或者非正态;

2)总体分布虽然正态,数据也是连续类型,但样本容量极小,如10以下;


主要方法包括:卡方检验、秩和检验、二项检验、游程检验、K-量检验等。


05


相关分析


相关分析是一种非确定性的关系,研究现象之间是否存在某种依存关系,并对具体有依存关系的现象探讨其相关方向以及相关程度。


1. 单相关:两个因素之间的相关关系叫单相关,即研究时只涉及一个自变量和一个因变量;


2. 复相关:三个或三个以上因素的相关关系叫复相关,即研究时涉及两个或两个以上的自变量和因变量相关;


3. 偏相关:在某一现象与多种现象相关的场合,当假定其他变量不变时,其中两个变量之间的相关关系称为偏相关。


06


聚类分析


聚类是将数据分类到不同的类或者簇这样的一个过程,因此同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性。聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。


1)系统聚类法:适用于小样本的样本聚类或指标聚类,一般用系统聚类法来聚类指标,又称分层聚类。

2)逐步聚类法 :适用于大样本的样本聚类。

3)其他聚类法 :两步聚类、K均值聚类等。

07


判别分析


判别分析,是一种统计判别和分组技术,就一定数量样本的一个分组变量和相应的其他多元变量的已知信息,确定分组与其他多元变量信息所属的样本进行判别分组。


判别分析与聚类分析的区别

1. 聚类分析可以对样本逬行分类,也可以对指标进行分类;而判别分析只能对样本进行分类;


2. 聚类分析事先不知道事物的类别,也不知道分为几类;而判别分析必须事先知道事物的类别,并且知道分几类;


3. 聚类分析不需要分类的历史资料,而直接对样本进行分类;而判别分析需要分类历史资料去建立判别函数,然后才能对样本进行分类。


08


因子分析


因子分析是指研究从变量群中提取共性因子的统计技术,从大量的数据中寻找内在的联系,减少决策的困难。因子分析的方法约有10多种,如重心法、影像分析法、最大似然法、最小平方法、阿尔发抽因法、拉奥典型抽因法等等。


这些方法本质上大都属近似方法,以相关系数矩阵为基础。在社会学研究中,因子分析常采用以主成分分析为基础的反复法。


09


主成分分析


通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分。其主要思想是降维,将n维特征映射到k维上(k<n),k维是全新的正交特征。这个k维特征称为主元,是重新构造出来的k维特征,而不是简单地从n维特征中去除其余n-k维特征。


与因子分析比较:

相同:都能够起到分析多个原始变量内在结构关系的作用;

不同:主成分分析重在综合原始变适的信息.而因子分析重在解释原始变量间的关系。


荐:

【中国风动漫】除了《哪吒》,这些良心国产动画也应该被更多人知道!

声明


来源:知乎,RAD极客会(ID:RAD_Geek_Club)推荐阅读,不代表RAD极客会立场,转载请注明,如涉及作品版权问题,请联系我们删除或做相关处理!

栏目热文

如何理解数据分析(如何做数据分析一目了然)

如何理解数据分析(如何做数据分析一目了然)

“大数据”、“数据驱动”这些词汇,对沉浮在互联网的厂工们来说并不陌生,隔着屏幕,一边在源源不断地生产数据,一边在紧锣密鼓...

2023-05-08 00:07:10查看全文 >>

数据分析要分析什么(数据分析怎么分析出内容)

数据分析要分析什么(数据分析怎么分析出内容)

本文梳理了数据分析的重要性并总结了数据分析的具体方法,与大家分享。和传统的营销推广方式不同,网络营销是一种更为主动的营销...

2023-05-08 00:17:54查看全文 >>

数据分析都分析些啥(常见的数据分析方法有哪几种)

数据分析都分析些啥(常见的数据分析方法有哪几种)

一直都有很多朋友想要学习数据分析,希望小编可以推荐一些靠谱的书。大家要么是看到了数据的重要性,想要转行做数据分析师,要么...

2023-05-08 00:19:29查看全文 >>

数据分析方法都有啥(大数据分析方法有哪些)

数据分析方法都有啥(大数据分析方法有哪些)

数据分析更多地基于业务背景来解释数据,提取和汇总数据背后的隐藏信息以及查找有价值的内容。由于数据在此过程中是客观的,因此...

2023-05-08 00:01:28查看全文 >>

数据分析需要分析哪些(数据分析从哪些方面写)

数据分析需要分析哪些(数据分析从哪些方面写)

很多人在入门数据分析的时候都无从下手,很多时候都是因为基础知识掌握不牢,连数据分析的目的都没搞清楚,怎么会成功呢?其实想...

2023-05-07 23:59:25查看全文 >>

数据分析是怎么分析的(七种常见的数据分析方法)

数据分析是怎么分析的(七种常见的数据分析方法)

无论是产品功能还是运营策略,都需要通过数据来提供参考与指导。本文通过业务场景和案例呈现,详细拆解2种最常见的数据分析方法...

2023-05-08 00:17:20查看全文 >>

数据分析的重点是什么(常见的数据分析方法有哪几种)

数据分析的重点是什么(常见的数据分析方法有哪几种)

众所周知,统计学是数据分析的基石。学了统计学,你会发现很多时候的分析并不那么准确,比如很多人都喜欢用平均数去分析一个事物...

2023-05-07 23:53:59查看全文 >>

数据分析可以从哪些方面入手(运营层面数据分析可以从什么方面入手)

数据分析可以从哪些方面入手(运营层面数据分析可以从什么方面入手)

本文将围绕实际的数据分析步骤,细化地来讲讲具体是如何进行分析。美国前邮政部长,美国百货商店之父,约翰·华纳梅克(John...

2023-05-08 00:10:18查看全文 >>

数据分析要做哪些(数据分析一般分为哪几个步骤)

数据分析要做哪些(数据分析一般分为哪几个步骤)

一个完整的数据分析流程,应该包括以下几个方面,建议收藏此图仔细阅读。作为数据分析师,无论最初的职业定位方向是技术还是业务...

2023-05-07 23:53:20查看全文 >>

数据分析方面具体是怎么做(数据分析到底有多大实际用处)

数据分析方面具体是怎么做(数据分析到底有多大实际用处)

经常有同学问:“到底怎样才算一个优秀的数据分析项目?”“我平时干的都很简单,算不算项目?”今天系统跟大家讲解一下。首先大...

2023-05-08 00:04:48查看全文 >>

文档排行