汇总16个数据分析常用的分析方法 如何数据整理分析?( 二 )

【汇总16个数据分析常用的分析方法 如何数据整理分析?】(1)确定Y与X间的定量关系表达式 , 这种表达式称为回归方程;
(2)对求得的回归方程的可信度进行检验;
(3)判断自变量X对因变量Y有无影响;
(4)利用所求得的回归方程进行预测和控制 。
八、聚类分析
样本个体或指标变量按其具有的特性进行分类 , 寻找合理的度量事物相似性的统计量 。
1、性质分类:
Q型聚类分析:对样本进行分类处理 , 又称样本聚类分祈 使用距离系数作为统计量衡量相似度 , 如欧式距离、极端距离、绝对距离等
R型聚类分析:对指标进行分类处理 , 又称指标聚类分析 使用相似系数作为统计量衡量相似度 , 相关系数、列联系数等
2、方法分类:
1)系统聚类法: 适用于小样本的样本聚类或指标聚类 , 一般用系统聚类法来聚类指标 , 又称分层聚类
2)逐步聚类法 :适用于大样本的样本聚类
3)其他聚类法 :两步聚类、K均值聚类等
九、判别分析
1、判别分析:根据已掌握的一批分类明确的样品建立判别函数 , 使产生错判的事例最少 , 进而对给定的一个新样品 , 判断它来自哪个总体 。
2、与聚类分析区别
1)聚类分析可以对样本逬行分类 , 也可以对指标进行分类;而判别分析只能对样本
2)聚类分析事先不知道事物的类别 , 也不知道分几类;而判别分析必须事先知道事物的类别 , 也知道分几类
3)聚类分析不需要分类的历史资料 , 而直接对样本进行分类;而判别分析需要分类历史资料去建立判别函数 , 然后才能对样本进行分类
3、进行分类 :
1)Fisher判别分析法 :
以距离为判别准则来分类 , 即样本与哪个类的距离最短就分到哪一类 , 适用于两类判别;
以概率为判别准则来分类 , 即样本属于哪一类的概率最大就分到哪一类 , 适用于
适用于多类判别 。
2)BAYES判别分析法 :
BAYES判别分析法比FISHER判别分析法更加完善和先进 , 它不仅能解决多类判别分析 , 而且分析时考虑了数据的分布状态 , 所以一般较多使用 。
十、主成分分析
将彼此梠关的一组指标变适转化为彼此独立的一组新的指标变量 , 并用其中较少的几个新指标变量就能综合反应原多个指标变量中所包含的主要信息 。
十一、因子分析
一种旨在寻找隐藏在多变量数据中、无法直接观察到却影响或支配可测变量的潜在因子、并估计潜在因子对可测变量的影响程度以及潜在因子之间的相关性的一种多元统计分析方法
与主成分分析比较:
相同:都能够起到済理多个原始变量内在结构关系的作用
不同:主成分分析重在综合原始变适的信息.而因子分析重在解释原始变量间的关系 , 是比主成分分析更深入的一种多元统计方法
用途:
1)减少分析变量个数
2)通过对变量间相关关系探测 , 将原始变量进行分类
十二、时间序列分析
动态数据处理的统计方法 , 研究随机数据序列所遵从的统计规律 , 以用于解决实际问题;时间序列通常由4种要素组成:趋势、季节变动、循环波动和不规则波动 。
主要方法:移动平均滤波与指数平滑法、ARIMA横型、量ARIMA横型、ARIMAX模型、向呈自回归横型、ARCH族模型
十三、生存分析
用来研究生存时间的分布规律以及生存时间和相关因索之间关系的一种统计分析方法
1、包含内容:
1)描述生存过程 , 即研究生存时间的分布规律
2)比较生存过程 , 即研究两组或多组生存时间的分布规律 , 并进行比较
3)分析危险因素 , 即研究危险因素对生存过程的影响
4)建立数学模型 , 即将生存时间与相关危险因素的依存关系用一个数学式子表示出来 。
2、方法:
1)统计描述:包括求生存时间的分位数、中数生存期、平均数、生存函数的估计、判断生存时间的图示法 , 不对所分析的数据作出任何统计推断结论
2)非参数检验:检验分组变量各水平所对应的生存曲线是否一致 , 对生存时间的分布没有要求 , 并且检验危险因素对生存时间的影响 。
A 乘积极限法(PL法)
B 寿命表法(LT法)
3)半参数横型回归分析:在特定的假设之下 , 建立生存时间随多个危险因素变化的回归方程 , 这种方法的代表是Cox比例风险回归分析法

推荐阅读