想法
群体类型有哪些,再找划分特征。具体应用分析目标
1)如果希望对一个小区的居民按常驻和非常驻人口进行一下划分,那么性别,年龄,学历这样的因素应该和结果的相关度是比较低的,而一个人在小区出现的频率、时间点和延续的时间就更应该为分析者关注。
2)如果希望针对一个高科技产品推广的受众人群进行一下划分的话,那么年龄,学历,购买力等可能都是需要考虑关注的因素。
关注数据的不同侧面,有可能得到不同的聚类结果。同时这些聚类结果也都是有意义,可以解释的
算法
多维聚类分析:
贝叶斯网络,隐树模型,隐树模型允许模型中有多个隐变量,所以自然地可以多维同时聚类(https://www.cnblogs.com/wentingtu/archive/2011/12/21/2295691.html)
凸:
指的是顺着梯度方向走到底就 一定是 最优解 。
大部分 传统机器学习 问题 都是凸的。
非凸:
指的是顺着梯度方向走到底只能保证是局部最优,不能保证 是全局最优。
深度学习以及小部分传统机器学习问题都是非凸的。
如何对用户进行聚类分析? https://www.zhihu.com/question/19982667
统计学
协方差就是这样一种用来度量两个随机变量关系的统计量
协方差多了就是协方差矩阵。协方差矩阵计算的是不同维度之间的协方差,而不是不同样本之间的。
按列计算均值。协方差矩阵还可以这样计算,先让样本矩阵中心化,即每一维度减去该维度的均值,使每一维度上的均值为0,然后直接用新的到的样本矩阵乘上它的转置,然后除以(N-1)即可
标准差描述了变量在整体变化过程中偏离均值的幅度。协方差除以标准差,也就是把协方差中变量变化幅度对协方差的影响剔除掉,这样协方差也就标准化了,它反应的就是两个变量每单位变化时的情况。这也就是相关系数的公式含义了.协方差是会受到单位的影响的,而相关系数就是消除了量纲的影响,来看两者的相关性。
主元分析(PCA)以及与SVD的区别联系
https://blog.csdn.net/wangjian1204/article/details/50642732
主成分分析中协方差矩阵用奇异值进行分解
三大相关系数:统计学之三大相关性系数(pearson、spearman、kendall)
三个相关性系数(pearson, spearman, kendall)反应的都是两个变量之间变化趋势的方向以及程度,其值范围为-1到+1,0表示两个变量不相关,正值表示正相关,负值表示负相关,值越大表示相关性越强。
计算皮尔森相关性系数时,变量的标准差不能为0(分母不能为0),也就是说你的两个变量中任何一个的值不能都是相同的。如果没有变化,用皮尔森相关系数是没办法算出这个变量与另一个变量之间是不是有相关性的。
实验数据通常假设是成对的来自于正态分布的总体。为啥通常会假设为正态分布呢?因为我们在求皮尔森相关性系数以后,通常还会用t检验之类的方法来进行皮尔森相关性系数检验,而 t检验是基于数据呈正态分布的假设的。 实验数据之间的差距不能太大,或者说皮尔森相关性系数受异常值的影响比较大。
斯皮尔曼相关性系数,通常也叫斯皮尔曼秩相关系数。“秩”,可以理解成就是一种顺序或者排序,那么它就是根据原始数据的排序位置进行求解,这种表征形式就没有了求皮尔森相关性系数时那些限制。不用管X和Y这两个变量具体的值到底差了多少,只需要算一下它们每个值所处的排列位置的差值,就可以求出相关性系数了
肯德尔相关性系数,又称肯德尔秩相关系数,它也是一种秩相关系数,不过它所计算的对象是分类变量。
分类变量可以理解成有类别的变量,可以分为
无序的,比如性别(男、女)、血型(A、B、O、AB);
有序的,比如肥胖等级(重度肥胖,中度肥胖、轻度肥胖、不肥胖)。
通常需要求相关性系数的都是有序分类变量
检查所有点对(Point Pairs,即两个二维点),计算二维数据里面符合条件i)的点对(一致点对,concordant point pairs)对数目和ii)的点对(不一致点对,discordant point pairs)数目,如果这两个值的差值来描述关系。显然如果两种情况的点数目大致相当,说明两个维度关系相当“混乱”。
参考:
肯德尔相关性系数(点对个数)https://segmentfault.com/a/1190000007904710?utm_source=tag-newest
斯皮尔曼相关性系数(位置差)https://blog.csdn.net/sinat_24143931/article/details/78798630
详细说明 http://bbs.tianya.cn/post-develop-2087551-1.shtml
如何理解皮尔逊相关系数(Pearson Correlation Coefficient) https://www.zhihu.com/question/19734616
因子分析与pca
pca相关矩阵的特征值所对应的特征向量矩阵中的元素, 是原始变量的标准化数据,均值为0,方差为1。其实质是p维空间的坐标变换,不改变原始数据的结构。PCA的计算,协方差矩阵奇异值分解(可以理解为特征值分解,只不过特征值分解只适用于方阵)后,奇异值(就是特征值)从大到小排列,对应特征向量重要性(即数据分布方差的大小)从大到小排列。将特征向量矩阵取前k列,与原矩阵相乘,这样的几何意义是将原矩阵投影到k个特征向量上,因为矩阵乘法的意义就是一个变换矩阵作用于另一个矩阵X。
主成分的各系数,是唯一确定的、正交的。不可以对系数矩阵进行任何的旋转,且系数大小并不代表原变量与主成分的相关程度;而因子模型的系数矩阵是不唯一的、可以进行旋转的,且该矩阵表明了原变量和公共因子的相关程度。
主成分分析中,主成分的方差等于原始数据相关矩阵的特征根,其标准差也即特征根的平方根,于是可以将除以其标准差(单位化)后转化成合适的公因子,
因子分析是基于相关矩阵进行的,即要求各指标之间具有一定的相关性,求出相关矩阵是必要的
初始因子载荷矩阵(见表3)反映了公因子与原始变量之间的相关程度,而主成分的系数矩阵并不反映公因子与原始变量之间的相关程度
KMO统计量是0.659,且Bartlett球体检验 值为190.584,卡方统计值的显著性水平为0.000小于0.01,都说明各指标之间具有较高相关性,因此本文数据适用于作因子分析。
参考:
主成分分析与因子分析之比较及实证分析(https://blog.csdn.net/chen790646223/article/details/45511741)
https://www.jianshu.com/p/33ad4e2b29b3
http://www.aboutyun.com/blog-29-3403.html
PCA(主成分分析)与FA(因子分析)的直白理解 https://blog.csdn.net/yujianmin1990/article/details/49247307
pca实例 https://blog.csdn.net/zhongkelee/article/details/44064401
pca https://www.jianshu.com/p/07f4c2356965
主成分分析(PCA)原理详解 https://zhuanlan.zhihu.com/p/37777074
矩阵
奇异值分解能够用于任意 m × n {\displaystyle m\times n} m\times n矩阵,而特征分解只能适用于特定类型的方阵
线性代数中的秩,简单点说就是——矩阵的非零行/列的个数
奇异矩阵是线性代数的概念,就是该矩阵的秩不是满秩。首先,看这个矩阵是不是方阵(即行数和列数相等的矩阵。若行数和列数不相等,那就谈不上奇异矩阵和非奇异矩阵)。
然后,再看此矩阵的行列式|A|是否等于0,若等于0,称矩阵A为奇异矩阵;若不等于0,称矩阵A为非奇异矩阵。 同时,由|A|≠0可知矩阵A可逆,这样可以得出另外一个重要结论:可逆矩阵就是非奇异矩阵,非奇异矩阵也是可逆矩阵。 如果A为奇异矩阵,则AX=0有无穷解,AX=b有无穷解或者无解。如果A为非奇异矩阵,则AX=0有且只有唯一零解,AX=b有唯一解。