就和今天说早安


  • 首页

  • 分类

  • 关于

  • 归档

  • 标签

  • 公益404

  • 搜索

Ubuntu使用

发表于 2018-12-29 | 更新于 2018-12-29 | 分类于 系统 | 阅读次数
字数统计 873 字 | 阅读时长 4 分钟

CTRL+h 显示隐藏文件
ctrl+win +D 显示桌面
长按win 显示快捷键

/usr是Unix Software Rrsources的意思,相当于windows的C盘的,C:\Windows\和C:\Program Files的结合体。

ls /usr可以得到:bin include lib share local 等等。

其中share就是安装后的文件,文件夹所在位置

而local是第三方库的位置,比如我安装了:boost和libtorrent库,就在这里面
参考:
1

中文输入法不能用

wps

sudo gedit /usr/bin/wps

增加

>
export XMODIFIERS=”@im=fcitx”
export QT_IM_MODULE=”fcitx”

一定要在开头添加
或者
基于qt的程序下不能使用基于fcitx的中文输入法
sudo apt-get install fcitx-frontend-qt4 fcitx-frontend-qt5 fcitx-libs-qt fcitx-libs-qt5 libfcitx-qt0 libfcitx-qt5-1

mendenley

Ubuntu

用命令locate libfcitxplatforminputcontextplugin.so找到系统中的libfcitxplatforminputcontextplugin.so。(一般是/usr/lib/x86_64-linux-gnu/qt5/plugins/platforminputcontexts/libfcitxplatforminputcontextplugin.so)
拷贝

重命名为libfcitxplatforminputcontextplugin.so,然后拷贝到mendeley安装位置,debian和ubuntu为:

/opt/mendeleydesktop/plugins/qt/plugins/platforminputcontexts/

Arch为:

/opt/mendeleydesktop/lib/mendeleydesktop/plugins/platforminputcontexts/

重新启动mendeley即可发现中文可以输入了。

不能上网

sudo gedit /etc/network/interfaces
添加如下内容:
auto enp2s0(网卡ifconfig 查看)
iface enp2s0 inet static
address 10.0.0.156
netmask 255.255.255.0
gateway 10.0.0.1
dns-nameserver 202.112.144.236

sudo gedit /etc/network/interfaces

DNS 问题导致不能上网

sudo gedit /etc/resolv.conf
插入 nameserver 202.112.144.236

var/tmp 文件过大,磁盘空间满

mkinitramfs× 此类文件过多
用rm -rf mkinitramfs* 删除

http://forum.ubuntu.org.cn/viewtopic.php?p=3189497
lsof看看有没有正在使用

linux 共享windows 文件(ubuntu如何访问windows共享局域网文件夹)

打开ubuntu的文件,下方有网络-连接服务器:输入sbm://目标ipv4的地址,eg: smb://202.203.21.211
或者ctrl+L在地址栏上输入

每一个文件夹名字都打了一个”$“,带$的文件处于非共享状态表示不可以访问,,不加$的表示可以正常访问。

安装smbclient和cifs-utils

1
2
3
4
5
6
7
8
9
10
apt-get install smbclient
apt-get install cifs-utils
sudo gedit /etc/samba/smb.conf
add the following in the [global] section
client min protocol = SMB2
client max protocol = SMB3

同时windows 中在管理-管理用户和组中增加共享用户,设置共享文档
最终UI直接链接不上,在界面里输入用户名,密码,域总是显示无法分配内存

在linux下面创建一个需要挂载到的目录
用命令行挂载:

1
mount -t cifs -o username=Bob,password=123456 //192.168.0.102/Share /usr/local/bin/code

参数说明 : username , Window 系统登录用户名 ; password : Window 系统登录密码 ; //192.168.0.102/Share : 设置Window共享目录的路径 ; /usr/local/bin/code : 挂载到 Linux 下的那个目录
sudo mount -t cifs -o username=xxx,password=xxx,vers=3.0,uid=1000 //10.0.0.25/source /home/windows_share
指定挂载后的owner
查看某个用户UID的方法:

id -u [username]

如果想要开机就自动将windows共享目录挂载到ubuntu本地目录呢,该怎么做?
此种情况,可以直接修改 /etc/fstab. 在fstab文件中,添加对远程共享目录的挂载操作,具体做法是在fstab文件中添加以下代码:
//10.0.0.25/source /home/windows_share/ cifs defaults,uid=1000,gid=1000,username=user,password=password
参考网址:
Ubuntu 16.04安装配置Samba服务smbclient 使用方法
NT_STATUS_RESOURCE_NAME_NOT_FOUND
protocol negotiation failed: NT_STATUS_CONNECTION_RESET
Linux使用mount挂载Windows共享文件夹
Samba windows 10 share: mount error(112): Host is down
在Linux下访问Windows共享文件夹
另
windows中regedit命令启用注册表
cmd中输入net user,列举出来的用户就是可以通过网络连接的用户

jupyter使用

发表于 2018-12-29 | 更新于 2019-01-05 | 阅读次数
字数统计 897 字 | 阅读时长 4 分钟

如果希望屏蔽输出,可以在最后一条语句之后添加一个分号:”;”。
在cell中可以直接按tab键,可以自动补全
请按两下 i 按键终止循环,注意右上角的图标变回空心圈

https://www.zhihu.com/question/59392251

官方文档https://ipython.org/ipython-doc/1/interactive/notebook.html#keyboard-shortcuts
http://python.jobbole.com/87527/
Jupyter 支持多光标操作,与 Sublime Text 类似。按住 Alt 进行点击和拖拽鼠标即可。
查看快捷键的方式是使用命令面板:Cmd + Shift + P(或者Linux和Windows上 Ctrl + Shift + P)
http://liuchengxu.org/pelican-blog/jupyter-notebook-tips.html

< !– more –>
Jupyter Notebook 有两种键盘输入模式。编辑模式,允许你往单元中键入代码或文本;这时的单元框线是绿色的。命令模式,键盘输入运行程序命令;这时的单元框线是灰色。

命令模式 (按键 Esc 开启)

Enter : 转入编辑模式
Shift-Enter : 运行本单元,选中下个单元
Ctrl-Enter : 运行本单元
Alt-Enter : 运行本单元,在其下插入新单元
Y : 单元转入代码状态
M :单元转入markdown状态
R : 单元转入raw状态
1 : 设定 1 级标题
2 : 设定 2 级标题
3 : 设定 3 级标题
4 : 设定 4 级标题
5 : 设定 5 级标题
6 : 设定 6 级标题
Up : 选中上方单元
K : 选中上方单元
Down : 选中下方单元
J : 选中下方单元
Shift-K : 扩大选中上方单元
Shift-J : 扩大选中下方单元
`A : 在上方插入新单元`
`B : 在下方插入新单元`
X : 剪切选中的单元
C : 复制选中的单元
Shift-V : 粘贴到上方单元
V : 粘贴到下方单元
Z : 恢复删除的最后一个单元
D,D : 删除选中的单元
Shift-M : 合并选中的单元
Ctrl-S : 文件存盘
S : 文件存盘
L : 转换行号
O : 转换输出
Shift-O : 转换输出滚动
Esc : 关闭页面
Q : 关闭页面
H : 显示快捷键帮助
I,I : 中断Notebook内核
0,0 : 重启Notebook内核
Shift : 忽略
Shift-Space : 向上滚动
Space : 向下滚动
编辑模式 ( Enter 键启动)

`Tab : 代码补全或缩进`
`Shift-Tab : 提示`
Ctrl-] : 缩进
Ctrl-[ : 解除缩进
Ctrl-A : 全选
Ctrl-Z : 复原
Ctrl-Shift-Z : 再做
Ctrl-Y : 再做
Ctrl-Home : 跳到单元开头
Ctrl-Up : 跳到单元开头
Ctrl-End : 跳到单元末尾
Ctrl-Down : 跳到单元末尾
Ctrl-Left : 跳到左边一个字首
Ctrl-Right : 跳到右边一个字首
Ctrl-Backspace : 删除前面一个字
Ctrl-Delete : 删除后面一个字
Esc : 进入命令模式
Ctrl-M : 进入命令模式
Shift-Enter : 运行本单元,选中下一单元
Ctrl-Enter : 运行本单元
Alt-Enter : 运行本单元,在下面插入一单元
Ctrl-Shift– : 分割单元
Ctrl-Shift-Subtract : 分割单元
Ctrl-S : 文件存盘
Shift : 忽略
Up : 光标上移或转入上一单元
Down :光标下移或转入下一单元

增加kernel

首先,在anaconda中切换到myPython2环境下,确认是否安装了ipykernel这个包,如果没有则安装。
然后,在这个环境下输入一下命令

```

#xxx是在jupyter中显示的名字,建议使用环境的名字,但是不一样也没关系

我这里和环境名字一样,使用myPython2这个名字

python -m ipykernel install –name XXXX


https://blog.csdn.net/wj1066/article/details/72891667?utm_source=copy

修改启动默认路径

jupyter notebook –generate-config

会在用户路径下生成.jupyter文件夹,修改ipython_notebook_config.py (小心会覆盖)
修改c.NotebookApp.notebook_dir = ‘E://jupyter’

sklearn 总结

发表于 2018-12-21 | 更新于 2019-08-03 | 分类于 机器学习 , 编程 | 阅读次数
字数统计 211 字 | 阅读时长 1 分钟

卡方检验

卡方检验是以χ2分布为基础的一种常用假设检验方法

‘’根据假设,我们可以先算出一个文本出现”洪秀全”的概率,然后用中国近代史的文本个数乘以这个概率就得到了理论值,很好理解的普通概率问题。(想一想,这一起是不是建立在我们的假设的基础上。如果假设是二者不相关,那么理论值应该怎么算?你会发现根本不知道怎么算)’’第一篇参考文献中的例子解释为什么假设相关。
因为假设不相关,概率无法计算。
文本分类学习 (四) 特征选择之卡方检验
结合日常生活的例子,了解什么是卡方检验

特征选择

流利阅读总结

发表于 2018-12-15 | 更新于 2018-12-27 | 分类于 英语 | 阅读次数
字数统计 202 字 | 阅读时长 1 分钟

1 欧盟通过脱欧协议

Britons 英国人
urge sb to do sth

seal a Brexit deal
the package
sales pitch 宣传论点
open the door to 使什么成为可能
make a case for 阐明理由
rubber-stamp 盖公章,走形式的通过
status-quo 维持现状的

2 印尼抹香鲸死亡

assorted 多种口味的
sperm whale 抹香鲸
flip-flops 人字拖
ashore 向岸
resonate 回想,回荡
siren 警笛
harbour 海港
reckon with 考虑到
outsize 过大的

sense of satiation 饱腹感
vulnerable to
be susceptible to 易受影响
pierce 刺破
predators 掠食者
intangle trap 缠绕

美国平均寿命

fractionally 轻微的
overdoses 过量
at historical high 达到历史最高
spike 上涨
opioid epidemic 阿片类药物泛滥
post 前缀是什么之后
rein in 抑制
help rein in the over_prescription of opioid

in the intervening years 在这年期间

自然语言处理

发表于 2018-12-11 | 更新于 2018-12-21 | 分类于 研究 | 阅读次数
字数统计 2,026 字 | 阅读时长 8 分钟

开源工具

中文

HanLP

HanLP(汉语言处理包)是一款开源的使用Java进行开发的中文自然语言处理工具,提供的功能包括中文分词、词性标注、命名实体识别、依存句法分析等。
该工具包目前仍处在更新维护中(2017.9最新版本是1.3.4)
github仓库:https://github.com/hankcs/HanLP
开发语言:Java
支持语言:Java,如果使用Python,可以借助JPype

配置和使用:可以参加github地址
关键点:修改配置文件hanlp.properties中root=,可以使用相对或绝对地址,并且该文件需放置在bin目录中。

复旦 FundanNLP

FudanNLP (FNLP)是复旦大学开发的中文自然语言处理工具包,目前暂时停止了更新(目前最新是2016年的微调整,主体版本2.00(2014.3.25)),另:FNLP官方博客:[http://fnlp.org]已失踪;支持中文分词、词性标注、命名实体识别。
github仓库:https://github.com/FudanNLP/fnlp
开发语言:Java
支持语言:Java
安装配置:github wiki;需要先配置maven,手动进行编译得到jar包。

哈工大 HIT LTP

阅读全文 »

深度学习资料

发表于 2018-12-11 | 更新于 2019-11-05 | 分类于 科研 | 阅读次数
字数统计 529 字 | 阅读时长 2 分钟

深度学习资料

2015年5月《自然》上刊登的一篇概述性论文《深度学习》(Deep learning),由我自己、Yoshua Bengio 、Geoff Hinton共同撰写。

阅读全文 »

情感分析

发表于 2018-12-11 | 更新于 2019-08-03 | 分类于 科研 | 阅读次数
字数统计 2,844 字 | 阅读时长 10 分钟

情感分析(SA)又称为倾向性分析和意见挖掘,它是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程,其中情感分析还可以细分为情感极性(倾向)分析,情感程度分析,主客观分析等。

情感极性分析的目的是对文本进行褒义、贬义、中性的进行判断。

情感程度分析主要是对同一情感极性中再进行划分或者细分,以描述该极性的强度。例如“喜爱”和“敬爱”都是褒义词,但是“敬爱”相对来说褒义的程度更加强烈一些。

主客观分析主要目的是识别文本中哪些部分是客观称述而不带情感色彩,哪些是带有情感的主管描述。在对于微博,或者商品评论时,这个分析步骤一般都忽略,因为微博和商品评论本身就一定存在强烈的情感色彩,而且客观描述的情感值理论上是为零,不影响最终的情感分析结果。

基于词典

基于词典的方法主要通过制定一系列的情感词典和规则,对文本进行段落拆借、句法分析,计算情感值,最后通过情感值来作为文本的情感倾向依据。
基于词典的比较直观的博客
Python做文本挖掘的情感极性分析(基于情感词典的方法)

基于词典的情感分析:

情感分析对象的粒度最小是词汇,但是表达一个情感的最基本的单位则是句子,词汇虽然能描述情感的基本信息,但是单一的词汇缺少对象,缺少关联程度,并且不同的词汇组合在一起所得到的情感程度不同甚至情感倾向都相反。所以以句子为最基本的情感分析粒度是较为合理的。篇章或者段落的情感可以通过句子的情感来计算。
词典可从《知网》情感分析用词语集(beta版)http://www.keenage.com/download/sentiment.rar
1.1.2 否定词词典
1.1.3 程度副词词典

基于词典的情感分析大致步骤如下:

考虑到语句中的褒贬并非稳定分布,以上步骤对于积极和消极的情感词分开执行,最终的到两个分值,分别表示文本的正向情感值和负向情感值。

进过以上的步骤,每篇文章的每个段落的每个句子都会有相应的情感分值,之后针对需求,可以针对句子的分值作统计计算,也可以针对段落的分值作统计计算,得到最后的文本的正向情感值和负向情感值。

四、基于词典的情感分析实践:

(1)基于词典的情感分析首先要构建情感词典及程度副词词典。通常是拉取一些比较成熟的情感词典。常见的如知网,台湾大学简体中文情感极性词典。将几个词典组合后再针对需要添加领域内的一些词就差不多了。情感词典,有多家研究机构进行了分析,并且公布了结果,比如大连理工、汉语情感词极值表、台湾大学情感NTUSD、知网Hownet情感词、中文褒贬义词典v1.0(清华大学李军)等,有些词典分为正向、逆向单词两个部分;有些放在一起,然后有单独的标签,可以cbind合并在一起。本文引用的是谭松波老师的正向、逆向情感词典。

各个词典对情感词的倾向定义可能矛盾,出现同一个词具有情感正向和负向两种倾向的情况,尽管这种情况更加符合现实,但是违背了基于词典的情感分析的原假设,所以要将这些词去重,我们的方法是一个词如果同时属于正向和负向,仅保留正向分类。

(2) 准备待分析文本、分词工具:

待分析文本:可以爬取一些购物网站、团购、电影平台的评论数据作为实验数据。

分析工具:中文的话推荐使用结巴分析,python、java等都有对应的接口,文档和应用案例也相对较多。同时需要准备一份自定义词典,由于领域内的新词及一些网络流行语等不容易切分出来,自己制作一份词典就OK了。
1、一、二级清洗

文本挖掘中,对文本的清洗工作尤为重要,会出现比如:英文逗号、波浪线、英文单引号、英文双引号、分隔符等。

(3)利用结巴分词分解出一段文本中的句子、及每个句子中词汇:

(4)计算部分:首先将一段输入文本调用句子切分函数得到一系列句子,对每个句子进行分析处理,得到每个句子的分词结果。搜索分词结果中的情感词并标注和计数,由于情感词存在一些修饰词(如非常、一般、不等)对情感词的情感程度甚至情感极性影响很大,在此,搜索情感词前的程度词,根据程度大小,赋予不同权值,同时搜索情感词前的否定词,赋予反转权值(-1)。综合得到一个句子的正向情感得分、负向情感得分。

(5)综合每个句子的结果得到最后的文本情感值。

语言很复杂。讽刺、歧义、多义性、否定性和俚语都是机器难以理解的因素,对情感分析有巨大的影响。因此,简单的基于字典的方法往往无法分析复杂的情感表达。

监督学习

基于机器学习的方法大多将这个问题转化为一个分类问题来看待,对于情感极性的判断,将目标情感分类2类:正、负;对情感程度的分析则转化为回归问题看待。对训练文本进行人工标标注,然后进行有监督的机器学习过程。

在还没有获得大量文本的情况下,使用基于词典的方法或者简单的机器学习方法是一个不错的选择。获得大量文本后,可以尝试使用一些复杂的机器学习方法甚至使用深度学习来进一步提升分析效果。
机器学习的方法精确度更高,因为词典匹配会由于语义表达的丰富性而出现很大误差,而机器学习方法不会。而且它可使用的场景更多样。无论是主客观分类还是正负面情感分类,机器学习都可以完成任务。而无需像词典匹配那样要深入到词语、句子、语法这些层面。

而词典方法适用的语料范围更广,无论是手机、电脑这些商品,还是书评、影评这些语料,都可以适用。但机器学习则极度依赖语料,把手机语料训练出来的的分类器拿去给书评分类,那是注定要失败的。

nltk 进行情感分析使用python+机器学习方法进行情感分析
Python做文本情感分析之情感极性分析‘包括词典和情感学习’,这篇文章的代码实现
Twitter是怎么做情感分析的?长文解读!

非监督情感分类

论文:文本情感分类中生成式情感模型的发展
依次介绍了隐性情感模型(lsm),联合情感主题模型(jts),主题情感混合模型(TSM)

一个简单的情感识别系统的实现
Analysis of sentiments using unsupervised learning techniques 使用非监督学习技术分析情感(IEEE2013

主题模型

要了解主题模型,先了解贝叶斯分类
潜在狄立克雷分配的显著特征——集合中所有文档共享同一主题集合,但每个文档中各个主题所占的比例又都各不相同

贝叶斯分类

详解最大似然估计(MLE)、最大后验概率估计(MAP),以及贝叶斯公式的理解

主题模型就是利用了词语的同现特性
http://v.qiye10000.com/v/XODAyNvImMvIy.html 吴立德
https://www.bilibili.com/video/av27193854/?p=3 七月在线

主题模型参考文献汇总 https://blog.csdn.net/aws3217150/article/details/53840029

专知主题模型汇总【专知荟萃16】主题模型Topic Model知识资料全集(基础/进阶/论文/综述/代码/专家,附PDF下载

word2vec

直观理解输入什么,输出什么
https://zhuanlan.zhihu.com/p/26306795?utm_source=wechat_session&utm_medium=social&from=groupmessage
【译】word2vec&doc2vec做文本情感分析
利用Python构建Wiki中文语料词向量模型试验

词典及语料库

http://www.cnblogs.com/finesite/p/3381803.html
有多家研究机构进行了分析,并且公布了结果,比如大连理工、汉语情感词极值表、台湾大学情感NTUSD、知网Hownet情感词、中文褒贬义词典v1.0(清华大学李军),谭松波老师的正向、逆向情感词典等,有些词典分为正向、逆向单词两个部分;有些放在一起,然后有单独的标签,可以cbind合并在一起。

参考资料

Stanford NLP学习笔记:7. 情感分析(Sentiment)

github

(词向量已训练好)基于微博评论的数据挖掘与情感分析(cnn,lstm) https://github.com/joliph/
Text-Classify

贝叶斯情感分类https://github.com/RobTomb/pac_ai/blob/master/code/sentimentNaiveBayes.py

2017年CCF大数据与计算智能竞赛使用的模型和实现代码,选择了基于主题的文本情感分析赛题。采用情感词典+自定义规则完成比赛 https://github.com/digfound/CCFCompetition

基于Python的新浪微博社交网络分析 https://github.com/ruansongsong/weibo_forward_analysis

基于新浪微博数据的情感极性分析,使用机器学习算法训练模型,使用的分类方法包括朴素贝叶斯、SVM
https://github.com/ljw9609/SentimentAnalysis

(snownlp朴素贝叶斯)微博情感分析,支持分析用户最近三个月、六个月、九个月、十二个月(转)发的微博,分析得出用户这段时间内“正能量”的、“负能量”的、“中性”的微博的条数,从而分析得出用户这段时间的情感总体状况,支持将分析结果发到微博。https://github.com/qibinlou/SinaWeibo-Emotion-Classification

采用LSTM模型,训练一个能够识别文本postive, neutral, negative三种情感的分类器 https://github.com/Edward1Chou/SentimentAnalysis

英语情感分析模型比较 https://github.com/sebastianruder/NLP-progress/blob/master/english/sentiment_analysis.md

Using Spark to analyse weibo emotions https://github.com/irmowan/Weibo-Emotions

在线评论的细粒度情感分析baseline https://github.com/AIChallenger/AI_Challenger_2018

经典论文

Sentiment Analysis and Opinion Mining 刘冰

数据集

twitter 语料Sanders corpus http://www.sananalytics.com/la
b/twitter-sentiment/)

词嵌入情感分析

Sentiment-Polarized Word Embedding for Multi-Label Sentiment Classification

当难过时

发表于 2018-12-11 | 更新于 2019-11-19 | 分类于 随笔 | 阅读次数
字数统计 8 字 | 阅读时长 1 分钟

一屋两人三餐四季

官方文档

发表于 2018-12-11 | 更新于 2019-12-10 | 分类于 学习 | 阅读次数
字数统计 19 字 | 阅读时长 1 分钟

linux命令大全
tensorflow中文官方文档
tensorflow英文文档
scipy

pytorch

阅读全文 »

人群聚类动力学

发表于 2018-12-11 | 更新于 2018-11-26 | 分类于 研究 | 阅读次数
字数统计 2,351 字 | 阅读时长 8 分钟

想法

群体类型有哪些,再找划分特征。具体应用分析目标

1)如果希望对一个小区的居民按常驻和非常驻人口进行一下划分,那么性别,年龄,学历这样的因素应该和结果的相关度是比较低的,而一个人在小区出现的频率、时间点和延续的时间就更应该为分析者关注。
2)如果希望针对一个高科技产品推广的受众人群进行一下划分的话,那么年龄,学历,购买力等可能都是需要考虑关注的因素。
关注数据的不同侧面,有可能得到不同的聚类结果。同时这些聚类结果也都是有意义,可以解释的

算法

多维聚类分析:
贝叶斯网络,隐树模型,隐树模型允许模型中有多个隐变量,所以自然地可以多维同时聚类(https://www.cnblogs.com/wentingtu/archive/2011/12/21/2295691.html)

凸:

指的是顺着梯度方向走到底就 一定是 最优解 。

大部分 传统机器学习 问题 都是凸的。

非凸:

指的是顺着梯度方向走到底只能保证是局部最优,不能保证 是全局最优。

深度学习以及小部分传统机器学习问题都是非凸的。

如何对用户进行聚类分析? https://www.zhihu.com/question/19982667

统计学

协方差就是这样一种用来度量两个随机变量关系的统计量
协方差多了就是协方差矩阵。协方差矩阵计算的是不同维度之间的协方差,而不是不同样本之间的。
按列计算均值。协方差矩阵还可以这样计算,先让样本矩阵中心化,即每一维度减去该维度的均值,使每一维度上的均值为0,然后直接用新的到的样本矩阵乘上它的转置,然后除以(N-1)即可

如何通俗易懂地解释「协方差」与「相关系数」的概念?

标准差描述了变量在整体变化过程中偏离均值的幅度。协方差除以标准差,也就是把协方差中变量变化幅度对协方差的影响剔除掉,这样协方差也就标准化了,它反应的就是两个变量每单位变化时的情况。这也就是相关系数的公式含义了.协方差是会受到单位的影响的,而相关系数就是消除了量纲的影响,来看两者的相关性。

主元分析(PCA)以及与SVD的区别联系
https://blog.csdn.net/wangjian1204/article/details/50642732
主成分分析中协方差矩阵用奇异值进行分解

三大相关系数:统计学之三大相关性系数(pearson、spearman、kendall)

三个相关性系数(pearson, spearman, kendall)反应的都是两个变量之间变化趋势的方向以及程度,其值范围为-1到+1,0表示两个变量不相关,正值表示正相关,负值表示负相关,值越大表示相关性越强。
计算皮尔森相关性系数时,变量的标准差不能为0(分母不能为0),也就是说你的两个变量中任何一个的值不能都是相同的。如果没有变化,用皮尔森相关系数是没办法算出这个变量与另一个变量之间是不是有相关性的。
实验数据通常假设是成对的来自于正态分布的总体。为啥通常会假设为正态分布呢?因为我们在求皮尔森相关性系数以后,通常还会用t检验之类的方法来进行皮尔森相关性系数检验,而 t检验是基于数据呈正态分布的假设的。 实验数据之间的差距不能太大,或者说皮尔森相关性系数受异常值的影响比较大。

斯皮尔曼相关性系数,通常也叫斯皮尔曼秩相关系数。“秩”,可以理解成就是一种顺序或者排序,那么它就是根据原始数据的排序位置进行求解,这种表征形式就没有了求皮尔森相关性系数时那些限制。不用管X和Y这两个变量具体的值到底差了多少,只需要算一下它们每个值所处的排列位置的差值,就可以求出相关性系数了

肯德尔相关性系数,又称肯德尔秩相关系数,它也是一种秩相关系数,不过它所计算的对象是分类变量。
分类变量可以理解成有类别的变量,可以分为
无序的,比如性别(男、女)、血型(A、B、O、AB);
有序的,比如肥胖等级(重度肥胖,中度肥胖、轻度肥胖、不肥胖)。
通常需要求相关性系数的都是有序分类变量
检查所有点对(Point Pairs,即两个二维点),计算二维数据里面符合条件i)的点对(一致点对,concordant point pairs)对数目和ii)的点对(不一致点对,discordant point pairs)数目,如果这两个值的差值来描述关系。显然如果两种情况的点数目大致相当,说明两个维度关系相当“混乱”。

参考:

肯德尔相关性系数(点对个数)https://segmentfault.com/a/1190000007904710?utm_source=tag-newest
斯皮尔曼相关性系数(位置差)https://blog.csdn.net/sinat_24143931/article/details/78798630
详细说明 http://bbs.tianya.cn/post-develop-2087551-1.shtml
如何理解皮尔逊相关系数(Pearson Correlation Coefficient) https://www.zhihu.com/question/19734616

因子分析与pca

pca相关矩阵的特征值所对应的特征向量矩阵中的元素, 是原始变量的标准化数据,均值为0,方差为1。其实质是p维空间的坐标变换,不改变原始数据的结构。PCA的计算,协方差矩阵奇异值分解(可以理解为特征值分解,只不过特征值分解只适用于方阵)后,奇异值(就是特征值)从大到小排列,对应特征向量重要性(即数据分布方差的大小)从大到小排列。将特征向量矩阵取前k列,与原矩阵相乘,这样的几何意义是将原矩阵投影到k个特征向量上,因为矩阵乘法的意义就是一个变换矩阵作用于另一个矩阵X。

主成分的各系数,是唯一确定的、正交的。不可以对系数矩阵进行任何的旋转,且系数大小并不代表原变量与主成分的相关程度;而因子模型的系数矩阵是不唯一的、可以进行旋转的,且该矩阵表明了原变量和公共因子的相关程度。
主成分分析中,主成分的方差等于原始数据相关矩阵的特征根,其标准差也即特征根的平方根,于是可以将除以其标准差(单位化)后转化成合适的公因子,

因子分析是基于相关矩阵进行的,即要求各指标之间具有一定的相关性,求出相关矩阵是必要的
初始因子载荷矩阵(见表3)反映了公因子与原始变量之间的相关程度,而主成分的系数矩阵并不反映公因子与原始变量之间的相关程度

KMO统计量是0.659,且Bartlett球体检验 值为190.584,卡方统计值的显著性水平为0.000小于0.01,都说明各指标之间具有较高相关性,因此本文数据适用于作因子分析。

参考:
主成分分析与因子分析之比较及实证分析(https://blog.csdn.net/chen790646223/article/details/45511741)

https://www.jianshu.com/p/33ad4e2b29b3
http://www.aboutyun.com/blog-29-3403.html
PCA(主成分分析)与FA(因子分析)的直白理解 https://blog.csdn.net/yujianmin1990/article/details/49247307
pca实例 https://blog.csdn.net/zhongkelee/article/details/44064401
pca https://www.jianshu.com/p/07f4c2356965
主成分分析(PCA)原理详解 https://zhuanlan.zhihu.com/p/37777074

矩阵

奇异值分解能够用于任意 m × n {\displaystyle m\times n} m\times n矩阵,而特征分解只能适用于特定类型的方阵

线性代数中的秩,简单点说就是——矩阵的非零行/列的个数

奇异矩阵是线性代数的概念,就是该矩阵的秩不是满秩。首先,看这个矩阵是不是方阵(即行数和列数相等的矩阵。若行数和列数不相等,那就谈不上奇异矩阵和非奇异矩阵)。
然后,再看此矩阵的行列式|A|是否等于0,若等于0,称矩阵A为奇异矩阵;若不等于0,称矩阵A为非奇异矩阵。 同时,由|A|≠0可知矩阵A可逆,这样可以得出另外一个重要结论:可逆矩阵就是非奇异矩阵,非奇异矩阵也是可逆矩阵。 如果A为奇异矩阵,则AX=0有无穷解,AX=b有无穷解或者无解。如果A为非奇异矩阵,则AX=0有且只有唯一零解,AX=b有唯一解。

1…456…11
WeiXiangYu

WeiXiangYu

胸怀猛虎 细嗅蔷薇

103 日志
30 分类
57 标签
GitHub Twitter Youtube Weibo 豆瓣 知乎 CSDN
Links
  • MacTalk
  • 爱可可爱生活
  • IT瘾
  • 苏剑林
© 2017 - 2020 WeiXiangYu
本站总访问量次 本站访客数人次
由 Hexo 强力驱动
主题 - NexT.Pisces