注意安装要在安装包目录下。
安装eclipse+pydev
安装ss
参考github上内容下载shadowsock
|
|
注意安装要在安装包目录下。
参考github上内容下载shadowsock
|
|
python3 为 str
ininstance(s,basestring) 为ininstance(s,str)
开头一般不用加 # -- coding:utf-8 --
但是有的中文中还是会出现无法识别的情况,抛出Non-UTF-8 code starting with ‘\xe7’ 错误,这时候就需要在第一行加上这句。
在应用Unix/Linux时,我们一般想让某个程序在后台运行,于是我们将常会用 & 在程序结尾来让程序自动运行。比如我们要运行mysql在后台: /usr/local/mysql/bin/mysqld_safe –user=mysql &。可是有很多程序并不想mysqld一样,这样我们就需要nohup命令,怎样使用nohup命令呢?这里讲解nohup命令的一些用法。
Huffman码来对以上符号序列进行二进制编码来说明熵的意义
一文理解机器学习中的各种熵 https://www.jianshu.com/p/0bc001281bf2
真实熵与人类行为可预测性 https://computational-communication.com/python/predicatability/
熵(entropy)的自然直观的理解
https://blog.csdn.net/u012491646/article/details/78884423
时间序列的表示与信息提取
https://zhuanlan.zhihu.com/p/39105270
On Predictability of Time Series https://arxiv.org/abs/1806.03876
我们来解决一下 matplotlib 的中文显示问题
解决Linux系统中python matplotlib画图的中文显示问题
1、/fc-list (“:lang=zh”可添加此后缀单独查看安装的中文字体)
下载SimHei.ttf字体
由于系统没有任何中文字体,需要自己准备中文字体,Ubuntu支持TTF字体,这里笔者下载的是SimHei字体(百度搜索下载,注意要是ttf)
2.upyter输入并运行:
import matplotlib
matplotlib.matplotlib_fname()
进入到文件内容中,使用上下光标建找到
1)font.family : sans-serif ,去掉前面的 # 号
2)font.sans-serif ,去掉前面的 # 号,并在后面内容首位添加一个SimHei
3./home/linuxbrew/.linuxbrew/opt/python/lib/python3.6/site-packages/matplotlib/mpl-data
即可看到fonts文件夹—->进入ttf文件夹——->将字体拷贝进入即可
1)放到系统文件夹下:
/usr/share/fonts
2) 放到matplotlib的字体文件夹下:
/usr/local/lib/python2.7/dist-packages/matplotlib/mpl-data/fonts/ttf/
4、删除~/.cache/matplotlib缓存文件夹
一定要删除这个文件夹,一般在系统目录下面,比如ubuntu这个文件夹下面
找到fontList.cache文件
sudo find / -name fontList.cache
假设我的在/home/user/.cache/matplotlib/fontList.cache,删除:
rm /home/user/.cache/matplotlib/fontList.cache
5.画图代码部分
import matplotlib as mpl
font_name = ‘SIMHEI’
mpl.rcParams[‘font.family’] = font_name #用来正常显示中文标签
mpl.rcParams[‘axes.unicode_minus’]=False #用来正常显示负号
“以上方式都没解决”,
https://blog.csdn.net/u013617229/article/details/82632751
根据os.path返回的结果,结合其他网友分享的文章得到最终的字体位置:
os.path + site-packages/matplotlib/mpl-data/fonts/ttf
https://www.cnblogs.com/lingLongBaby/p/8079588.html
常见问题
1)当matplotlib/mpl-data/fonts/ttf中没有指定字体是执行时会出现如下错误
font_manager.py:1287: UserWarning: findfont: Font family [u’sans-serif’] not found. Falling back to Bitstream Vera Sans (prop.get_family(), self.defaultFamily[fontext]))
2)有字体但还是显示小方块,一般是没有删除~/.cache/matplotlib 的缓冲目录
https://blog.csdn.net/huludan/article/details/50925735
正则断言http://blog.sina.com.cn/s/blog_a71b93220102wczi.html
def multiple_replace(text, idict):
rx = re.compile(r’\b%s\b’ % r’\b|\b’.join(map(re.escape, idict)))
def one_xlat(match):
return idict[match.group(0)]
return rx.sub(one_xlat, text)
pandas.read_csv参数详解
https://www.cnblogs.com/datablog/p/6127000.html
协同过滤
https://blog.csdn.net/xiaokang123456kao/article/details/74735992
https://segmentfault.com/a/1190000012394176
特征是否发散:如果一个特征不发散,例如方差接近于0,也就是说样本在这个特征上基本上没有差异,这个特征对于样本的区分并没有什么用。
特征与目标的相关性:这点比较显见,与目标相关性高的特征,应当优选选择。除移除低方差法外,本文介绍的其他方法均从相关性考虑。
https://www.cnblogs.com/stevenlk/p/6543628.html
https://blog.csdn.net/xlinsist/article/details/51475345
https://www.cnblogs.com/jasonfreak/p/5619260.html
https://blog.csdn.net/shine19930820/article/details/71713680/
http://www.infoq.com/cn/articles/user-portrait-collaborative-filtering-for-recommend-systems
一般来说推荐系统的特征体系由 3 个部分组成:用户特征、内容特征、上下文特征。
用户特征:包括但不限于用户姓名、性别、年龄、注册时间、收货地址、常用区域等用户特征
内容特征:包括但不限于以及商品、内容的标题分词、内容的 TF-IDF、内容来源、内容渠道、内容生产者等等
那么上下文特征, 是代表用户当前时空状态、最近一段时间的行为抽象的特征。比如说用户当前的 GPS 坐标,大家可能觉得奇怪, GPS 坐标怎么用来推荐呢?其实很简单,地球一圈是 4 万公里,GPS 一圈是 360°,一度大概是 100 公开。如果我们把 GPS 坐标保存到小数点后一位,组合起来,这样的特征就是 10*10 公里的格子,这就代表了一个有泛化能力的用户的位置。
https://medium.com/unstructured/how-feature-engineering-can-help-you-do-well-in-a-kaggle-competition-part-i-9cc9a883514d
https://jiasuhui.com/article/13888(翻译)
https://www.cnblogs.com/nxld/p/6058591.html
https://blog.csdn.net/cbbing/article/details/50721468
https://blog.csdn.net/stranger_man/article/details/78886060
https://blog.csdn.net/stranger_man/article/details/78376837
from sklearn.model_selection import cross_validate
from sklearn.metrics import recall_score
#组合评估参数字典
scoring = [‘precision_macro’, ‘recall_macro’]
clf = svm.SVC(kernel=’linear’, C=1, random_state=0)
###注意最后一个参数的用法,默认情况下是true返回训练的时间,使用时可以设置成False,因为返回的一般用不到。
###scoring参数,如果多个参数则必须组合成字典结构。一个参数时则是字符串结构。也可以使用默认的f1-score。
scores = cross_validate(clf, iris.data, iris.target, scoring=scoring,
cv=5, return_train_score=False)
###建议以后自己用的时候也这样打印一下,方便自己的使用。
sorted(scores.keys())
[‘fit_time’, ‘score_time’, ‘test_precision_macro’, ‘test_recall_macro’]
scores[‘test_recall_macro’]
array([ 0.96…, 1. …, 0.96…, 0.96…, 1. ])
https://www.jianshu.com/p/baaf8c89c9e2
https://blog.csdn.net/yas12345678/article/details/52956085
CTR预估模型
https://www.cnblogs.com/qcloud1001/p/7513982.html
是一种查看表格某列中有多少个不同值的快捷方法,并计算每个不同值有在该列中有多少重复值。
value_counts()是Series拥有的方法,一般在DataFrame中使用时,需要指定对哪一列或行使用
https://www.jianshu.com/p/f773b4b82c66
焦虑蔓延。所有的东西仿佛都蜻蜓点水,浅尝辄止。
由上网需要翻墙引起,很久之前爬过Twitter需要翻墙成功连上过,现在却死活连不上,以前的笔记也记得很混乱,导致自己怀疑是否做过笔记。
自从不再看深度学习的理论后,开始数据挖掘,爬过虫,看过快手的比赛,又看了一些论文,但脑子里任然觉得没留下什么让自己觉得踏实的会让自己毕业的东西。
人物刻画这个目标要怎么做到仍然是个未知数。
哎,我连自己都搞不懂,怎么能搞清楚一堆人呢。
识别行人吵架预警视频
1.消息记录的发送时间,间隔所反映的心理活动
2.Attention在语义蕴涵 (Entailment) 中的应用
给定一个用英文描述的前提和假设作为输入,输出假设与前提是否矛盾、是否相关或者是否成立
前提:在一个婚礼派对上拍照
假设:有人结婚了
该例子中的假设是成立的