pandas使用

pandas.read_csv参数详解
https://www.cnblogs.com/datablog/p/6127000.html

协同过滤
https://blog.csdn.net/xiaokang123456kao/article/details/74735992

CParserError: Error tokenizing data

python处理数据的风骚操作[pandas 之 groupby&agg]

https://segmentfault.com/a/1190000012394176

特征选择 (feature_selection)

特征是否发散：如果一个特征不发散，例如方差接近于0，也就是说样本在这个特征上基本上没有差异，这个特征对于样本的区分并没有什么用。
特征与目标的相关性：这点比较显见，与目标相关性高的特征，应当优选选择。除移除低方差法外，本文介绍的其他方法均从相关性考虑。

https://www.cnblogs.com/stevenlk/p/6543628.html

Bagging（Bootstrap aggregating）、随机森林（random forests）、AdaBoost

https://blog.csdn.net/xlinsist/article/details/51475345

特征转换

https://www.cnblogs.com/jasonfreak/p/5619260.html

GBDT原理及利用GBDT构造新的特征-Python实现

https://blog.csdn.net/shine19930820/article/details/71713680/

pandas模块进行数据分析

https://www.cnblogs.com/nxld/p/6058591.html
https://blog.csdn.net/cbbing/article/details/50721468

Model_selection原理

https://blog.csdn.net/stranger_man/article/details/78886060
https://blog.csdn.net/stranger_man/article/details/78376837
from sklearn.model_selection import cross_validate
from sklearn.metrics import recall_score

#组合评估参数字典
scoring = [‘precision_macro’, ‘recall_macro’]
clf = svm.SVC(kernel=’linear’, C=1, random_state=0)

###注意最后一个参数的用法，默认情况下是true返回训练的时间，使用时可以设置成False，因为返回的一般用不到。

###scoring参数，如果多个参数则必须组合成字典结构。一个参数时则是字符串结构。也可以使用默认的f1-score。

scores = cross_validate(clf, iris.data, iris.target, scoring=scoring,
cv=5, return_train_score=False)

###建议以后自己用的时候也这样打印一下，方便自己的使用。

sorted(scores.keys())
[‘fit_time’, ‘score_time’, ‘test_precision_macro’, ‘test_recall_macro’]
scores[‘test_recall_macro’]
array([ 0.96…, 1. …, 0.96…, 0.96…, 1. ])

python 合并（merge , concat , join , combine_first)

https://www.jianshu.com/p/baaf8c89c9e2

互联网广告综述之点击率特征工程

https://blog.csdn.net/yas12345678/article/details/52956085
CTR预估模型
https://www.cnblogs.com/qcloud1001/p/7513982.html

plot是一种将所有列及其标签进行绘制的简便方法

value_counts()

是一种查看表格某列中有多少个不同值的快捷方法，并计算每个不同值有在该列中有多少重复值。
value_counts()是Series拥有的方法，一般在DataFrame中使用时，需要指定对哪一列或行使用
https://www.jianshu.com/p/f773b4b82c66