pandas使用

pandas.read_csv参数详解
https://www.cnblogs.com/datablog/p/6127000.html

协同过滤
https://blog.csdn.net/xiaokang123456kao/article/details/74735992

CParserError: Error tokenizing data

python处理数据的风骚操作[pandas 之 groupby&agg]

https://segmentfault.com/a/1190000012394176

特征选择 (feature_selection)

特征是否发散:如果一个特征不发散,例如方差接近于0,也就是说样本在这个特征上基本上没有差异,这个特征对于样本的区分并没有什么用。
特征与目标的相关性:这点比较显见,与目标相关性高的特征,应当优选选择。除移除低方差法外,本文介绍的其他方法均从相关性考虑。

https://www.cnblogs.com/stevenlk/p/6543628.html

Bagging(Bootstrap aggregating)、随机森林(random forests)、AdaBoost

https://blog.csdn.net/xlinsist/article/details/51475345

特征转换

https://www.cnblogs.com/jasonfreak/p/5619260.html

GBDT原理及利用GBDT构造新的特征-Python实现

https://blog.csdn.net/shine19930820/article/details/71713680/

推荐系统

http://www.infoq.com/cn/articles/user-portrait-collaborative-filtering-for-recommend-systems
一般来说推荐系统的特征体系由 3 个部分组成:用户特征、内容特征、上下文特征。

用户特征:包括但不限于用户姓名、性别、年龄、注册时间、收货地址、常用区域等用户特征

内容特征:包括但不限于以及商品、内容的标题分词、内容的 TF-IDF、内容来源、内容渠道、内容生产者等等

那么上下文特征, 是代表用户当前时空状态、最近一段时间的行为抽象的特征。比如说用户当前的 GPS 坐标,大家可能觉得奇怪, GPS 坐标怎么用来推荐呢?其实很简单,地球一圈是 4 万公里,GPS 一圈是 360°,一度大概是 100 公开。如果我们把 GPS 坐标保存到小数点后一位,组合起来,这样的特征就是 10*10 公里的格子,这就代表了一个有泛化能力的用户的位置。

How Feature Engineering can help you do well in a Kaggle competition

https://medium.com/unstructured/how-feature-engineering-can-help-you-do-well-in-a-kaggle-competition-part-i-9cc9a883514d
https://jiasuhui.com/article/13888(翻译)

pandas模块进行数据分析

https://www.cnblogs.com/nxld/p/6058591.html
https://blog.csdn.net/cbbing/article/details/50721468

Model_selection原理

https://blog.csdn.net/stranger_man/article/details/78886060
https://blog.csdn.net/stranger_man/article/details/78376837
from sklearn.model_selection import cross_validate
from sklearn.metrics import recall_score

#组合评估参数字典
scoring = [‘precision_macro’, ‘recall_macro’]
clf = svm.SVC(kernel=’linear’, C=1, random_state=0)

###注意最后一个参数的用法,默认情况下是true返回训练的时间,使用时可以设置成False,因为返回的一般用不到。

###scoring参数,如果多个参数则必须组合成字典结构。一个参数时则是字符串结构。也可以使用默认的f1-score。

scores = cross_validate(clf, iris.data, iris.target, scoring=scoring,
cv=5, return_train_score=False)

###建议以后自己用的时候也这样打印一下,方便自己的使用。

sorted(scores.keys())
[‘fit_time’, ‘score_time’, ‘test_precision_macro’, ‘test_recall_macro’]
scores[‘test_recall_macro’]
array([ 0.96…, 1. …, 0.96…, 0.96…, 1. ])

python 合并(merge , concat , join , combine_first)

https://www.jianshu.com/p/baaf8c89c9e2

互联网广告综述之点击率特征工程

https://blog.csdn.net/yas12345678/article/details/52956085
CTR预估模型
https://www.cnblogs.com/qcloud1001/p/7513982.html

plot是一种将所有列及其标签进行绘制的简便方法

value_counts()

是一种查看表格某列中有多少个不同值的快捷方法,并计算每个不同值有在该列中有多少重复值。
value_counts()是Series拥有的方法,一般在DataFrame中使用时,需要指定对哪一列或行使用
https://www.jianshu.com/p/f773b4b82c66

坚持原创技术分享,您的支持将鼓励我继续创作!