Medium上6900个赞的AI学习路线图,让你快速上手机器学习
数据挖掘通用场景:
Engineering statistics handbook
python-machine-learning-book-2nd-edition
遇到了什么问题,需要什么数据来解决这个问题
有这么一句话在业界广泛流传:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。包括采样数据、探索数据,了解数据的特征(NA、分布、均值),数据清洗、数据预处理,特征选择,降维等。
自动化特征工具featuretools介绍---适合离线批数据预测,比如超市商品的销售额预测。
A Comprehensive Guide to Data Exploration
特征提取与 特征选择(Feature selection)有很大的不同: 前者意义在于把复杂的数据,如文本和图像,转化为数字特征,从而在机器学习中使用。后者是一个机器学习中应用这些特征的方法 sklearn feature extraction
利用 Scikit Learn的Python数据预处理实战指南
facets--Visualizations for machine learning datasets
Ad-papers---Papers on Computational Advertising
Auto-sklearn--auto-sklearn is an automated machine learning toolkit and a drop-in replacement for a scikit-learn estimator.
OpenML--OpenML aims to create a novel ecosystem for machine learning experimentation. The current generation of machine learning and data mining platforms offers a wide variety of algorithms to process and model all kinds of data.
chalearn automl challenge
kaggle