a collection of DRL-repo in Github
时间 | 改动 | TODO | 版本 |
---|---|---|---|
2019.12.27 | init | todo | v0.1 |
2020.1.6 | 加入keras-rl | 整理学院派资料和repo | v0.1 |
2020.1.10 | 整理学院派资料, 加入baselines | todo | v0.2 |
2020.10.11 | 加入自己写的库和曾伊言的库 | TODO | v0.2 |
2020.10.21 | 移除tf开发的RL库,加入Xu Zhiwei的dqn_zoo、policy_based_RL,加入ray、acme等 | todo | v0.2 |
- Sebastian Dittert
- YonV1943 曾伊言(中科院深圳先研院)
- Xu Zhiwei(中科院自动化所)
- Keavnn(上海大学)
- The Raven Chaser
- Johnny He
很多资料都整理了这块的内容,我再简单的理清楚一下吧, 附带一些其他人的评价。
伦敦学院2015的经典课程, sutton体系。侧重RL的基本概念,没有深度RL方面的内容。偏重非深度的RL实现,重视数学证明convergence,以及value based RL。基本是把sutton的书精华提炼了一遍,大概学习路线是 agent-environment loop->MDP->Dynamic planning->Monte Carlo->TD->function approximation
26-27 August 2017. UCB暑假课的课程,比较简洁全面的介绍一些RL方法。
CS 285: Deep Reinforcement Learning, Decision Making, and Control
Home Page \ youtube(生肉) \ b站(生肉) \ b站CS294-112(熟肉)
这门课原来叫cs294,首先294是伯克利Special Topics的课号,AP开的课很多都是在294+section这样的课号下试水。今年294-112深度增强学习已经获得正式课号改为CS285。课程反应了Sergey Levine和整伯克利RL的积累,独立于《RL Introduction》的教学体系自成一派。符号风格和体系不同于《RL Introduction》体系。
CS285的精髓在于各种RL前沿方向全方位的推导和展示。前半部分讲各种RL的基础算法,后半部分讲RL算法的各种衍生,应用,科研。课程基本可以分为DRL介绍+模仿学习、model free、model based、Exploration+迁移+多任务+Meta-learning等四大部分,一共有四个很有趣的assignment(比春季的更好了)。如果你看过david silver的视频并且有机器学习的基础,那么至少你在model free部分是没问题的。秋季课程其实降低了对RL基础的要求,课上推导过程比较清晰。这门课后半model based部分恰好是对david silver等当前已有的课程、书籍里讲的比较少的内容的非常大的补充,不过这部分要求比较高。
CS234: Reinforcement Learning Home Page \ Homework_repo
CS239 Sequential Decision Making Home Page
AA228/CS238 Decision Making under Uncertainty Home Page
Deep Reinforcement Learning Course
国外友人用精简的教程实现,附带有教程网站, 概念入门推荐。用游戏实现DRL经典算法: DQN \ DDQN \ PPO \ A2C ...
整理很完备清晰的深度强化学习算法列表
适合入手算法源码实践!中科院自动化所“老实人”用Pytorch写的DRL实现,基础算法完整,章节清晰,2019年。(最近好像大佬在准备重构hhhh)
也是中科院自动化所一个学生写的,这套代码相比上面更完整,一个算法一个文件,很适合学习。
深圳先进院曾伊言的作品,主打轻量化和可复现的RL算法,3个python文件完成,适合入门\中期代码实践时参考。
另一个版本基于Pytorch的DRL算法实现, 2019年。
自己写的算法,主打算法入门实践学习和复现。最近太忙了,没有维护细节Bug,不过基础的应该没问题。目录结构对新手都更友好, 目前还是beta版。
《用Python动手做强化学习》配套代码
多智能体的强化学习论文收集列表
-
Reinforcement-Implementation(清华张楚珩)
-
Rainbow,这个实现也挺老的。
-
IQN: repo1
-
整合类repo, 这里是有对上述冷门的算法统一实现:
- pytorch-soft-actor-critic
- RL-Mapless-Navigation
- RL做导航的不要错过,一个小玩意儿,里面有SAC\PPO\DDPG
- Soft-Actor-Critic-and-Extensions
- 这是个德国RL技术爱好者开发的库
awesome-reinforcement-learning
强化学习的相关学习资料\链接,精简完整的整理。
强化学习从入门到放弃的资料
中文整理的强化学习资料(Reinforcement Learning), 偏基础和理论。
附带各种课程链接,学院派资料集中地。
[未验证] 从机器学习、神经网络、深度神经网络的全面的资料整理
传统强化学习的算法介绍和实现, 无深度网络。
sutton第二版书的配套章节代码实现和学习
[未验证] sutton第二版书部分章节问题答案
将《动手学深度学习》原文中 MXnet 代码改为用 Pytorch 实现。网页版主页 , 整书pdf下载
- 用多个actor分布式的运行,加快学习效率
- 引入分布式的PER,结合不同epsilon增加探索性
- repo: ape-x | ape-x | pytorch-distributed | Ape-X-DQN | distributed_rlS | apex_dqn |
openai开发的经典环境, 安装简洁集成高效, 便于测试新算法。主页
gym中整理的openai环境
DeepMind: a tool for developing and testing reinforcement learning agents for the MuJoCo physics engine.
DeepMind: A customisable 3D platform for agent-based AI research.
A set of high-dimensional continuous control environments for use with Unity ML-Agents Toolkit.
--
- Deep_Reinforcement_Learning-Atari
- Deep-Q-Learning-Atari-Pytorch
- ct_keras_pong
- DQN-Atari-Pong(tf)
- pytorch-a2c-ppo-acktr-gail
- ReinforcementLearning-AtariGame
- OpenAI开发的,学习向的教程
- 学习教程地址
- 从基础入门到算法核心思想
- OpenAI Baselines is a set of high-quality implementations of reinforcement learning algorithms.
- 恰如起名,通常用它来跑对比实验。
- 其他人基于openai的baselines做的稳定版开发, 适合全面学习。
- 主页文档
- Unified structure for all algorithms
- PEP8 compliant (unified code style)
- Documented functions and classes
- More tests & more code coverage
- Additional algorithms: SAC and TD3 (+ HER support for DQN, DDPG, SAC and TD3)
- 基于baseline,已经训练好的库。推荐中期学习使用
- 百度基于飞浆开发的,基本的model-free算法都有,百度的Ai studio上有很多实现博客
- PARL团队成员视频教程-世界冠军带你从零实践强化学习
- UCB基于RLlib开源的算法库,很全面和精深
- 学起来也很难,比较偏向工业界?
- DeepMind
- 主打分布式强化学习