前几期小编给小伙伴们整理了有关人工智能200G资料包,今天为大家整理了知乎上计算机技术硕士们分享的有关强化学习学习由入门到深化的整套学习资源。
强化学习,又称再励学习、评价学习或增强学习,是机器学习的范式和方法论之一,用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题
强化学习问题在信息论、博弈论、自动控制等领域有得到讨论,被用于解释有限理性条件下的平衡态、设计推荐系统和机器人交互系统。
一、强化学习视频
01 莫烦
莫烦的视频通俗易懂,深入浅出,没有复杂的公式推导,有小demo入门,代码讲解的比较清晰。莫烦python是一个很全面的机器学习教学视频网站,包括python学习、机器学习、强化学习、深度学习和相关实践教程。如果英文不好编程能力不强的话,莫烦的视频入门真的真的很适合。
视频链接:https://link.zhihu.com/?target=https%3A//mofanpy.com/
02 David Silver强化学习视频
这个课一定要认真仔细看,做好笔记,最好是有强化学习基础知识,要不然很多地方听不太懂。我之前听过计算所前瞻实验室的强化学习课程,就是参考这个视频讲的,这个视频被大多数老师和研究生们认可,算是比较权威了感觉。这门课的中文笔记,在强化学习知识大讲堂专栏中有叶强的文章,笔记写的比较好
03 伯克利大学CS 294深度强化学习
这个深度强化学习的视频,在B站上有中文字幕了
04 斯坦福课程CS234
二、强化学习入门练习
1. OpenAI Gym
目前强化学习编程实战常用的环境就是OpenAI的gym库了,支持Python语言编程。OpenAI Gym是一款用于研发和比较强化学习算法的工具包,它支持训练智能体(agent)做任何事——从行走到玩Pong或围棋之类的游戏都在范围中。
视频链接:https://link.zhihu.com/?target=https%3A//gym.openai.com/
2.Gym Retro
大约18年,OpenAI 发布了完整版游戏强化学习研究平台——Gym Retro。游戏数量从大约 70 个雅达利和 30 个世嘉游戏增加到了1000多个游戏,其中包括对Game boy等各种模拟器的支持。此外,OpenAI 还将发布用于向 Gym 平台添加新游戏的工具。
视频链接:https://link.zhihu.com/?target=https%3A//github.com/openai/retro/tree/develop
3.Torcs-Kears
Ben Lau使用DDPG方法在Torcs仿真器中实现自动驾驶,应用的Keras框架,大约300行代码,可作为自动驾驶方向的强化学习入门实验。17、18年根据这篇文章改进的论文也比较多。
视频链接:https://link.zhihu.com/?target=https%3A//yanpanlau.github.io/2016/10/11/Torcs-Keras.htm
中文翻译:https://www.jianshu.com/p/a3432c0e1ef2
代码:
https://github.com/yanpanlau/DDPG-Keras-Torcs自动驾驶相关的比较多,还有个AirSim也可以用来学习。https://github.com/microsoft/ai
三、强化学习相关的书籍
1.强化学习的书籍,英文版的是sutton的那本Reinforcement learning: an introduction,写的非常全面清晰,早就出了第二版,github上也有开源的项目去实现书中的代码(https://link.zhihu.com/?target=https%3A//github.com/ShangtongZhang/reinforcement-learning-an-introduction)这本书在强化学习书籍中的地位和David Silver视频的地位一样。
2.郭宪老师写的《深入浅出强化学习:原理入门》,这本书可以结合着郭宪老师,知乎名“天津包子馅儿”的博客看。有的算法看了四五遍,有些公式需要反复琢磨。
郭宪老师最近出了《深入浅出强化学习:原理入门》的姊妹篇《深入浅出强化学习:编程实战》。大家看实战书的时候,根据书中的代码亲自动手编程,并修改程序中的超参数,根据运行结果不断体会算法原理。
3.周志华老师的西瓜书中,西瓜小例子和多臂赌博机,也建议读一下。
四、强化学习相关的论文
强化学习的论文自16/17年起,就非常非常多,自动驾驶、机械臂、游戏等领域都有不少论文。下面罗列的这些都是比较经典的。只列出题目,可以去谷歌学术搜索
1 Mnih V, Kavukcuoglu K, Silver D, Graves A, Antonoglou L, Wierstra D, et al. Playing atari with deep reinforcement learning. In: Proceedings of the NIPS Workshop on Deep Learning. Lake Tahoe: MIT Press, 2013.
2 Mnih V, Kavukcuoglu K, Silver D, Rusu A, Veness J, Bellemare M G, et al. Human-level control through deep reinforcement learning. Nature, 2015, 518(7540):529--533.
3 Van H H, Guez A, Silver D. Deep reinforcement learning with double q-learning. In: Proceedings of the 30th AAAI Conference on Artificial Intelligence. Phoenix: AAAI, 2016. 1813--1819
4 Schaul T, Quan J, Antonoglou I, Silver D. Prioritized experience replay. In: Proceedings of the 4th International Conference on Learning Representations (ICLR). San Juan: ACM, IEEE, 2016.
5 Wang Z, Schaul T, Hessel M, Hasselt H V, Lanctot M, Freitas N D. Dueling network architectures for deep reinforcement learning. In: Proceedings of the 33rd International Conference on International Conference on Machine Learning (ICML). New York, USA: ACM, 2016. 1995--2003
6 Mnih V, Badia A P, Mirza M, Graves A, Harley T, Lillicrap T, et al. Asynchronous methods for deep reinforcement learning. In: Proceedings of the 33nd International Conference on Machine Learning (ICML). New York, USA: ACM, 2016.1928--1937
7 Silver, D, Lever G, Heess N, Degris T, Wierstra D, Riedmiller M. Deterministic policy gradient algorithms. In: Proceedings of the 31st International Conference on Machine Learning (ICML). Beijing, China: ACM, 2014. 387--395
8 Lillicrap T P, Hunt J J, Pritzel A, Heess N,Erez T, Tassa Y, et al. Continuous control with deep reinforcement learning. Computer Science, 2015, 8(6):A187.
9 Ng A Y, Russell S J. Algorithms for inverse reinforcement learning. In: Proceedings of the 17th International Conference on Machine Learning (ICML). Stanford, USA: ACM, 2000. 663--670
10 Abbeel P, Ng A Y. Apprenticeship learning via inverse reinforcement learning. In: Proceedings of the 21st International Conference on Machine Learning (ICML). Banff, Alberta, Canada: ACM, 2004. 1--8