近日,DeepMind 开源了一个基于 TensorFlow 的强化学习库,名字叫 TRFL(译名:松露)。思路是模块化,强调灵活度:如果把造智能体想象成搭积木,许多关键的、常用的木块都在这里集合了:比如,DQN (深度 Q 网络) 、DDPG (深度确定策略梯度),以及 IMPALA (重要性加权演员学习者架构) ,都是 DeepMind 功勋卓著的组件。库里面的组件,虽然来源各不相同,但都经过严密测试,因而相对可靠;并且只要一个API,对开发者比较友好。即便是 DeepMind 团队自身做研究,也严重依赖这个库。
深度强化学习 (DRL) ,依赖价值网络或策略网络的不断更新。DeepMind 团队发现,比起传统的 RL 更新,损失函数更加模块化,更容易结合到监督/无监督的目标里去。松露里包含了许多损失函数和运算,全部在纯 TensorFlow 里实现。不是完整算法,但是各自经过严密测试,可以用来搭成完整的智能体。
此前,Google 开源了强化学习框架 Dopamine,中文叫多巴胺,也是基于 TensorFlow。名字取自人类大脑奖励机制中的主角物质多巴胺,为了表达神经科学和强化学习之间的缘分联系。多巴胺框架,也是强调灵活性、稳定性和复现性。