强化学习工具箱

 

强化学习工具箱

使用强化学习设计和培训政策

开始:

强化学习代理

创建和配置强化学习代理,在推荐十大靠谱网赌平台和动态仿真模块中训练策略. 使用内置的或开发自定义强化学习算法.

强化学习算法

使用深度q -网络(DQN)创建代理, 深度确定性政策梯度(DDPG), 近端策略优化(PPO), 和其他内置算法. 使用模板为培训策略开发定制代理.

各种训练算法,包括SARSA、囊、DDPG等.

强化学习工具箱中提供的训练算法.

基于深度神经网络的策略与价值函数表示

用于具有大状态-动作空间的复杂系统, 以编程方式定义深度神经网络策略, 使用来自的层 深度学习工具箱,或互动,与 深度网络设计器. 或者,使用工具箱中建议的默认网络体系结构. Initialize the policy using imitation learning to accelerate 火车ing. 导入和导出ONNX模型,以便与其他深度学习框架互操作性.

动态仿真模块中的单agent和多agent强化学习

在动态仿真模块中使用RL Agent块创建和训练强化学习代理. 在动态仿真模块中使用RL Agent块的多个实例同时训练多个代理(多代理强化学习).

用RL代理块实现动态仿真模块模型.

动态仿真模块的强化学习代理块.

环境建模

创建推荐十大靠谱网赌平台和动态仿真模块环境模型. 描述系统动力学,为训练代理提供观察和奖励信号.

动态仿真模块和Simscape环境

使用动态仿真模块和Simscape™创建环境模型. 在模型中指定观察、行动和奖励信号.

两足机器人的动态仿真模块环境模型.

两足机器人的动态仿真模块环境模型.

加速训练

加快使用GPU、云、分布式计算等资源进行培训.

GPU加速

使用高性能NVIDIA加速深度神经网络训练和推理® gpu. 使用推荐十大靠谱网赌平台 并行计算工具箱 以及大多数支持cuda的NVIDIA gpu 计算能力3.0或更高.

GPU硬件.

使用gpu加速培训.

代码生成和部署

将训练有素的策略部署到嵌入式设备或将它们与广泛的生产系统集成.

GPU Coder配置界面.

使用GPU Coder生成CUDA代码.

推荐十大靠谱网赌平台编译器支持

使用 推荐十大靠谱网赌平台编译器™ 而且 推荐十大靠谱网赌平台编译器SDK™ 将训练有素的策略部署为独立的应用程序,C/ c++共享库,Microsoft® .NET程序集,Java® 类和Python® 包.

用于创建独立应用程序的推荐十大靠谱网赌平台编译器屏幕.

将策略打包并共享为独立的程序.

参考例子

设计机器人控制器和决策算法, 自动驾驶, 校准, 调度, 以及其他应用.

调优、校准和调度

为调优、校准和调度应用程序设计强化学习策略.

由三台泵、蓄水池和水箱组成的水分配系统.

水资源分配的资源分配问题.

强化学习视频系列

观看本系列的视频,了解更多关于强化学习的知识.