您当前的位置:首页动态正文

【环球聚看点】假想AF模型 1. BC训练策略网络

2023-05-13 18:08:18 哔哩哔哩

(流程来自王树森《深度强化学习:AlphaGo》


(资料图片仅供参考)

1. BC预训练策略网络

2. 通过策略梯度训练策略网络

3. 使用策略网络训练价值网络

4. 使用:(价值网络 - 策略网络)知道MCTS(蒙特卡洛树搜索)

----------------------------------------------------------------------------------------

策略函数(来自王树森《深度强化学习:策略学习》)

策略网络(来自王树森《深度强化学习:策略学习》)

softmax激活函数:让输出都是正数,且所有输出之和为1

(来自王树森《深度强化学习:AlphaGo》

强化学习:需要奖励

模仿学习:不需要奖励

行为克隆是分类或回归

观测到当前状态

预测当前状态下下一步为各个动作的概率,得到361维向量p

假设真实动作为at* = 281

one-hot encode (门外汉 一脸懵)为361维向量y,其中281处为1,其余都为0

损失函数 交叉熵(y, p)

梯度下降更新网络

为什么要先使用BC预训练策略网络

在面对复杂且深广的新知识前,完全自学形成策略想法是需要花很长时间去探索、失败、总结。

使用BC思想,给定一个老师讲解那些难懂的概念,就可以快速学习到。

“师傅领进门,修行靠个人”。有了老师教学,自己不去动手学,那就是“眼睛学会了,手却学不会”。

数据准备

环境:

还是之前的简单数据,

# 为了简单,设置pos为index

pos=[0,  1,  2,   3,   4,   5,   6,   7,   8,   9,  10,  11, 12, 13]

fv = [10, 30, 80, 180, 330, 430, 480, 500, 450, 350, 200, 100, 50, 25]

先把这组数据测成功了,再使用create.c产生的数据,即之前torch.nn.Linear曲线拟合中的曲线

“专家轨迹”:传统算法“爬山法”,大步粗调,小步细调,震荡走,类似PID算法

(爬山算法)  初始 -(+4)->   -(+4)->   -(+4)->    -(-2)->   -(-2)->   -(-2)->   -(-2)->   -(+1)->   -(+1)->   -(+1)-> [7, 500]

expert_s = [[0, 10], [4, 330], [8, 450], [12, 50], [10, 200], [8, 450], [6, 480], [4, 330], [5, 430], [6, 480]]

需要多写几组,或者全部14条轨迹

动作

第一组数据少,+4, +2, +1, 0, -1, -2, -4

第二组pos 0 - 1000,有501组,先用+4, +2, +1, 0, -1, -2, -4,再用+20,+10, +5, +2, +1, 0, -1, -2, -5, -10, -20

模型

这里,不是图像,是离散的点数据,所以直接使用torch.nn.Linear,全连接、BP网络

关键词:

“如果发现本网站发布的资讯影响到您的版权,可以联系本站!同时欢迎来本站投稿!

动态

关注