HyAR 通过在潜在向量上添加高斯噪声来进行探索。但这在离散动作空间中往往会导致“伪探索”。虽然在潜在空间进行了扰动,但在真实环境中一直重复执行同一个离散动作,无法有效探索新的策略分支。
HyAR 通过在潜在向量上添加高斯噪声来进行探索。但这在离散动作空间中往往会导致“伪探索”。虽然在潜在空间进行了扰动,但在真实环境中一直重复执行同一个离散动作,无法有效探索新的策略分支。