基于图像识别的爬壁机器人的路径规划 |
| |
摘 要: | 目前对于爬壁机器人的路径规划问题,强化学习算法已被广泛运用,但在实时动态复杂工业环境下,该算法存在着数据传递滞后、状态-动作对收敛缓慢、无法估计状态-动作对的问题。本文结合单步Q-learning算法,并对该算法进行改进,提出了跟踪迹Q(λ)算法:即一种基于离散马尔可夫决策过程的经典Q学习并结合了瞬时差分算法多步回报和跟踪迹提取的算法。实践表明,该算法解决了路径规划过程中,强化学习算法存在的局部寻优能力差、实时性不强等缺点。
|
本文献已被 CNKI 等数据库收录! |
|