强化学习
学习方法
强化学习(Reinforcement Learning,RL)是一种机器学习方法,强化学习的基础框架是马尔可夫决策过程,它允许智能体(Agent)能够在与环境(Environment)的交互中通过试错来学习最优策略。智能体在环境中执行行动(Action),并根据行动的结果接收反馈,即奖励(Reward)。这些奖励信号指导智能体调整其策略,以最大化长期累积奖励。
定义
强化学习(Reinforcement Learning,简称RL)是机器学习的一个重要分支,它研究的是智能体如何采取行动以适应环境,从而最大化某种累积奖励。智能体没有被告知要采取哪些行动,而是必须通过尝试来发现哪些行动能产生最多的奖励。最具挑战性的是,本次行动不仅影响本次的奖励,还可能影响下一个状态,进而影响所有后续的奖励。这两个特点(试错搜索和延迟奖励)是强化学习的两个最重要的特征。
发展历史
技术起源