机器人学习
机器人模仿、学习人类行为
机器人学习是研究机器人如何模拟人类进而实现人类的学习行为,从而能够像人类一样通过不断的学习来改善自身的性能,提高自身的适应能力和智能化水平。机器人学习是机器人学领域一个非常重要的研究方向,尤其是近几十年来一直是研究者研究的重点。
研究现状
机器人学习是研究机器人如何模拟人类进而实现人类的学习行为,从而能够像人类一样通过不断的学习来改善自身的性能,提高自身的适应能力和智能化水平。机器人学习是机器人学领域一个非常重要的研究方向,尤其是近几十年来一直是研究者研究的重点。但是关于机器人学习的定义,却一直没有达成一个统一的认识,不同的研究者根据自己的研究方向或者成果对机器人学习都做了不同的定义。如Marvin Minsky 认为学习是解决新问题的能力,这是从人工智能角度出发得出的理解:“面对一个新的问题,机器人应该先使用以前成功解决类似问题的方法进行尝试。”Scott 对学习的定义则是从动物行为学的角度出最多认同的观点是:机器人学习能力是指机器人在与环境交互时所表现出来的一种自适性,能够根据特定的任务来改进自己行为从而适应环境的特性。而这种自适性和学习能力是通过下面两个方面来体现出来的:首先它能感知到环境信息及环境的变化,并学习对感知信息的理解和处理过程;然后当机器人所处环境或目标发生变化时,能够根据变化改进当前的行为策略或者学习新的行为策略。
学习方法
机器人需要处理的信息纷繁复杂,不同层次的信息表达了不同的需求,同时也对应不同层次的行为。所以相应的存在多种不同的学习方法,常用的有下面几种:监督式学习(Supervised Learning),进化方法(Evolutionary Methods),强化学习(Reinforce Learning),基于案例的学习(Case-based Learning)和基于先验知识的学习(Prior knowledge-based Learning)方面。其中最常使用的是前面三种,下面简单介绍:
监督式学习
在机器人学习的范畴内监督式学习主要是指基于人工神经网络的学习。人工神经网络是在对现代神经科学的研究成果进行总结的基础上,通过模拟人类大脑的结构及功能而建立起来的一种数学模型。这种方法能够逼近多种数值类型的目标函数,被广泛的应用在机器人实现从感知信息到控制决策的映射等方面,并且有许多成功的应用案例,如 Floreano 等人将进化神经网络控制器应用到了无人为干预的自主移动机器人的控制中;Zhu 等人将设计的神经模糊控制器,应用到移动机器人导航控制实验中,使机器人能够在行进过程中成功的避开障碍物,最终顺利完成导航任务,到达目标点。虽然这种学习方法具有很大的优点,然而它在学习的过程中需要大量的样本数据进行训练,因为它在学习的过程中需要提供精确的误差反馈信号,所以在智能机器人领域的应用受到了一定的限制。
进化学习
进化学习方法应用的主要是遗传算法,这是一种模拟生物进化机制提出来的学习方法,它利用适应度函数来对种群中的个体进行优劣评价,然后对种群进行更新进化,最终得到最优策略。遗传算法提供的是一种并行的随机搜索的优化方法,适用于复杂或未知的环境,在解决某些移动机器人的搜索问题上有很大的优势,是进化机器人领域的重点研究方向。比如 Hofman 等人在对机器人导航控制方面进行研究时,提出了利用遗传算法对控制器参数进行优化的思路,并取得了良好的结果。
目前对遗传算法的研究已经受到了广泛的关注,尤其是关于进化计算的研究越来越受到人们的关注,已经在很多方面获得了很好的应用。每年在世界各地都有专门关于进化计算的国际会议定时的举行,进化计算及学习已经从单一的学科发展为集人工智能,生物科学和计算机科学为一体的交叉性学科。
虽然遗传算法具有很大的优点,它也存在一些不足,这些不足限制了遗传算法的广泛应用和进一步的深入研究。这些不足主要体现在:遗传算法是全局搜索算法,所需要的时间相对比较多,搜索效率却不是很高。在复杂多变环境中对实时性要求很高的情况下,这种不足愈加明显。另外还有就是它容易出现早熟现象,搜索不到全局最优的策略。
强化学习
强化学习是人们从动物学习理论发展而来一种目标导向型的学习方法,它是通过与环境的不断交互试错进行学习的,最终获得足够的知识使机器人能够合理的做出行为决策。相比于监督式学习,强化学习有很大的优点:它需要的训练信息是评估性的,只需要给出评价的“好”或“坏”,对机器人行为进行评估,而不是精确性的信息,这种非精确性的信息形式比较符合动态环境的要求,同时也符合我们的心理习惯,所以一直是人工智能与机器人学领域的研究热点。
强化学习的思想最早形成于 20 世纪 50 至 60 年代,快速发展则是在 80年代后期,这时候关于强化学习的各种基本算法都被提出来,如 1988 年 Sutton 在它的著名论文中“Learning to predict by methods of temporal differences”提出的瞬时时差TD 方法,还有 Watkins 等人提出的 Q 学习算法等,这些都是强化学习算法中最基础也是最重要的算法。到 20 世纪末期国际期刊《Machine Learning》中出了两个强化学习的专刊,用来刊载强化学习的理论研究论文,充分说明了强化学习已经成为了机器学习领域中很重要的一部分。
从国内来讲,强化学习也处于发展阶段。阎平凡在1996 的时候就在期刊上发表文章,阐述了强化学习的基本原理,常用的学习算法及在机器人控制方面的应用;蔡自兴则将强化学习方法应用到了非线性系统的控制问题上,并做了仿真实验验证了其有效性;张汝波将强化学习算法应用到智能机器人的导航和避障实验中。虽然强化学习已经发展了 40 多年了,相应的算法也比较成熟,但是在实际应用时由于在与环境的交互过程中存在着探索与利用的矛盾问题,所以这个学习的过程还是需要一定的时间来完成的。针对强化学习的基础算法进行改进一直是强化学习研究中的非常重要的内容,研究者也提出了各种各样的改进算法,但却不具有通用性,所以如何改进强化学习算法,提高学习速度依然是以后研究的重点内容。
发展方向
当前机器人学习的研究方向主要有三个:
1、面向任务:针对特定的环境或预定任务,研究开发新的机器人学习系统提高机器人完成任务的能力,这个方向主要应用于某些具有特定用途的专业机器人的研究;
2、认知模拟:这是从心理学角度出发进行的研究,主要是研究人类学习过程从而应用于机器人的行为模拟和行为学习,最终提高机器人的智能化水平;
3、理论分析研究:这是从基础理论上研究可能用于机器人学习的方法,这种研究不针对应用领域,而是完全从理论研究的角度出发,是为以后的应用研究做理论上的铺垫。
这三个研究方向既是相互独立的又是相辅相成的,它们都有自己确定的目标,但每一个研究方向的发展都会反过来促进其它方向的研究,最终使各个研究问题和学习概念交叉结合发展。
参考资料
最新修订时间:2022-08-25 13:24
目录
概述
研究现状
参考资料