机器人像人一样抓取物品,是不是有“手”就行呢?

   自动化那些事        

人的手可以对各种物体进行复杂的操作。如果拟人化的机器人手可以操纵像人类手一样的物体,这是有益的。但是,由于高维数和机器智能的缺乏,它仍然是一个挑战。


在该研究中,研究者提出一种新的基于深度强化学习(DRL)与深度抓取概率网络(DGPN)的框架,以拟人化的机械手像人手一样抓取和重新定位各种物体。基于抓取手姿态的先验知识和物体接触区域,采用DGPN预测仿人自然抓取成功的概率。该研究以“Natural object manipulation using anthropomorphic robotic hand through deep reinforcement learning and deep grasping probability network”为题于2020年9月15日发布于《Applied Intelligence》杂志上。


研究背景


人的手在操纵各种形状的物体时是灵巧的。拟人化机器人手被设计用来执行像人类手一样的对象操作。然而,自主的类人操作对象仍然是一个具有挑战性的问题,机器人的手。这是因为自然类人物体抓取手姿态的子空间要比高自由度(DoF)产生的潜在物体抓取手姿态的整个空间小得多。


由于自然物体抓取手的姿势适应了物体的几何形状,研究必须集中在训练策略,执行一个有效的探索的对象抓取空间考虑到物体的几何,以学习对象操纵像人的手。


最近,深度强化学习(DRL)被积极地应用于教会机械手操纵自然物体,就像人类的手一样。例如,DRL已经被用来用两指和三指的机器人手重新定位物体。然而,由于标准DRL算法执行动作状态空间的随机探索,只有标准DRL可能不足以教会拟人化机器人手像人一样自然地抓取物体。


最近的研究使用人类演示来帮助标准DRL算法通过模仿学习来模仿类人的自然抓取。实际上,DRL的初始化带有人类演示,会使标准DRL训练产生类似人类的自然抓握姿势产生偏差。


为了在DRL中成功地实现对复杂对象的类人抓取,除了人类演示之外,还可以利用各种人类抓取的先验知识来进行机器学习。例如,人类手的手指排列构成了成功抓取的姿势,可以作为自然的先兆(即手指关节角度)。而且,人的手接触到的物体区域也可以作为自然的前驱物


该研究提出了一种基于深度抓取概率网络(DGPN)的DRL训练策略,用于用拟人机器人手对各种形状的物体进行自然抓取和定位。DGPN是一种利用自然抓取先验来估计类人目标捕获概率的神经网络。


用DGPN显示研究者的DRL,用于人类类自然物体的抓取和由拟人化机器人手重新定位。从左边看,包括手指关节角度和触觉图在内的自然抓取前驱。这些前项是从自然的人类手姿势产生的,用来训练DGPN。提出的DRL利用DGPN来奖励Agent(即拟人化机器人手)在每一次训练迭代中的抓取手姿势,根据物体自然抓取的概率。然后,Agent根据每个对象学习自然抓取手的姿势。


图为基于DGPN的拟态机器人手操纵自然物体的DRL原理图


图为拟人自然抓取手在OpenHand仿真器上为以下对象摆姿势


ContactDB是一个公开的数据集,它包含对象接触区域(即触觉地图)的信息,用于用人手抓取三维家用物体。


图为触觉图从ContactDB的数据集中映射为杯、瓶和苹果的对象


首先,根据测试数据集的抓取姿态和非抓取姿态,通过推断出成功抓取的概率,对每个对象进行DGPN验证。然后,对于每个个体对象的操作,研究者完成了抓取和重新定位任务,并从一个完整的抓取和重新定位事件以及最后的抓取姿势中对时间序列框架进行了定性检查。对每一次训练事件中的抓取概率和奖励进行定量检验。抓取概率表示最后50只手的平均概率值,而报偿值是预期的回报值。


最后,代理将每个单独的对象操作重复执行100次,作为重复任务。在此任务中,随机初始化对象和重定位目标的位置。操作成功率评估每个对象的抓取和重新定位策略的性能。


给出了用测试数据集对每个对象进行DGPN估计成功抓取的概率。框内的橙色线表示每个对象的平均概率。这些盒子是使用估计抓取概率的第一和第三四分位数(即Q1和Q3)创建的。盒外的延展线(即晶须)由下晶须的Q1-1.5(Q3-Q1)和上部的Q3+1.5(Q3-Q1)估算。


图为用测试数据估计DGPN的概率


图为时间序列帧从一集抓住和重新定位苹果从(a)标准DRL和(b)研究者的DRL与DGPN


图为最后抓取手的样本从不同的插曲中为苹果拍摄,使用(a)标准DRL和(b)研究者的DRL与DGPN


图为训练曲线a)概率和(b)抓苹果和重新定位苹果的奖励


图为从一集的时间序列帧抓取和重新定位灯泡从(a)标准DRL和(b)研究者的DRL与DGPN


图为最后抓取手的样本为不同插曲的灯泡使用(a)标准DRL和(b)研究者的DRL与DGPN


图为训练曲线a)概率和(b)抓取和重新放置灯泡的奖励


图为时间序列帧从一集抓住和重新定位杯从(a)标准DRL和(b)研究者的DRL与DGPN


图为最后抓取手的样本从不同的阶段为杯的姿势使用(a)标准DRL和(b)研究者的DRL与DGPN


图为训练曲线a)概率和(b)抓杯换杯的奖励


图为从一集的时间序列帧,以掌握和重新定位瓶子从(a)标准DRL和(b)研究者的DRL与DGPN


图为最后抓取手的样本为瓶在不同的插曲中使用(a)标准DRL和(b)研究者的DRL与DGPN


图为训练曲线a)概率和(b)抓取和调换瓶子的奖励


图为时间序列帧从一集抓取和重新定位的CAN从(a)标准DRL和(b)研究者的DRL与DGPN


图为最后抓取手的样本,可以在不同的片段中使用(a)标准DRL和(b)研究者的DRL与DGPN


图为训练曲线a)概率和(b)抓取和重新放置罐头的奖励


给出了使用该标准对重复抓取和重定位任务100次的操作成功率,以及用DGPN对DRL的操作成功率。研究者使用DGPN的DRL记录的操作成功率高于所有对象的标准DRL。对于标准DRL,每个对象的抓取和重新定位成功率都有很大变化。这意味着标准DRL对于不同对象的抓取和重新定位是不稳定的。


苹果的抓取和迁移成功率最高,分别为74%和68%。而在这两项任务中,瓶子的抓取和迁移成功率都保持在0.0%。操作成功率为0.0%,意味着拟人化机器人手无法抓取或重新定位物体。对于使用DGPN的DRL,不同的对象几何学对操作成功率略有影响。这意味着研究者的DRL与DGPN是比较稳定和可靠的抓取和重新定位不同的对象。该瓶的抓取成功率最高,达98%,迁移成功率达96%。而灯泡抓取成功率最低,为85%,迁移成功率为81%。


图为使用标准DRL训练的策略和用DGPN训练的DRL进行重复抓取和重定位任务的操作成功率


物体的几何形状高度影响抓取手的姿势。例如,使用标准DRL训练的政策产生了能够抓住一些物体的手部姿势,如苹果、灯泡和杯子。然而,这些抓握姿势是不自然的手姿势,因为施动者不用拇指,而拇指对于人类抓握(即自然抓握姿势)是必不可少的。


对于瓶子和罐子,该策略不能分别生成如图所示的有效抓握手姿态。如研究者的实验所示,agent试图举起瓶子和罐子,但最终击中了物体。


相比之下,使用研究者的DRL和DGPN训练的策略为每个对象生成了成功的自然抓握姿势。这是因为深度抓取概率网络推动策略根据物体的几何形状寻找合适的、自然的抓取手姿态。


抓取概率和奖励曲线表明,与标准DRL相比,采用DGPN的DRL对抓取空间进行了更有效的探索。例如,标准的DRL对灯泡、瓶子、罐子和杯子的抓取概率为30%左右,因为在训练中产生了随机的手部姿势。


由于抓取概率低,奖励值几乎为零,即agent没有学习到有效的自然抓取手姿态来抓取和重新定位物体。而研究者的DRL使用DGPN的训练曲线显示,在奖励值之前,抓取概率增加。抓取概率的增加意味着策略初始抓取手姿态与先验相似。


研究结论


研究者的DRL与DGPN成功地训练策略,以控制拟人化机器人手,以自然的类人的抓取手姿态抓取和重新定位物体。使用DGPN训练可以根据物体的形状学习自然的抓握手姿势,从而提高抓握和移位任务的表现。


事实上,对于所有测试对象来说,使用研究者提议的DRL和DGPN训练的代理使用比标准DRL更自然和稳定的抓手姿势。研究者的DRL与DGPN应该允许更灵巧和自然的操作复杂的对象拟人化机械手。


参考文献:Edwin Valarezo Añazco, Patricio Rivera Lopez, Nahyeon Park, Jiheon Oh, Gahyeon Ryu, Mugahed A. Al-antari & Tae-Seong Kim Natural object manipulation using anthropomorphic robotic hand through deep reinforcement learning and deep grasping probability network  Applied Intelligence (2020)



最新评论(0)条评论
取消

还没有人评论哦,抢沙发吧~

相关新闻推荐