什么是姿態(tài)識別抓取？一文讀懂

2022年04月01日 09:43點擊：428來源：深圳市四元數(shù)數(shù)控技術有限公司>>進入該公司展臺

　　機器人作為面向未來的智能制造重點技術，其具有可控性強、靈活性高以及配置柔性等優(yōu)勢，被廣泛的應用于零件加工、協(xié)同搬運、物體抓取與部件裝配等領域，如圖1-1所示。然而，傳統(tǒng)機器人系統(tǒng)大多都是在結構化環(huán)境中，通過離線編程的方式進行單一重復作業(yè)，已經無法滿足人們在生產與生活中日益提升的智能化需求。隨著計算機技術與傳感器技術的不斷發(fā)展，我們期望構建出擁有更加靈敏的感知系統(tǒng)與更加智慧的決策能力的智能化機器人系統(tǒng)。

姿態(tài)識別抓取.png

　　圖1-2 機器人抓取的操作流程與步驟

　　機器人抓取與放置是智能化機器人系統(tǒng)的集中體現(xiàn)，也是生產與生活中十分重要的環(huán)節(jié)，近幾年來在工業(yè)界與學術界得到了深入而廣泛的研究。具體的機器人抓取可以分為視覺感知部分與機器人抓取操作部分。視覺感知部分又包含：模型與場景表征、目標識別與定位這兩個步驟;而機器人抓取操作部分則包含：系統(tǒng)標定、運動控制與抓取規(guī)劃等步驟，如圖1-2所示。這其中，機器人通過視覺傳感器感知環(huán)境并實現(xiàn)對目標物體的識別與定位，也就是視覺感知部分，是十分重要的環(huán)節(jié)，其直接決定了后續(xù)機器人的抓取精度。

姿態(tài)識別抓取圖像.png

　　圖1-3 二維圖像的部分缺陷

　　受益于計算機算力的不斷提高以及傳感器成像水平的高速發(fā)展，目前針對結構化環(huán)境或者半結構化環(huán)境中，基于二維圖像的機器人平面單目標物體的抓取技術已經趨于成熟，并取得了豐富的研究成果[1][2][3]。然而，對于現(xiàn)實復雜環(huán)境中的三維物體，僅使用二維信息對三維目標進行表征，會不可避免的造成信息損失，如圖1-3所示，從而難以實現(xiàn)非結構化環(huán)境中機器人對于多目標物體的高精度抓取操作。因此，如何提升機器人的視覺感知能力，并基于此在復雜環(huán)境中自主完成對目標物體的識別、定位、抓取等操作是一個很有價值的研究問題。

　　近年來，隨著低成本深度傳感器(如Intel RealSense、Xtion以及Microsoft Kinect等)與激光雷達的飛速發(fā)展，如圖1-4所示，三維點云的獲取越來越方便。這里的點云實際上就是在相機坐標系下，對所拍攝的物體或者場景表面進行點采樣。物體對應的點云數(shù)據(jù)在在數(shù)學上可以簡單的理解為三維坐標的無序集合。三維點云數(shù)據(jù)相對于平面二維圖像具有如下優(yōu)勢：(1)可以更加真實準確的表達物體的幾何形狀信息與空間位置姿態(tài);(2)受光照強度變化、成像距離以及視點變化的影響較小;(3)不存在二維圖像中的投影變換等問題。三維點云數(shù)據(jù)具有的以上優(yōu)勢使得其有望克服平面二維圖像在機器人目標識別與抓取中存在的諸多不足，所以其具有很重要的研究意義以及廣泛的應用前景。因此，近年來針對點云的視覺研究以及基于點云的機器人抓取成為了機器人領域新的研究熱點。

點云獲取設備示意圖.png

　　圖1-4 點云獲取設備示意圖

　　對應前文的，在基于點云的機器人抓取可以分為點云特征描述(模型與場景表征)、三維目標識別(目標識別與定位)與機器人抓取操作這三個部分[39][40]。進一步的，點云特征描述指的是，將模型與場景對應的無序點集通過特定的算法編碼為低維的特征向量，用此來表征對象的局部或者全局信息，其應當具有足夠的描述力與穩(wěn)定性。三維目標識別則主要是指，利用模型與場景的表征結果，在場景中識別出目標物體，并估計出其對應的位置與姿態(tài)。對于特征描述與目標識別，盡管現(xiàn)有文獻提出了不少算法，并且在特定的環(huán)境中取得了不錯的效果，然而如何在包含噪聲、干擾、遮擋與密度變化的復雜非結構化環(huán)境中提取有效而穩(wěn)定的特征，實現(xiàn)對多目標物體的準確識別定位以及高精度抓取，仍然是極富挑戰(zhàn)性的一個問題[4]。

　　綜上所述，基于點云的機器人抓取作為智能化機器人系統(tǒng)的集中體現(xiàn)，近幾年來得到了工業(yè)界和學術界的廣泛關注，并圍繞點云特征描述、三維目標識別與機器人抓取操作這三個方面展開了深入研究。具體的，在點云特征描述部分，主要關注描述子的鑒別力、魯棒性、計算效率與緊湊性等性能;在三維目標識別部分，主要關注目標的識別準確率與定位精度問題;而在機器人抓取操作部分，抓取系統(tǒng)的參數(shù)標定與多目標物體的數(shù)據(jù)分析都是很重要的環(huán)節(jié)。

什么是姿態(tài)識別抓取？

　　基于點云的機器人抓取主要包含視覺感知部分與機器人抓取操作部分。機器人抓取操作部分則又包括系統(tǒng)標定、抓取規(guī)劃與運動控制。

　　系統(tǒng)標定包括主要是指對相機與機器人的標定。由于對于視覺感知部分求出的待抓取目標物體的位置與姿態(tài)均處于相機坐標系下，為了進行機器人準確抓取，需要將其坐標與姿態(tài)變換到機器人坐標系下。這里便需要將相機與機器人進行手眼標定。手眼標定主要求取相機坐標系與機器人基坐標系間的變換關系[67]，主要可以分為相機在手上的標定與相機在手外的標定。此外，對于相機，使用時需要進行內參的校準，畸變系數(shù)的求取等[68][69];如果是雙目立體視覺，則還包含對于雙目相機的參數(shù)標定[70];如果是結構光或ToF(Time of Flight)成像的點云相機，則還要進行深度校準，以及彩色圖與深度圖的匹配對齊等操作[71][72][73]。對于機器人，如果是多機器人協(xié)同抓取，則組要進行多機器人基坐標系間的標定[74]。

　　而對于抓取規(guī)劃部分，其主要作用是可以實現(xiàn)對于場景中目標物體的抓取點的提取[75]。如論文[76]所述，抓取策略應當確保穩(wěn)定性，任務的兼容性和對于新物體的適應性等;此外，抓取質量可以通過對物體接觸點的位置和末端夾爪的配置來進行評價[77]。對于物體的抓取，目前主要有基于經驗的方法與基于端到端的方法。

　　基于經驗的方法則是根據(jù)特定的任務和抓取對象的幾何形狀，使用與之相對應的算法來進行抓取。更具體的又可以分為對已知物體的抓取和對相似物體的抓取[78]。如果抓取對象是已知的物體，那么則可以通過學習已有的成功抓取實例，再結合具體環(huán)境進行機器人抓取。事實上，如果目標對象已知，則意味著對象的三維模型和抓取點位置在數(shù)據(jù)庫中也是先驗已知的。這種情況下，只需要從局部視圖估計目標對象的6D位姿，并通過ICP等算法進行姿態(tài)細化與精確微調，進一步便可以得到目標物體的抓取位置。這是目前已知的抓取系統(tǒng)中的方法，也是在亞馬遜抓取挑戰(zhàn)賽[79]中普遍使用的算法。Zeng等人[79]提出了一種利用全卷積神經網(wǎng)絡對一個場景的多個視圖進行分割和標注，然后將預掃描的三維目標模型與分割結果進行匹配，得到6D目標位姿。他們的方法在2016年APC抓取挑戰(zhàn)任務中獲得了第三名和第四名。Billings和Johnson-Roberson[80]提出了一種利用卷積神經網(wǎng)絡的管道算法，其可以同時完成目標姿態(tài)估計和抓取點選擇。該管道算法作用于感興趣區(qū)域(ROI)，預測出一個中間輪廓來估計目標位姿;然后從先驗的數(shù)據(jù)庫中生成抓取點。對于這種方法，當有準確的三維模型是，可以通過估計出6D姿態(tài)后進行準確的抓取，由于擁有較高的抓取精度，是目前比較流行的抓取方法。然而，當三維模型不太準確時，如物體不可測量或者易變形等情況，則會導致有較大的抓取偏差。

局部抓取規(guī)劃方法.png

　　局部抓取規(guī)劃方法

　　事實上，很多情況下，抓取的目標對象與現(xiàn)有數(shù)據(jù)庫的模型并不*相同，但是在模型庫中相似的同一類的物體，這便涉及到對相近物體的抓取。在目標對象被定位以后，利用基于關鍵點對應算法便可以將抓取點從模型庫中存在的相似三維模型上轉移到當前的局部對象中。由于當前的目標對象與數(shù)據(jù)庫中的對象不*相同，所以這類型的抓取算法是不需要進行六維姿態(tài)估計的。Andrew等人[81]提出了一種基于分類法的方法，該方法將對象劃分為各個類別，每個類別均存在對應的抓取規(guī)范。Vahrenkamp等人[82]提出了一種基于局部的抓取規(guī)劃方法，用于生成適用于多個已知目標對象的抓取，根據(jù)物體的形狀和體積信息對物體模型進行分割，并對目標零件標記語義信息和抓取信息。其還提出了一種抓取可轉移性的度量方法，用于評估在同一對象類別中的新物體的抓取成功率，如圖1-12所示。Tian等人[83]提出了一種將抓取構型從先前的示例對象轉移到新目標上的方法，該方法假設新對象和示例對象具有相同的拓撲結構和相似的形狀。他們考慮幾何形狀和語義形狀特征對對象進行三維分割，利用主動學習算法為示例對象的每個部分計算一個抓取空間，并為新對象在模型部分和相應的抓取之間建立雙射接觸映射。這一類型的方法依賴于目標分割的準確性。然而，訓練一個能識別出廣泛對象的網(wǎng)絡并不容易。同時，這些方法要求待抓取的三維物體與標注模型相似，以便找到相應的抓取模型。在經常發(fā)生遮擋的雜亂環(huán)境中，計算高質量的物體抓取點也是一個挑戰(zhàn)。

　　不同的抓取方案示意圖

　　端到端的抓取檢測則直接跳過了對于抓取目標的定位，直接從輸入的圖像中提取抓取點位置。在這類方法中，滑動窗口策略是比較常用的方法。Lenz等人[84]提出了一個兩步級聯(lián)系統(tǒng)，該系統(tǒng)具有兩個深度網(wǎng)絡，步的頂部檢測結果由第二步重新評估。個網(wǎng)絡具有更少的特性，運行速度更快，并且可以有效地剔除不可能的候選項。第二個具有更多的特性，速度較慢，但只能在少數(shù)幾個檢測到的信號上運行。盡管他們達到了很高的精度，但是迭代掃描使過程非常緩慢。Ten Pas等人[85]提出了一種無需對目標物體進行精確分割即可在任何可見表面生成抓取假設的方法。他們還提出了一種新的包含表面法線和多個視圖的抓取描述符。但是，由于沒有執(zhí)行實例級分段，因此這種算法會將多個對象視為同類物體。由于均勻網(wǎng)絡的性能優(yōu)于雙級聯(lián)系統(tǒng)[84]，越來越多的單級方法被提出。Guo等人[86]提出了一種共享卷積神經網(wǎng)絡來進行對象發(fā)現(xiàn)和抓取檢測。Pinto和Gupta [87]提出了一種通過試錯預測抓取位置的方法，他們訓練了一個基于CNN的分類器來估計給定一個輸入圖像塊的不同抓取方向的抓取可能性。Chu等人[88]提出了一個由抓取區(qū)域建議組件和機器人抓取檢測組件組成的網(wǎng)絡。對于端到端抓取檢測方法，計算出的抓取點可能不是全局的抓取點，因為在圖像中只有部分對象是可見的。

　　對于機器人抓取中的運動控制這一部分，其主要是設計從機械手目標物體抓取點的路徑，這里面的關鍵問題就是運動表征。雖然從機械手到目標抓取點的軌跡是無限多的，但是由于機械臂的局限性，很多地方都無法達到。因此，軌跡需要規(guī)劃。

　　姿態(tài)識別抓取軌跡規(guī)劃主要有有三種方法，分別是傳統(tǒng)的基于DMP的方法、基于模仿學習的方法和基于強化學習的方法，如圖1-14所示。傳統(tǒng)的方法考慮運動的動態(tài)性，生成運動原語。動態(tài)運動原語(Dynamic Movement Primitives, DMPs)[89]是的運動表示形式之一，可以作為反饋控制器。DMPs對應的原語是行為單位，或者說是魯棒的吸引子系統(tǒng)，其實非線性的。在算法中將運動學對應的控制策略按照規(guī)則編碼為非線性微分方程組，方程組的目標就是吸引子[90]。DMPs已成功地應用于強化學習、模仿學習、以及動作識別等領域。Colome等人[91]的論文則是通過降維(線性)在學習潛在關節(jié)耦合過程的同時也進行擁有DMP特征的機器人運動，這實際上是很有價值的研究，因為這樣就直接提供了這種運動的最直觀的數(shù)學描述。Pervez和Lee[92]的論文提出了一個將DMP中的強迫項對應的任務參數(shù)化進行建模的數(shù)學模型。Li等[93]對應的論文則給出了一種基于高斯混合模型(GMM)和DMP的機器人強化版教學界面模型。所采集的這些動作是通過使用深度攝像頭Kinect v2傳感器從對應的人體演示者身上采集，采用高斯混合模型(GMM)算法進行DMPs的計算，然后對運動進行建模和泛化。Amor等[94]的論文則描述了一種基于人體動作演示的模仿學習算法，主要是用于機器人學習和運用人體的抓取技能。他們將人類的抓取動作分解為三個部分：從人的教學演示中提取有效的物體抓取策略方法，將抓取策略對應的抓取點遷移到新的待抓取物體上，對抓取動作進行優(yōu)化。使用他們的方法可以很容易的在機器人中加入新的抓取類型，因為用該算法使用者只需給出一組抓取實例。

　　姿態(tài)識別抓取在抓取過程中，由于空間有限以及障礙物等原因，會阻礙機器人接近目標物體。這需要機器人與環(huán)境進行交互。在這種需要進行避障的抓取任務中，見的軌跡規(guī)劃方法是以抓取對象為中心建模的算法[95]，它將目標和環(huán)境分離開來。這種方法在結構化或半結構化的環(huán)境中工作得很好，因為對象被很好地分隔開了。還有一種以障礙物為中心的方法[96]，它利用動作原語與多個對象進行同步聯(lián)系。通過這種方法，機器人可以在接觸和移動目標的同時抓住目標，以清除所需的路徑。進一步的，Zeng等人[97]提出了一種更為*的方法，其采用了無模型的深度強化學習策略來提取抓與推之間的關系。他們的方法中包含了兩個卷積神經網(wǎng)絡，行為動作與視覺感知。這兩個網(wǎng)絡是在Q-learning框架下聯(lián)合訓練的，*是通過嘗試和錯誤的自我監(jiān)督，成功掌握后會獲得獎勵。通過仿真和真實場景下的抓取實驗，他們的系統(tǒng)可以快速地學習復雜的行為，在存在障礙物的情況獲得更高的抓取成功率和效率。

關鍵詞：零件加工傳感器運動控制機械手控制器

上一篇：五軸聯(lián)動加工中心的日常維護內容

下一篇：大型機床鑄件出現(xiàn)熱烈的主要因素有以下幾方面

版權與免責聲明

凡本網(wǎng)注明"來源：機床商務網(wǎng)"的所有作品，版權均屬于機床商務網(wǎng)，轉載請必須注明機床商務網(wǎng)，//www.467cc.cn/。違反者本網(wǎng)將追究相關法律責任。
企業(yè)發(fā)布的公司新聞、技術文章、資料下載等內容，如涉及侵權、違規(guī)遭投訴的，一律由發(fā)布企業(yè)自行承擔責任，本網(wǎng)有權刪除內容并追溯責任。
本網(wǎng)轉載并注明自其它來源的作品，目的在于傳遞更多信息，并不代表本網(wǎng)贊同其觀點或證實其內容的真實性，不承擔此類作品侵權行為的直接責任及連帶責任。其他媒體、網(wǎng)站或個人從本網(wǎng)轉載時，必須保留本網(wǎng)注明的作品來源，并自負版權等法律責任。
如涉及作品內容、版權等問題，請在作品發(fā)表之日起一周內與本網(wǎng)聯(lián)系，否則視為放棄相關權利。