世界人工智能大會·AI開發者日丨實在智能CEO 孫林君:數字員工AI 在 RPA 領域的應用與落地
在 2022 世界人工智能大會(WAIC)AI開發者日上,實在智能創始人、CEO 孫林君發表主題演講《數字員工——AI 在 RPA 領域的應用與落地》,詳細介紹了 AI 加持的 RPA 技術近年來的發展,以及實在智能在數字員工方向的探索和應用。

*以下為孫林君的演講內容,和大家分享:
AI 是一種通用的智能化技術,但過去在泛行業領域的發展遇到了一些問題,很難有大幅突破。我們現在更關注 AI 與垂直行業結合帶來的化學反應。坦白講,大家原本對 AI 技術抱有很高的預期,現在已變為實實在在的落地,我們更希望看到 AI 在真實行業中發揮作用。
什么是數字員工?數字員工就是機器能夠代替人去做一些重復繁瑣的工作,輔助人做決策。在未來的幾十年,中國處于人口老齡化的階段,適齡的勞動人口在減少,勞動力成本進一步增加,同時 GDP 要持續增長,這種情況下我們的勞動力缺口是比較大的,數字員工的出現將在很大程度上彌補勞動力缺口。
實在智能創立于 2018 年 7 月,到現在已有4年時間。我們在 RPA 領域融合 AI 技術,打造了各種各樣的數字員工。實在智能先后經歷了 6 輪融資,有超過 60% 的同事是科研人員,員工規模近 400 人,目前已掌握 120 項自主知識產權,申請專利數超過 40 項,近 20 項是實授專利,居行業第一。

RPA全稱叫機器人流程自動化(Robotic Process Automation)。舉個簡單的例子,工廠需要很多的自動化操作,機械臂可以很精準地完成一些規則化、重復的勞動。除了工廠,辦公場景下自動化也有非常大的空間,智能化的出現讓該領域得到了長足的發展。
在辦公場景下,很多白領的日常工作也包含很多瑣碎的工作,比如在財務、運營、法務、客服等很多職能場景中,一些工作是重復且可被替代的。但通過自動化的技術,就能用軟件把人的操作錄制或者模擬出來,機器就可以模擬人的操作進行工作,準確率高少出錯。
這項技術已經出現了很久,大約 15 年前,美國就在很多大型科技企業中應用,到了今天,國內已經有非常多的 RPA 公司涌現出來,包括傳統的 RPA 以及和 AI 結合的 RPA(IPA)。我們是一個典型的與 AI 技術結合的 RPA 公司,最近幾年的長足發展也與 AI 緊密相關。自動化技術和 AI 技術融合到一起才是未來數字員工的真正形態。

RPA 最開始只能做最簡單的重復工作。如果機器想真正幫助白領高效工作,就要有很多工業化的設計。傳統 RPA 的設計器里都是組件化的東西,拼裝就可以完成,這樣不用寫代碼,用戶只需要關注業務邏輯就可以了。這種傳統方法實現成本低,門檻也比較低,對用戶來講也比較友好。
隨著人工智能的興起和發展,我們也發現傳統 RPA 里其實有很多地方是可以和 AI 進行結合的,例如和語音技術、OCR 結合,這些是簡單的加法。另一方面,RPA 技術本身存在一些瓶頸,例如我們要控制各種各樣的軟件,首先要識別這些軟件里的東西,但是在識別上,我們是強依賴于操作系統底層的。這種情況使用傳統技術就面臨很多瓶頸,而 RPA 技術與 AI 結合可以獲得較大突破。行業天花板被推升以后,與 AI 結合的 RPA 技術可以真正泛化到所有行業的軟件上,并成為普適性的自動化技術。
另外與 AI 結合后,數字員工的能力會實現從感知到認知的飛躍。感知能力就是各種識別、交互技術,認知能力就是能夠結合大量數據做出推斷。只有在認知層面將 AI 與 RPA 技術結合才能構建真正的數字員工。規則化的工作在我們日常場景里大概只占 20%-30% 的工作量,但如果 RPA 可以在認知層面代替人們完成非創造性工作,那么滲透率就可以達到 90 %,所以數字員工未來的發展空間還是非常巨大的。
RPA 本身有一些能力上的限制,我們要把它變成 IPA,結合 AI,好比人的眼耳口鼻和大腦,能夠對話、理解、觀察和思考,這才是真正的數字員工。

我們回到本源的問題,RPA 能夠代替人控制所有的軟件,去完成規則化的工作。其中有兩個能力最關鍵:
第一個是軟件的控制能力。
通過操作系統底層去控制軟件的時候,我們要知道 RPA 的接口能力,或者說要識別到每一個要素,這取決于操作系統底層的開放性。現在主流的做法是結合計算機視覺來提升 RPA 的能力,讓 RPA 能夠對所有的軟件都適配,這就涉及非常多的技術挑戰;
第二個關鍵能力是信息提取能力。
我們知道,現實世界中的信息并非都是結構化的,往往是隱藏在一段文本里,或是不同介質的表格里。我們要把這些信息抽取出來,比如甲乙方是誰,他們之間是什么樣的關系,就離不開大量的信息提取技術。這和自然語言處理和計算機視覺都有關系。

更強大的軟件控制力
我們先看一下軟件控制能力。屏幕背后也是一個世界,所有的軟件都在里面。我們要知道畫面上到底有什么樣的元素或者物體,我能夠對它做什么——先解決識別問題,再解決操作問題。通過操作系統底層解決識別問題時,我們會發現各種各樣的軟件是沒有辦法識別的,有時識別出來的就是一個大的框,有時是多個細粒度的元素粘連在一起,這樣就無法進行軟件操作。例如菜單中可能包含多個級別的小菜單,如果不能做到細粒度的準確識別,就無從談起對軟件的完美操控。
因此,我們希望開發出的工具普適性是非常強的,而不是只能給若干類軟件做適配。而且軟件會升級,技術架構會變更,這種情況下傳統的 RPA 很難做到完美適配。現在很多 RPA 公司受限于技術的瓶頸,會被局限在某一個行業里。所以我們希望我們的 RPA 產品能夠變成通用化的產品,變成真正自動化的工具。
另一方面,環境的影響也非常大。在不同的操作系統下,不同的軟件組合情況,面臨的拾取和識別問題也是各種各樣的。
此外,在操作方式上,如果 RPA 技術只能通過寫腳本的方式實現,那么它依然是非常小眾的,只有程序員能夠使用,這距離辦公環境下「人人可用」的目標還有非常大的距離。
那么我們就要思考:如何能讓用戶非常簡單地使用上 RPA 技術。例如當操作系統底層的識別不行的時候,很多工作都要依賴計算機視覺的方法,但要使用不同的組件。這對用戶來講,成本非常高。于是我們考慮把這兩種技術融合到一起,以實現一種對用戶來講非常自然的過程——即用戶不需要考慮什么時候使用計算機視覺,什么時候借助操作系統底層。這里就要解決非常多的技術難點。
首先是要解決精度問題。無論是多么細微的目標,或是多么復雜的目標,我們都要識別出來。如果我們想把使用門檻降到最低,那就要把不同的技術整合在一起。在速度方面,用計算機視覺的方式識別,效率天然會比底層要低一些。那么如何能夠讓用戶有一致的體驗呢?那就要在不損失很多準確率的前提下把模型變得很小,以便于在 CPU 的環境上穩定運行,這樣能節省掉很多硬件資源。因為用戶不會為了使用 RPA 產品單獨采購 GPU(圖形處理器)。
我們知道在軟件層面,特別是涉及到計算機視覺時,界面的 DPI(圖像分辨率)是不一樣的。假設我在一臺電腦上設計了一個流程,現在要部署到 100 臺電腦上,不同電腦的分辨率可能不一樣,操作系統環境可能不一樣,顯示器的大小也可能不一樣。我們要解決的問題是在這些差別的情況下保證軟件的穩定運行,替換分辨率也能保持一致。在界面大小上,當我們把一個軟件界面進行拖拽的時候,界面會發生形變,這種情況下我們還要能找到操作的元素,這就涉及到形變重識別的問題。
面對這么多復雜的挑戰,我們在業界首先提出了「融合拾取」的概念,并將這一技術實現出來。僅圍繞提升軟件控制能力就有十幾項的難點,我們都申請了相應的專利來解決。現在我們再拆解一下,看看其中的具體難點。
下圖是一個融合拾取運行的情況,畫面上有很多類軟件,包括網頁、CS 架構的軟件、還有操作系統原生的畫面。在這種情況下,傳統的 RPA 要用不同的組件來控制它,而且效率是非常不一樣的,使用 CV 方法的效率就會很低。而我們實現的融合拾取方法可以在四種應用之間無縫切換,體驗一致。對于辦公環境里復雜的要求,融合拾取技術可以做到非常完美的控制。
第二個要解決的是成本問題。我們在不能提供 GPU 環境的情況下,想把模型變小,這就用到了剪枝、蒸餾、量化等方案把模型構建出來。對于計算量不能太大的情況,我們也設立了元素相似度的色彩空間映射方法來降低計算量,在算力層面盡量把技術做到極致。
還有一塊是跨分辨率、畫面變化與重疊的情況,為了能夠識別出原來識別的對象,我們把 CV 領域行人重識別的概念引入進來,采用基于 ReID 的技術并做了大量優化,最終取得了非常好的效果。對拾取層面來說,我們要把界面的布局做相應拆解(涉及圖像語義理解),然后做檢測,最后再做匹配。每一個環節都有相關的技術在發揮作用,其中的挑戰來源于多個方面:準確度、穩定性、唯一性。這些是需要持續打磨的,是一個與技術強結合的問題。
RPA 的瓶頸還遠不止這些。例如在運行的穩定性方面,軟件環境里有時會出現彈窗,而配置流程時沒有預見到這個情況,流程可能就會被卡住,這種情況下我們需要系統能夠自動識別到彈出了一個非常規的窗口,然后把它關掉,這樣就有了輔助流程的概念。并且當按鈕背后的 ID 發生變化時,或者說顏色發生了變化,系統還能以最大概率把它找出來,讓流程運行下去,這個問題也要通過多種算法來解決。去年我們聯合機器之心針對這個問題做了一個評測,在 360 軟件庫里隨機抽取了一些軟件,面向多個指標進行評測,結果表明我們在這項技術上是遙遙領先的。

更強大的信息提取能力
下面我們來看一下信息提取能力。
日常工作中我們經常要匯總報表,把 A 系統的信息下載下來處理之后錄入到 B 系統(例如財務的報稅),這需要大量的信息提取以及加工處理再操作軟件去完成,這是一個非常重要的工作。這里面有一個概念是 IDP——IDP 是智能文檔處理(Intelligent Document Processing),它是集信息提取和信息處理等能力的 AI 產品,它每一項細粒度的能力可以在 RPA 里作為一個組件,與自動化的部分拼裝起來,完成各種各樣的工作。
在 IDP 領域里,常見的任務有識別各種格式、各種介質的文檔,對比不同格式的文件,抽取合同中的主體(包括甲乙方信息、訂單編號以及約定內容),特別是表格里的信息也要抽取出來,如果抽取的信息有問題,后面還要做自動的校對,有些還要根據業務邏輯做校正,這里面應用了大量相應的技術,包括 OCR、NLP 中的長短實體抽取等。
即使是看起來非常簡單的文檔,比對和審核也要用到非常多的智能化技術,比如對頁眉頁腳的識別、對表格區域的識別和還原、對分欄區的處理,其實都需要特定的技術,而不是一個通用的識別就能做好的,其中每一項都要做得非常細致,提高準確率。在合同對比或者財務、法務的工作中,這是非常常見的工作,比如我們在某一個地方做了一點點修改,修改前后的文檔到底有什么差別;或者在不同的文檔處理階段,比如在簽訂合同時識別出合同風險,并編輯其中的內容,這都跟 IDP 的相關技術有關。例如圖片介質的信息怎么跟電子文檔的信息對比,其中包含非常多的細節。
RPA 還需要有更強大的信息提取能力,包括表格識別等。例如在電商領域有各種商品的類別和型號,通過拍照片就可以把里面的信息提取出來。OCR、NLP 等原子化能力對于數字員工來講非常重要,可以變成設計器里的組件,幫助我們快速拼裝出不同能力的機器人。
基于前面的討論,我們實在智能的產品矩陣如下圖所示,左側是 RPA 產品四件套,我們有一個使用起來非常方便的低門檻設計器,設計出來的東西運行在機器人上,當有很多機器人的時候,就用一個控制器去調度、分配任務,在有很多數據的情況下,我們可以通過云腦訓練出決策的模型,這樣可以達到第四階段——幫助人進行決策。另外我們有 AI 的產品矩陣,這個產品矩陣以 RPA 為底座,就可以構造出各種各樣實用的數字員工。

實際應用案例
下面我介紹兩個應用案例:
對于一個企業來講,他們在接觸自動化的時候都是從單點開始的,但一旦用上自動化的技術后,從人的天性來講是不愿意再退回到手工時代的。因此單點的自動化和智能化就會逐步過渡成部門級別的解決方案,再下一個層級就是整個公司級別的。如此推動,企業的數字化轉型以及超自動化的藍圖就會逐步形成,整個組織的生產流程也會因為自動化和智能化的加持,發生本質性變化。
基于前面的討論,我們可以看到 RPA 已經不是一個傳統的只能做規則化事情的技術了,我們更看好的是其與人工智能技術結合的應用與落地。我們知道人工智能的應用與落地,本質上是依賴于數據的,而 RPA 讓數據的獲取成本變得非常低,這種情況下再結合自動化,未來的空間是非常廣闊的。在使用門檻、拾取能力、穩定性、實施效率和性能方面,AI 都會發揮很大的作用,我們希望通過 AI 技術的加持,讓 RPA 成為一項普適性技術。
從大勢上看,數字員工會隨著人工智能未來的落地逐步滲透到千行百業,我們也對這個領域非??春?,將持續通過智能化技術的創新和應用來賦能和改造這個行業。
實在智能是一家人工智能科技公司,致力于通過AI技術引領和推動RPA行業向IPA發展,打造各類智能軟件機器人,即“IPA·數字員工”,為政府企業數字化轉型,提供自動化、智能化解決方案。
秉承“合作共贏,互惠互利”理念,我們誠摯期望與更多伙伴進一步加強“數字員工”相關業務交流,攜手共拓數字經濟時代的無限市場藍海,歡迎來電咨詢。

中電信億迅科技×實在智能,數字化轉型實在“億”?!把浮彼伲?/p>
《昆明日報》專題 | 實在RPA數字員工上崗昆明市統計局
戴維貝拉×實在智能 | “池塘邊的榕樹上”,數字員工再次上崗童裝頂流品牌

