- +1
RPA顛覆式變革來襲,“拖拉拽”即將退出歷史舞臺(tái)?
跟ERP、CRM、OA等職能型軟件不同,RPA屬于業(yè)務(wù)型軟件,跟業(yè)務(wù)的關(guān)聯(lián)更加緊密。要想實(shí)現(xiàn)RPA普惠化,最關(guān)鍵的是要讓業(yè)務(wù)人員可以很好的使用RPA產(chǎn)品來解決其業(yè)務(wù)問題。業(yè)務(wù)人員是不懂IT的,因此,如何降低RPA產(chǎn)品的“IT屬性”,某種程度上決定了RPA能走多遠(yuǎn)。在RPA的流程設(shè)計(jì)界面,以拖拉拽方式來構(gòu)建業(yè)務(wù)流程,是比較常見的RPA流程設(shè)計(jì)方式。相對(duì)于以往需要編程的代碼方式,拖拉拽式的流程搭建方式更進(jìn)了一步,但依然存在不小的使用門檻,主要表現(xiàn)在:業(yè)務(wù)人員需要在RPA產(chǎn)品界面搭建業(yè)務(wù)流程,而RPA作為軟件產(chǎn)品是IT視角,業(yè)務(wù)人員需要從其原來的業(yè)務(wù)視角轉(zhuǎn)換為IT視角,將業(yè)務(wù)邏輯“翻譯”成各種RPA功能模塊,這對(duì)于大部分一線業(yè)務(wù)人員而言,會(huì)帶來不小的學(xué)習(xí)成本。
此外,還有一種通過錄屏的方式,將業(yè)務(wù)人員的操作過程錄制下來,然后通過分析視頻來簡單記錄和復(fù)制鼠標(biāo)鍵盤的動(dòng)作,形成RPA流程。然而,以目前的視頻分析技術(shù)和系統(tǒng)“學(xué)習(xí)”能力,還不足以支撐上述理想化的RPA流程搭建方式。因而,錄屏方式并沒有很好的應(yīng)用起來。
那么,該以什么樣的方式來實(shí)質(zhì)性降低業(yè)務(wù)人員的學(xué)習(xí)和使用門檻呢?這是業(yè)界亟需解答的問題。
基于屏幕理解顛覆RPA流程搭建模式
業(yè)務(wù)人員熟悉業(yè)務(wù)流程,但不熟悉各種IT系統(tǒng)。要降低使用門檻,核心就是要讓業(yè)務(wù)人員無需將業(yè)務(wù)視角轉(zhuǎn)化為IT視角,讓其在自身熟悉的業(yè)務(wù)環(huán)境中就能完成RPA自動(dòng)化流程的設(shè)計(jì)和搭建。
圍繞這個(gè)思路,實(shí)在智能探索出了一種基于屏幕理解的流程搭建方式,其核心流程如下:
用戶在進(jìn)行流程設(shè)計(jì)和搭建時(shí),不需要切換到RPA的流程開發(fā)畫布界面,還是在以往的業(yè)務(wù)操作界面。所不同的是,RPA系統(tǒng)隱入后臺(tái),用戶在屏幕上的所有操作都被系統(tǒng)“捕獲”。比如,用戶的鼠標(biāo)停留在企業(yè)微信上,系統(tǒng)就可以通過屏幕識(shí)別技術(shù),識(shí)別出對(duì)應(yīng)的圖標(biāo)。實(shí)在智能的屏幕理解技術(shù),不僅能夠識(shí)別出屏幕上的圖標(biāo),還能夠“理解”每個(gè)圖標(biāo)的含義。用戶鼠標(biāo)滑過的每?塊屏幕區(qū)域,背后的AI算法都即刻完成?次模型計(jì)算,最終分析并給出每?個(gè)區(qū)塊和元素的含義。
在識(shí)別出對(duì)應(yīng)圖標(biāo)之后,實(shí)在智能的RPA產(chǎn)品還能依據(jù)圖標(biāo)特性,針對(duì)性的推薦相應(yīng)的RPA流程組件。例如,針對(duì)瀏覽器圖標(biāo)自動(dòng)推薦網(wǎng)頁、搜索、新聞等功能組件,針對(duì)?件夾圖標(biāo)自動(dòng)推薦打開?件夾、查找?件、遍歷?件夾等功能組件。用戶可以根據(jù)其以往的業(yè)務(wù)操作流程,每一步操作之后系統(tǒng)都會(huì)根據(jù)該業(yè)務(wù)的屬性和用戶的操作習(xí)慣自動(dòng)推薦相應(yīng)的RPA流程組件,用戶只需要根據(jù)系統(tǒng)的推薦和引導(dǎo)一步步點(diǎn)擊鼠標(biāo),就可以搭建自動(dòng)化流程,完成業(yè)務(wù)閉環(huán)。
1、精準(zhǔn)的屏幕理解能力。
首先,需要能夠精準(zhǔn)的識(shí)別出屏幕上的各種圖標(biāo)和文字等內(nèi)容,并能夠理解他們的含義,這需要一系列的AI技術(shù)。以實(shí)在智能為例,其之所以能夠用屏幕理解顛覆流程搭建方式,是建立在融合拾取技術(shù)、動(dòng)態(tài)元素匹配技術(shù)和頁面結(jié)構(gòu)分析技術(shù)等大量的技術(shù)積累基礎(chǔ)上的。
融合拾取技術(shù),基于計(jì)算機(jī)視覺技術(shù),準(zhǔn)確識(shí)別出屏幕上的圖標(biāo)、文字等“元素”。經(jīng)過長時(shí)間打磨和迭代,該算法模型在準(zhǔn)確率、召回率和性能指標(biāo)上都有了?幅提升;動(dòng)態(tài)元素匹配技術(shù),賦予“元素”以變量,這樣系統(tǒng)就可以“錨定”某個(gè)特定的元素,該元素即使發(fā)生一定的改變,系統(tǒng)依然可以進(jìn)行配準(zhǔn)。比如,當(dāng)系統(tǒng)識(shí)別出企業(yè)微信的聊天對(duì)話框,即使聊天內(nèi)容不斷改變或聊天窗口發(fā)生各種位移和形變,系統(tǒng)依然能夠進(jìn)行精準(zhǔn)適配;頁面結(jié)構(gòu)分析技術(shù),借助頁面圖神經(jīng)網(wǎng)絡(luò)分析、動(dòng)態(tài)縮放?適應(yīng)和區(qū)域內(nèi)容填充識(shí)別三項(xiàng)技術(shù),實(shí)在智能的產(chǎn)品不僅能夠“拾取”屏幕上的單個(gè)元素,還能檢測(cè)到整個(gè)軟件的不同功能區(qū)域,并對(duì)多個(gè)元素進(jìn)行組合“拾取”?;陧撁娼Y(jié)構(gòu)分析技術(shù),實(shí)在智能的RPA產(chǎn)品在進(jìn)行屏幕理解時(shí),更具“宏觀”視角,而不局限于單個(gè)元素。

實(shí)在智能各項(xiàng)核心技術(shù)的性能參數(shù)
2、復(fù)雜業(yè)務(wù)場(chǎng)景的RPA流程搭建能力。
屏幕理解技術(shù)并不是為了炫技,而是為了幫助用戶更便捷的搭建業(yè)務(wù)自動(dòng)化流程。如果基于屏幕理解的方式,在復(fù)雜業(yè)務(wù)場(chǎng)景中也能很方便的搭建出自動(dòng)化流程,構(gòu)建業(yè)務(wù)閉環(huán),這種新的自動(dòng)化流程構(gòu)建方式才算比較成熟。
要實(shí)現(xiàn)復(fù)雜業(yè)務(wù)場(chǎng)景的突破,需要在三個(gè)方面發(fā)力:
提升可支撐的業(yè)務(wù)深度。簡單業(yè)務(wù)場(chǎng)景往往只需要幾步操作即可完成業(yè)務(wù)閉環(huán),與之相比,復(fù)雜業(yè)務(wù)場(chǎng)景可能需要十幾步甚至幾十步操作,而且這些流程環(huán)環(huán)相扣,有復(fù)雜的業(yè)務(wù)邏輯。RPA產(chǎn)品在用戶進(jìn)行復(fù)雜業(yè)務(wù)操作時(shí),要依然有足夠的支撐能力,能夠“拾取”各種圖標(biāo),理解其背后的業(yè)務(wù)含義。
構(gòu)建豐富的業(yè)務(wù)組件庫。識(shí)別出屏幕上的各種圖標(biāo)之后,接下來需要依據(jù)該圖標(biāo)的業(yè)務(wù)含義,推薦對(duì)應(yīng)的RPA功能組件。針對(duì)復(fù)雜業(yè)務(wù)場(chǎng)景,僅僅是通用組件是遠(yuǎn)遠(yuǎn)不夠的,還要有大量具有業(yè)務(wù)背景的組件,推薦的組件要跟該業(yè)務(wù)場(chǎng)景高度契合。為了滿足這個(gè)需求,需要建立一個(gè)豐富的組件庫,甚至需要構(gòu)建一個(gè)組件市場(chǎng)和應(yīng)用生態(tài),來覆蓋大部分的業(yè)務(wù)場(chǎng)景,讓用戶在構(gòu)建復(fù)雜業(yè)務(wù)流程時(shí),即使進(jìn)行了十幾步操作之后,每一步操作依然可以匹配到滿足其業(yè)務(wù)需求的功能組件,來幫助其完成整個(gè)業(yè)務(wù)自動(dòng)化流程閉環(huán)的搭建。
提升自動(dòng)推薦組件的準(zhǔn)確率。越是深入的應(yīng)用場(chǎng)景,其業(yè)務(wù)邏輯越復(fù)雜,要從成千上萬個(gè)組件當(dāng)中推薦符合業(yè)務(wù)需求的RPA組件的難度就越高。一方面,系統(tǒng)需要理解特定場(chǎng)景的業(yè)務(wù)邏輯;另一方面,系統(tǒng)需要了解特定用戶的操作習(xí)慣,預(yù)測(cè)其下一步操作意圖。為此,實(shí)在智能不斷優(yōu)化多模態(tài)操作意圖預(yù)測(cè)技術(shù)、業(yè)務(wù)場(chǎng)景感知推薦技術(shù)和在線學(xué)習(xí)技術(shù):系統(tǒng)不斷學(xué)習(xí)用戶的行為數(shù)據(jù),了解用戶的操作習(xí)慣,在此基礎(chǔ)上預(yù)測(cè)該用戶的操作意圖,讓推薦的組件更符合用戶“心意”;在操作意圖預(yù)測(cè)基礎(chǔ)上,融入行業(yè)知識(shí),通過業(yè)務(wù)場(chǎng)景感知推薦技術(shù),實(shí)現(xiàn)對(duì)業(yè)務(wù)級(jí)的操作意圖預(yù)測(cè)并推薦對(duì)應(yīng)的業(yè)務(wù)組件;實(shí)在智能在操作意圖預(yù)測(cè)模型中加入主動(dòng)學(xué)習(xí)和在線學(xué)習(xí)技術(shù),用戶每次采用或者不采用系統(tǒng)推薦的組件,都會(huì)作為用戶反饋更新到本地的模型數(shù)據(jù)庫,通過數(shù)據(jù)訓(xùn)練來不斷迭代優(yōu)化預(yù)測(cè)模型,提升模型準(zhǔn)確率。

業(yè)務(wù)場(chǎng)景與RPA流程組件的智能匹配示意圖
IPA,而不是RPA+AI
實(shí)在智能基于屏幕理解技術(shù),將元素、拾取和變量等都封裝在后臺(tái)的AI模型中,用戶需要關(guān)注的僅僅是電腦屏幕,而不再需要費(fèi)心思去將業(yè)務(wù)流程與功能組件一一對(duì)應(yīng)。因此,屏幕理解的技術(shù)核心,是AI能力。需要指出的是,實(shí)在智能是將RPA與AI深度融合之后形成IPA,這跟RPA+AI的方式存在根本的不同。
如果將RPA比作一個(gè)章魚,那RPA+AI的方式,是在這條“章魚”的“觸角”上外接一些AI技術(shù)產(chǎn)品,來拓展RPA產(chǎn)品的應(yīng)用范圍。例如,在RPA平臺(tái)上接入語音識(shí)別、圖像識(shí)別、OCR等產(chǎn)品,讓平臺(tái)能夠處理語音和圖像數(shù)據(jù);接入NLP產(chǎn)品,提升平臺(tái)的文本理解與處理能力;接入智能對(duì)話、虛擬數(shù)字人產(chǎn)品,讓RPA可以更自然的實(shí)現(xiàn)人機(jī)交互等。章魚多長一個(gè)觸角并不會(huì)提升它的智力水平,同樣的,RPA平臺(tái)外接AI產(chǎn)品并不會(huì)提升平臺(tái)本身的智能化水平。
與RPA+AI不同,實(shí)在智能的IPA是將AI與RPA進(jìn)行深度融合,以AI技術(shù)重構(gòu)原有的RPA核心功能。IPA是改造“章魚”大腦,而不是觸角。以實(shí)在智能此次推出的智能屏幕語義理解技術(shù)(Intelligent Screen Semantic Understanding Technology, ISSUT)為例,該功能建立在計(jì)算機(jī)視覺技術(shù)、融合拾取技術(shù)、動(dòng)態(tài)元素匹配技術(shù)、頁面結(jié)構(gòu)分析技術(shù)、多模態(tài)操作意圖預(yù)測(cè)技術(shù)、業(yè)務(wù)場(chǎng)景感知推薦技術(shù)、在線學(xué)習(xí)技術(shù)等AI技術(shù)簇基礎(chǔ)上,借助一系列AI技術(shù)來重構(gòu)流程發(fā)現(xiàn)和流程設(shè)計(jì)方式。對(duì)于RPA平臺(tái)而言,流程發(fā)現(xiàn)、流程設(shè)計(jì)、流程運(yùn)行、流程管理是四項(xiàng)核心功能,并且流程發(fā)現(xiàn)和流程設(shè)計(jì)是整個(gè)業(yè)務(wù)流程自動(dòng)化的基礎(chǔ),也是降低用戶學(xué)習(xí)門檻的關(guān)鍵。實(shí)在智能以AI技術(shù)重構(gòu)RPA的核心環(huán)節(jié),相當(dāng)于將AI內(nèi)嵌到“章魚”的大腦,提升了“章魚”的智力水平,其價(jià)值要高于幫助章魚長出一條新的觸角。降低使用門檻,是一項(xiàng)新技術(shù)實(shí)現(xiàn)普惠化的關(guān)鍵前提
實(shí)在智能基于屏幕理解顛覆以往拖拉拽的流程構(gòu)建方式,核心目的就是為了降低業(yè)務(wù)人員的學(xué)習(xí)和使用門檻。需要指出的是,降低使用門檻看似一件小事,但卻很可能是推動(dòng)RPA普惠化的關(guān)鍵一步。
以史為鏡,可以明得失??v觀近代科技發(fā)展史,有多次創(chuàng)新技術(shù)產(chǎn)品的普及,都與降低用戶使用門檻休戚相關(guān):
以鼠標(biāo)為核心的人機(jī)交互方式,推動(dòng)了電腦的普及。電腦最開始的人機(jī)交互方式是程序,只有懂得編程的技術(shù)人員才能用電腦。后來,出現(xiàn)了以鼠標(biāo)點(diǎn)擊為核心的人際交互方式,配套“視窗”操作系統(tǒng),不懂編程的普通人也可以使用電腦,這推動(dòng)了家用電腦的普及,讓電腦從高大上的專用設(shè)備飛入尋常百姓家。
以觸屏為核心的人機(jī)交互方式,推動(dòng)了智能手機(jī)的普及。喬布斯作為蘋果公司的靈魂人物,在推動(dòng)智能手機(jī)創(chuàng)新方面具有關(guān)鍵作用。在蘋果手機(jī)的諸多創(chuàng)新中,其用觸屏重構(gòu)人機(jī)交互方式,在推動(dòng)智能手機(jī)普及方面具有特殊的價(jià)值。目前,智能手機(jī)的普及率要遠(yuǎn)高于電腦,很多老年人、小孩不會(huì)使用電腦,但卻可以熟練的使用智能手機(jī),一個(gè)重要原因就是觸屏交互方式的學(xué)習(xí)和使用門檻比電腦更低。

蘋果——變革了手機(jī)
此外,在消費(fèi)電子的發(fā)展歷史中,各種“傻瓜式”電子設(shè)備也大大推動(dòng)了行業(yè)的發(fā)展。以相機(jī)為例,單反等專業(yè)相機(jī)只局限于少數(shù)專業(yè)人士,但是各類“傻瓜式”相機(jī)的出現(xiàn),大大提升了相機(jī)的普及率。對(duì)于科技產(chǎn)品而言,學(xué)習(xí)和使用門檻越低,越“傻瓜化”,人機(jī)交互方式越自然、符合人類行為習(xí)慣,該類產(chǎn)品往往會(huì)更加普及。
同樣的道理,以屏幕理解為核心的人機(jī)交互方式,可能會(huì)推動(dòng)RPA產(chǎn)品的普及。業(yè)務(wù)人員的規(guī)模是IT人員的10倍以上,要普及RPA產(chǎn)品,關(guān)鍵在于各行各業(yè)的銷售人員、營銷人員、運(yùn)營人員、行政人員等一線業(yè)務(wù)人員,可以快速上手,學(xué)習(xí)和使用門檻低,可以將RPA工具很方便的應(yīng)用于其日常工作中。實(shí)在智能的此次技術(shù)和應(yīng)用創(chuàng)新,是一個(gè)有益的嘗試,期待該技術(shù)能夠得到更廣泛的應(yīng)用,切實(shí)推動(dòng)RPA的普惠化。

實(shí)在智能IPA——將變革RPA
文:月滿西樓 / 數(shù)據(jù)猿
本文為澎湃號(hào)作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機(jī)構(gòu)觀點(diǎn),不代表澎湃新聞的觀點(diǎn)或立場(chǎng),澎湃新聞僅提供信息發(fā)布平臺(tái)。申請(qǐng)澎湃號(hào)請(qǐng)用電腦訪問http://renzheng.thepaper.cn。





- 報(bào)料熱線: 021-962866
- 報(bào)料郵箱: news@thepaper.cn
滬公網(wǎng)安備31010602000299號(hào)
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116
? 2014-2026 上海東方報(bào)業(yè)有限公司




