RPAの画像認識技術をご存じでしょうか?
実は画像認識技術は、RPAが自動で作業をする仕組みに密接に関わっており、WinActorやUiPathなど代表的な製品をはじめとしたほとんどのRPAツールにはこの画像認識技術が使われています。
画像認識技術はRPAツールの本質である、ロボットを動かすのに必要な技術なのです。
そこでこの記事では、RPAの画像認識技術を少し深掘りして、その精度やRPAの仕組みを解説します。
RPAの導入時や、業務の自動化を進めるうえで、知っておいたほうが良い基礎知識ですので是非ご一読ください。
株式会社MICHIRU 取締役 CTO
この記事の監修担当者:
斎藤 暁
医療施設法人やホンダ子会社のIT領域責任者などを経て独立。AI技術やシミュレータなど、複雑なアルゴリズムを駆使したシステムを提供している。自然言語処理によるシステムの技術は日米で特許を取得、その発明者でもある。2018年11月株式会社MICHIRUを創業。
RPAに使われる画像認識技術とは?
画像認識技術とは、画像が一致しているかどうかを判別する技術として、例えば顔認証や、自動画像診断システム・OCR・自動運転システムにおいても利用される技術です。
そもそもどんな技術?
画像認識技術とは、簡単に言うと画像のピクセル値や、大きさ情報、位置情報のパラメーターなどを利用して、画像と画像が一致しているか計算し、検証する技術です。
この技術は、A画像とB画像が一致しているか、コンピューターに判別させる技術です。
しかし、この作業は、点である情報を多く集めて判別する作業であり、計算に時間がかかること、そして、少しの差でもコンピューターは「違う」と認識しやすいことから、難易度が高い技術と言われていました。
かつてのOCRをご存じの方は、かなり間違いが多かったことをご存じかと思います。
ところが、人工知能が発達したことにより、この画像認識技術が10年ほど前から一気に実用化が進みました。かつてより精度・判定の時間とともに、格段に進歩したのが、今の画像認識技術です。
画像認識をRPAツールに使う理由とは?
ところで、RPAツールは、PCの動きを自動化します。
RPAは、PCのデスクトップ上、表示される画像がどうなっているかをRPAが判別して、その通りに何度も動く仕組みを取っています。つまり、RPAツールが動く仕組みは、この画像認識なのです。
例えば、アイコンをクリックするという動作であれば、アイコンの画像を認識してクリックしています。
この仕組みを基本に自動化を行うので、WinActor、UiPath、RPAexpressなどほとんどのRPAツールに使われており、フリーソフト・オープンソースソフトウェアでも同様です。
ただし、AIの高度な技術は使われておらず、自分である画像とある画像が同じ情報であるかどうかを判別して、学習することはできません。
自動化の仕組みを深掘り!画像は「指令」として機能
RPAツールの画像認識は、シナリオにのった画像が一致しているかどうかマッチングによる判別と、動きの修正くらいしかできないと言われています。
RPAツールには簡単なレベルのAIの技術が使われていますので「簡単な判断はできる」という程度です。
言い換えると、
- RPAはあるパターンを覚えておくことはできる
- そのため、検索して、同じものを見つけてくることはできる
- しかし、少しの違いを認識して「同じ形ではあるが、色調がすこし違うだけので同じ」「同じ色調ではあるが、形がゆがんでいるだけなので同じ」といった高度な判断はできない。
これがRPAツールで導入されている画像認識技術の特徴です。
このような画像の認識技術をイメージマッチングといいます。
RPAツールは、イメージマッチング技術を用いて、動きを記憶、再現するものです。
これに対して、プログラミングでオブジェクトコードを認識させる技術はオブジェクト認識と呼びます。
RPAツールの中にいるロボットは、
- 画像で人間の指令を認識する
- オブジェクトコードの形で人間の指令を認識する
の二種類の認識により、反復して同じ動きを自動で行うのです。
以上で自動化の仕組みとして、画像を手掛かりに、RPAに指示をするという意味での画像認識技術が使われていることを説明しましたが、実際にはRPAに画像を探させ、操作をさせるといった内容のシナリオを作り、その通りにRPAに動いてもらうことで業務の自動化が可能になります。
WinActorの操作画面などでは、この様子がとてもわかりやすいので「なるほど!」と思う方もいらっしゃるでしょう。
画像認識を使った効果とメリット・デメリット
RPAツールに画像認識技術を使うことによる効果は、「プログラミングの知識・技術がなくてもRPAを自在に操作ができる」ということです。
この画像を認識して動く、ということがRPAに認識できればよいので、細かくプログラミングでRPAツールに指示をする必要はありません。
【メリット①】非エンジニアでも操作がしやすい
RPAツールは、基本的にプログラミングがなくても動かせる、エンジニアでなくても操作ができるということの理由はこの画像認識技術にあります。
つまり、ある程度定型化された画像認識によるマッチングができるので、細かくプログラミングによりロボットに指示をしなくても、ロボットが認識してくれるという点がメリットです。
【メリット②】パターン化された動きは大得意
RPAツールに画像認識を使っていることにより、業務をパターン化し、何度も反復するのが得意になるというメリットがあります。
RPAツールがシンプルにPC上の動作を覚えて、その通りに何度も繰り返して動くのは、ある程度抽象化された画像を画像認識して、細かく判断はしないからというわけです。
RPAツールも最小限の修正ができますが、多くの修正をしていたら、それだけロボットの処理スピードを犠牲にすることになるでしょう。
ちょっと見方を変えると、RPAが深層学習をつかった判断をして学習をすると、同じ動きをするのに長い計算が必要になり、かえって非効率・演算をおこなうコンピュータ・サーバも大きな容量・処理力が必要になり、非常に高コストになります。
今後、RPAに搭載する人工知能もさらに進化することが見込まれ、現在のAIが行っている深層学習もそのうちRPAの機能の一部になることが考えられます。
【デメリット】オブジェクト認識で修正する必要がある
画像認識技術のデメリットとしては、ある程度抽象化されている画像を認識することでどうしても生じてしまう誤差があることです。
そこで、プログラミングを理解している技術者によるエラー修正が必要になってきます。
シンプルなシナリオで小さく運用する場合でしたら、こうした正確性が大きな問題になることはあまり多くなく、サポートをうまく使うと解決できます。
その点、最初から技術者がこうしたシナリオ開発を行うと誤差を避けることができますので、誤差やエラー修正は画像認識技術のデメリットであると言えるでしょう。
初心者にもやさしく操作しやすいMICHIRU RPA
MICHIRU RPAは中小企業を中心に高い人気を誇るRPAツールです。
MICHIRU RPAももちろん画像認識技術を使って、操作性を高めているのですが、画像認識技術に加えて、操作性を高めるポイントになるのが、UIです。
MICHIRU RPAは、クリアにわかりやすいUIを使い、初心者でもより操作しやすい工夫がなされていますので初めてのRPA導入にもおすすめです。
日本語のサポートがあり、しかも定期セミナーで、初心者でも実際の製品に触りながら、操作を学ぶことができるのもMICHIRU RPAの導入しやすい点です。
中小企業が小さく運用するなら、技術人員を確保しなくてもMICHIRU RPAのサポートで十分運用が可能です。
コストの面でも、中小企業にも十分手が届く価格設定となっており初期費用が10万円、月額5万円から導入でき、金額的にも優しいRPA製品になります。
記事まとめ
RPAツールはどうして自動で動くのか、そのコアとなる技術である画像認識技術とそのメリット・デメリットをお伝えしました。
なぜRPAツールはプログラミングを使わなくても作業が自動化できるのか?
また画像認識技術のメリットデメリット、プログラミングを使ったほうが良い場面もご理解いただけたと思います。
導入後には、人員の確保や、メンテナンスの予算の問題がつきものですが、仕組みを理解するとより正確に見通しが持てます。
本記事をご活用いただき、ぜひ導入の参考としてください。