近年、RPA(ロボティック・プロセス・オートメーション)の世界では、画像認識技術の進化が注目を集めています。
RPAにおける画像認識は、さまざまな業界で業務プロセスの自動化を可能にし業務効率化への一助となっています。
しかし、画像認識は便利な機能ではあるものの、正しく内容を理解しておかないと思わぬところで足をすくわれる可能性も否めません。
本記事では、RPAにおける「画像認識」の基礎から、その認識方法が持つメリットやデメリット、さらには様々な認識方法の種類について詳しく紹介していきます。
画像認識技術は、まだまだ進歩しているテクノロジーの一つですので、上手なRPA導入に向けて知識を深めていきましょう。
RPAの「画像認識」とは
PRAにおける画像認識とは、パスワード入力欄やボタンなど自動化の処理対象となる場所を認識するための方法の一つです。
後述しますが、RPAで使用する認識方法は画像認識の他に「オブジェクト認識」「座標認識」などがあります。
その中でも画像認識は、自動化の処理対象となる場所を「画像」として記録し、その画像に対し実施したい処理をプログラムすることで自動化を実現します。
例えば、RPAにて自動化したいWebページがあり、そこにクリックしたいボタンがあった場合、あらかじめボタンの画像と、そのボタンに対して実行したい処理(クリックなど)をRPAへ記録しておきます。
そしてその記録した作業を実行した場合、RPAは記録している「画像」をWebページ内から「検出」し、指定していた処理を実行するという流れになります。
画像認識タイプのメリット
非エンジニアでも使いやすい
後述する「オブジェクト認識」を採用しているRPAツールだと、自動化を適用する画面の構造や仕組みなどをある程度理解しておかないと、上手く開発できないことがあります。
しかし、画像認識タイプを採用しているRPAであれば、人がPC上で行なっている作業をそのままソフトウェアロボットに記録するパターンの開発手法になるため、専門的な知識がなくとも直感的に操作することができます。
そのため、RPAの開発を現場主導で進めていきたいと検討している場合は、現場の従業員たちで効果的に自動化を進めていくことができます。
どんなアプリケーションでも自動化できる
画像認識タイプのRPAは、人が作業している時と同じように「画面に表示されている対象の見た目」を認識し操作しています。
そのため、人が今までパソコンを使って作業していたような業務プロセスであれば、基本的にどんなアプリケーションを使った業務でも自動化することが可能です。
例えば、経理部門や総務部門など人が手で実施している作業が多い部署へRPAを適用すると大幅な業務効率化へ繋げることができます。
すぐに自動化の効果を確認できる
RPAを導入する際は、基本的に業務を可視化しフローを整理するという順番で自動化を適用していくのが通常です。
しかし「どうしても可視化する時間が取れない」「ひとまず自動化を体験してみたい」などの場合、画像認識タイプであれば人が手で実施している作業をそのまま自動化できます。
そのためすぐに効果が確認できるというメリットもあります。
画像認識タイプのデメリット
見た目の変更に弱い
画像認識タイプのRPAは、画面に表示されている対象の見た目で認識する仕組みのため、レイアウトなどで見た目が変更されると「画像を正確に検出」できず正常に動作しません。
例えば画像認識で作成した自動化のシナリオで、クリックする処理をボタンAに設定していた場合、そのボタンAの見た目が「青色から黄色」に変更されると、それだけで正常に動作しなくなってしまいます。
そのため、デザインやレイアウトが頻繁に変わるWebサイトやアプリケーションを使用している場合には「想定してない場面で誤作動」を起こしたり「作業が停止してしまうリスク」があります。
また、ディスプレイの変化にも正常動作が左右されてしまう可能性があります。
デスクトップの背景や解像度を変更してしまうと、「見た目」が変更されてしまうため、正しく認識できず正常に動作しない可能性があるため注意が必要です。
画像認識の操作対象が非表示だとエラーになる
画像認識タイプのRPAは「見た目」で認識しているため、その認識対象のボタンなどが画面上で非表示(前面に表示されていない状態)になっていると正しく稼働しません。
ロボットを実行するときは非表示とならないように、他のアプリケーションを起動しない、不要なファイルやフォルダは全て閉じておくなど注意して対応する必要があります。
また、予期せぬ画面表示にも注意する必要があります。
ロボットを実行している最中は、その処理をしているPCについては触らないようにするため問題ないように感じますよね。
しかし予想していないイレギュラーな事態が発生した際に、ポップアップによるメッセージが表示されて、操作対象としているオブジェクトを隠してしまい正常動作の妨げになる可能性があります。
ロボットを稼働させるPCは専用のものも用意したり、あらかじめ不要なポップアップが出ないように設定しておくなどの対処が必要になります。
メンテナンスの工数が発生する
上記のデメリットで解説した通り、見た目の変化に弱い認識方法のため、自動化対象のアプリケーションがバージョンアップされ、アイコンの色や形、画面のレイアウトなどデザインが変更された場合はロボットのメンテナンスが必要になります。
またメンテナンスを実施した場合は、ロボットの修正や正しく稼働するか検証が必要になります。
そのため、RPAで自動化しているアプリケーションをバージョンアップした際には、必ずアイコンやボタン、レイアウトなど、見た目の変更がないかを確認しましょう。
何か変更があった場合には、RPAの誤作動や突然のエラーを防ぐためにも速やかにメンテナンスの実施が必要です。
こういったメンテナンス作業については、他の認識タイプでも発生する可能性はあります。
ただし、画像認識タイプのRPAは特に見た目の変化に弱いため、他の認識方法よりもメンテナンス工数が多くなる可能性を秘めています。
このタイプが得意する業務、苦手な業務
ここまでは、画像認識タイプのRPAに関するメリットやデメリットについて解説をしました。
それを踏まえて、画像認識タイプのRPAが得意とする業務と苦手な業務について解説をします。
自動化しやすい業務例
個人で完結する業務
画像認識タイプのRPAは、勤務状況の報告や日々のタスク進捗状況の報告作業など、個人で完結する業務の自動化に向いています。
個人で完結する作業であれば、画像認識が苦手としている「見た目の変化」が少なく、長期に自動化運用することが可能です。
レポート作成業務
画像認識を使用したRPAは「見た目」の変化に弱いため「自分たちで変更可否の制御ができる」作業への適用が向いています。
準備されているマクロファイルの実行ボタンを押すと、自部署で管理している別ファイルからデータを取得し、報告用のレポートを作成するなどの業務関連であれば、メンテナンス工数も少なく効率の良い運用が可能です。
レガシーなシステムを使用した業務
本来はシステムを刷新した方が良いですが、昔から使用しているレガシーなシステムであればバージョンアップの頻度が少ないため、画像認識タイプのRPAでの自動化に向いています。
レガシーなシステムは「見た目」が変更される機会が少ないため、メンテナンスにかかる工数なども極力おさえることができます。
苦手な業務例
ベンダーが管理しているシステム
クラウド上にあるソフトウェアを、インターネット経由で利用できるようなサービスについては、バージョンアップによるUIなどの変更が全て「ベンダー起因」になります。
そのため、こちらで「見た目」に関する制御ができずメンテナンスの工数が膨大になる可能性があります。
また、将来的な変更の有無についても検討は難しいため、画像認識のRPAには向いていない業務になります。
条件が細かく設定されている業務
画像認識のRPAは、他のアプリケーションや何かのウィンドウ表示と重なり、操作対象のオブジェクトが非表示なってしまうと正しく稼働しません。
そのため、条件が細かく設定されているような作業にはおすすめ出来ません。
条件が細かいという事は、それだけエラーが発生する可能性も秘めているため、何かしらのポップアップメッセージに邪魔され正常稼働できない可能性があります。
画像認識以外にも!RPAの認識方法の種類
ここまでは、画像認識を採用しているRPAについて解説をしてきましたが、認識方法については他にもあります。
それは「オブジェクト認識」「座標認識」になります。
オブジェクト認識
オブジェクト認識とは、アプリケーションやWebページなどの形作っている構造の解析を行い、それぞれのオブジェクト(実行ボタンなど)が「どういった要素」で出来ているのかを検出します。
その検出された要素をオブジェクトとして認識し、記録することで自動化する方法です。
上記の「画像認識」型のRPAでは、オブジェクトの色や形など「見た目」を認識し記録しますが「オブジェクト認識」は、そのオブジェクトの属性や構造を認識します。
ポイントとしては見た目ではなく、そのオブジェクトがもつ要素を指定することで、Webアプリケーションはもちろん、デスクトップアプリケーションなどを対象に複雑な業務も自動化することができます。
メリット
画像認識のRPAでは「見た目」が変ると正しく認識しなくなる可能性がありますが、オブジェクト認識であれば「要素」を指定して稼働するため、精度が高いというメリットがあります。
見た目に何か変更があっても「要素」が変ってなければ正しく稼働します。
デメリット
機能的なデメリットは少ないですが、使いこなすためには自動化を適用する画面の構造や仕組みなどをある程度理解しておかないと、上手く開発できないことがあります。
またRPA製品や操作対象のシステムにもよりますが、うまく構造分析ができず「要素」を読み込めないこともあります。
そのため、このような場合の代替え手段として他の認識方法が用意されているか、あらかじめ確認しておく必要があります。
座標認識
座標認識とは、人が実際にやっている作業を記録して認識させる手法で用いられることが多く、操作対象(実行ボタンなど)がPCのスクリーン上のどの場所にあるのかを「座標」として認識する方法です。
スクリーンの左上を原点(0,0)として、そこから操作対象となるオブジェクトが横軸をX、縦軸をYとして「どれぐらいの座標に存在しているのか」や「画面上でマウスがどこからどう動いたのか」「どの場所でキーボード操作が行われたか」を記録することで処理の自動化を実現します。
また座標認識の範囲としてスクリーン全体だけではなく、単体のアプリケーションウインドウの左上を原点として、座標の範囲を指定することもできます。
メリット
座標認識は「見た目」や「要素」にとらわれず、パソコンスクリーン上の座標にしたがって処理をします。
そのため非エンジニアでも自動化処理を開発しやすく、シンプルな指定方法のため高速処理が可能です。
デメリット
一方、操作対象であるパソコンのウィンドウサイズや、Webページのレイアウトが変わり操作したい対象が元の場所から変更されてしまうと、正しく座標を認識できなくなってしまうというデメリットがあります。
記事まとめ
今回の記事では、PRAにおける画像認識の概要から、画像認識型RPAのメリットやデメリット、画像認識が得意とする業務や苦手とする業務について解説しました。
画像認識については、フリーソフトを含めさまざまなRPA製品で採用されている認識方法です。
それは、メリットでも解説したように色んなアプリケーションへの自動化適用が可能だったり、非エンジニアのメンバーでも開発がしやすかったりなどのメリットがあるからです。
ただし、レイアウトなど見た目が変更されると正しく稼働されないといったデメリットも存在しているため、導入するRPAの特徴を把握したうえで効率的な生産性向上を目指しましょう。
また、RPA製品にもよりますが画像認識しか準備していないというRPA製品は少ないです。
画像認識のみならず、今回の記事で紹介したようなオブジェクト認識や座標認識など複数の認識方法が準備されているケースが多いため、自社で導入を検討している業務にどの認識方法が適しているのか検討しながら効率的な自動化を進めていきましょう。