クルマ最終更新日：2019.03.06 公開日：2019.03.06

音声対話型「駅案内ロボット」が下北沢駅に登場。

3月16日(土)は、下北沢駅の中央改札口がオープンする日。同時に「駅案内ロボット」の試験運用が始まるのだが、このロボットがなかなかのスグレモノだという。果たしてその機能とは？

AI（人工知能）公共交通機関

　オムロンソーシアルソリューションズ株式会社は、駅窓口業務の自動化に向け、利用客からの問い合わせに応対する「駅案内ロボット」を開発。3月16日(土)より京王電鉄株式会社井の頭線下北沢駅にて試験運用を開始する。

とぼけた表情だが、音声認識に関してさまざまな先進技術が搭載されたスグレモノだ。

駅員がいなくてもロボットが乗客に対応！

　今回開発されたロボットは、独自に開発した音声対話型AIエンジンを搭載。乗り換えや駅構内・周辺情報などに関するさまざまな問い合わせに、音声とディスプレイの文字表示で回答する。雑踏の中でも利用客の声を正確に認識し、動作を交えて応対するなど、親しみのもてる自然な対話ができるのが特長だ。このロボットの運用により、駅利用客へのサービス向上と、窓口業務の省力化を両立できるという。

「駅案内ロボット」の特長とは？

　では、ここでロボットの特長を紹介していきたい。最大の特長となる「音声認識」については、独自に開発した音声対話型AIエンジンを搭載。多くの人が行き交う雑踏の環境下で、正確に利用客の音声を集音し認識する「音声処理技術」と、ロボットが回答している途中に別の質問を受け付ける「割り込み対話機能」で、より人と人との対話に近い応対が可能となっている。

　一般的に音声認識処理の精度は、マルチマイク(複数マイク)である方が精度が高まることが知られている。マルチマイクでの集音時に、マイクの異なる配置による音声の位相差や振幅差などを適切に処理することで、目的とする音声のみを強調することができる。その反面、マイク・スピーカー配置や筐体設計などのハードウェア的側面と、マルチマイク処理のアルゴリズムなどのソフトウェア的側面の両面を十分に擦り合わせる必要がある。「駅案内ロボット」で採用されているマルチマイクだが、合計16chを配置し、認識精度の向上を実現している。

「駅案内ロボット」に採用されている「Fairy I/O 16chマルチマイク（バー型）」。ロボットから発せられるモーターなどの作動音の影響をできるだけ削減し、発話者の音声をクリアに集音することに最適化したマイクハードウェア。

２本のバー型形状により、自由なレイアウトを実現する。

さまざまな音の処理を実現

　音を分析する前段階処理には「mimi XFE」と呼ばれる音処理機能を装備。駅という雑音の多い環境においても正確な音声を収音するために、人が話し始めたこと、また話し終わったことを検出する「VAD(発話区間抽出)」機能を搭載。

　また高速音声認識処理が可能な「mimi ASR」と呼ばれる技術を採用し、音声認識処理の速度を高速化。人と人との会話は、想像以上に速いやり取りがなされている。これに対応するために、人間の処理能力に近づけることで、人とロボットとの違和感のない会話体験を可能にした。

　さらにポイントとなるのが、ロボットが発話している最中でも人間の声を認識することができる「バージイン(割り込み発話対応)」技術。ロボットが発話している最中でも人の声を認識できるため、ロボットがしゃべり終わるのを待つ必要がない。これによってスムースで自然な対話を実現した。

　これまでのコミュニケーションロボットなどにおける対話ソリューションでは「機械の準備が整うまで待つ」「機械がしゃべり終わるまで待つ」というように、人間側に不自然なコミュニケーションを強制している場合が多かった。しかし、ロボットがバージイン対応となることで、人と接するように自然なコミュニケーションができるようになっている。