![]() |
|
平成12年度03月17日
通商産業省 工業技術院
機械技術研究所
統括研究調査官室
ロボットを介した遠隔操作における人の顔の表情伝送の問題点の把握
<概 要>
通商産業省 工業技術院 機械技術研究所では、ロボットを介した遠隔操作における人 間同士、さらには人間とロボット間のコミニュケーションを円滑に行うことを目的とし て、人の顔の表情を伝送(同期)する研究を行っている。ここで研究している伝送法は、顔の映像 そのものを伝送ではなく、「表情」を伝送するものである。画像の特徴抽出の一手法であ る固有空間解析手法を用いて顔の「表情空間」を構築し表情を分類した。顔表情空間で分 類された顔の低次元「表情パラメータ」を伝送し、受け手側に用意される別の顔のデータベース を用いてその「表情」を再生した結果、多くの表情は「違う人の同じ表情」として再生された が、表情を適切に再生しているか否かの判断しがたい結果も得られた。本研究の結果、受 け手側での多数人数による再生画像の評価試験を行なうことにより、入力される表情の曖 昧(あいまい)の定義等を表情誤認の統計的な値と関連づけて把握する研究が重要であること が分かった。
ミニュケーション
顔の表情やジェスチャーの役割
表情画像と表情空間の対応
投影パラメータを得たならば、入力顔表情画像から感情を認識するこ
となく、単なる三次元データの投影と対応付けだけで表情転送が実現
表情転送例
多くの表情は「違う人の同じ表情」として再生されたが、
適切な表情の再生か否かの判断しがたい結果も得られた
ロボット工学部 バイオロボティックス 大場 光太郎
機械研NEWS,1999,No.1より
機械研NEWS,1999,No.1 PDF file(300kb) へ
電話回線を利用したテレ・コミニュケーション
電話回線を利用したテレ・コミニュケーションは、日常生活で広く利用され急速な普及を示している。一方、汎用ネットワークを利用し、情報を特定者もしくは不特定者へ提供するサービスとして、Emailの急速な普及が上げられる。最近のWWWは、同時に多くの人に文章、イメージ、音のデータを与え、有用な情報を提供している。さらに近年では、テレビ会議、チャットシステム、バーチャル・ショッピング、バーチャル・ミュージアム、その他 アミューズメント利用を目的としたリアルタイム・テレ・コミニュケーションが可能となりつつある。しかしこれらの共通した問題点は、これらのシステムの仮想世界内におけるコミニュケーションが、我々の実世界でのコミニュケーションで得られるものと同じ感覚を与えることができないということである。つまり、実世界の臨場感を効率的に転送していないことに問題があると考えられる。
顔の表情やジェスチャーの役割
ここで図1に示したような実世界での人間同士のコミニュケーションについて考えてみよう。通常人間は、コミニュケーションの方法について深く考慮しなくても、スムーズにお互いにコミニュケーションが可能である。このコミニュケーションは「会話」「顔の表情」「ジェスチャー」のように言語的または非言語的な多くの方法で行なわれている。これらの手法の基本要素は、人間の五官「味覚」「嗅覚」「触覚」「聴覚」「視覚」をベースとしたものであり、それらを自由に組み合わせながらスムーズなコミニュケーションを実現している。この感覚の中でも、人間が日常情報として得ている 70〜80%は「視覚」であり,「味覚」と「嗅覚」はほとんどの状況で無視できる。また、「触覚」は人間と人間、または、人間と物とが物理的に接触している場合には欠かせないものであるが、接触状態を含まないコミニュケーションを想定すればこれも無視できる。しかし、視覚から得ている情報は多いものの、コミニュケーションのための重要な情報は、イメージ自身ではなく「顔の表情」や「ジェスチャー」にあることが良く知られている(Mehrabian,1968)。
図1 コミニュケーション
顔の表情データの伝送と表情の再生
ロボット工学部バイオロボティクス研究室では、ロボットを介した遠隔操作における人間同士、さらには人間とロボット間のコミニュケーションを円滑に行うことを目的として、顔の表情を伝送する研究を行っている。ここで検討している伝送法は顔の映像そのものを伝送するのではなく、「表情」を伝送するものである。まず、画像の特徴抽出の一手法である固有空間解析手法を用いて顔の表情空間を構築し、顔の表情を分類する。そして、表情空間で特徴化された顔の「表情」パラメータを伝送し、受け手側に用意される別の顔のデータベースを用いてその「表情」を再生する。
この様な、送り手側の顔とは異なる他人の顔、もしくは擬似的キャラクターを用いて「表情」を再生する表情転送システムは、本人の顔を他人に見せないテレビ電話やインターネットにおけるコミニュケーション・システム等、セキュリティーに考慮したコミニュケーション・システムの要素技術としても重要な意義を持つと考えられる。
人間の感情と顔の表情
一般的に顔の表情は、人間の感情を表すものである。そのため顔表情の分類は、多くの心理学者らによって論じられてきた。その中の分類法として良く用いられるものは、顔表情を6つの要素「楽しみ」「悲しみ」「驚き」「嫌悪」「怒り」「恐れ」で構成されるとするものである(Ekman,1975)。もちろん人間社会では、表情には表さない心理的な感情や、嘘の表情も存在する。しかし、ここでは表情と感情の関係については深く追求はしない。
また画像から表情を分析する方法は、多くの研究者によって提案されている。例えば、目、鼻、口、眉の動きに注目したものなどがある。しかしこれらの多くは実時間での応用が難しいものである。
近年、特定人物の顔認識手法の一つとして、固有空間手法を応用した手法が提案されている。この固有空間手法は、コンピュータ・ビジョン分野の物体認識で広く用いられるようになってきている。その利点は、画像から線や点のような特徴を発見する手法によらず、解析的に特徴の抽出が可能なことである。
個人の顔認識への固有空間手法の応用
ここで固有空間手法を簡単に紹介すると、まず一般的にあるデータ列がある場合、自乗平均誤差最小の規範により、この集合を最適近似する新たな低次元データ集合を作り出すことが可能である。その集合中の新しい個々のデータは、元のデータ集合の特徴を表すと考えられ、この手法を画像に用いれば、これは一種の画像特徴抽出法となる。つまり、複数の辞書画像が得られた場合、これらの固有値分解による主因子分析を行い、各々の画像はこの固有値と固有ベクトルを用いて再構成することが可能である。ここで十分小さい固有値の項を無視することにより、膨大な画像の次元を大幅に落とすことが可能である。この手法を顔表情の特徴抽出に応用した。
顔表情の分類および三次元の顔表情空間
顔表情の典型的分類手法は前述したような六つの感情への分類である。しかしここでは簡単化して主な四つの感情「怒り」「無表情」「驚き」「笑い」を用い、固有空間法の効果を示すため顔表情の分類を行った。図2は四つの表情を用いた時の固有値と、固有値を一次元から順次足し合わせた累積値を示す。固有値の値は各々の因子の重みを表している事から、元の画像の95%を再構成するためには、画像データの特徴量として三次元の因子で十分であることが判断できる。図3は、得られた顔表情空間を用いて、典型的な顔表情を分類した結果を示している。ここで四つの感情を示す顔画像を得るために、被験者に「それぞれの感情を最大に顔に表して下さい」という命題を与えた。この結果より、表情空間上のデータは各表情について明確に分離されていることが分かる。すなわち、前述した固有空間手法を用いて得られた3次元の顔表情空間により、顔の表情分離が可能であることが確認された。
図2 固有値とその累積値
図3 表情の分類
異なる人物間の顔表情空間の対応付け
一般的に顔の画像情報は、顔の表情を表す成分と個人の顔の特徴を表す成分の二つの要素を含んでいる。したがって得られた顔表情空間は、特定の人の顔表情を明確に分離することが可能であるが、同時に個人の顔の特徴を含んだ個人特有のものである。逆に、得られた顔表情空間に、顔表情空間を構成した時とは異なる人の顔画像を投影しても、表情分類は正確に行なわれない。同じ顔表情を異なる顔で同期するためには、異なる顔表情空間同士の対応付けが必要である。固有空間手法による表情空間は三次元で十分であることが示されたことから、異なる人物間の顔表情空間の対応付けを、三次元空間の投影で表す。ここではこの投影を、回転と並進のみを使って表すアフィン変換で投影できると仮定すると、図4に示すように、各々の表情画像は、各々の表情空間を媒介として、単純な投影により関係付けられる。ここで特記すべき事は、一度、投影パラメータが得られたならば、入力された顔表情画像から感情を認識することなく、単なる三次元データの投影と対応付けだけで表情転送が実現されるということである。
図4 表情画像と表情空間の対応
図5にリアルタイム表情転送システムの構成を示す。システムは大きく分けて以下のように三つに分けられる。
[送信側]:一連の画像を逐次取り込み、表情空間 FES-A へ投影する。更に、表情空間 FES-A より FES-B へアフィン変換する。
[送信]: 三次元の表情空間情報を転送する。
[受信側]:再生側で持っている FES-B の表情空間データベースと、転送された FES-B の表情空間点の類似度を計算し、最も似通った画像データを再生する。
図5 表情転送システム
図6には以上の手法を用いて再生された表情画像の例を示す。この結果、多くの表情画像の同期は妥当であることが検証された。が、時として入力された表情画像が曖昧である場合には、再生された画像が適切な対応がなされているか否かの判定が難しい結果も得られた。今後、受け手側の再生画像の評価を行ないたい。
図6 表情転送例
(文責:大場 光太郎)
[発表者]
機械技術研究所 ロボット工学部 バイオロボティックス 大場 光太郎 kohba@mel.go.jp
Tel: 0298-61-7264, Fax: 0298-61-7275
[連絡先]
機械技術研究所 統括研究調査官室 千阪文武/石塚一則
Tel: 0298-61-7034, Fax: 0298-61-7033
chisaka@mel.go.jp,ishizuka@mel.go.jp