マルチモーダル環境センシングによる人間行動の認識理解

３．マルチモーダル環境センシングによる人間行動の認識理解

マルチメディアセンシングによる会議環境の記録システム

   会議環境における人同士の活き活きとしたコミュニケーションの様子を記録する媒体として，発言者や参加者の映像と音声，およびイベントのアノテーションからなるマルチメディアログ(MMLog)が提案されている．
   本研究では，その作成を支援するための会議環境記録システム(MMLogger)を提案する．MMLoggerはマイクロフォンアレーと全方位カメラから構成されており，これを会議参加者の中央に配置することで会議の様子を忠実に記録することができる．マイクロフォンアレーは話者の発言を記録するとともに，話者の方向を推定するのに利用される．全方位カメラは側方360°の映像を取得することが可能であり，この映像と音声による話者方向の推定データをもとに，話者の正面映像を作成する．

図1.MMLogger 図2.MMLoggerを用いた会議の様子

図3.MMLog

閉じる

研究テーマ一覧

   複数の人が集まって会議やゲームなどをする場合，その進行状況や結果を記録する際には，通常，紙を媒体とする議事録やスコアなどにまとめられる（以下，これをログと呼ぶ）．しかし，紙を媒体としたログは，簡便性の面で優れているものの，会議における発言者の様子やプレイヤーの表情といった，人間同士の活き活きとしたコミュニケーションの様子を忠実に記録してまとめたい場合には限界がある．
   このような，人間同士のコミュニケーションの様子を記録するログとして，音声や映像からなるマルチメディアログが考えられる．これは，発言内容を構造化したデータと，発言場面の映像や音声のデータから構成されており，それらのデータをリンクさせることで，ログの閲覧者は会議における発言内容と共にその場面における発言者の様子や表情なども見ることができる．
   ところで，このような機能を有するマルチメディアログを作成する際，その問題点として，撮影環境の問題が考えられる．たとえば，個々の発言者の表情を撮影するために，参加者に応じて複数のカメラを用意するとなると，テレビの撮影現場のような大規模なセットが必要となる．また，それら複数のカメラは参加者の妨げにならないよう後方に配置する必要があるため，発言者の正面映像が撮影しにくいという問題も考えられる．
   本研究の目的は，全方位カメラとマイクロフォンアレーを併用することにより，撮影環境に依存しないマルチメディアログ作成システムを構築することである．

      図1．システム

      図2．全方位カメラで撮った画像の例

閉じる

研究テーマ一覧


図3.顔の特徴点と特徴量	図4.興味区間推定の流れ