3.マルチモーダル環境センシングによる人間行動の認識理解 |
マルチメディアセンシングによる会議環境の記録システム
会議環境における人同士の活き活きとしたコミュニケーションの様子を記録する媒体として,発言者や参加者の映像と音声,およびイベントのアノテーションからなるマルチメディアログ(MMLog)が提案されている.
本研究では,その作成を支援するための会議環境記録システム(MMLogger)を提案する.MMLoggerはマイクロフォンアレーと全方位カメラから構成されており,これを会議参加者の中央に配置することで会議の様子を忠実に記録することができる.マイクロフォンアレーは話者の発言を記録するとともに,話者の方向を推定するのに利用される.全方位カメラは側方360°の映像を取得することが可能であり,この映像と音声による話者方向の推定データをもとに,話者の正面映像を作成する.
図1.MMLogger 図2.MMLoggerを用いた会議の様子
図3.MMLog
複数の人が集まって会議やゲームなどをする場合,その進行状況や結果を記録する際には,通常,紙を媒体とする議事録やスコアなどにまとめられる(以下,これをログと呼ぶ).しかし,紙を媒体としたログは,簡便性の面で優れているものの,会議における発言者の様子やプレイヤーの表情といった,人間同士の活き活きとしたコミュニケーションの様子を忠実に記録してまとめたい場合には限界がある.
このような,人間同士のコミュニケーションの様子を記録するログとして,音声や映像からなるマルチメディアログが考えられる.これは,発言内容を構造化したデータと,発言場面の映像や音声のデータから構成されており,それらのデータをリンクさせることで,ログの閲覧者は会議における発言内容と共にその場面における発言者の様子や表情なども見ることができる.
ところで,このような機能を有するマルチメディアログを作成する際,その問題点として,撮影環境の問題が考えられる.たとえば,個々の発言者の表情を撮影するために,参加者に応じて複数のカメラを用意するとなると,テレビの撮影現場のような大規模なセットが必要となる.また,それら複数のカメラは参加者の妨げにならないよう後方に配置する必要があるため,発言者の正面映像が撮影しにくいという問題も考えられる.
本研究の目的は,全方位カメラとマイクロフォンアレーを併用することにより,撮影環境に依存しないマルチメディアログ作成システムを構築することである.
図1.システム
図2.全方位カメラで撮った画像の例
テレビ視聴行動からの個人的選好獲得システム
近年,ユーザの好みに合った情報を提供する個人適応型サービスが重要になりつつある.個人適応型サービスを行うためには,ユーザの興味,嗜好といった個人的選好に関する情報が必要である.
本研究では,テレビ視聴環境に設置したカメラやマイクからユーザのテレビ視聴行動を観測し,ユーザのとった行動とその時点で流れていた映像のコンテンツ情報から,個人的選好に関する情報を自動的に獲得するシステム(図1)を提案している.
このシステムでは,例えばユーザが野球の試合を視聴した場合,野球の試合を視聴したという情報から野球が好きであろうと推定できることに加え,ユーザのテレビ視聴時の行動と視聴映像のコンテンツ情報を利用することにより,ある選手の場面で興味を示したというように,シーン単位で個人的選好を得ることが期待できる.
図1.概念図
個人同定
テレビ視聴環境においては複数の人物が存在し得るため,そのような環境でのシステム利用を想定した場合,特定ユーザを同定し,個人的選好を獲得する必要がある.提案システムの使用環境として想定される一般家庭ではテレビを視聴するユーザが限定されるため,ユーザの顔画像モデルをあらかじめ登録することにより,人物同定が可能となる.
視聴区間推定
テレビを視聴していたか否かはテレビ視聴環境における個人的選好獲得において基本的な情報であると考えられる.そのため,視線方向を検出することにより,視聴区間の推定を行っている.撮影された顔画像から特徴点(図2)を抽出し,顔の向いている方向および視線の方向を推定します.そして,テレビ画面上での視点位置を求めることにより,テレビ視聴区間を推定している.
図2.顔の特徴点(視聴区間推定)
興味区間推定
本研究では,顔に表れる変化のパターンに着目することにより, ユーザがどの時区間において興味を持ったのかを判断します.
撮影映像から,顔器官に設定した点(特徴点)を抽出し, これらの特徴点から顔の変化を表す特徴量を算出します(図3). あらかじめ用意された興味区間の分かっている撮影映像から,興味の有無時における特徴量の変化のパターンを 隠れマルコフモデルを用いて学習させます. その隠れマルコフモデルを入力映像に対して適用させることにより,興味有り・無しの度合いを比較し,興味区間の推定を行います(図4).
図3.顔の特徴点と特徴量 図4.興味区間推定の流れ
映像サーベイランスシステム
近年,凶悪な犯罪がメディアによって多数報じられ,多くの人々が治安の悪化を感じるようになってきている.これに伴って安心して生活できる場をつくるためのIT技術に対する要求は益々高まってきている.犯罪を未然に防止したり,犯人捜査の物証が提供できる映像サーベイランスはその一つであり,様々な場において注目されている技術である.
しかしその一方で,映像サーベイランスはいくつかの問題を含んでいる.映像サーベイランスシステムでは一般的に多地点の映像を一個所に集約してモニタを行っているが,今後防犯カメラの設置数・設置範囲が拡大したとき,一個所に集約された映像をモニタしくれなくなる可能性がある.また,防犯カメラに映される人のプライバシー開示許容量は,個人や様々な要素によって変化するため,映像サーベイランスにおいて一定のプライバシーを保護することは困難であるという問題がある.
これらの問題を解決するため,本研究では地域コミュニティにおけるプライバシーを考慮した映像サーベイランスシステムを提案し,そのキー技術であるアクセス制御と視覚的抽象化について提案する.
図1.システムの概要
図2.視覚的抽象化