マルチメディア協調型コンテンツ制作


全体像

映像コンテンツは一般に、映像クリップ・音楽クリップ・トランジション効果などの複数のメディアを組み合わせることにより、生成される。

本研究では、専門家が制作した映像コンテンツを事例映像とし、 事例映像における動画及び音響の低レベル特徴量の共起関係や変化パターンに基づき、視覚的・ 聴覚的に調和したマルチメディア協調型コンテンツの制作を支援するシステムを提案する。

全体像


映像クリップ列生成

映像文法に代表されるように、映像クリップの並びにはあるルールが存在すると考えられる。 そこで、事例映像を模倣した映像クリップ列を作るため、 まず事例映像を構成する各ショットを特徴量の量子化に基づきシンボル化し、 その時系列パターンを隠れマルコフモデル(HMM)により学習する。 学習したHMMに基づき、シンボル列を生成し、素材映像クリップ群から各シンボルに適切な映像クリップを選択する。


映像クリップ列生成

音楽候補選択

映像シーンの印象に合った音楽を付与することにより映像コンテンツの質が向上すると考えられる。

そこでまず、生成された映像クリップ列に類似した事例映像を検索、 事例映像に付与されている音楽に類似した音楽クリップをユーザの持つ音楽データベースから 検索することにより映像クリップ列の印象に合う音楽クリップを選択する。


音楽候補選択

音響境界抽出

ショット境界と付与音楽の音響境界を同期させることでよりよい編集映像が生成できる。 本研究では、事例シーンにおける音響境界及び非音響境界付近の一定フレームの区間における音響特徴の変化をマルコフ連鎖モデル(MCM)により学習する。 そして、入力音響に対し、それぞれのモデルからの出力尤度により音響の境界を決定する。


音響境界抽出

重要部分映像抽出

音響境界に映像クリップの境界を同期させるために各映像クリップから冗長部分を省き、重要な部分映像のみを抽出する。

本研究では、事例映像を構成する各ショットの特徴として、 フレーム列の特徴変化パターンを学習した隠れマルコフモデル(HMM)に基づき、映像クリップから重要部分映像を抽出する。


重要部分映像抽出

トランジション効果の付与

最後に、事例映像中のショット境界に対して付与されたトランジション効果ごとに、 音響境界前後の音響特徴変化、ショットのカテゴリ遷移をそれぞれMCMで学習し、 トランジション効果モデルを生成する。 そして、各音響境界前後の音響特徴変化、及び映像クリップのカテゴリ遷移に基づき、トランジション効果を決定する。


トランジション効果の付与

研究テーマ一覧