映像チャプタリングについて
映像チャプタリング技術または機能(コンピュータ・システムなどで自動的に映像シーンの変化点を検出しチャプタ分割を行う技術または機能と定義)に関し、いろいろな尺度や観点があるようなので整理してみました。 ご参考にしてください。
1.映像シーン・チェンジを検出するタイプ
これは、厳密にシーン・チェンジ部分を検出するタイプで、CM等など短時間でシーン変化するものにも対応できる点が長所。短所は、映像内容によっては全体のチャプタ数が数百個にのぼり内容確認に時間がかかる。プロ向きの編集用途では使われている技術。技術系企業では類似する方式を保有しているところもある。EB(Earth Beat:アースビートの略)の技術では、EBムービプレーヤ2.xで採用されている『Smart Chaptering』がこれに相当する。
2.DVDコンテンツのようなチャプタ内の代表シーンを映像インデックスとして表示するタイプ
現状では、映像内容やストーリを人手で確認し、適切な映像シーンをインデックスとして選別している。海外の技術系企業では、ある程度コンピュータ・システムによる自動化を提供しているところもある。EBの技術では、EBムービプレーヤ2.xで採用されている『Scene Navi-2』がこれに相当する。
3.映像内容に対応しながら、特定の映像チャプタ数にまとめるタイプ
現状では、この自動化技術は見当たらない。映像チャプタ表示とは「映像をビジュアル表現により人間に内容のおおよそを把握させる」と定義した場合、いろいろな表示機器(TV、PC、携帯電話のディスプレーではスクリーンサイズや解像度が異なる)上で適切なビジュアル表現を行わなければならない。このため、特定の有意な映像チャプタ数にまとめる技術は不可欠であると考えられている。EBの技術では、DigestViewer2.0やMusicClip2.0で採用されている『Scene Navi-1』がこれに相当する(分かりやすく、オートチャプタリング:Auto-Chapteringとも呼んでいる)。
戻る...
物体画像サーチ:GLLおよびGTL-FXS
世界最小(当社調べ)の画像照合/サーチ・アルゴリズム(GLLおよびGTL_FXS)を開発し提供している。このアルゴリズムの特徴は、容量が小さいという以外に、特徴点抽出などの技術とは違い、元になる画像、例えば、写真のなかの顔部分とか、車の部分(テンプレート画像と呼ぶ)そのものを他画像と照合あるいはサーチし、大きさ、傾き、変形の度合い、輝度の違いにより類似度あるいは適応度という評価関数で表示する。一枚のテンプレートに対し照合/サーチの定格がそれぞれ定められているため、同一物体に対し、複数枚のテンプレートを用いた精度の高い照合/サーチが可能となる。
また、三次元画像サーチにも対応が可能と考えている。アルゴリズムの容量は、携帯電話で使用されているCPU(ARM9)などのプロセッサーで稼働可能なほど小さく(4Kバイト)、スピーディで本人認証用途の場合、1秒間に数回実行可能である。また、物体画像であれば、どのような画像でも良いため、顔画像以外にも、車、人形、楽器、ジュエリーなどの物体画像でサーチ/照合することが出来る。サーバ上での画像検索にも充分適応できる。
戻る...
映像シーン認識:SP(ScenePick、シーンピック)
前出の照合/サーチ・アルゴリズムを動画に応用したシーンピックシステム(SPシステム)も現在開発が終わり、提供中である。このアルゴリズムは、シーンの変わり目を検出でき、アプリケーションの構築の仕方によって自由にチャプター数を変えてチャプター分割ができるようになっているため、自分の見たいシーンを楽々と探し出せるインテリジェントな機能を提供している。映像編集支援ツールとしても活用できる(CP21の制作ツールも本システムをベースに開発された)。
また、サンプルアプリとしてハイライトシーンを含めた早見視聴の機能も提供している。アプリ構築ノウハウも提供が可能である。エンターテイメント仕様からセキュリティー仕様まで幅広い用途に適している。このアルゴリズムも前出の照合/サーチと同様に6Kバイト程度と非常に小さく作られているため、iPodのような携帯端末から動画配信サーバまでの広範囲な応用が可能となっている。1時間のムービーを1分から20分程度までで自由に早見ができたり、見たいチャプターをすぐに探し出し見ることができるので、通勤、通学などの車内での使えるツールとなる。e_ラーニングにも最適なツールとなる。
戻る...
メタデータ・システム:動画配信サーバで威力を発揮
アースビートのSPシステムの活用例として、インテリジェントな動画配信サーバソフトへの応用があげられる。以降、これをSP動画配信サーバと呼ぶ。
(従来の動画配信システムの問題点)
まず、従来の動画配信システムの問題点として考えられているものを列記してみよう。
1. 多数の映像から、個々の全体要約映像をみて最初に視聴したいコンテンツを判断・選択できない
2. ストリーミング動画の場合、DVDのようなチャプタ・インデックスが一覧表示されていない
3. 途中まで観て、次から続けて見終わった所から視聴できない
4. 以前まで観た部分の要約を観て思い出してから、本編を続けてみる事ができない
5. 大量の動画映像から、観たいものをすぐに探せない
(SP動画配信サーバのソリューション)
これらの問題に対するSP動画配信サーバのソリューションは、以下のとおりになる。
1. 映像インデックスの一覧表示と各インデックス毎の視聴サービス
2. 全体映像の早見(全体の視聴時間の30%の時間で、または1〜3分で)
3. 映像のハイライト視聴(例、サッカーで華麗なプレーもゴールシーンも見逃さない等)
4. 静止画による紙芝居風視聴
5. 映像チャプタ・スキップ機能
(インテリジェント機能実現のメカニズム)
では、何故SP動画配信サーバでは上記のようなインテリジェントな機能を実現できるのだろうか。そのメカニズムは、動画配信前に予め映像シーンのインデックス情報とハイライト情報を分析しメタデータとして生成しておき、配信時のこのメータデータを利用してリアルタイムで上記サービスを実現しているものである。このように、事前に映像のメタデータを生成しておく事で配信時にリアルタイムでいろいろなサービス機能を提供できかつ、運用・保守においてもよけいな映像を生成しないため、よけいなコストが発生しない等のメリットがある。
(高速なメタデータ生成機能)
これらサービス機能は、アースビートのSPシュミレータにより容易に体験できるものであるが、ではメタデータ生成時間を見てみよう。なお、映像インデックス情報生成およびハイライト情報生成は全て、ボタンクリックのみの全自動処理で行われている。また、使用プラットフォームはApple社iMacG5(1.6GHz)である。
1. 全自動映像チャプタ分割(映像インデックス生成):処理時間は平均120秒(映像長に非依存)
2. 全自動映像ハイライト情報生成:処理時間は約6分(120分ものの映像で)
3. 上記情報をメタデータ・ファイルとして生成(全自動):上記処理と同時に行う
例えば、7,000本/7,000時間の映像からメタデータ(映像インデックス情報)を自動生成するのに必要な時間は、僅か1日間(約24時間:iMacG5を10台使用時)コンピュータを動作させておくだけでよい事になる。また、同じように映像ハイライト情報も7,000本/7,000時間の映像を対象に処理した場合、35時間でメタデータ生成が完了する。非常に高速である。
一方、従来のように人手で映像インデックスをつけたりハイライトを編集(ノンリニア編集ソフト等を使用して)する作業では延べ7,000時間以上の作業時間が必要とされたり、この作業を複数の人手で行い作業時間を1/100(70時間)に低減しても逆にコストがかかる問題があった。また、これら作業では視聴サービス毎コンテンツ内容毎に作業内容が異なるのでマニュアル化も大変である。
(むすび)
いよいよ、ブロードバンド・サービスが本格化し多様な動画コンテンツ配信サービスのニーズが高まっている今、アースビートのSPシステムがIT文化の広がりに貢献できるものと考えている。
戻る...