技術情報

技術情報

開発者コラム

図研エルミックのエンジニアが開発にまつわるコラムを書いています。


 

2010年 news69号

2010/02/01

MPEG-4の隠れた機能

製品開発第一部 二課 K.I

パソコンやデジタル家電で映像を取り扱う際になくてはならないのが、映像コーデックです。

映像はデータ量が膨大なため、そのままでは非常に扱いづらいデータです。そこで、映像コーデックと呼ばれる圧縮・伸張アルゴリズムを使用して、できるだけデータ量を少なくしています。

映像コーデックの種類は一般的に普及しているものでも様々で、テレビ電話のH.261,H.263、Video CDのMPEG-1、DVDや地デジのMPEG-2、携帯電話の映像コンテンツや動画撮影のMPEG-4、ワンセグやブルーレイディスクのH.264、などなど圧縮効率向上を目指して日々進化しています。

今回は、そんな映像コーデックの中でもMPEG-4の隠れた機能をご紹介したいと思います。

MPEG-4の特徴の一つに自然画像と人工画像を組み合わせて使う機能があります。自然画像とはカメラで撮影した画像のことで、通常の映像コーデックはこちらを対象としています。これに対して、人工画像というのはいわゆるコンピュータグラフィックスのことです。

通常のコーデックがコンピュータグラフィックスを圧縮することができない、というわけではありません。実際、全編コンピュータグラフィックスで描かれた映画のDVDもたくさんあります。では、何が異なるかというと、MPEG-4の場合はコンピュータグラフィックスを画像として取り扱うのではなく、表現する物体の情報(頂点の座標等)をパラメータとして取り扱う、ということです。

例として、MPEG-4の規格としてあらかじめ定義されている顔モデルと胴体モデルがあります。顔モデルは輪郭や目、鼻、口等、胴体モデルは肩、腕、手、腰、足等、表情や姿勢を表現するために必要な特徴点が定義するものです。これら特徴点の初期位置や動きをデータ化することにより、コンピュータグラフィックスの人間を映像に登場することを可能にしています。

さらに、MPEG-4の別の機能であるテキストから音声合成を行う機能を利用すると、合成された音声を顔モデルが話しているように見える口や顎の座標移動データを、自動的に生成することもできます。

つまり、極端な話をすると、最初だけちょっと大きめのデータ(顔・胴体モデルの特徴点の初期位置、背景画像等)があれば、それ以降は顔モデルが話す内容のテキストデータだけで、コンピュータグラフィックスで表現された人間が文章を読み上げる映像を作ることができるわけです。

このような機能の大きなメリットは、やはり圧縮効率です。テキストデータだけなので、1コマずつの自然画像圧縮データと比較すると極端に少ないデータ量で済んでしまうわけです。

ただ残念なことに、現在のところMPEG-4のこれらの機能はほとんど使用されていません。記憶媒体の容量やネットワーク帯域の急速な増大化により、以前と比べて圧縮効率の重要性が下がっていること、用途の特殊性に対してデータ構造や処理内容が複雑になってしまうこと、MPEG-4のライセンス問題の決着の遅れ等、様々な原因があるようです。

こういった特殊な機能が日の目を見ないことを、個人的には残念に思いますが、業務で映像コーデックの圧縮データを解析することもあるため、素直(?)な内容であってほしいと思う気持ちもあります。

そんな期待と不安を交えつつ、次世代の映像コーデックにどんな機能が搭載されるのか今から待ち遠しく思っています。

 
(c) 2010 ZUKEN ELMIC,INC. All rights reserved.

バックナンバー

↑ ページTOPへ