5 Video Basics
Barry G. Hanskell, Atui Puri, and Arun N. Netravali,
"DIGITAL VIDEO: AN INTRODUCTION TO MPEG2", pp.80-94.
- 実際にビデオ圧縮の話をする前に、特にMPEGによるビデオ圧縮をお話する前に、ビデオ信号自体の幾つかの側面と関連事項を理解する必要があります。
- ビデオ圧縮を簡単に言えば、どのようにビデオ信号が発生されるか、どのように人間の目は視覚情報を処理するのか、どのようにビデオ信号はストレージや伝送のために表現されるか、幾つかの表現方法間の変換方法などを理解する必要がある。
- ここでは、これらに対する解答とそれ以上の内容を提供する。
- MPEGと以上の事柄がどのように関わるかを、皆さんが考える前に、MPEGビデオ圧縮はデジタルフォーマットで表されたカラービデオ信号に対して行われることをよく覚えておいてください。
- 以前の章で説明したように、デジタルフォーマットは保存や伝送に対して強いだけでなく、データを取り扱うことが可能である。
- また、用途や使用可能なバンド幅によって、複数あるビデオ表現の内の1つがMPEG圧縮として使用されることが可能である。これは、カメラによって取り込まれた画像とは異なります。
- それだけでなく、MPEGによるビデオ圧縮はディスプレイのためにデコードされる。そのデコードされたフォーマットがディスプレイと合わない場合、デコードされたビデオ信号は変換されなければならない。
- まず最初にTVやFilmで使用されるビデオスキャンを中心にビデオイメージング処理をお話する。
- IAR(Image Aspect Ratio)はディスプレイの形状に関わり、Gammaは電圧と信号強度を制御する。
- 次に、人間の視覚システムのお話をする。色つきの光の特徴であるHue,
Saturation, カラー信号を示す座標システム、TV等で使用されているcompositeとcomponentシステムを紹介する。
- 第3に、MPEG圧縮はデジタル信号を扱うので、簡単にアナログ信号からのデジタルビデオ信号の生成を述べる。
- 第4に、MPEGコーディングが使用するデジタルコンポネントフォーマットについて述べる。
- 第5,6に、MPEGによるビデオフォーマット間のデータ変換について紹介する。通常これらのデータ変換はMPEGエンコード前のプリプロセシングや、MPEGデコード後のポストプロセシングで用いされる。
- 最後に、mixing of videoと呼ばれるユニークな変換を述べる。これは、オーバレイドTEXTや画像のあるMPEG-1・2で使用される可能性があり、将来のMPEGと関連する。
5.1 Video Imaging
- まず最初に、イメージングはプロセスであり、そのプロセスにより現実のシーンの表現が生成される。
- イメージングには多数のタイプがあり、通常の写真、X-線、電子ドキュメント、電子静止画、動画やTVがあります。
- ここでは、シーンでの動きを適切に表現する時間変化のイメージングを考える。
- Videoは時間的に、取られた静止画のシーケンスの集まりと考えれる。
- 各静止画は有限領域の光エネルギーや波長の分布を人間を対象として示すものです。カメラというイメージングデバイスでは見る人は有限の四角のサイズを通して、シーンを見る。
- この四角のウインドウの各点で、光エネルギーは値を持ち、これをIntensityと呼ぶ。
- この人間の感じる光のIntensityは異なる波長ごとのweighted
sumとなる。
- カメラのレンズはイメージャーのフォトセンシティブ面にシーンのイメージを写しだす。
- このフォトセンシティブ面は光信号を電気信号に変換する。
- 大きく分けて、2つのVideo Imageが存在する。1つはチューブタイプのもので、vidicons,
plumbicons, orthiconsがある。
- 最近では、CCD(Charge-Coupled Device)のような固体センサーがある。
- チューブイメージャーのフォトセンシティブ面は普通電子ビーム等の電子的方法でSCANされ、2次元の光信号は電気信号に変換され、明るさは電圧で示される。
- CCDでは電気信号が直接読み出される。
5.1.1 Raster Scan
- Scanningは連続的に変化する2次元信号をサンプルする1つの形態である。
- Raster Scanは最も一般的に用いられている平面的なサンプリング方法であり、2次元イメージIntensityを1次元の波形に変換する。
- カメライメージャーのイメージは1ラインごとに左から右へ、上から下へSCANされる。
- イメージャは基本的にラインにそって、明るさを電気信号に変換する。
- 左から右への1つの行がSCANされた後に、回帰時間が必要であり、次の行を再び左から右へSCANする(図5.1)。
- TVカメラでは、電子ビームがフォトセンシティブ面をSCANし、その面上にシーンからの光が焦点結ぶ。
- (略)
- 絵を構成する最小単位はピクチャーエレメントの大きさにほぼ等しく、通常コンピュータではpixelと言い、またvideoの世界ではpelと言う。
- TVの1画面はpelが集まったグリッドのようになり、縦方向の解像はスキャンラインの本数で制限される。
- したがって、ちょうどスキャンラインとスキャンラインの間にある像は解像できない。
- ある測定によれば、縦方向の詳細の約70%が実際に表現される。
- 同様に、水平方向もpelのサンプリングにより詳細は失われる。
5.1.2 Interlace Raster Scan
- scanlineの数の選択は、バンド幅/フリッカー/解像度においてトレードオフを生じる。
- インターレースドスキャンは1つのフレーム(画面)を2つの異なる時間にサンプルされた2つのフィールドの合成とすることで、このトレードオフに適応した。
- これらの2つのフィールドは画面上で交互に表れ(インターリーブ)、すなわち2つの連続のラインは交互のフィールドのものである。
- これは、空間-時間レゾルーションでの縦方向-時間のトレードオフとなります。
- すなわち、ゆっくりとした動きの物体は高い縦方向の解像度が得られるが、速い動きの物体は高い時間分解能はあるが、縦方向の解像度は1/2に低下するということです。
- これは、人間の目の特性に合っています。というのも、ゆっくりとした動きの物体に対して、人間の視覚システムは空間的な詳細を感じることができるが、早い動きの物体ではできません。(図5.2)
- TV伝送とディスプレイの縦横比により、インターレースラスターSCANは必要なバンド幅と発生するフリッカーでリーズナブルなトレードオフを実現しています。
- この方式はTVに対しては、良い方法であったが、文字やグラフィックスを表示し、それを近くで見るコンピュータディスプレイにとっては満足できる性能ではなかった。
- もし、インターレースドTVをコンピュータディスプレイに使用したとしたら、結果は大領域フリッカー、ライン間フリッカー等の問題で悩まされる。
- これらの問題をなくすために、コンピュータディスプレイはnon-interlaced(progressive,
sequential)ディスプレイが使用されており、そのリフレッシュレイトは60フレーム/秒以上で通常72フレーム/秒である。
5.1.3 Films vesus Television
- 元来、TVは16mmフィルムと同等の絵を作るように設計された。しかし現実には、16mmフィルムの解像度はTVよりも相当高い。
- しかし、見た目のシャープさはそれほど変わらないのは、TVの時間的なレスポンスの良さによる。
- 全く異なるディスプレイシステムの性能比較には、EQUIVALENT
LINE NUMBERのコンセプトが有効であり、例をTABLE 5.1に示す。
- 述べたように、TVシステムはFILMの性能を達成できる。しかし、種々の条件でTVシステムの性能は劣化する。(略)
- 人間の目の反応速度は一般的に連続であり、目から脳に神経は1000パルス/秒の速度でインパルスは伝わる。
- TVもmotion pictureも少し異なるイメージ(フレーム)のシーケンスを見せる。
- シーンの動きを現実的に見せるには、フレームのイメージング速度はガタガタなしにモーションキャプチャするのに十分高くあるべきである。(略)
- 動画の初期の時代には、スムースな動作の描画には最低で15フレーム/秒の速度が必要であった。
- したがって、古い映画では16フレーム/秒が使われていた。しかし当時、カウボーイ映画のアクションを見せるために、映画業界は24フレーム/秒に変更した。そして、現在でも24フレーム/秒が映画で使われている。(略)。
- ヨーロッパでのモノクロームTVで使用されているフレームレイトはやや高くて、25フレーム/秒であり、これは電気交流の50サイクル/秒からきている。
- ヨーロッパにおいては、TVはPALとSECAMというシステムが使用されており、どちらも25フレーム/秒である。
- ヨーロッパでは24フレーム/秒のMOVIEを25フレーム/秒で放映するのがあたりまえであり、PALとSECAM方式のTVは広く使用されている。
- 米国でのモノクロームTVのフレーム速度は30フレーム/秒であり、60Hz交流との干渉を防ぐために決まった。
- 1953年に30フレーム/秒のNTSCシステムにカラーが付加され、ビデオ信号キャリアとAudio信号キャリアの分離の必要性のために、0.1%の変更がなされ、29.97フレーム/秒になった。
- 日本でもNTSCが使われている。
- ちゃんとした理由もなく選択されたNTSCのフレーム速度は後々、良い選択となった。というのも、TVと映画では見る環境が異なったからである。
- 映画は暗闇で見るので、人間の目のフリッカーや動きのスームスさへの感度が低下するが、TVは明るい所で見られ、明るい所では人間の目はフリッカーや動きのスムースさへの感度が増す。
- したがって、TVではより高いフレーム速度が必要である。
5.1.4 Image Aspect Ratio
- Image Aspect Ratioは絵の縦横比であり、全体の見栄えに関わる。
- たとえば、通常のTVではIARは4/3であり、幅が高さの1.33倍である。
- 1953以前は映画業界も1.33を使用していたが、その後ワイドスクリーンフォーマット(IAR=1.85かそれ以上)へ移行した。
- その後、ユーザーの調査でワイドが良いことがわかり、HDTVではIAR=1.78が採用された。
- 最大のシネマスコープのIARは2.35である。(略)
5.1.5 Gamma
- 多数のTVカメラやすべてのCRTによるディスプレイは信号電圧と光のインテンシティ間で非線形な関係をもつ。カメラのへの光入力強度やディスプレイの出力光強度は電圧のGAMMA(γ)乗に比例する。
B = C x V ** γ + b
- B は Light Intensity、V は電圧、C
はゲインファクター、b はcutoffかblacklevel、γ
は1〜2.5(最大3)。
- 何百万台ものTV受像機でガンマコレクション回路を不要にするために、伝送前にガンマコレクションはなされている。
- カメラのγ=1、CRTのγ=2.2ならば、カメラの出力電圧は1/2.2乗=0.45乗されている。
- 付加的な利点として、ガンマコレクションされた電圧信号はノイズの影響を受けにくいという特性もある。
- 通常のTV放送では、図5.4に示されているように、カメラからの信号はガンマ補正されており、そして変調され、RF信号として伝送される。そして、アンテナで受信され、復調されて、TVディスプレイへと送られる。
- ここまで、モノクロームTVの話をし、カラーTVの話を引き伸ばしてきた。次のセクションではカラーTVの設計に関する人間の目の特性を紹介する。
5.2 THE HUMAN VISUAL SYSTEM AND COLOR TV
- これまでに説明したビデオイメージングをバックグラウンドとして、人間の視覚システムのややこしいところや、色の認識、色の表現そしてカラーTVシステムを説明する。
5.2.1 The Human Visual System
- 人間の目は複雑なシステムで、図5.5にその構造を示す。種々の異なる物体からやってきた入力光はCORNEAにより屈折され、PUPILへ向かう。PUPILとはIRISの開いた部分であり、それを通して目に光が入る。入力光は再びレンズにより屈折され、眼球の後部に向かい、RETINA上にイメージを作る。
- RETINAは光に感応するRECEPTERにより構成される。その感応部はPHOTORECEPTORSと呼ばれ、神経細胞に接続されている。光はこれらのPHOTORECEPTORSに到達するために、最初に神経細胞を通過する必要がある。
- PHOTORECEPTORSは化学色素を含み、その色素は光を吸収し、神経反応を起こす。
- PHOTORECEPTORSには2つのタイプがあり、1つはRODSでもうひとつはCONESである。RODSは低い光量に対応し、CONESは昼間のような通常光の元での詳細や色に対応する。
- RODSとCONESは光が可視領域にあるときに働き、目が見えるようにする。PHOTORECEPTORSにより吸収された光は、化学反応を起こしてその色素を漂白してしまう。それによる色素の漂白具合によって、色への感度が減少する。一般的に、漂白された色素の量は光量によって増減する。
- RETINAからの視覚情報は光神経を通して、脳に伝送される。
- 人間の視覚は両目によりなり、右目と左目のイメージで作られる。左眼のイメージは右脳で、右目のイメージは左脳で処理される。(略)
- 種々の波長の光がCOLORと呼ばれる感覚を作り出す。異なる波長の分布は違った色に感じられる。したがって、カラーとは与えられた光強度の可視エネルギーであり、与えられた波長の合成の可視エネルギーとなる。
- 通常の人間の目は異なる色によって発生した感覚の違いを区別することが可能であり、色は分類可能となる。
- 先に、CONESにより色を感じることを説明した。人間のRETINAには色を感じる領域があり、3種のCONESにより構成される。そして、おのおのはRED,
GREEN, BLUE光に独立に感応する。
- 従って、感じる色の感覚はRED, GREEN, BLUEの光の相対量に依存する。もし、BLUEとRED
CONESのみが感応した場合には、感覚としてはMAGENTAとなる。
- 30%RED, 60%GREEN, 10%BLUEでは白色光と感じる(???)。
5.2.2 Hue and Saturation
- 可視光により生成される色として知られる感覚はHUEとも呼ばれる。可視光とは波長のスペクトラムをもつ電磁放射ですので、HUEはそのドミナントな波長で決まる。
- 一方、HUE以外にSATURATIONも他の特性であり、色の純粋さに対応する。たとえば、単色光すなわち単一の波長からなる光では、SATURATIONは100%である。
- 一方、白や灰色光のSATURATIONはゼロである。
- BRIGHTNESS, HUE, SATURATIONなる3つの光の基本特性はそのスペクトラムの分布により定義される。スペクトラムの分布とは振幅の波長依存性である。
- 先に述べたように、光はRETINAのCONESで感覚となるので、RERTINAのCONESが同じ反応をしたならば、感じるHUEとSATURATIONは同一となる。
- "TRICHROMATIC"理論によれば、ほとんどすべての色のHUEとSATURATIONは3原色の組み合わせにより表現できる。
5.2.3 Color Primaries
- 原色の選択の1つの要求事項は、独立であり、適当な組み合わせにより広い範囲のHUEとSATURATIONを表現できることである。基本的には2種類の3原色があり、SUBTRACTION
PRIMARIESとADDITIVE PRIMARIESで、前者は印刷、写真、ペイントで用いられており、後者はカラーTVで用いられている。
- 任意の色は3つの原色の混合により再現できるが、人によっては混合の割合が異なる。
- 1931に多数の通常視の人々のデータにより、CIEは基準観察者を決めた。
- CIEカラーダイアグラムは、ひづめ型領域を示し、その各頂点は独立な色に対応し、それは(X,Y)座標で示される。
- これらの3つの頂点は原色を示し、これらの頂点からなる三角形はすべての色を示します。FCCはこれらの頂点を主原色(PRIMARY)とした。PALも同様です。
- 先に述べたように、1953年にUSAでモノクロームTVにカラーが追加され、NTSCへ移行した。
- このNTSCは南北アメリカ、カリブ、アジアの一部で採用された。一方、PALとSECAMカラーTVシステムはヨーロッパと他の地域で使用された。これらの方式は解像度/フレーム速度で基本的に異なるが、それらはすべてCOMPOSITEシステムというクラスに属し、類似点は多い。2つめのクラスのCOMPONENTシステムはデジタル用途で使用されている。
5.2.4 Composite Systems:
- コンポジット(合成)システムでは、ルミナンス(明るさ)信号と、クロミナンス(色)信号は同一チャネルの同一キャリア信号に多重化されている。NTSC、PAL、SECAMのような合成フォーマットはモノクロームTV信号との互換性のために設計されている。
- すなわち、モノクローム受像機はカラーTV信号を受信できるし、カラー受像機は白黒TV信号を受信できる。
- カメラで撮影された画像は一画素に対して、RED、GREEN、BLUEの3つの色の重みをもち、また、受像機でも最終的にはRGBの各要素がディスプレイモニターに送られる。
- しかし、中間の伝送や保存にはルミナンス信号Y(明るさ)、と2つのクロミナンス信号が使用されている。この方式の必要性は、NTSCにおいてモノクロームすなわちY信号を使用するモノクロームレシーバとの互換性による。
- 人間の目は緑に敏感で、続いて赤、青と続くことは有名である。NTSCシステムはこの事実を利用して、明るさ信号Yに比べて、色信号に低いバンド幅(帯域、情報が少ないの意味)を割り当てる。これにより、質を落とさずにカラーの質を保つことができる。PAL、SECAMも同様である。
5.2.4.2 The NTSC System
- NTSCカラースペースの明るさ(Y)、色(I, Q)はgamma-corrected
RGBコンポーネントから生成できる。
Y = 0.299 R' + 0.587 G' + 0.224 B'
I = 0.596 R' - 0.274 G' - 0.322 B'
Q = 0.211 R' - 0.523 G' + 0.311 B'
R' = 1.0 Y + 0.956 I + 0.621 Q
G' = 1.0 Y - 0.272 I - 0.649 Q
B' = 1.0Y - 1.106 I + 1.703 Q
- NTSCでは、YIQはすべて4.2MHzの帯域内に入っている。Yだけで実は4.2MHzを取るので、この3つのコンポーネントを同じ4.2MHz帯息に入れるには、周波数インターリーブという方法を使う。
- カラー信号のサブキャリアを3.58MHzにして、IとQはQuadrature
Amplitude Modulation (QAM)と呼ばれる、IとQの位相を90度ずらして、それぞれを振幅変調する。
- 近似的に、IとQの和の振幅はSATURATIONになり、位相はHUEになる。
5.2.5 The Component System
- コンポネントTVシステムではルミナンスとクロミナンスは分離されている。これまでに述べたようなフォーマットも使えるが、CCIR-601のデジタルコンポーネントVideoフォーマットが重要である。
- これは、Y、Cr、Cbからなり、各8ビット(0-255、やっとデジタルの話になった)のGamma-corrected
RGBに対して、以下のようになる。
Y = 0.257 R' + 0.504 G' + 0.098 B' + 16
Cr = 0.439 R' - 0.368G' - 0.071 B' + 128
Cb = -0.148 R' - 0.291 G' + 0.439 B' + 128
- これよりYは16−235、Cr,Cbは16−240の範囲となる。逆変換は、
R' = 1.164 (Y - 16) + 1.596 (Cr - 128)
G' = 1.164 (Y - 16) - 0.813 (Cr - 128) - 0.329 (Cb - 128)
B' = 1.164 (Y - 16) + 2.017 (Cb - 128)
- Y, Cr, Cbをgammma-corrected RGBにする折に、RGBの値は0−255の中に入るようにする。
- Y成分のサンプリングレイトは13.5MHzで、クロミナンスは6.75MHzであり、1ラインの画素数は720で、NTSCでは486ライン、PALでは570ラインである。
5.3.6 The 4:2:0 Format
- デジタルにおける4:2:0ビデオフォーマットは特に画像の解像度とは関係なく、ルミナンス成分とクロミナンス成分の相対関係のみを規定する。
- MPEG2の4:2:0ビデオフォーマットでは、クロミナンス成分Cr、Cbが水平方向にも垂直方向にもルミナンス成分Yの半分である。
- 言い換えれば、2x2の4つのルミナンスサンプルに対して、2つのクロミナンスすなわち、1つのCrと1つのCbがある。正確な位置は図5.10。
- 図5.12にSIFフォーマットが示される。
以上