Harmonic Vector Excitation Coding
、あるいは
HVXC
は、
MPEG-4
オ?ディオ(MPEG-4 Part 3)で採用された低
ビットレ?ト
の
音?符?化
方式である。人間の
音?
を?象とし、2 k
bps
と 4 kbps の2種類の固定ビットレ?ト、および 1.2 ~ 1.7 kbps 程度の可?ビットレ?トをサポ?トする。
HVXC は、
デジタル放送
、
携?電話
、
インタ?ネット電話
、音?
デ?タベ?ス
などの??な用途に使うことができる。
?要
[
編集
]
HVXC は
MPEG-4
オ?ディオの
音?符?化
方式の1つで、1999年に
ISO
/
IEC
14496-3 Subpart 2 で定義され
[1]
、
その後 MPEG-4 Audio バ?ジョン 2(ISO/IEC 14496-3:1999/Amd 1:2000)で?張された
[2]
[3]
。
MPEG-4 オ?ディオの中で最も低いビットレ?トでの音?符?化を受けもち、固定
ビットレ?ト
(2 k
bps
、4 kbps)、可?ビットレ?ト(2 kbps 以下、4 kbps 以下)の?方をサポ?トする。
サンプリング周波?
8 kHz の 100 Hz - 3800 Hz の
?域幅
の音?信?を、低ビットレ?トでは
了解度
のみが確保された通信用の品質で、高ビットレ?トでは有線電話に近い品質で符?化できる
[4]
。
また、HVXC では音?の波形を直接符?化するのではなくパラメ?タ化して符?化するため、デコ?ド時に音?の速度とピッチ(音?の基本周波?)を?立して?えることができる。
HVXC の特?は以下の通りである。
- サンプリング周波?
8 kHz、
?域幅
100 Hz - 3800 Hz
- フレ?ム
長 20 ms
- 固定
ビットレ?ト
(2 k
bps
、4 kbps)、可?ビットレ?ト(2 kbps 以下、4 kbps 以下)の?方をサポ?ト
- 符?化?延 36 ms
- デコ?ド時に音?の速度とピッチ(音?の基本周波?)を?更可能
MPEG-4 オ?ディオでの位置付け
[
編集
]
MPEG-4 オ?ディオは多くのツ?ルの組み合わせからなり、HVXC や
MPEG-4 CELP
は人間の自然な音?の符?化を行う自然音?符?化ツ?ル(
natural speech coding tools
)の1つである
[4]
。 MPEG-4 CELP が2種類のサンプリング周波?(8 kHz, 16 kHz)と比較的高い
ビットレ?ト
をカバ?するのに?し、HVXC は MPEG-4 CELP でカバ?できない超低ビットレ?トでの符?化を??する。
さらに低ビットレ?トでの音?表現が必要な場合は、文字から音?を合成するツ?ルである MPEG-4
TTS
Interface(
Text-to-speech interface
)を使用する。
また、HVXC が音?のみをサポ?トするのに?し、音?をパラメトリックに符?化/復?するツ?ルとして MPEG-4
HILN
(
Harmonic and Individual Lines plus Noise
)があり、超低ビットレ?トで音?の符?化ができ、また HVXC と同?デコ?ド時に音?の速度とピッチ(音?の基本周波?)を?更できる
[4]
。
音?と音?を含む信?の低ビットレ?ト符?化には、HVXC と
HILN
とを信?の?容に?じ切り替えながら使うこともできる。
アルゴリズム
[
編集
]
HVXC の符?化アルゴリズムは、
線形予測符?化
(LPC)をベ?スに、LPC の?差信?の表現方法を工夫したものである
。
人間の
?
は、?道の周波?選?特性と音源である
??
などの音の特性や
有?
?
無?
の?別でモデル化できる。 HVXC では、
線形予測符?化
と同?、?道に相?する合成フィルタ?のパラメ?タとして
線形予測
(LP)
フィルタ?
の係?を用い、
有?音
?
無?音
で LPC の?差信?にあたる音源のパラメ?タのモデル化方法を切り替える。
有?音
での?差信?は、ハ?モニックコ?ディング(
harmonic coding
)と呼ばれる方法を用い、??音の基本周波?にあたるピッチ周波?と共にその
スペクトル
形?とゲインとをパラメ?タ化する。スペクトル形?は?差信?を
離散フ?リエ?換
(DFT)を使って分析することで求める。
無?音
での?差信?は、?純な
ホワイトノイズ
でモデル化するのではなく、
CELP
のようにあらかじめ用意した固定型コ?ドブックを用い、コ?ドブック値の中で適切なものを選ぶ VXC(
vector excitation coding
)と呼ばれる方法で信?の形?とゲインのパラメ?タ化を行う。
有?
?
無?
の?別を?純に行うのではなく4段階(有?1/2/3、無?)に?別することで音質の向上を行う。
ビットレ?トが高い場合は、
線形予測
係?の?や
有?音
での
スペクトル
形?を表すビット?、
無?音
での形?/ゲインパラメ?タの更新周期を?やし、より音?信?が適切に表現できるようにする。
具?的な符?化は以下のように行われる
。
- 線形予測
パラメ?タの計算と
LSP
の量子化
- 音?を分析フィルタ?に通し?差信?を計算
- 線形予測
係?から生成した分析フィルタ?に音?信?を入力し、線形予測の?差信?を計算
- オ?プンル?プでのピッチ分析
- ?差信?の
自己相?
から大まかなピッチ周波?を推定
- ?差信?の
ハ?モニック
?度を推定
- オ?プンル?プでのピッチ周波?をベ?スに正確なピッチ周波?を求める
- ?差信?の
離散フ?リエ?換
(DFT)より
倍音
成分の?度を求める
- 有?
?
無?
の判定
- ハ?モニック?度などを用い、周期的な波形を持つ有?音とそうでない無?音の?別を判定
- ハ?モニック?度の
ベクトル量子化
(有?音のみ)
- 無?音の?差信?を符?化(無?音のみ)
- あらかじめ用意した形?とゲインのコ?ドブックを用い?差信?を符?化
復?時には、符?化とは逆に、有?/無?判定や各種パラメ?タから?差信?を生成し、線形予測係?から生成した合成フィルタ?の入力として加えることで、最終的な音?信?を再合成する。
復?時に音?の速度を?えたい場合には、各パラメ?タを時間軸方向に補間しながら再合成を行う。ピッチ周波?や線形予測フィルタ?で表現された
フォルマント
周波?などを?えることなく速度の?更ができる。
ピッチ周波?も音?デ?タの一部としてパラメ?タ化されているため、ピッチ周波?だけを?立して?えることも容易である。
脚注
[
編集
]
?考文?
[
編集
]
- ISO/IEC.
Information technology ? Coding of audio-visual objects ? Part 3:Audio
. ISO/IEC 14496-3:2009, Fourth edition, 2009.
- Jacob Benesty, M. M. Sondhi, Yiteng Huang (ed).
Springer Handbook of Speech Processing
. Springer, 2007.
ISBN 978-3540491255
.
- Nishiguchi, Masayuki (2006-11). “Harmonic vector excitation coding of speech”.
Acoustical science and technology
(社?法人日本音響??)
27
(6): 375-383.
doi
:
10.1250/ast.27.375
.
NAID
110004836513
.
?連項目
[
編集
]
外部リンク
[
編集
]