HANDAUTOMER

AZSTOKEの特許を利用した
音量調整の自動化技術

✔課題を解決「HANDAUTOMER」

昨今のゲームサウンドの現場では、数千、数万と音声の整音が必要になります。

吹き替えボイスなどの多言語対応の場合さらにボイス数が増加します。

収録された声優の音声は、感情の起伏を声の表現で演出し、キャラクターに命を吹き込みます。感情の起伏は、声の張りの大小で音量が一定になりません。

そのため、視聴者が聞き取りやすくするために、音声を担当するサウンドクリエイターが声の音量を一定にする作業が必要になります。

音量を合わせる手法として代表的なエフェクターがコンプレッサーです。

コンプレッサーは指定の音量レベル（Threshold）を超えた際に音を潰す処理を施し音量を一定の値にします。しかしこの手法は指定した音量レベルが全ての音声に対して適切ではなく、一括処理で行ってしまうと相当数の声優の声質を落としてしまう原因になります。

そのため、現在は人間の耳で聞いて、音量が大きいと感じる部分を手動の音量カーブの調整をすることで音声の質を損なわずに音量の調整を行っていました。

しかしそれらの作業は万を超える音声に対して、一つずつ丁寧に作業を行う必要があり、途方もない作業時間がかかっている現状があります。

当社はその作業を機械化させるため、研究開発を行い、最適なアルゴリズムを発見しました。そのアルゴリズムをReaScriptに反映させることにより、大部分の音声に対して自動化を実現することに成功しました。

✔音量調整を「２秒」で実現

オーディオ波形の情報を取得し、特許のアルゴリズム計測を音量を調整します。

実行結果を得るまで1音が２秒で実現可能であり、ReaScriptと組み合わせることで100音を約3分で整音完了します。今までは一つの音の整音に約2分かかっていたものが機械化することで100音が3分で実行できるまでの速度になります。この技術はゲームサウンドのみならず、音声を扱うテレビ、映画など多くのサウンド作業に貢献できる技術になると考えられます。

✔プロ仕様-微調整可能-

全自動で行う上で、懸念点は、問題があった際に即座に微調整ができるのかどうかです。

音量カーブにより計測と設定を行うことで感覚的に調整を可能にします。

調整をしやすくするために調整ポイントは最小限の変更箇所のみとしており、調整しやすいカーブ設計になっています。

✔音量が異なるファイルでも実行可能

特許のアルゴリズムを利用することでオーディオ波形単位で計測することで音量が違うファイルでも実行可能です。

収録環境や声優、セリフの違いで起きる音量感の差異による調整幅が違う場合でも、オーディオ波形ごとの情報を基に自動的に最適な専用のカーブを作成することができます。

✔長尺ファイルでも実行可能

特許のアルゴリズムを利用することで、長さを問わず計測を行い、音量カーブ設定できる設計になっています。

そのため、長い尺の音声でも音量の変化を読み取り、正確な音量カーブを実現します。