• 2022.10.25

    第1回:ロバストメディア探索技術

    #テクノロジー

  • MediaSearch+ の各サービスの基本となっているのは、音・映像・画像の照合技術です。

    例えば全曲報告サービスでは、放送の時々刻々の音響信号の各部分について、膨大な楽曲データベースの各部分と照合して、該当する信号成分が放送に含まれているかどうか、含まれているならばどの曲のどの部分か、を判定しています。
    他のサービスにおいても、予め対象となる信号をデータベースに格納しておき、入力の各部分と照合することが基本になっています。


    これらの照合では、事前に曲名や対象物の名前などといったテキストの情報(メタデータ)がついているわけではない (それが分からないから照合しようとしている) ため、信号どうしの比較によって行う必要があります。
    このように、音、画像、映像 (動画) の信号同士の比較によって該当箇所を見つける技術を「メディア探索技術」といいます。


    メディア探索技術の研究は古くから行われていましたが、流通するメディア情報量の拡大とともに、1990年代後半から急速に研究が進展しました。
    その研究分野を切り開く先頭に立ってきたのが、MediaSearch+ に技術を提供している NTTコミュニケーション科学基礎研究所の研究チームです。


    メディア探索では、まず、高速性が必要になります。
    全曲報告サービスにおいても、百年単位の時間に相当する膨大な楽曲を対象に、10ミリ秒単位の細かさで、漏らさず照合を行う必要がありますが、信号どうしを順番に比較計算していく方法では膨大な計算が必要となり、現実的なコストではサービスを提供できなくなってしまいます。


    次に、信号の変形に対する耐性(ロバスト性)が必要になります。
    メディア信号は、デジタルでそのままコピーされる場合を除いて、画質や音質の劣化、編集や加工などによって、信号を表現する数値データ自体は大きく変化しているのが普通です。
    例えば放送で音楽が使われる場合、しばしば小音量の背景音楽として(しかも編集されて)使われます。またごく短い時間だけ使われる場合もあります。
    そのような状況下でも目的とする情報を正しく特定することは、一般に容易ではありません。


    このような課題を解決したのが、上記の研究チームが開発した「ロバストメディア探索技術」です。
    この技術の源流が生み出されたのは2000年頃に遡りますが、当時のメディア探索技術の常識とは異なり、信号の特徴的な部分だけをとらえて数段階の数値のみを用いて粗く数値化し、複数の部分どうしの整合性をとらえて該当部分を特定する、というユニークな着想に基づくものでした。
    このアイデアを発展させることで、極端にひずんだ音声や、音量の小さな背景音楽なども含め、瞬時に楽曲や対象物を特定することが可能になったのです。


    NTTデータは 2007年からこの「ロバストメディア探索技術」の実用化に携わり、上記の研究チームと併走しながら、ネット上のメディアコンテンツの特定、放送番組における背景音楽の特定など、実際のフィールドでの適用経験を積んできました。
    現在では、これらの経験も反映することで、当時に比較しても飛躍的に技術の改良が進み、更に大幅な高速化と高精度化を達成しています。


    今でも MediaSearch+のチームと上記研究チームとは継続して議論を行っています。

    今やメディア探索技術は音・映像・画像のコンテンツを扱う上で重要な基本技術となっており、一種の社会インフラとも言えるほど、メディア情報の制作、配信、視聴の各場面において広く活用されるようになっています。

戻る