物質が微少振動する映像から音声を復元するアルゴリズム 22
ストーリー by hylom
目で聞く技術 部門より
目で聞く技術 部門より
taraiok 曰く、
MITやMicrosoft、Adobe Systemsの研究者チームが、動画内の物体の微小振動を解析し、そこから音声を再現するというアルゴリズムを開発したという。ある実験では、15フィート離れた場所から防音ガラスごしにポテトチップの袋を撮影。その撮影されたポテトチップの袋の振動から、屋内の会話や流れている音楽などのオーディオ情報を復元できたという(MITNews、YouTubeに掲載されている動画、Slashdot)。
また、別の実験ではアルミニウム箔やコップの中の水、植物の葉の動きといった様子を撮影した映像からも音声を再現できたとしている。動画から忠実なオーディオ信号を復元するには一定のフレーム数が必要。実験では毎秒2000~6000フレーム撮れるハイスピードカメラを使用している。しかし、毎秒60フレームの撮影能力を持つ普通のデジタルカメラでも、一定の高周波振動の情報は推察できるとのこと。
この技術は法執行機関や法医学などの分野での応用が考えられている。また、これを応用することで「今までに無い新しい画像処理」を行える可能性もあるという。
マイクロ波を使った同様の盗聴装置(?)は聞いたことあるけど (スコア:0)
よくある監視カメラの映像からも盗聴(?)ができるようになるかもしれない、というのがこの研究の趣旨ですかね。
> 毎秒60フレームの撮影能力を持つ普通のデジタルカメラでも、一定の高周波振動の情報は推察できるとのこと
映像フレーム数が落ちたら、低周波振動しか推察できなくなるんじゃないのかな?
Re: (スコア:0)
ローリングシャッター現象を逆手に取ることで、フレームレート以上の周波数の振動を観察するらしいです。
折り返し雑音 (スコア:2)
折り返し雑音から元の振動を推定するんですね。
映像だと音声の折り返し雑音より情報量増えるのかしら。
Re:折り返し雑音 (スコア:2, 参考になる)
全然違う。
CMOSカメラでは隣り合う走査線の間でごくわずかな撮影時間のずれがある。
この撮影時間のずれを高速度撮影代わりに利用しようと言う話。
Re: (スコア:0)
衛星画像等から地上物体の速度を推定するアルゴリズム(RGBのラインセンサが物理的にずれているので対象の撮影時間が若干ずれるのを利用)に似た感じですね。
場合によってはCCDを意図的に移動や振動させたり、回転させるみたいな事を実施したらより低フレームレートでも可能になったりするのかな?
# RAWじゃないと圧縮コーデックで情報が台無しになりそうだけど。
Re:折り返し雑音 (スコア:2)
折り返し雑音からの推定ではなくて、ローリングシャッター撮影のライン間のズレを利用しているそうです。ブラウン管を思い出してください。
60fpsなら、垂直帰線間隔は60Hzです。グローバルシャッターでは人の声などとても記録できません。しかし、水平にスキャンしていく方式でたとえば
走査線数が1000本なら、水平同期は60kHzになる。各ラインが正確に1/60k秒ずつ遅れているのなら、それだけずつずらした振幅を重ねられるわけです。
いや、やれと言われてもできないですけど…
Re: (スコア:0)
>映像だと音声の折り返し雑音より情報量増えるのかしら。
原理的には増やすのは難しい気がしますがどうですかね
人間の音声を聞き分けるには3kHzくらいの帯域があるといいと言われていまして
>毎秒2000~6000フレーム撮れるハイスピードカメラ
このカメラのフレームレートは最大3kHzくらいの帯域が取れるようにサンプリングしましょうという前提で
決められたんでしょう。声を聞くという目的だと割と理にかなったフレームレートですよね
一方、60spsから音声を再構築するとなると、ほとんどあてずっぽうに近くなりますが
人の声しかない、という前提なら何とか出来きなくもないか、な?
Re:折り返し雑音 (スコア:1)
音はサラウンドとかを気にせず純粋に振幅だけをみれば空間的には一次元で、CDでも分解能は16ビットとかです。翻って、動画は二次元映像の情報で16ビットどころでは済まない大量の情報です。ですから、音に必要な時間分解能が100倍足りなくても、もともと映像が持っている情報量は100倍では利かないほどありますから、シミュレーションの逆演算で何とかなる、って話ですね。16ビットまでは戻せなくても、数十〜数百段階で十分音っぽいわけですし。
秒速300メートルの音が1/60秒間に進む距離は5メートルです。ですから、被写体の大きさが10メートルくらいあれば、音の先端と音の末端の与える影響が被写体に入りきるので、「現在の音」から「1/60秒前の音」までを連続的に再現シミュレーションできる、って話ですね。被写体が10センチくらいなら、その原理では難しいですが、実際には、反射や余韻が被写体を動かしているから、被写体自体の音速や特性などから推測できる、ということでしょう。
情報量そのもので下回っていない限り、空間分解能を使って時間分解能を補うのは理論的に可能で、そのアルゴリズムを組んでみたら、大した手間もかけずに意外と実用性がありそうだ、ってことでしょう。
Re: (スコア:0)
全くの門外漢ですが、モーショントラッキングの応用的な気がしますね。
8つの特徴点の振動する動きの度合いから3次元空間における位相を推定して再合成みたいな。
いや憶測でデタラメ言ってるだけですが。
Re: (スコア:0)
音波の速度を340m/秒とすれば、3.4kHzの音波の波長は 100mm になります。
カメラの解像度が高ければ、物の表面を音波が押したことによる、100mm程度の周期の凹凸が読めるかも知れません。
車内の秘密の会話とか (スコア:0)
マジックミラー号の振動から、中の音とか判別できるようになるんですかー!
#いや見たことないですけど。ほんとほんと。
Re:車内の秘密の会話とか (スコア:1)
Re: (スコア:0)
そんなん、車がゆれてるだろ。
レーザーを持ち出すまでもない。
それより、フードを付けて明るさを向こうより下げれば反射しな
NO CARRIER
Re: (スコア:0)
ガラス窓の振動から中の音をとる技術はすでにある(レーザー盗聴器)それでどうぞ。
そういや、ちょっと前に聞いたことのある (スコア:0)
レーザー盗聴器って今や普通に実用レベルなのかな?
Re:そういや、ちょっと前に聞いたことのある (スコア:1)
いやあ, 冷戦の時代にレーザーも使わずに赤外線で盗聴していたぐらいですから.
反射強度の変化を音声周波数帯でフィルタリングして増幅って手かな.
Re: (スコア:0)
映画やドラマでお馴染みですね。
数百メートルからでも盗聴できる。
今後ドローンにも搭載されて使われるんでしょうね。
原理はそれほど高度ではないので軍事系では既に実用化されてますよ。
Re: (スコア:0)
防犯機器売ってる店で売ってますよ。
どこが防犯やねん。
Re: (スコア:0)
そりゃ、理論的には子供の夏休みの工作 [panasonic.co.jp]のレベルだから。
ポイント (スコア:0)
方式的にはレーザー式がアクティブだとしたら、
これはパッシブ式ということになるのかしら。
すごいのは、カメラの1画素以下の動きを捉えられるというところなんでしょうか。
HAL9000 (スコア:0)
1992年に稼働したHAL9000は、2001年には音声が伝わらない船外活動用ポッドの中にいる人の会話を映像から読唇術で読み取ったけど、それは時代遅れなんですね。
Re: (スコア:0)
そうだ!
HAL9000に読心術を覚えさせよう!