パスワードを忘れた? アカウント作成
この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。

物質が微少振動する映像から音声を復元するアルゴリズム」記事へのコメント

  • よくある監視カメラの映像からも盗聴(?)ができるようになるかもしれない、というのがこの研究の趣旨ですかね。

    > 毎秒60フレームの撮影能力を持つ普通のデジタルカメラでも、一定の高周波振動の情報は推察できるとのこと

    映像フレーム数が落ちたら、低周波振動しか推察できなくなるんじゃないのかな?

    • by Anonymous Coward

      ローリングシャッター現象を逆手に取ることで、フレームレート以上の周波数の振動を観察するらしいです。

      • by tmiura (6268) on 2014年08月07日 16時08分 (#2652993) 日記

        折り返し雑音から元の振動を推定するんですね。

        映像だと音声の折り返し雑音より情報量増えるのかしら。

        親コメント
        • Re:折り返し雑音 (スコア:2, 参考になる)

          by Anonymous Coward on 2014年08月07日 18時56分 (#2653107)

          折り返し雑音から元の振動を推定するんですね。

          全然違う。

          CMOSカメラでは隣り合う走査線の間でごくわずかな撮影時間のずれがある。
          この撮影時間のずれを高速度撮影代わりに利用しようと言う話。

          親コメント
          • by Anonymous Coward

            衛星画像等から地上物体の速度を推定するアルゴリズム(RGBのラインセンサが物理的にずれているので対象の撮影時間が若干ずれるのを利用)に似た感じですね。
            場合によってはCCDを意図的に移動や振動させたり、回転させるみたいな事を実施したらより低フレームレートでも可能になったりするのかな?
            # RAWじゃないと圧縮コーデックで情報が台無しになりそうだけど。

        • by 90 (35300) on 2014年08月07日 21時38分 (#2653160) 日記

          折り返し雑音からの推定ではなくて、ローリングシャッター撮影のライン間のズレを利用しているそうです。ブラウン管を思い出してください。
          60fpsなら、垂直帰線間隔は60Hzです。グローバルシャッターでは人の声などとても記録できません。しかし、水平にスキャンしていく方式でたとえば
          走査線数が1000本なら、水平同期は60kHzになる。各ラインが正確に1/60k秒ずつ遅れているのなら、それだけずつずらした振幅を重ねられるわけです。

          いや、やれと言われてもできないですけど…

          親コメント
        • by Anonymous Coward

          >映像だと音声の折り返し雑音より情報量増えるのかしら。

          原理的には増やすのは難しい気がしますがどうですかね

          人間の音声を聞き分けるには3kHzくらいの帯域があるといいと言われていまして
          >毎秒2000~6000フレーム撮れるハイスピードカメラ
          このカメラのフレームレートは最大3kHzくらいの帯域が取れるようにサンプリングしましょうという前提で
          決められたんでしょう。声を聞くという目的だと割と理にかなったフレームレートですよね

          一方、60spsから音声を再構築するとなると、ほとんどあてずっぽうに近くなりますが
          人の声しかない、という前提なら何とか出来きなくもないか、な?

          • by Anonymous Coward on 2014年08月07日 18時41分 (#2653100)

            音はサラウンドとかを気にせず純粋に振幅だけをみれば空間的には一次元で、CDでも分解能は16ビットとかです。翻って、動画は二次元映像の情報で16ビットどころでは済まない大量の情報です。ですから、音に必要な時間分解能が100倍足りなくても、もともと映像が持っている情報量は100倍では利かないほどありますから、シミュレーションの逆演算で何とかなる、って話ですね。16ビットまでは戻せなくても、数十〜数百段階で十分音っぽいわけですし。

            秒速300メートルの音が1/60秒間に進む距離は5メートルです。ですから、被写体の大きさが10メートルくらいあれば、音の先端と音の末端の与える影響が被写体に入りきるので、「現在の音」から「1/60秒前の音」までを連続的に再現シミュレーションできる、って話ですね。被写体が10センチくらいなら、その原理では難しいですが、実際には、反射や余韻が被写体を動かしているから、被写体自体の音速や特性などから推測できる、ということでしょう。

            情報量そのもので下回っていない限り、空間分解能を使って時間分解能を補うのは理論的に可能で、そのアルゴリズムを組んでみたら、大した手間もかけずに意外と実用性がありそうだ、ってことでしょう。

            親コメント
            • by Anonymous Coward

              全くの門外漢ですが、モーショントラッキングの応用的な気がしますね。
              8つの特徴点の振動する動きの度合いから3次元空間における位相を推定して再合成みたいな。
              いや憶測でデタラメ言ってるだけですが。

アレゲは一日にしてならず -- アレゲ見習い

処理中...