パスワードを忘れた? アカウント作成
277245 story
ストレージ

大腸菌1gにつき900,000GBのデータを格納できる手法が開発 60

ストーリー by kazekiri
バクテリアディスクの時代へ? 部門より

capra 曰く、

香港大学の研究チームがバクテリアにデータを格納する方法を開発したとのこと(本家/.)。

「バイオエンクリプション」と名づけられている通り、データはエンクリプション(暗号化)された上で格納される。データは「0~3」の4つの数字に置き換えられ、更にDNAシークエンスに置き換えられる仕組みのようだ。また、単独重合(ホモポリマー)なデータや反復データについては圧縮アルゴリズムも組み込まれ、データロスを防ぐためのチェックサムモジュールもあるとのこと。

この手法を使えば、理論的には大腸菌1g(湿重量)につき900,000GBのデータを格納できるとのことだ。詳細は研究チームのプレゼン資料(PDF)にてご確認を。

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
  • 1gの中に (スコア:3, 興味深い)

    by NOBAX (21937) on 2010年11月27日 16時20分 (#1865066)
    大腸菌が900,000GB匹いるってことでしょうか。
  • by Meth610 (31617) on 2010年11月27日 18時58分 (#1865124)

    未来の巨大データアーカイブが
    大腸菌入りチューブ満載のディープフリーザー群で構成されてる絵は
    中々に楽しそうです。ただ

    ---------------------

    元スライドをざっと見た感じ

    元データを2ビットでエンコードしてATGCに置き換えた上でさらに圧縮をかける。
    できあがった配列どおりのDNAを合成してプラスミドの形で大腸菌に導入。
    復号時はプラスミドを抽出してDNAシークエンサーで読む。

    こんな感じみたいですね。

    ---------------------

    ツッコミどころとして、ふつう大腸菌は「1匹2匹」じゃなく
    「同じ遺伝情報を持つ大腸菌クローンの菌液何ml」
    という、同一性が保証されている何億匹だかをひとまとめにした扱い方をするので、
    ここで言われているような「大腸菌1gで900TBのストレージ」
    ってのは無理としか思えません。

    これ、1gの大腸菌がぜんぶ違うデータを持ってるって前提でしょ?
    同じ場所に何種類も大腸菌入れといたら接合(有性生殖)して遺伝子混ざっちゃいますよ。
    その1gの大腸菌ストレージの全細胞を1匹も余すところなく読みだした上で
    順序まで復元してシークエンスってのもかなり非現実的です。
    1匹ずつ区別して操作するなんて…… しかも相手は常に変化しつづける生き物なのに。

    ---------------------

    あと、上に比べたら大したことない問題点ですが

    DNA分子の立体構造とか結合強度は配列依存だから、そのせいで元データの配列にも制限が生じるんじゃないとか

    長大なDNA鎖を任意の配列で合成する方法はどうやるのとか

    導入する配列が長いほど導入の効率が低下して逆に失敗頻度が増えるよねとか

    大腸菌でDNA増やすと無視できない頻度で変異が確実に入るんだけどとか

    シークエンサーの読み取り精度も完璧じゃないよねとか

    データのつもりで入れたプラスミドが生物的に何らかの意味を持っちゃって
    導入した大腸菌が生存できない可能性もあるよとか

    まあ、夢物語の域かなあと。

    • by tslashn (37583) on 2010年11月27日 21時56分 (#1865194)

      ふつう大腸菌は「1匹2匹」じゃなく
      「同じ遺伝情報を持つ大腸菌クローンの菌液何ml」

      いろんな遺伝情報を持つ大腸菌のライブラリー10^6種類分とか普通に使いますよ。

      1gの大腸菌がぜんぶ違うデータを持ってるって前提でしょ?

      一種類につき50万細胞以上入れる前提の様です。

      何種類も大腸菌入れといたら接合(有性生殖)して遺伝子混ざっちゃいますよ

      F-の菌株をつかうので接合なんかしませんよ。

      DNA分子の立体構造とか結合強度は配列依存だから、そのせいで元データの配列にも制限が生じるんじゃない

      圧縮することによって、ランダムに近いパターンを保証しようというストラテジーですが、単に符号化レベルの問題ですね。

      1kb位は商業的に問題なく作ってくれますね。遺伝子合成サービス。謝辞にIDTが入っているのが合成やでしょう。
      実際は内部ではもっと短い断片を化学合成して、混ぜてPCRすることによって作っていると思います。

      大腸菌でDNA増やすと無視できない頻度で変異が確実に入るんだけどとか

      シークエンサーの読み取り精度も完璧じゃないよねとか

      この辺は、磁気システムだっていろいろなエラーがあるのを信号処理と、符号化などなどで実用的なレベルに抑えているのでがんばればできそうですよね。

      問題は、経済性ではとても太刀打ちできないというところでしょうね。
      DNA合成だけでも、1bitに数円以上払わないと記録できないんでしょう。

      親コメント
      • by Anonymous Coward
        1KBもあれば、暗号の鍵を保管するのには、使えそうですね。
        たとえば公開鍵を大腸菌に仕込んで、それを配布するみたいな。
    • by phason (22006) <mail@molecularscience.jp> on 2010年11月27日 20時15分 (#1865159) 日記

      まあ,原理自体は前から提案されていたものなんで,実際にやってみましたってのが新しいところなんですかね.
      思ったより精度良く(一応今回程度の長さのデータならロス無く)読み込めているのはよく頑張ったというか.

      親コメント
  • 栄養ドリンクメソッド (スコア:1, おもしろおかしい)

    by Anonymous Coward on 2010年11月27日 15時23分 (#1865041)

    タウリン2000mg配合

  • by Anonymous Coward on 2010年11月27日 17時19分 (#1865089)

    振り返ると自分は毎晩虚しく届ける当てが全く無く、ティッシュに
    件の大腸菌以上に膨大なデータを積んだ記憶媒体を解き放っているんだと思うと
    更に虚しくなってしまいました

    研究者の皆さん、毎晩捨てられる記憶媒体を活用できる方法を開発して下さい
    それが自分の切なる願いです

  • 誤字じゃなくなる (スコア:1, すばらしい洞察)

    by Anonymous Coward on 2010年11月27日 19時32分 (#1865141)
    内臓ディスク
  • by imaikazuki (40931) on 2010年11月27日 20時24分 (#1865163)
    異文明に実用化されているのかもしれない。

    ほら、あなたの腸にも……。
  • by USH (8040) on 2010年11月29日 1時33分 (#1865592) 日記

    今のサイバーポリス(って名前が正しいのか知りませんが、まあ、internetの犯罪を取り締まる部署)は、こぎれいな計算機室にこもって、ってイメージですが、
    将来のサイバーポリスは、下手すると泥さらいでしょうか?

    「X国の軍事機密が漏洩していることが、国際サイバーポリスの捜査により判明した。
    捜査によると、機密はY国の下水処理場から漏洩した模様。
    大腸菌に埋め込まれた情報の遺伝子的変化から逆算すると、漏洩時期は3日前の午前3時と判明した。...」

  • by Anonymous Coward on 2010年11月27日 15時47分 (#1865056)
    つまり「書き込むデータ」によって DNA が変わる?

    20xx年、ある禁断のデータを書き込まれハイパーな能力を身につけた大腸菌が…(ry
  • by Anonymous Coward on 2010年11月27日 15時55分 (#1865057)

    大量の大腸菌にどんな順番でデータを保存してあるのか分からないんだから、
    1gあたりとか何の意味もない数字を出してもらっても誇張にしか聞こえない。
    なぜ1匹あたりの数値を出さないの?

    • by Anonymous Coward

      >どんな順番でデータを保存してあるのか分からないんだから

      通し番号もデータの頭に入れとけばいいじゃないか。

      • by Anonymous Coward
        何匹いると思ってんの? ちゃんと脳内シミュレートしたの?
        • by Anonymous Coward on 2010年11月27日 19時58分 (#1865150)

          リンク先ちゃんと読んだ?
          データ部分の前に元のデータ中での順序を示す部位を組み込むってのは最初から提案(というかインプリメント)されてる。
          酵素で特定領域(データ領域と、データ領域が始まることを示す&順序を示すprefixおよびチェックサムを含むsufixをまとめた部分)を切り出して、データ順序を示すシーケンスに特異的に結合する分子を順番に並べたアレイでピックアップ(要は通常の遺伝子診断用のDNAアレイと同じ)、各セルごとに増幅してパラレルに読み出しにかければいいだけ(というところまでPDFに書かれている)。

          親コメント
      • by Anonymous Coward

        1bitの読み込みをするために900000GBを読み込むわけですね。
        ロジック改良してもn/2にしかならないし。

        • by phason (22006) <mail@molecularscience.jp> on 2010年11月27日 20時11分 (#1865157) 日記

          データアドレスさえわかっていれば(つまりデータテーブルが別にあるなら),その部分だけを読み出せばよい(要はそのデータ番号を表す塩基配列に特異的に結合するDNA鎖で特定の塩基配列を選択し,それだけ読み出す)ので全部読む必要は無いのでは?
          また,内容を示すキーワードをヘッダ部分につけておけば,今のファイル検索と同じようにキーワードで検索も出来ますし.
          #タレコミのリンク先PDFの36ページですね.

          具体的な手順はこんな感じですかね.
          データを記録する際には,あらかじめヘッダ部分にデータ本体中が含んでいるもののキーワードなり何なり(を意味する塩基配列)を付加しておきます.データストレージ(凄くたくさんの大腸菌群の培養槽)への記録は,データを付加した大腸菌(安全のためある程度培養しておく)を培養槽に放り込むことで行います.
          読み出しの際は,データストレージである大腸菌群(増殖によって,ものすごく多重にデータを保持している)を適当にコップ1杯(比喩)掬ってきて破砕しDNAを取り出します.十分な量を掬ってくれば,この中に全データが入っていることが期待できます.
          次に,検索したいキーワードに相当する塩基配列に特異的に結合する塩基配列で修飾した基板を溶液に突っ込みます.そうすると,そのキーワードを含んだ塩基配列(キーワードを表すプリフィクスに続き,データ内容の塩基配列もつながっている)のみが基板にくっつきます.あとはそのくっついた塩基配列をシーケンサに放り込んで読み出すだけ.

          親コメント
          • 基板? (スコア:2, 参考になる)

            by tslashn (37583) on 2010年11月27日 21時34分 (#1865189)

            検索したいキーワードに相当する塩基配列に特異的に結合する塩基配列で修飾した基板を溶液に突っ込みます.

            そんなことは書いていないなあ。本質的には変わりませんが、 biotin修飾RNAとハイブリダイズしてからstreptavidin beadsで選択という方が有力でしょう。 アジレントのSureSelectなど。 http://www.chem-agilent.com/contents.php?id=1001185 [chem-agilent.com]

            親コメント
          • 菌の増殖は速度勝負であり、その中で遺伝子コピーの時間は結構大きな要因だそうです。
            そのため菌は遺伝子をコンパクトに保つ強い淘汰圧があるそうな。
            なので菌の集団では自身の遺伝子の使ってない部分を捨てるのが早く、
            逆に必要とあれば増殖による遺伝に拠らない水平伝搬によって遺伝子を取り込むのも早いのだとか。

            …ということのようなので
            生存に役立たない余計なデータを載せられた大腸菌は
            載っていない大腸菌と混ぜられるといずれ淘汰されて消えてしまう運命…。
            従ってその方式では短期なら滅び切る前に「読みだせる」かもしれないですが、長期保存は難しそうですね。

            親コメント
  • by Anonymous Coward on 2010年11月27日 16時20分 (#1865067)
    「超高性能ながん抑制機構を開発しました」で発表したほうがいいような気がしたんだけども、気のせいかな。
  • by Anonymous Coward on 2010年11月27日 16時25分 (#1865069)
    なんで単位がGBなの?
  • by Anonymous Coward on 2010年11月27日 16時52分 (#1865081)
    まあ必ずしもどんな配列でもOKって訳でもないしね。配列に好き嫌いあるから、 たとえが変だけど、CD-Rに書き込むデータによってはヒビが入りやすくなるとか あるかも。
    • by Anonymous Coward
      符号化を工夫すればいいんじゃないの?
      • by Anonymous Coward
        スペクトラム拡散すれば宜しい。
  • by Anonymous Coward on 2010年11月27日 19時27分 (#1865137)
    1gの大腸菌に色々なデータを格納しても、どの大腸菌に何のデータが入ってたか分からなくなるじゃないか。
  • by Anonymous Coward on 2010年11月27日 19時32分 (#1865142)

    コンピューターウイルスもバイオ化の流れ。

    #あー!なんかコピーされまくってる増える増えるわかめちゃん!
    #ウイルスのDNAが混入してるうぅぅぅぅぅぅう!1

  • by Anonymous Coward on 2010年11月27日 19時49分 (#1865147)

    ある知的生命体が開発したエロ動画を大量に格納するための記憶媒体だった。
    しかも自動的に増殖するのである。

    しかし、そのエロ動画情報から新たな知的生命体いやエロ的生命体が発生する
    とは知る由もなかった・・・。

  • by Anonymous Coward on 2010年11月27日 21時18分 (#1865182)
    DNA鎖に情報を仮託できるなら
    逆に今ある生物のDNAからなにがしかの値をデコードできるはず

    ・・・ということでもあるよね?
    • by Anonymous Coward on 2010年11月28日 2時23分 (#1865285)
      それっぽいデコードを試みた例はある。
      DNAは3個が組で1指令になるが、1字ずらしの"ぎなた読み"を使って、 特定の部位に2重の意味を持たせるような特殊なDNA配列を持ったウィルスだか 細菌だかがいる。その部位の塩基配列個数が確か121個で、11x11の素数の積。
      アレシボ通信が23x73bitで素数の積でマトリクスを表現しているのと 同じじゃないか、と。
      結局意味のある解釈は引き出せなかったらしいが。
      親コメント
typodupeerror

UNIXはシンプルである。必要なのはそのシンプルさを理解する素質だけである -- Dennis Ritchie

読み込み中...