大腸菌1gにつき900,000GBのデータを格納できる手法が開発 60
ストーリー by kazekiri
バクテリアディスクの時代へ? 部門より
バクテリアディスクの時代へ? 部門より
capra 曰く、
香港大学の研究チームがバクテリアにデータを格納する方法を開発したとのこと(本家/.)。
「バイオエンクリプション」と名づけられている通り、データはエンクリプション(暗号化)された上で格納される。データは「0~3」の4つの数字に置き換えられ、更にDNAシークエンスに置き換えられる仕組みのようだ。また、単独重合(ホモポリマー)なデータや反復データについては圧縮アルゴリズムも組み込まれ、データロスを防ぐためのチェックサムモジュールもあるとのこと。
この手法を使えば、理論的には大腸菌1g(湿重量)につき900,000GBのデータを格納できるとのことだ。詳細は研究チームのプレゼン資料(PDF)にてご確認を。
1gの中に (スコア:3, 興味深い)
Re:1gの中に (スコア:1)
さらに数独を解く大腸菌 [srad.jp]を追加すると、結構大腸菌コンピュータになりそうな。
夢はあるけど…… (スコア:3, 興味深い)
未来の巨大データアーカイブが
大腸菌入りチューブ満載のディープフリーザー群で構成されてる絵は
中々に楽しそうです。ただ
---------------------
元スライドをざっと見た感じ
元データを2ビットでエンコードしてATGCに置き換えた上でさらに圧縮をかける。
できあがった配列どおりのDNAを合成してプラスミドの形で大腸菌に導入。
復号時はプラスミドを抽出してDNAシークエンサーで読む。
こんな感じみたいですね。
---------------------
ツッコミどころとして、ふつう大腸菌は「1匹2匹」じゃなく
「同じ遺伝情報を持つ大腸菌クローンの菌液何ml」
という、同一性が保証されている何億匹だかをひとまとめにした扱い方をするので、
ここで言われているような「大腸菌1gで900TBのストレージ」
ってのは無理としか思えません。
これ、1gの大腸菌がぜんぶ違うデータを持ってるって前提でしょ?
同じ場所に何種類も大腸菌入れといたら接合(有性生殖)して遺伝子混ざっちゃいますよ。
その1gの大腸菌ストレージの全細胞を1匹も余すところなく読みだした上で
順序まで復元してシークエンスってのもかなり非現実的です。
1匹ずつ区別して操作するなんて…… しかも相手は常に変化しつづける生き物なのに。
---------------------
あと、上に比べたら大したことない問題点ですが
DNA分子の立体構造とか結合強度は配列依存だから、そのせいで元データの配列にも制限が生じるんじゃないとか
長大なDNA鎖を任意の配列で合成する方法はどうやるのとか
導入する配列が長いほど導入の効率が低下して逆に失敗頻度が増えるよねとか
大腸菌でDNA増やすと無視できない頻度で変異が確実に入るんだけどとか
シークエンサーの読み取り精度も完璧じゃないよねとか
データのつもりで入れたプラスミドが生物的に何らかの意味を持っちゃって
導入した大腸菌が生存できない可能性もあるよとか
まあ、夢物語の域かなあと。
Re:夢はあるけど…… (スコア:4, 興味深い)
ふつう大腸菌は「1匹2匹」じゃなく
「同じ遺伝情報を持つ大腸菌クローンの菌液何ml」
いろんな遺伝情報を持つ大腸菌のライブラリー10^6種類分とか普通に使いますよ。
1gの大腸菌がぜんぶ違うデータを持ってるって前提でしょ?
一種類につき50万細胞以上入れる前提の様です。
何種類も大腸菌入れといたら接合(有性生殖)して遺伝子混ざっちゃいますよ
F-の菌株をつかうので接合なんかしませんよ。
DNA分子の立体構造とか結合強度は配列依存だから、そのせいで元データの配列にも制限が生じるんじゃない
圧縮することによって、ランダムに近いパターンを保証しようというストラテジーですが、単に符号化レベルの問題ですね。
1kb位は商業的に問題なく作ってくれますね。遺伝子合成サービス。謝辞にIDTが入っているのが合成やでしょう。
実際は内部ではもっと短い断片を化学合成して、混ぜてPCRすることによって作っていると思います。
大腸菌でDNA増やすと無視できない頻度で変異が確実に入るんだけどとか
シークエンサーの読み取り精度も完璧じゃないよねとか
この辺は、磁気システムだっていろいろなエラーがあるのを信号処理と、符号化などなどで実用的なレベルに抑えているのでがんばればできそうですよね。
問題は、経済性ではとても太刀打ちできないというところでしょうね。
DNA合成だけでも、1bitに数円以上払わないと記録できないんでしょう。
Re: (スコア:0)
たとえば公開鍵を大腸菌に仕込んで、それを配布するみたいな。
Re: (スコア:0)
Re:夢はあるけど…… (スコア:1)
うわあ、公開鍵が漏れたあっ!!!!!!
いやいや、公開鍵は漏れていいんですよ。
え?このパンツのしみですか?公開鍵に決まってるじゃないですか?
Re:夢はあるけど…… (スコア:2, 興味深い)
まあ,原理自体は前から提案されていたものなんで,実際にやってみましたってのが新しいところなんですかね.
思ったより精度良く(一応今回程度の長さのデータならロス無く)読み込めているのはよく頑張ったというか.
栄養ドリンクメソッド (スコア:1, おもしろおかしい)
タウリン2000mg配合
Re:栄養ドリンクメソッド (スコア:1)
900TBだと大きい気がするが、900,000GBだとあまり大きくない気がする。
Re: (スコア:0)
0.9PB(ぺたばいと)だとなんだか小さい気がします。
Re: (スコア:0)
材料によっては (スコア:0)
Re: (スコア:0)
ボケにマジレス
大腸菌1gにタウリン2000mgは絶対につみ(め?)こめない
Re: (スコア:0)
キモは900,000GB
Re:栄養ドリンクメソッド (スコア:1)
大腸菌ですら記憶媒体として役に立ちそうなのに (スコア:1, おもしろおかしい)
振り返ると自分は毎晩虚しく届ける当てが全く無く、ティッシュに
件の大腸菌以上に膨大なデータを積んだ記憶媒体を解き放っているんだと思うと
更に虚しくなってしまいました
研究者の皆さん、毎晩捨てられる記憶媒体を活用できる方法を開発して下さい
それが自分の切なる願いです
Re:大腸菌ですら記憶媒体として役に立ちそうなのに (スコア:1, おもしろおかしい)
判ってくださいよ。
#2つは展開したのでAC
Re:大腸菌ですら記憶媒体として役に立ちそうなのに (スコア:1)
美少女型コンピュータのメモリにする方法が提案 [wikipedia.org]されています。
らじゃったのだ
誤字じゃなくなる (スコア:1, すばらしい洞察)
Re:誤字じゃなくなる (スコア:1)
内臓ストレージ では?
実はすでに (スコア:1)
ほら、あなたの腸にも……。
未来のサイバーポリス (スコア:1)
今のサイバーポリス(って名前が正しいのか知りませんが、まあ、internetの犯罪を取り締まる部署)は、こぎれいな計算機室にこもって、ってイメージですが、
将来のサイバーポリスは、下手すると泥さらいでしょうか?
「X国の軍事機密が漏洩していることが、国際サイバーポリスの捜査により判明した。
捜査によると、機密はY国の下水処理場から漏洩した模様。
大腸菌に埋め込まれた情報の遺伝子的変化から逆算すると、漏洩時期は3日前の午前3時と判明した。...」
DNAシーケンスに置き換える? (スコア:0)
20xx年、ある禁断のデータを書き込まれハイパーな能力を身につけた大腸菌が…(ry
とある細菌の禁書目録 (スコア:2, おもしろおかしい)
青空とおく酒びたり、では? (スコア:0)
Re: (スコア:0)
DT開発の鍵となったB型ツィビリ菌であr
#能力は「無意味なRNA鎖を作りつづける」だけ……
数字のインパクト (スコア:0)
大量の大腸菌にどんな順番でデータを保存してあるのか分からないんだから、
1gあたりとか何の意味もない数字を出してもらっても誇張にしか聞こえない。
なぜ1匹あたりの数値を出さないの?
Re: (スコア:0)
>どんな順番でデータを保存してあるのか分からないんだから
通し番号もデータの頭に入れとけばいいじゃないか。
Re: (スコア:0)
Re:数字のインパクト (スコア:1, 参考になる)
リンク先ちゃんと読んだ?
データ部分の前に元のデータ中での順序を示す部位を組み込むってのは最初から提案(というかインプリメント)されてる。
酵素で特定領域(データ領域と、データ領域が始まることを示す&順序を示すprefixおよびチェックサムを含むsufixをまとめた部分)を切り出して、データ順序を示すシーケンスに特異的に結合する分子を順番に並べたアレイでピックアップ(要は通常の遺伝子診断用のDNAアレイと同じ)、各セルごとに増幅してパラレルに読み出しにかければいいだけ(というところまでPDFに書かれている)。
Re: (スコア:0)
1bitの読み込みをするために900000GBを読み込むわけですね。
ロジック改良してもn/2にしかならないし。
Re:数字のインパクト (スコア:5, 興味深い)
データアドレスさえわかっていれば(つまりデータテーブルが別にあるなら),その部分だけを読み出せばよい(要はそのデータ番号を表す塩基配列に特異的に結合するDNA鎖で特定の塩基配列を選択し,それだけ読み出す)ので全部読む必要は無いのでは?
また,内容を示すキーワードをヘッダ部分につけておけば,今のファイル検索と同じようにキーワードで検索も出来ますし.
#タレコミのリンク先PDFの36ページですね.
具体的な手順はこんな感じですかね.
データを記録する際には,あらかじめヘッダ部分にデータ本体中が含んでいるもののキーワードなり何なり(を意味する塩基配列)を付加しておきます.データストレージ(凄くたくさんの大腸菌群の培養槽)への記録は,データを付加した大腸菌(安全のためある程度培養しておく)を培養槽に放り込むことで行います.
読み出しの際は,データストレージである大腸菌群(増殖によって,ものすごく多重にデータを保持している)を適当にコップ1杯(比喩)掬ってきて破砕しDNAを取り出します.十分な量を掬ってくれば,この中に全データが入っていることが期待できます.
次に,検索したいキーワードに相当する塩基配列に特異的に結合する塩基配列で修飾した基板を溶液に突っ込みます.そうすると,そのキーワードを含んだ塩基配列(キーワードを表すプリフィクスに続き,データ内容の塩基配列もつながっている)のみが基板にくっつきます.あとはそのくっついた塩基配列をシーケンサに放り込んで読み出すだけ.
基板? (スコア:2, 参考になる)
検索したいキーワードに相当する塩基配列に特異的に結合する塩基配列で修飾した基板を溶液に突っ込みます.
そんなことは書いていないなあ。本質的には変わりませんが、 biotin修飾RNAとハイブリダイズしてからstreptavidin beadsで選択という方が有力でしょう。 アジレントのSureSelectなど。 http://www.chem-agilent.com/contents.php?id=1001185 [chem-agilent.com]
Re:基板? (スコア:1)
ああ,失礼.
基板っちゅうのはわかりやすいイメージで書いただけで,あまり深い意味はありません.
「かもす」のは速度戦 (スコア:1)
菌の増殖は速度勝負であり、その中で遺伝子コピーの時間は結構大きな要因だそうです。
そのため菌は遺伝子をコンパクトに保つ強い淘汰圧があるそうな。
なので菌の集団では自身の遺伝子の使ってない部分を捨てるのが早く、
逆に必要とあれば増殖による遺伝に拠らない水平伝搬によって遺伝子を取り込むのも早いのだとか。
…ということのようなので
生存に役立たない余計なデータを載せられた大腸菌は
載っていない大腸菌と混ぜられるといずれ淘汰されて消えてしまう運命…。
従ってその方式では短期なら滅び切る前に「読みだせる」かもしれないですが、長期保存は難しそうですね。
むしろ (スコア:0)
素朴な疑問 (スコア:0)
JM見てないの? (スコア:2)
素朴な疑問2 (スコア:0)
理想は面白いが (スコア:0)
Re: (スコア:0)
Re: (スコア:0)
問題点 (スコア:0)
Re:問題点 (スコア:1)
データごとに個別の人間の大腸で繁殖させて
何のデータかポストイットに書いてそいつの額に貼っておけばいい
対抗して (スコア:0)
コンピューターウイルスもバイオ化の流れ。
#あー!なんかコピーされまくってる増える増えるわかめちゃん!
#ウイルスのDNAが混入してるうぅぅぅぅぅぅう!1
Re:対抗して (スコア:1)
データを保存した大腸菌にバクテリオファージが感染すればまさにウイルス
DNAは・・・ (スコア:0)
ある知的生命体が開発したエロ動画を大量に格納するための記憶媒体だった。
しかも自動的に増殖するのである。
しかし、そのエロ動画情報から新たな知的生命体いやエロ的生命体が発生する
とは知る由もなかった・・・。
バーコードバトラー (スコア:0)
逆に今ある生物のDNAからなにがしかの値をデコードできるはず
・・・ということでもあるよね?
Re:バーコードバトラー (スコア:1, 興味深い)
DNAは3個が組で1指令になるが、1字ずらしの"ぎなた読み"を使って、 特定の部位に2重の意味を持たせるような特殊なDNA配列を持ったウィルスだか 細菌だかがいる。その部位の塩基配列個数が確か121個で、11x11の素数の積。
アレシボ通信が23x73bitで素数の積でマトリクスを表現しているのと 同じじゃないか、と。
結局意味のある解釈は引き出せなかったらしいが。