アカウント名:
パスワード:
未来の巨大データアーカイブが大腸菌入りチューブ満載のディープフリーザー群で構成されてる絵は中々に楽しそうです。ただ
---------------------
元スライドをざっと見た感じ
元データを2ビットでエンコードしてATGCに置き換えた上でさらに圧縮をかける。できあがった配列どおりのDNAを合成してプラスミドの形で大腸菌に導入。復号時はプラスミドを抽出してDNAシークエンサーで読む。
こんな感じみたいですね。
ツッコミどころとして、ふつう大腸菌は「1匹2匹」じゃなく「同じ遺伝情報を持つ大腸菌クローンの菌液何ml」という、同一性が保証されている何億匹だかをひとまとめにした扱い方をするので、ここで言われているような「大腸菌1gで900TBのストレージ」ってのは無理としか思えません。
これ、1gの大腸菌がぜんぶ違うデータを持ってるって前提でしょ?同じ場所に何種類も大腸菌入れといたら接合(有性生殖)して遺伝子混ざっちゃいますよ。その1gの大腸菌ストレージの全細胞を1匹も余すところなく読みだした上で順序まで復元してシークエンスってのもかなり非現実的です。1匹ずつ区別して操作するなんて…… しかも相手は常に変化しつづける生き物なのに。
あと、上に比べたら大したことない問題点ですが
DNA分子の立体構造とか結合強度は配列依存だから、そのせいで元データの配列にも制限が生じるんじゃないとか
長大なDNA鎖を任意の配列で合成する方法はどうやるのとか
導入する配列が長いほど導入の効率が低下して逆に失敗頻度が増えるよねとか
大腸菌でDNA増やすと無視できない頻度で変異が確実に入るんだけどとか
シークエンサーの読み取り精度も完璧じゃないよねとか
データのつもりで入れたプラスミドが生物的に何らかの意味を持っちゃって導入した大腸菌が生存できない可能性もあるよとか
まあ、夢物語の域かなあと。
ふつう大腸菌は「1匹2匹」じゃなく「同じ遺伝情報を持つ大腸菌クローンの菌液何ml」
いろんな遺伝情報を持つ大腸菌のライブラリー10^6種類分とか普通に使いますよ。
1gの大腸菌がぜんぶ違うデータを持ってるって前提でしょ?
一種類につき50万細胞以上入れる前提の様です。
何種類も大腸菌入れといたら接合(有性生殖)して遺伝子混ざっちゃいますよ
F-の菌株をつかうので接合なんかしませんよ。
DNA分子の立体構造とか結合強度は配列依存だから、そのせいで元データの配列にも制限が生じるんじゃない
圧縮することによって、ランダムに近いパターンを保証しようというストラテジーですが、単に符号化レベルの問題ですね。
1kb位は商業的に問題なく作ってくれますね。遺伝子合成サービス。謝辞にIDTが入っているのが合成やでしょう。実際は内部ではもっと短い断片を化学合成して、混ぜてPCRすることによって作っていると思います。
この辺は、磁気システムだっていろいろなエラーがあるのを信号処理と、符号化などなどで実用的なレベルに抑えているのでがんばればできそうですよね。
問題は、経済性ではとても太刀打ちできないというところでしょうね。DNA合成だけでも、1bitに数円以上払わないと記録できないんでしょう。
うわあ、公開鍵が漏れたあっ!!!!!!
いやいや、公開鍵は漏れていいんですよ。え?このパンツのしみですか?公開鍵に決まってるじゃないですか?
それって秘密鍵じゃ・・・
まあ,原理自体は前から提案されていたものなんで,実際にやってみましたってのが新しいところなんですかね.思ったより精度良く(一応今回程度の長さのデータならロス無く)読み込めているのはよく頑張ったというか.
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
目玉の数さえ十分あれば、どんなバグも深刻ではない -- Eric Raymond
夢はあるけど…… (スコア:3, 興味深い)
未来の巨大データアーカイブが
大腸菌入りチューブ満載のディープフリーザー群で構成されてる絵は
中々に楽しそうです。ただ
---------------------
元スライドをざっと見た感じ
元データを2ビットでエンコードしてATGCに置き換えた上でさらに圧縮をかける。
できあがった配列どおりのDNAを合成してプラスミドの形で大腸菌に導入。
復号時はプラスミドを抽出してDNAシークエンサーで読む。
こんな感じみたいですね。
---------------------
ツッコミどころとして、ふつう大腸菌は「1匹2匹」じゃなく
「同じ遺伝情報を持つ大腸菌クローンの菌液何ml」
という、同一性が保証されている何億匹だかをひとまとめにした扱い方をするので、
ここで言われているような「大腸菌1gで900TBのストレージ」
ってのは無理としか思えません。
これ、1gの大腸菌がぜんぶ違うデータを持ってるって前提でしょ?
同じ場所に何種類も大腸菌入れといたら接合(有性生殖)して遺伝子混ざっちゃいますよ。
その1gの大腸菌ストレージの全細胞を1匹も余すところなく読みだした上で
順序まで復元してシークエンスってのもかなり非現実的です。
1匹ずつ区別して操作するなんて…… しかも相手は常に変化しつづける生き物なのに。
---------------------
あと、上に比べたら大したことない問題点ですが
DNA分子の立体構造とか結合強度は配列依存だから、そのせいで元データの配列にも制限が生じるんじゃないとか
長大なDNA鎖を任意の配列で合成する方法はどうやるのとか
導入する配列が長いほど導入の効率が低下して逆に失敗頻度が増えるよねとか
大腸菌でDNA増やすと無視できない頻度で変異が確実に入るんだけどとか
シークエンサーの読み取り精度も完璧じゃないよねとか
データのつもりで入れたプラスミドが生物的に何らかの意味を持っちゃって
導入した大腸菌が生存できない可能性もあるよとか
まあ、夢物語の域かなあと。
Re:夢はあるけど…… (スコア:4, 興味深い)
ふつう大腸菌は「1匹2匹」じゃなく
「同じ遺伝情報を持つ大腸菌クローンの菌液何ml」
いろんな遺伝情報を持つ大腸菌のライブラリー10^6種類分とか普通に使いますよ。
1gの大腸菌がぜんぶ違うデータを持ってるって前提でしょ?
一種類につき50万細胞以上入れる前提の様です。
何種類も大腸菌入れといたら接合(有性生殖)して遺伝子混ざっちゃいますよ
F-の菌株をつかうので接合なんかしませんよ。
DNA分子の立体構造とか結合強度は配列依存だから、そのせいで元データの配列にも制限が生じるんじゃない
圧縮することによって、ランダムに近いパターンを保証しようというストラテジーですが、単に符号化レベルの問題ですね。
1kb位は商業的に問題なく作ってくれますね。遺伝子合成サービス。謝辞にIDTが入っているのが合成やでしょう。
実際は内部ではもっと短い断片を化学合成して、混ぜてPCRすることによって作っていると思います。
大腸菌でDNA増やすと無視できない頻度で変異が確実に入るんだけどとか
シークエンサーの読み取り精度も完璧じゃないよねとか
この辺は、磁気システムだっていろいろなエラーがあるのを信号処理と、符号化などなどで実用的なレベルに抑えているのでがんばればできそうですよね。
問題は、経済性ではとても太刀打ちできないというところでしょうね。
DNA合成だけでも、1bitに数円以上払わないと記録できないんでしょう。
Re: (スコア:0)
たとえば公開鍵を大腸菌に仕込んで、それを配布するみたいな。
Re: (スコア:0)
Re:夢はあるけど…… (スコア:1)
うわあ、公開鍵が漏れたあっ!!!!!!
いやいや、公開鍵は漏れていいんですよ。
え?このパンツのしみですか?公開鍵に決まってるじゃないですか?
Re: (スコア:0)
それって秘密鍵じゃ・・・
Re:夢はあるけど…… (スコア:2, 興味深い)
まあ,原理自体は前から提案されていたものなんで,実際にやってみましたってのが新しいところなんですかね.
思ったより精度良く(一応今回程度の長さのデータならロス無く)読み込めているのはよく頑張ったというか.