GitHubでDNA情報が公開される | スラドサイエンス

スラド

GitHubでDNA情報が公開される 32

ストーリー by hylom 2011年02月14日 11時35分
mergeできません部門より

あるAnonymous Coward 曰く、

Manu Spornyという人物が2月13日、自分の遺伝子情報を GitHubに公開した。
同氏のブログに貼られたREADMEによると、コンピュータ技術者とバイオエンジニア向けの試験用データに利用される事を期待してパブリックドメインで公開しているようだ。
そもそも、遺伝子情報をバージョン管理する意義はあるのだろうか？

この議論は賞味期限が切れたので、アーカイブ化されています。新たにコメントを付けることはできません。

記事ページを表示すべてのコメント取得

検索32コメント Log In/Create an Account

みんなでつついて (スコア:3, 参考になる)

by iwakuralain (33086) on 2011年02月14日 13時44分 (#1902573)

よりよい遺伝子情報にしてください
Ver 1.1 ○○を修正してManu Spornyの寿命を5年延長しました
Ver 1.2 ○○を修正して細胞の癌化率を10%低減しました
Ver 1.3 ○○を追加して頭部における毛髪の減少を低減しました
みたいな感じ
ウイルス (スコア:2)

by shinshimashima (9763) on 2011年02月14日 11時41分 (#1902489) 日記

＞もそも、遺伝子情報をバージョン管理する意義はあるのだろうか？
ウイルス感染歴とか。
- Re:ウイルス (スコア:1)
  
  by shesee (27226) on 2011年02月14日 19時42分 (#1902791) 日記
  
  いやウイルスは動的無名クラスの注入だしなぁ
  
  シェア
  
  親コメント
コメントの履歴管理では？ (スコア:2)

by T.SKG (20663) on 2011年02月14日 12時34分 (#1902519) 日記

それぞれの塩基配列が、どういう働きをするか、他とどう関連するか。
そういった、情報を付加していって欲しいのでは？

具体的に、Gitでそれが可能か否か、私は知らないのですが。
Diff (スコア:2, 興味深い)

by Surgo (39032) on 2011年02月14日 14時22分 (#1902614)

他の人が fork して自分の DNA push して diff 取ったら "そんなに違わないんだね" って再確認できる。
許可 (スコア:2, すばらしい洞察)

by lunatic_sparc (15416) on 2011年02月14日 16時06分 (#1902688)

公開にあたって、製造元の許可は取ったのだろうか。
Ver.2 (スコア:1)

by shiba (273) on 2011年02月13日 23時52分 (#1902361) ホームページ

>そもそも、遺伝子情報をバージョン管理する意義はあるのだろうか？

子供ができたら Ver.2 として公開し,第2子が生まれると Ver.2.1 として公開するとか.
- Re:Ver.2 (スコア:2, おもしろおかしい)
  
  by Chiether (20555) <spamhere@chiether.net> on 2011年02月14日 11時51分 (#1902495) 日記
  
  >>そもそも、遺伝子情報をバージョン管理する意義はあるのだろうか？
  >子供ができたら Ver.2 として公開し,第2子が生まれると Ver.2.1 として公開するとか.
  /trunk -- 本妻
  /branches -- * 愛ｚ^H^H^H大人の駆け引き *
  /tags -- * 携帯電話やスマートフォン等の連絡先アドレス *
  
  --
  ==========================================
  投稿処理前プレビュー確認後書込処理検証処理前反映可否確認処理後……
  
  シェア
  
  親コメント
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    気がついたら /trunk 以下に自分のコードが含まれていませんでした。
    どうすれば……
- Re:Ver.2 (スコア:2)
  
  by gonzo (38147) on 2011年02月15日 10時51分 (#1903066)
  
  僕のバージョンは4.9だな。
  親(4.1)よりも出来が悪いから。
  4.9: WindowsME
  4.1: Windows98,98SE
  # でもMeﾀﾝほど可愛くはない。
  
  シェア
  
  親コメント
- Re:Ver.2 (スコア:1)
  
  by massie19386140 (41529) on 2011年02月15日 14時48分 (#1903232)
  
  人間も家畜並みになったのか、悲しいな
  
  シェア
  
  親コメント
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    畜産分野の方が系統管理の点で進んでるのは当然だと思うけど？
    ヒトの遺伝情報利用はまだまだこれからだし悲嘆することないよ
- Re: (スコア:0)
  
  by Anonymous Coward
  
  過去は振り返らない主義ですな ver1にとっての親は0.9とかですか ver2_rc3 とかテスト用途の遺伝子が作られるのも時間の問題か。 #アカウントわすれた
  - Re:Ver.2 (スコア:2)
    
    by sekia (38775) on 2011年02月15日 22時41分 (#1903422)
    
    テスト用でない正統な遺伝子があるなら発現形を是非見てみたい
    
    --
    言ってないことに反論するなよ
    
    シェア
    
    親コメント
  - Re:Ver.2 (スコア:1)
    
    by USH (8040) on 2011年02月14日 20時09分 (#1902799) 日記
    
    バージョンに負数があってはいけないと誰が決めた?
    なお、バーチャル妻(夫)との間にできた子供は、虚数だな。
    きっと、虚数バージョン同士掛け合わせれば、実に戻れるかも知れない。
    # なんの話だ。
    
    シェア
    
    親コメント
- Re: (スコア:0)
  
  by Anonymous Coward
  
  じゃあ、俺たちはサポート打ち切りだな。
- Re: (スコア:0)
  
  by Anonymous Coward
  
  わが子は二世ではなくVer2.0 [srad.jp]
マジレス (スコア:1)

by kaho (2741) <reversethis-{moc ... a} {js+oratatub}> on 2011年02月14日 12時54分 (#1902536) ホームページ日記

> そもそも、遺伝子情報をバージョン管理する意義はあるのだろうか？
真面目に答えますと，アノテーションデータがアップデートされれば情報の更新はありえます．
今回公開されたデータはDNA配列全体ではなくて，個人の特徴を示すSNP 100万箇所のデータです．
それらは既に報告されている，「ヒト間で違いのある場所」で，これを元に病気に罹患しやすいかどうかを判定する
ことも（理論的には）できますが，元の参照情報の方がアップデートされれば，ゲノム上の位置が違ったり
別のものとされていたものが同じものに統合されたり，本当はヒトの配列でなかったりといったことも
ないわけではありません．
また，今回の情報の有用性ですが，通常ゲノム情報は個人から取得するにはいろいろと情報管理で
厳しい制限もありますし，学生が簡単に自分のデータを読めるほどには安価でないということから，
自由かつ無料で使えるので，学生の学習用にはよいのではないかと思いました．
データ構造，ファイルフォーマット，データの規模や規則性が本番そのものなので，現実のヒトの
情報に合わせたランダムデータをつくるよりよほど効率的になります．
＃Manu Sporny氏がこの先病気になったときにその情報も公開してもらえば更に便利に．

--
kaho
- Re:マジレス (スコア:1)
  
  by flutist (16098) on 2011年02月14日 14時17分 (#1902609)
  
  自分にがんが見つかったら、毎日組織サンプルを取って、それぞれ全ゲノムをシーケンシングして、変異箇所をトレースできるようにするとか…
  …してくれたら尊敬するなぁ。
  ＃お金はすっごいかかるけど。
  
  シェア
  
  親コメント
ゲノム情報はアップデートされ続けます (スコア:1)

by shimotsuki (2505) on 2011年02月14日 12時59分 (#1902540) ホームページ

ゲノム情報は、大きく分けて配列と注釈(annotation)から構成されています。
注釈には部分配列の遺伝子名やその機能の情報を記してあります。
ゲノム内にはまだまだ機能のわかっていない部分が大量にありますので、それを付加し続ける限りはバージョンは上がり続けることになります。
リファレンスとなるNCBIなどにあるヒトゲノム配列との変異部位に関しても加えていけば、いくらでもバージョンアップの余地があります。

また、ゲノム配列は一般的にはwhole-genome shotgun法によって読み取られます。
これは、大量の細胞から抽出したDNAを超音波などで適度なサイズ(数百～数千塩基対)にバラして重複は気にせずにとにかく読みまくってから、プログラムでオーバーラップを検出して染色体1本の連続した配列を復元するという手法です。
そのため、全ゲノムよりもずっと多くの塩基を読まなくてはなりません。
ヒトゲノムの場合は既存のゲノムがあるので、それを参考にマッピングすることになります(既知ゲノムがない場合はもっと大変です)。
普通はプログラムに全部おまかせでは一発で完全な染色体セットができず、与えるオプションを試行錯誤したりさらに配列を追加したり、手作業で修正したりします。
ですから、配列部分もdraftからバージョンアップしていってようやく完成します。

というわけで、バージョン管理する意義は十分あるでしょう。
というか、おそらく実際にゲノムプロジェクト内でバージョン管理システムを使っているところはあるんじゃないでしょうか。
- Re:ゲノム情報はアップデートされ続けます (スコア:2, 参考になる)
  
  by kaho (2741) <reversethis-{moc ... a} {js+oratatub}> on 2011年02月14日 14時05分 (#1902594) ホームページ日記
  
  ＞また、ゲノム配列は一般的にはwhole-genome shotgun法によって読み取られます。
  今回のものはIlluminaのBeadChip [illumina.com]を使って読み取られていますので配列の解読は行っていません．
  READMEを最後まで読んでみたところ23andMe [23andme.com]のサービスを使っているようですね．
  ＞おそらく実際にゲノムプロジェクト内でバージョン管理システムを使っているところはあるんじゃないでしょうか。
  当然バージョン管理はしていますがSVNやらGitやらの意味でのバージョン管理システムは使えません．
  多数のファイルの差分を記録するというモデルのものでは１塩基が挿入されただけでそれ以降の配列を全て差分として
  記録しなければならないので現実的ではないからです．
  BACクローンごとにユニークなIDを振って，データの改善があるごとにバージョンを新しくして別ファイルとして管理し，
  アセンブリ情報はまた別に管理し（こちらには所謂バージョン管理システムは利用可能です），最終的なDNA配列情報は
  それらを結合して都度出力となります．
  
  --
  kaho
  
  シェア
  
  親コメント
  - Re:ゲノム情報はアップデートされ続けます (スコア:2, 興味深い)
    
    by shimotsuki (2505) on 2011年02月14日 15時51分 (#1902680) ホームページ
    
    最近はパーソナルゲノムの話題があったのでそういうものと思い込んでいましたが、SNPのデータなんですね。
    ちょうど次世代シーケンサが出力したデータのアセンブルに取り組んでいたことも影響してしまいました。
    
    そうすると、本人の表現型や病歴の情報が含まれていないとあまり役に立たないのでは・・・。
    中身を見たところ、そのような情報はないようです。
    既知のマーカーのデータは本人には役立つでしょうけど、何も新しいものが得られませんよね。
    表現型や病歴(今後のだけじゃなくて過去のも)があればSNPと照らし合わせてSNPと何かの相関が新たにわかるかもしれないのに。
    名前が特定できることより、名前は特定できないけど表現型や病歴がわかっている方がはるかに有益なんですけど。
    とは言え、サンプルデータとしては確かにそれなりに使えそうです。
    
    それにしてもジェノタイプはどうやって判定しているんだろうか。
    BeadChipキットをよく知らないのですが、同じSNPを何度も読んでヘテロを検出する方式でしょうか。
    
    シェア
    
    親コメント
    - Re:ゲノム情報はアップデートされ続けます (スコア:1)
      
      by kaho (2741) <reversethis-{moc ... a} {js+oratatub}> on 2011年02月14日 17時46分 (#1902740) ホームページ日記
      
      > それにしてもジェノタイプはどうやって判定しているんだろうか。
      > BeadChipキットをよく知らないのですが、同じSNPを何度も読んでヘテロを検出する方式でしょうか。
      釈迦に説法的かとは思いますがIlluminaによる論文 [nature.com]のArray Designにあるように
      ２つのSNP型に一致する塩基配列を持ったのビーズを用意しておいてそれぞれの蛍光強度をAとBとしたとき，
      theta =(2/pi) arctan(B/A)
      の値が0付近ならAA, 0.5付近ならAB, 1付近ならBBと判定しているということです．
      つまり一つのアリル当たり２つのビーズを用意して，入力サンプル内のDNA量を測定する方法です．
      CNVが多いような場合は判定ができなくなりますので，重複が多そうな完全にガン化したような細胞には使いづらいですが，
      23AndMeのように唾液を採取したり血液から染色体を調整するような場合はうまくいくと思います．
      
      --
      kaho
      
      シェア
      
      親コメント
遺伝子情報をバージョン管理する意義 (スコア:0)

by Anonymous Coward on 2011年02月14日 11時57分 (#1902501)

クローンが出てきて「俺が本物だ」という事態に備えておく。
- Re: (スコア:0)
  
  by Anonymous Coward
  
  クローンだと、同じDNAが出てきて困らない？
誰かコンパイラもフリーで提供してくれないか。 (スコア:0)

by Anonymous Coward on 2011年02月14日 12時05分 (#1902506)

ソースがあってもコンパイラーがないのでコンパイル出来ないんだ('・ω・`)
しかし、そもそものソースも相当な歯抜けになってる気がするんだけど気のせいかな？
つまりこれは (スコア:0)

by Anonymous Coward on 2011年02月14日 12時12分 (#1902511)

我々が彼の進化の生き証人となるという事なんだ！
なんだってー！（AA略
公開する場合、情報継承元の許可は…？(ネタ) (スコア:0)

by Anonymous Coward on 2011年02月14日 12時35分 (#1902521)

遺伝子は究極の個人情報である、という観点に立つと、
公開する前には情報の継承元(両親やそのまた両親・・・・)の許可が必要なんだろうか？
遺伝子コンテンツの構成要素の半分は父親、もう半分は母親で、どうマッシュアップしたかの部分のみが
本人のオリジナル要素である、と。
＃特許や著作権は関係ないんだろうけどね。
- Re: (スコア:0)
  
  by Anonymous Coward
  
  アダムはappleを食べていたので、少なくともGPLではなさそうだ。
奴は24MBの価値しかないのか (スコア:0)

by Anonymous Coward on 2011年02月14日 12時55分 (#1902538)

7zip圧縮したら6MBだった。俺たちってそんなもんかorz
- Re:奴は24MBの価値しかないのか (スコア:1)
  
  by digoh (17917) on 2011年02月14日 19時29分 (#1902782) 日記
  
  あくまで初期パラメータですからね。
  現在のレベルとかスキルとか装備とか現在位置とかアイテム所持数とかは抜きです。
  「ヒトの価値」と言ったら多くはその後から付いて来る方が重要だったりするんじゃないですかね。
  ＃家柄や国籍や親の七光りも含まれてませんね
  
  シェア
  
  親コメント
部門 (スコア:0)

by Anonymous Coward on 2011年02月15日 9時21分 (#1903012)

> mergeできません部門より

が、がんばって...!

より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。

ナニゲにアレゲなのは、ナニゲなアレゲ -- アレゲ研究家