パスワードを忘れた? アカウント作成
10393515 story
サイエンス

研究データの8割は20年後には残っていない 30

ストーリー by hylom
論文誌には全データは載せられないしねぇ 部門より
あるAnonymous Coward 曰く、

カナダのブリティッシュコロンビア大学が行った研究によると、科学的研究で集められたデータの8割は、その20年後のうちに失われているそうだ(United Press Internationalslashdot)。

1991年から2011年にかけて発表された516の研究に使われたデータのオリジナルを辿ったというこの研究によると、発表から2年後には全てのデータセットにアクセスできたが、3年後には17%がアクセスできなくなり、20年では80%が失われるという結果となった。失われたデータは使われなくなったメールアカウントや古いストレージなどに格納されていたためにアクセスできなくなくなるという。

データが研究者とともにあるという現在の仕組みでは、時間と共にほぼ全てのデータが失われることを意味するという。替えがきかないデータや、再現するには多額の費用がかかるものもあり、検証や新たな用途のためにこれらのデータを利用することも非常に難しくなる。

データ損失は研究費の無駄であるだけでなく、将来における研究の幅を狭めてしまうと研究者らは指摘しており、研究発表にあたってはデータを公的なアーカイブにアップロードするといった共同の仕組みが必要であると提唱している。

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
  • by ikotom (20155) on 2013年12月24日 12時11分 (#2516848)

    貴重な研究データを保護すべし、という趣旨には賛同するのですが、
    一点だけ異論を挟みたく。

    > データ損失は研究費の無駄

    無用なデータの保管あるいは移送料を考えると、不要なものはさっさと捨てる、というのが
    むしろ研究費の余計な無駄を省くという意味で最良であることも多いでしょう。

    私自身、物を溜めこむ性質なもので自省を込めての話ですが、
    仮に一部屋分のガラクタを「もったいないから」という理由で溜めこんでいるとすると
    都内なら家賃1-2万分を余計に消費していることになります。

    いつか役に立つかもしれないという思いが、年間十万円以上の出費に見合うかと言われると、
    少なくとも私の所有物に関しては微妙ところです。

    研究データに関して言うと、
    都内ほど場所代には気を使わなくてもよいでしょうが、その代わり
    劣化を防ぐような保存方法、重要さにあわせてのセキュリティ、
    そもそもの仕分け作業にかかる人件費、などなどがコストとして、
    「研究費の無駄」としてかかるわけです。

    だから研究データを潔く捨ててしまう現状が必ずしも悪とは
    判断できないんじゃないでしょうかね。

    • 研究データを個々に保存していて、そのうち無駄を省くためとして人知れず処分されるするよりは、
      どっかでまとめて共同管理することにして、研究者が個々にデータを持つコストから解放したほうがいいんじゃない?
      という話でしょうね。後から別の視点でデータを見直すと、新たな発見があることは少なくないのだし。

      でも、実際は自分の考え方に合わないデータが出てきたら、あえて無視して論文を書いてたり、
      最悪のケースとしては、ねつ造されたデータを作って論文が作られてたりすることもあるので、
      生のデータを提出されることを求められると、嫌がる人も結構いるのではないかと思います。

      電子の電荷を測定したミリカンなんか、いいデータが出ると大喜びしてたそうですが、
      それは、彼の直感から外れたデータが出れば、実験がうまくいってない証拠だと考えていたわけで。
      そんな訳で、彼の実験では得られたデータの選択、選別が行われていたのでしょう。
      結局彼の直感は後に検証された通り、正しかったわけですけどね。

      親コメント
  • 科学研究の末端に関わるものとして耳の痛い話です.

    「発表から2年までは全部にアクセスでき,3年までは多くのデータにアクセスできた」というのは
    雑誌側が要求する点であるので,ある意味当然なのですが,研究者側がちゃんと約束を守っている
    ということでもあるかと思います.

    一方,私自身も過去に所属していた研究機関に残したデータが今どうなっているかは把握しておらず,
    発表した全ての生データを今要求されても満足に返信できる自信はありません.

    そういう事情もあり,最近では研究の発表以前,論文の投稿以前,それどころかデータを取ったら速やかに
    公共データベースに登録してしまえ,という方法を採りつつあります.
    登録後数年は非公開にできますし,そこからもらったIDさえあれば自分の側はデータを削除して
    すら構わないので.
    登録して数年たっても論文にならないならそれはその程度の価値だったと思って活用できる人に
    活用してもらうもよし,どうしてもという場合は一端削除して再登録してもいいと自己説得して
    います.
    自分のソースコードを最初からgithubに預けるソフトウェア技術者のような感覚ですが,データベース
    側にゴミもまとめて預けてしまっているようでもあり,少し申し訳ない気持ちはありますが.

    --
    kaho
    • by Anonymous Coward on 2013年12月24日 12時21分 (#2516853)

      コスト的に無理、あまり意味がない(と現在では思われている)種類のデータは難しいですね…。
      例えば、次世代シーケンサの生データを保存している人がどれだけいるか。
      実験者の話を聞く機会があるのですが、基本的には「配列を取り出したらもう生データはいらないので削除」が多いです。彼らの目的は、現時点では配列を調べたり、配列のコピー数を調べたりすることなので。
      「全部保存しておくよりも、後から必要になったものについて、もう一回次世代シーケンサを走らせた方が安い」という戦略をとっているところも多いですね。まあそれは、合理的な戦略ですが…。
      計算機シミュレーションの分野で、ログをどこまで保存しておくか、という話に似ていますね。生のログを全部保存しておくのは難しい。解析後のデータのみを保存し、細かいログは破棄する。後で必要になったら、初期条件と乱数のシードを一致させて、もう一度プログラムを走らせればいい。

      インフラ構築(シーケンサでデータを取ったら自動でデータベースに保存し、解析ツールから容易にそれらのデータを扱えるようにするとか)も話題には上りますが、まあ規模の大きいところでないと、予算的にインフラ構築は難しいですね…。

      親コメント
  • by Anonymous Coward on 2013年12月24日 12時18分 (#2516850)
    それも8インチフロッピーだとか
    10年前なら光磁気ディスク(MOドライブだとか)
    そういうこともあるんじゃないかな
    • by Anonymous Coward

      PDも忘れないでやってください。

      • by Anonymous Coward on 2013年12月24日 14時41分 (#2516949)

        「zipでくれ」
        「はい」
        「Zipじゃねーよ」

        親コメント
        • 今だにzipでと言われると、圧縮形式なのかメディアなのかを 聞く癖が抜けないです。 最近はZip知らない子が社会人になっていて、歳を感じる……。
          親コメント
        • データはあるけど結局読めない、なんてこともあるのではとも思いますね。
          物理メディアが読めなくなる(エラーが増える、読み出し機器がなくなる)対策としては、
          FD→MO→DVD-R→HDD(ミラーリング+バックアップ)と乗り換えてきたけど、
          データフォーマットはどうしたものかと。

          アーカイブではzipはともかくlhaはいずれ危険領域に入ってくるかも、と思ったり。
          画像だとX68000とかのころの.picとか.magとかそんな奴とか。
          文字コードもマイナーなのはまともに読める環境がいつの間にか消滅したりするとか。
          動画もなんでもかんでも再生環境が長期間残るとは思えないし・・・・。
          まあ、自分の作品など貴重なものはなるべく不可逆圧縮しないでメジャーなフォーマットで
          持っておくしかないんですけどね。

          • by Anonymous Coward

            サイズは大きくなりますが、テキストデータが無敵でしょう
            表形式ならCSV

    • by Anonymous Coward

      10数年前の院生のときに5インチ(1.2MB)のFDに入っていたデータを取り出すのですら苦労した。
      動く5インチの9801を探してきてSCSI経由で取り出したんだったかな。

    • by Anonymous Coward

      20年前のデータだとQICで残っているけどドライブがない。DAT, MO, DLTにコピーがあるけどどれもドライブがない。ちゃんと読めるだろうか。
      15年ぐらい前からのデータなら複数のHDDバックアップしてあるけど、壊れてないかはチェック&新しいドライブにコピーしたのは何年前だったかな。

      • by Anonymous Coward

        HDDでもSASIだったら厳しい気が。

  • by Anonymous Coward on 2013年12月24日 16時25分 (#2517018)

    特許における悪名高き「先発明主義」ですが、これがあるために
    「特許出願しても記録がちゃんと残ってないと先発明主義の国ではひっくり返されるぞ、気をつけろ」的な話があって、
    (建前上は)ちゃんと研究ノートをつけ、ちゃんと整理して保管し、必要な箇所をすぐに取り出せるようにしよう、という流れがありましたね。

    今はそういう話がないことと、ちゃんと整理してなくても検索でなんとかなるかーという一種の富豪的対処?によりあまり整理が・・・

    ・・・いえ違いますね、性格と意識の問題ですねすみません片付けます捨てます整理します。

  • by Anonymous Coward on 2013年12月24日 12時39分 (#2516860)

    研究者が本当に論理的で国民のために研究をしたいと願っているなら研究費を効率的に使う研究がもっとあってもよいと思う。
    自分のための研究は自費でやるべきなんだろうな。

    • by Anonymous Coward on 2013年12月24日 12時52分 (#2516871)

      全国民が他の国民のためにありたいと願っているなら警察いらんだろう
      研究者だけ何故例外?

      親コメント
      • by Anonymous Coward

        多くが国から金もらってるからに決まってる
        もらってないなら好きにすればよい

      • by Anonymous Coward
        学術研究にかかわったことのない人間からみた研究者→(多くは国の金で)自分の好きなことの研究をしている
        学術研究にかかわったことのある人間からみた研究者→なりゆきで入った分野で、ノルマ達成のために研究させられている
      • by Anonymous Coward

        国民の全てに悪意がなかったとしても、警察は必要なのですよ。
        また、国民に対してなんらかの制限をする組織は警察だけではない(というか警察はほんの一部だよね)

    • by Anonymous Coward

      出資者の意向も絡むしなあ。
      その研究で十分な研究費が出るんならやってもいいと思う人は結構いると思うぞ。多分実際には研究費出ないけど。

  • >公的なアーカイブにアップロードする

    公的なアーカイブが予算の都合で閉鎖され、結局すべて失われるんですね。わかります。

  • by Anonymous Coward on 2013年12月24日 13時46分 (#2516914)

    研究データじゃないけど、日々報道されるニュースを配信してるマスメディア。特に新聞系。
    ウェブでもニュース配信してるけど、基本的にそれらのニュース配信期間は短い。Wikipediaの参考リンクにニュースサイトへのリンクが付けられることも多いが、そのほとんどがリンク切れになる。
    なぜ過去のニュースもそのままのURLで置いておいて、ロングテール的なアクセスをゲッツしないんだろう。コンテンツであり露出になるのに。
    過去のアーカイブは有料で閲覧出来ますよ、みたいなのやってるのかな?

    ちなみに、海外のメディアをいくつか調べたが、普通に2002年あたりのニュースも余裕で残ってた。

  • by Anonymous Coward on 2013年12月25日 11時12分 (#2517482)

    紙に印刷してバックアップすればいいんじゃないかな。
    可逆性にするために、取り込むための規格策定も必要だろうけど。

typodupeerror

UNIXはただ死んだだけでなく、本当にひどい臭いを放ち始めている -- あるソフトウェアエンジニア

読み込み中...