研究データの8割は20年後には残っていない 30
ストーリー by hylom
論文誌には全データは載せられないしねぇ 部門より
論文誌には全データは載せられないしねぇ 部門より
あるAnonymous Coward 曰く、
カナダのブリティッシュコロンビア大学が行った研究によると、科学的研究で集められたデータの8割は、その20年後のうちに失われているそうだ(United Press International、slashdot)。
1991年から2011年にかけて発表された516の研究に使われたデータのオリジナルを辿ったというこの研究によると、発表から2年後には全てのデータセットにアクセスできたが、3年後には17%がアクセスできなくなり、20年では80%が失われるという結果となった。失われたデータは使われなくなったメールアカウントや古いストレージなどに格納されていたためにアクセスできなくなくなるという。
データが研究者とともにあるという現在の仕組みでは、時間と共にほぼ全てのデータが失われることを意味するという。替えがきかないデータや、再現するには多額の費用がかかるものもあり、検証や新たな用途のためにこれらのデータを利用することも非常に難しくなる。
データ損失は研究費の無駄であるだけでなく、将来における研究の幅を狭めてしまうと研究者らは指摘しており、研究発表にあたってはデータを公的なアーカイブにアップロードするといった共同の仕組みが必要であると提唱している。
年末大掃除の際には潔く捨てることも大事 (スコア:4, すばらしい洞察)
貴重な研究データを保護すべし、という趣旨には賛同するのですが、
一点だけ異論を挟みたく。
> データ損失は研究費の無駄
無用なデータの保管あるいは移送料を考えると、不要なものはさっさと捨てる、というのが
むしろ研究費の余計な無駄を省くという意味で最良であることも多いでしょう。
私自身、物を溜めこむ性質なもので自省を込めての話ですが、
仮に一部屋分のガラクタを「もったいないから」という理由で溜めこんでいるとすると
都内なら家賃1-2万分を余計に消費していることになります。
いつか役に立つかもしれないという思いが、年間十万円以上の出費に見合うかと言われると、
少なくとも私の所有物に関しては微妙ところです。
研究データに関して言うと、
都内ほど場所代には気を使わなくてもよいでしょうが、その代わり
劣化を防ぐような保存方法、重要さにあわせてのセキュリティ、
そもそもの仕分け作業にかかる人件費、などなどがコストとして、
「研究費の無駄」としてかかるわけです。
だから研究データを潔く捨ててしまう現状が必ずしも悪とは
判断できないんじゃないでしょうかね。
Re:年末大掃除の際には潔く捨てることも大事 (スコア:2)
研究データを個々に保存していて、そのうち無駄を省くためとして人知れず処分されるするよりは、
どっかでまとめて共同管理することにして、研究者が個々にデータを持つコストから解放したほうがいいんじゃない?
という話でしょうね。後から別の視点でデータを見直すと、新たな発見があることは少なくないのだし。
でも、実際は自分の考え方に合わないデータが出てきたら、あえて無視して論文を書いてたり、
最悪のケースとしては、ねつ造されたデータを作って論文が作られてたりすることもあるので、
生のデータを提出されることを求められると、嫌がる人も結構いるのではないかと思います。
電子の電荷を測定したミリカンなんか、いいデータが出ると大喜びしてたそうですが、
それは、彼の直感から外れたデータが出れば、実験がうまくいってない証拠だと考えていたわけで。
そんな訳で、彼の実験では得られたデータの選択、選別が行われていたのでしょう。
結局彼の直感は後に検証された通り、正しかったわけですけどね。
耳の痛い話 (スコア:3, 参考になる)
科学研究の末端に関わるものとして耳の痛い話です.
「発表から2年までは全部にアクセスでき,3年までは多くのデータにアクセスできた」というのは
雑誌側が要求する点であるので,ある意味当然なのですが,研究者側がちゃんと約束を守っている
ということでもあるかと思います.
一方,私自身も過去に所属していた研究機関に残したデータが今どうなっているかは把握しておらず,
発表した全ての生データを今要求されても満足に返信できる自信はありません.
そういう事情もあり,最近では研究の発表以前,論文の投稿以前,それどころかデータを取ったら速やかに
公共データベースに登録してしまえ,という方法を採りつつあります.
登録後数年は非公開にできますし,そこからもらったIDさえあれば自分の側はデータを削除して
すら構わないので.
登録して数年たっても論文にならないならそれはその程度の価値だったと思って活用できる人に
活用してもらうもよし,どうしてもという場合は一端削除して再登録してもいいと自己説得して
います.
自分のソースコードを最初からgithubに預けるソフトウェア技術者のような感覚ですが,データベース
側にゴミもまとめて預けてしまっているようでもあり,少し申し訳ない気持ちはありますが.
kaho
Re:耳の痛い話 (スコア:1)
コスト的に無理、あまり意味がない(と現在では思われている)種類のデータは難しいですね…。
例えば、次世代シーケンサの生データを保存している人がどれだけいるか。
実験者の話を聞く機会があるのですが、基本的には「配列を取り出したらもう生データはいらないので削除」が多いです。彼らの目的は、現時点では配列を調べたり、配列のコピー数を調べたりすることなので。
「全部保存しておくよりも、後から必要になったものについて、もう一回次世代シーケンサを走らせた方が安い」という戦略をとっているところも多いですね。まあそれは、合理的な戦略ですが…。
計算機シミュレーションの分野で、ログをどこまで保存しておくか、という話に似ていますね。生のログを全部保存しておくのは難しい。解析後のデータのみを保存し、細かいログは破棄する。後で必要になったら、初期条件と乱数のシードを一致させて、もう一度プログラムを走らせればいい。
インフラ構築(シーケンサでデータを取ったら自動でデータベースに保存し、解析ツールから容易にそれらのデータを扱えるようにするとか)も話題には上りますが、まあ規模の大きいところでないと、予算的にインフラ構築は難しいですね…。
そもそもメディアがフロッピー (スコア:1)
10年前なら光磁気ディスク(MOドライブだとか)
そういうこともあるんじゃないかな
Re: (スコア:0)
PDも忘れないでやってください。
Re:そもそもメディアがフロッピー (スコア:1)
「zipでくれ」
「はい」
「Zipじゃねーよ」
Re:そもそもメディアがフロッピー (スコア:1)
物理メディアも危ないがデータフォーマットも危ないかも。 (スコア:0)
データはあるけど結局読めない、なんてこともあるのではとも思いますね。
物理メディアが読めなくなる(エラーが増える、読み出し機器がなくなる)対策としては、
FD→MO→DVD-R→HDD(ミラーリング+バックアップ)と乗り換えてきたけど、
データフォーマットはどうしたものかと。
アーカイブではzipはともかくlhaはいずれ危険領域に入ってくるかも、と思ったり。
画像だとX68000とかのころの.picとか.magとかそんな奴とか。
文字コードもマイナーなのはまともに読める環境がいつの間にか消滅したりするとか。
動画もなんでもかんでも再生環境が長期間残るとは思えないし・・・・。
まあ、自分の作品など貴重なものはなるべく不可逆圧縮しないでメジャーなフォーマットで
持っておくしかないんですけどね。
Re: (スコア:0)
サイズは大きくなりますが、テキストデータが無敵でしょう
表形式ならCSV
Re: (スコア:0)
10数年前の院生のときに5インチ(1.2MB)のFDに入っていたデータを取り出すのですら苦労した。
動く5インチの9801を探してきてSCSI経由で取り出したんだったかな。
Re: (スコア:0)
20年前のデータだとQICで残っているけどドライブがない。DAT, MO, DLTにコピーがあるけどどれもドライブがない。ちゃんと読めるだろうか。
15年ぐらい前からのデータなら複数のHDDバックアップしてあるけど、壊れてないかはチェック&新しいドライブにコピーしたのは何年前だったかな。
Re: (スコア:0)
HDDでもSASIだったら厳しい気が。
ふと思い出す、先発明主義の功罪 (スコア:1)
特許における悪名高き「先発明主義」ですが、これがあるために
「特許出願しても記録がちゃんと残ってないと先発明主義の国ではひっくり返されるぞ、気をつけろ」的な話があって、
(建前上は)ちゃんと研究ノートをつけ、ちゃんと整理して保管し、必要な箇所をすぐに取り出せるようにしよう、という流れがありましたね。
今はそういう話がないことと、ちゃんと整理してなくても検索でなんとかなるかーという一種の富豪的対処?によりあまり整理が・・・
・・・いえ違いますね、性格と意識の問題ですねすみません片付けます捨てます整理します。
研究費を効率的に使う研究が少なすぎる (スコア:0)
研究者が本当に論理的で国民のために研究をしたいと願っているなら研究費を効率的に使う研究がもっとあってもよいと思う。
自分のための研究は自費でやるべきなんだろうな。
Re:研究費を効率的に使う研究が少なすぎる (スコア:1)
全国民が他の国民のためにありたいと願っているなら警察いらんだろう
研究者だけ何故例外?
Re: (スコア:0)
多くが国から金もらってるからに決まってる
もらってないなら好きにすればよい
Re: (スコア:0)
学術研究にかかわったことのある人間からみた研究者→なりゆきで入った分野で、ノルマ達成のために研究させられている
Re: (スコア:0)
国民の全てに悪意がなかったとしても、警察は必要なのですよ。
また、国民に対してなんらかの制限をする組織は警察だけではない(というか警察はほんの一部だよね)
Re: (スコア:0)
出資者の意向も絡むしなあ。
その研究で十分な研究費が出るんならやってもいいと思う人は結構いると思うぞ。多分実際には研究費出ないけど。
研究データを永久に保存するための研究が必要ですね。 わかります。 (スコア:0)
>公的なアーカイブにアップロードする
公的なアーカイブが予算の都合で閉鎖され、結局すべて失われるんですね。わかります。
Re:研究データを永久に保存するための研究が必要ですね。 わかります。 (スコア:2, おもしろおかしい)
|ω・`) Google
Re: (スコア:0)
「ネットワークアーカイブの8割は20年後には残っていない」
Re: (スコア:0)
データにエロ画像入れればええんとちゃうのん
日本の大手メディアも (スコア:0)
研究データじゃないけど、日々報道されるニュースを配信してるマスメディア。特に新聞系。
ウェブでもニュース配信してるけど、基本的にそれらのニュース配信期間は短い。Wikipediaの参考リンクにニュースサイトへのリンクが付けられることも多いが、そのほとんどがリンク切れになる。
なぜ過去のニュースもそのままのURLで置いておいて、ロングテール的なアクセスをゲッツしないんだろう。コンテンツであり露出になるのに。
過去のアーカイブは有料で閲覧出来ますよ、みたいなのやってるのかな?
ちなみに、海外のメディアをいくつか調べたが、普通に2002年あたりのニュースも余裕で残ってた。
Re:日本の大手メディアも (スコア:1)
そんなことをすると「報道をしない自由」が脅かされるかもしれないのでやりません。
Re:日本の大手メディアも (スコア:1)
アーカイブのあるのは、ざっと見たとこ朝日新聞だけみたいですね。
http://www.asahi.com/information/db/ [asahi.com]
写真や動画のアーカイブなら他にもあるのですが、
何カ月も前の物は残してない模様。
Re:日本の大手メディアも (スコア:1)
若い人は知らんかもしれんが、20世紀のころ新聞会社は「毎日の新聞」を配達や店頭で売るのに加えて
毎年、1年分の新聞をアーカイブした「縮刷版」って分厚い本を公立や学校の図書館に売りさばいていたのじゃよ。
21世紀になって、無料でアーカイブがインターネットに残ったら商売あがったりだー、
という意見がマスコミ内部から出てたんじゃあるまいか
Re:日本の大手メディアも (スコア:1)
日本だと共同通信と地方紙で運営されている47Newsで、2003年とそれ以降のニュースが読めます。
http://www.47news.jp/ [47news.jp]
原始的バックアップ (スコア:0)
紙に印刷してバックアップすればいいんじゃないかな。
可逆性にするために、取り込むための規格策定も必要だろうけど。