アカウント名:
パスワード:
科学研究の末端に関わるものとして耳の痛い話です.
「発表から2年までは全部にアクセスでき,3年までは多くのデータにアクセスできた」というのは雑誌側が要求する点であるので,ある意味当然なのですが,研究者側がちゃんと約束を守っているということでもあるかと思います.
一方,私自身も過去に所属していた研究機関に残したデータが今どうなっているかは把握しておらず,発表した全ての生データを今要求されても満足に返信できる自信はありません.
そういう事情もあり,最近では研究の発表以前,論文の投稿以前,それどころかデータを取ったら速やかに公共データベースに登録してしまえ,という方法を採りつつあります.登録後数年は非公開にできますし,そこからもらったIDさえあれば自分の側はデータを削除してすら構わないので.登録して数年たっても論文にならないならそれはその程度の価値だったと思って活用できる人に活用してもらうもよし,どうしてもという場合は一端削除して再登録してもいいと自己説得しています.自分のソースコードを最初からgithubに預けるソフトウェア技術者のような感覚ですが,データベース側にゴミもまとめて預けてしまっているようでもあり,少し申し訳ない気持ちはありますが.
コスト的に無理、あまり意味がない(と現在では思われている)種類のデータは難しいですね…。例えば、次世代シーケンサの生データを保存している人がどれだけいるか。実験者の話を聞く機会があるのですが、基本的には「配列を取り出したらもう生データはいらないので削除」が多いです。彼らの目的は、現時点では配列を調べたり、配列のコピー数を調べたりすることなので。「全部保存しておくよりも、後から必要になったものについて、もう一回次世代シーケンサを走らせた方が安い」という戦略をとっているところも多いですね。まあそれは、合理的な戦略ですが…。計算機シミュレーションの分野で、ログをどこまで保存しておくか、という話に似ていますね。生のログを全部保存しておくのは難しい。解析後のデータのみを保存し、細かいログは破棄する。後で必要になったら、初期条件と乱数のシードを一致させて、もう一度プログラムを走らせればいい。
インフラ構築(シーケンサでデータを取ったら自動でデータベースに保存し、解析ツールから容易にそれらのデータを扱えるようにするとか)も話題には上りますが、まあ規模の大きいところでないと、予算的にインフラ構築は難しいですね…。
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
にわかな奴ほど語りたがる -- あるハッカー
耳の痛い話 (スコア:3, 参考になる)
科学研究の末端に関わるものとして耳の痛い話です.
「発表から2年までは全部にアクセスでき,3年までは多くのデータにアクセスできた」というのは
雑誌側が要求する点であるので,ある意味当然なのですが,研究者側がちゃんと約束を守っている
ということでもあるかと思います.
一方,私自身も過去に所属していた研究機関に残したデータが今どうなっているかは把握しておらず,
発表した全ての生データを今要求されても満足に返信できる自信はありません.
そういう事情もあり,最近では研究の発表以前,論文の投稿以前,それどころかデータを取ったら速やかに
公共データベースに登録してしまえ,という方法を採りつつあります.
登録後数年は非公開にできますし,そこからもらったIDさえあれば自分の側はデータを削除して
すら構わないので.
登録して数年たっても論文にならないならそれはその程度の価値だったと思って活用できる人に
活用してもらうもよし,どうしてもという場合は一端削除して再登録してもいいと自己説得して
います.
自分のソースコードを最初からgithubに預けるソフトウェア技術者のような感覚ですが,データベース
側にゴミもまとめて預けてしまっているようでもあり,少し申し訳ない気持ちはありますが.
kaho
Re:耳の痛い話 (スコア:1)
コスト的に無理、あまり意味がない(と現在では思われている)種類のデータは難しいですね…。
例えば、次世代シーケンサの生データを保存している人がどれだけいるか。
実験者の話を聞く機会があるのですが、基本的には「配列を取り出したらもう生データはいらないので削除」が多いです。彼らの目的は、現時点では配列を調べたり、配列のコピー数を調べたりすることなので。
「全部保存しておくよりも、後から必要になったものについて、もう一回次世代シーケンサを走らせた方が安い」という戦略をとっているところも多いですね。まあそれは、合理的な戦略ですが…。
計算機シミュレーションの分野で、ログをどこまで保存しておくか、という話に似ていますね。生のログを全部保存しておくのは難しい。解析後のデータのみを保存し、細かいログは破棄する。後で必要になったら、初期条件と乱数のシードを一致させて、もう一度プログラムを走らせればいい。
インフラ構築(シーケンサでデータを取ったら自動でデータベースに保存し、解析ツールから容易にそれらのデータを扱えるようにするとか)も話題には上りますが、まあ規模の大きいところでないと、予算的にインフラ構築は難しいですね…。