TEdb project on Starrydata

日本熱電学会の熱電特性データベースWGが主催する、学術論文からの熱電特性データベース構築プロジェクトのブログです。

研究者が論文からのデータ収集をやってくれたらなぁ

「論文を読んだときに、そこに掲載されていたグラフをなぞって、数値データとして保存しておく」という作業は一瞬で終わる簡単な作業です。そんな「グラフの数値データ化」が、何十年もなかなか進まないのは、どうしてかなーと思ったりします。

それが解決できたら、今まで誰も手に入れることのできなかった、「大規模実験データ」が手に入るはず・・・!そうしたら、新しい研究成果がいっぱいでてくるはず・・・

というわけで、自分の経験をもとに考えてみました。

面倒くさいって言われてしまうのです

研究者である私たちは、難しい実験とか難しい計算、難しいプレゼンや論文を書くなどの研究成果発表には、いくらでも嬉々として時間を費やすことができます。
そんな私たちが、簡単な作業を「面倒くさい」と思ってしまうのはなんでだろう。。。と思いました。

まず、駆け出しの研究者であった頃に、このような作業を行わなかったことで、研究に必要なプロセスであるとイメージできないのかもしれません。

研究の世界を生き残っていくには自分だけの新発見などの「研究成果」が必要ですが、文献データ収集は自分の研究成果にはならないような気がして、面倒くさく感じられるのかもしれません。

過去に一度でも、データ収集作業のノウハウが確立していない面倒な文献データ収集作業に関わった人は、「あれは大変すぎるから無理!」だと考えてしまうと思います。

そして、みんな雑務で忙しくて時間がない・・・!これが一番の原因だと思います。

とりあえず、サクサク進むようにすればましになるかも

あとは、効率よく作業ができるプロセス設計と、面倒くささを感じない、「心地よい」データ収集インターフェイスの作成が必要だと思っています。

人は、サクサク作業が進み、その成果が増えていくのが目に見えてわかると、だんだん楽しくなるという本能を持っている気がします。

単純なテレビゲームが、何の報酬もないはずなのにとても面白くて何時間も没頭できてしまうのは、努力に対する成果が確実に、かつ絶妙なタイミングで提供されることと、その作業が非常にスムーズに進むからなのではないかと思います。バグがあってすぐプレイが中断されたり、難しくてすぐに行き詰まったりしてしまうゲームは、すぐに飽きられてしまいます。

ここから類推すると、とても簡単な作業でデータがサクサクたまっていくソフトが作れた場合、その作業は非常に楽しいのではないかと予想されます。


研究者をやっていると忘れがちですが、たくさんのものを効率よく作る方法に、流れ作業があります。

例えば1000冊の冊子を封筒に入れ、異なる宛先に発送したい場合を考えてみます。
(学生の頃、研究室でそういう仕事があり、学生総出で時々やっていました)

・宛先の人の郵便番号と住所・宛名を読んで、パソコンに入力
・それを印刷して1枚の宛名シールを作る
・封筒に貼る
・封筒に冊子を入れる

という作業を1000回繰り返すと考えると、気が遠くなって全くやる気が起こりません。
そして宛名シールの印刷でバグったり、紙が詰まったりしたらなおさらです。

今までの「超面倒くさい」文献データ収集作業は、こういう感じで1個ずつ進める感じだったのではないかと思います。

もっと効率的にやる方法はこんな感じです。
・宛名シールを1000枚スムーズに印刷
・1000枚の封筒にひたすら宛名シールを貼る
・1000冊をひたすら封筒に詰める
こっちだったら、できるんじゃないか?という気になります。10人くらいでやったら、2時間くらいで終わりそうです。

大量のシールを貼った封筒や、冊子を詰めた封筒が横にどんどん積みあがっていくのは、意外に楽しく気持ちのいい作業ですらあります。
これは、スムーズに進むレベルまで作業を細かく分割し、自動化できる作業は自動化して、効率化した効果だと言えます。

論文を読んで情報を整理する、お手伝いができたら?

研究者の作業で割と面倒なのが、読んだ論文の管理です。面白そうだなと思って論文をダウンロードして読んでみても、どこに何が書いてあったか忘れてしまいますし、どっちの論文の方がデータが良かったかも忘れてしまいます。

ここでちゃんと情報を管理していないと、論文を執筆するときに参考文献リストを作成することになって、再度論文を探しなおし・・・なんてことになります。さらに、論文の著者とか雑誌名とか巻番号、年、ページ番号なども変なフォーマットで書かないといけなくて、それも結構大変な作業です。

というわけで、論文の情報を整理するソフトを作って、そこにさりげなくデータ収録機能もつけておいたらいいのではないかなーと思いました。

そういう