TEdb project on Starrydata

日本熱電学会の熱電特性データベースWGが主催する、学術論文からの熱電特性データベース構築プロジェクトのブログです。

文献データ収集の完全自動化は結構難しい

論文からのデータ収集作業の話題になると、「大変だから全部自動化しよう」という流れになる気がします。

数字はOCRで読める。
目盛りもデータ点も検出できる。
最近はテキストマイニングとか機械学習の技術も進んでいる。
よってデータは自動取得できる。

そんな話になりがちです。

しかし、実際にやってみるとこれが結構難しいのです。。。

グラフを読む難しさ

グラフは、人の目にとっては理解しやすく作られていますが、機械にとっても理解しやすいとは限りません。

点線や破線、一点鎖線が混在するグラフ
参照すべき軸がいっぱいあって、こっちのデータはこっちの軸という感じで、矢印によって別個に示されているグラフ
プロットの形状が印刷の滲みによって丸なんだか三角なんだかよくわからないグラフ
プロットが重なりすぎて、背後にちらっと何かが見えているだけになっているグラフ
凡例の意味が分からないグラフ
軸の単位の解釈が難しいグラフ

スペースが少ない中に情報を詰め込まないといけないというわけで、研究者のみなさんはグラフづくりにはオリジナリティを発揮してくれます。これは、逆に言うと定型フォーマットがないので、自動的なデータ抽出ができないということにもつながります。

読解力と専門知識が必要

適当な学生さんが、論文をざーっと拾い読みして、適当な結果を報告してきたら、ちょっとキレます。
テキストマイニングというのは、そんな「拾い読み技術」に近いところがあって、いい加減な情報を持ってきてしまうことがあります。

テキストマイニングでは、専門外の人間が書いたプログラムが使われます。その際、専門分野内の人間でも身に着けることの難しい読解力を、機械に本当に身に着けることができるかどうかは疑問です。そして自動的なデータ入力では、本文に書かれたメタデータ(試料作製条件、組成など)を入力することができません。これにより、得られるデータは表層的なものとなり、同じ名前の物質でも(条件が違うために)データがばらついてしまい、そのばらつきの理由がデータを見てもわからないという状態になってしまいます。

実際にテキストマイニングをするとしたら、専門家のデータ入力の補助のような感じで導入していくのがベストだと思います。

電子ジャーナルの利用規約の問題

大学や研究機関から無償で論文にアクセスできるのは、図書館が出版社と「電子ジャーナル」の契約をしているからです。
契約がない場合は、オープンアクセス論文でない場合は、論文1本あたり4,000円ほどを支払って購入する必要があります。
(それを万単位の論文にやったら、確実に破産するでしょう)

ところが、その電子ジャーナルは、「自分の研究」以外の目的で利用することが禁じられています。

なので、実際に研究に携わっている者が、「自分の研究のために」文献PDFからデータ収集を行うことが必要になります。


以上を考慮すると、文献データ収集は専門知識を持った研究者と学生でなければできないのではないかと思います。
よって、そんな彼らが手作業によって効率的にデータを収集する仕組みを構築することが、最も現実的な手段だと言えます。

そしてそれは、最も情報量に富んだデータベースをつくる道でもあると思います。