TEdb project on Starrydata

日本熱電学会の熱電特性データベースWGが主催する、学術論文からの熱電特性データベース構築プロジェクトのブログです。

データ収集対象論文の選び方?いやむしろ選ばない方向で

データ収集を始めるにあたり、「どの論文からデータを集めるか」は結構重要な問題です。

同じ物質に分類されている試料でも、論文によってデータは大きく違います。
しかし収集者側も、そこまでの予備調査の労力は費やせないため、対象論文を選ばざるを得なくなります。

この選定作業を効率化すれば、もっとデータ収集が楽になるのではないかと思いました。

論文・試料の選定方法別 メリット&デメリット

選定基準 メリット デメリット
純粋な単結晶 第一原理計算との照合が容易。物性物理で重視される。 特性が悪い可能性が高い。微量ドープ試料を単結晶とみなしてよいか不明。
最も特性の良い試料 材料特性の物質依存性に関心を持つ人に重視される。 特殊な合成方法の可能性がある。複雑な組成を持った試料の分類が難しい。特性が高すぎて怪しい論文もある。
典型的な製法の試料 材料の実用化に関心を持つ人に重視される。 典型的な製法の認識が個人によって異なる。また、年代によっても変わる可能性がある。
平均データ 上記の情報を併せ持つデータとなる可能性がある。 母集団によって値が大きく変わる。全部集めるまで平均が出せない。新規データの追加によっても変化してしまう。
選定せずにすべて収集 選定の手間がかからない。データ量が多くできる。解析の恣意性を排除できる。 物質名に一対一対応する数値を取得することはできない。データの分類もユーザー任せとなる。


こういう決断を繰り返していると、データ収集者の心理的な負担が増えていきます。

そして、データを収集せずに論文を見比べているだけの不毛な時間が長くなり、効率的に進まなくなってしまって面白くなくなってしまいます。

物質ごとの選定はあきらめ、試料ごとに独立に登録すれば矛盾なし

そもそも、物質の分類も、物質を代表する試料の選択も主観的なもので、科学的なものではないのではとも思います。

そこで、既存のデータベースやMIで使われてきた「データベースは物質ごと」という概念を捨てます。
そして論文に載っている試料を、片っ端からトレースして登録していきます。
無理に分類しようとせず、組成式や製法などメタデータの登録でもって試料の素性がわかるようにします。
その試料がベストかなんて、考える必要はありません。

もしかしたらデータを選択するというその行為自体、とても恣意的でMIの概念に反し、MIの結果を捻じ曲げる可能性を秘めたものかもしれません。
試料の分類作業は、検索をかけるユーザーに任せるのがベストなのかもしれないと思います。

迷う必要がなくなれば、データ収集効率が上がり、情報量も増えて、一石二鳥。
そうやって良い試料も悪い試料も関係なく登録することが、人間の処理能力をはるかに超えた情報の解析を可能にするのではないかとも思ったりします。