TEdb project on Starrydata

日本熱電学会の熱電特性データベースWGが主催する、学術論文からの熱電特性データベース構築プロジェクトのブログです。

実験値Materials Informaticsをやるべき理由

アメリカが2011年に始めた、Material Genome Initiativeという巨大なプロジェクトは、数千物質の自動第一原理計算データを用いたMIであり、輝かしい成功を収めています。データ解析や機械学習という、これまで物性科学の分野では見かけなかったアプローチを使って、有望な新規材料系を探しています。そしてその成功を見て、日本を含む各国が同じアプローチで追随しようとしています。

日本でも2015年頃から、MIの大規模プロジェクトが動き始めました。これから世界を相手に戦い、世界をリードしていくつもりであるなら、アメリカと同じことをするのではなく、まだ周りが気付いていないアプローチで取り組むことが大事です。

そのためのカギとなるのは、実験データの収集だと考えております。


MIが現在第一原理計算で行われている最大の理由は、データのフォーマットを統一でき、計算方法も一括して書けることです。自動化ができるので、大量のデータが簡単に手に入ります。

一方、第一原理計算には限界もあります。たとえば、私たちの研究対象である熱電変換材料では、第一原理計算から電気伝導率が計算できないため、ZTが計算できません。さらに、よくあるバンドギャップの計算誤差でナローギャップ半導体が半金属として計算されてしまった場合には、熱電特性の誤差がとんでもないことになってしまいます。正確なバンドギャップが計算できるという非常に重い計算方法も開発されていますが、これにはスパコンを長時間占有して計算しないとならず、大量に行うのは非現実的です。

そしてもし仮に第一原理計算ですべてを計算できるようになったとしても、特性改善のために大量のドーピングを行った場合など、複雑な試料の計算はできません。ひとことでドーピングといっても、元素の種類も量もさまざまで、そのそれぞれに対して複雑なスーパーセルを定義して計算にかけていたら、計算時間がいくらあっても足りません。

もし純粋物質同士でしか比較ができなかったら、「純粋物質の単結晶では特性は低いが、いろいろなドーピングをするとものすごく特性が良くなる物質」が、すべて「有望でない物質」だということになってしまうという恐ろしい事態になってしまいます。(そして、熱電変換材料のほとんどはそんな物質だったりします。)

単一の計算方法で得られたデータをデータ科学で解析しても、それほど珍しい結果は出てこないのではないかという疑問もあります。1つの方程式を式変形して並べ、連立方程式として解こうとするようなものです。もっといろいろな情報を加えないと、新しい情報は出てきません。

そこで私たちは、その情報を、大量の実験データの集合から導こうと考えています。

実験データには、未知の不純物や未知の欠陥、未知の規則性、未知の多体効果など、さまざまなものがたくさん含まれているはずです。それらの情報を解析してこそ、新しい情報が得られるのではないかと思います。