TEdb project on Starrydata

日本熱電学会の熱電特性データベースWGが主催する、学術論文からの熱電特性データベース構築プロジェクトのブログです。

2017-01-01から1年間の記事一覧

pymatgenのCompositionクラスの機能

pymatgenのCompositionクラスには組成式関係のよく使う機能がいろいろと実装済みです。 from pymatgen import Composition composition_str="As2Se4Cu2" comp=Composition(composition_str) print("comp=",comp) print("comp.element_composition:",comp.ele…

Materials ProjectのAPIの使い方(pymatgenを使う方法)

pymatgenのMPResterクラスを使って、Materials Projectからデータを取得してみます。 MPResterクラスのソースコードを見ると、以下のようなメソッドがあります。 使い方も、ソースコードに書いてあります。

Materials ProjectのAPIの使い方(仕様編)

Materials ProjectのAPIの仕様を読んで、いろいろテストした結果を書いてみます。 www.materialsproject.org

Materials ProjectのAPIの使い方(基本)

Materials Projectから、検索条件に当てはまるデータを取ってくる方法について紹介します。 まずは、ブラウザのURL欄に書き込むことで入手する方法です。

アメリカのすごいMaterials Informaticsサイト

アメリカは2011年にMaterials Genome Initiative(MGI)が始まり、莫大な予算をつけてきたことや、IT技術が進んでいることなどにより、すごいMIができるサイトがいっぱいあります。すべて無料で使用でき、元データを一括で入手することもできます。私の専門分…

データ収集対象論文の選び方?いやむしろ選ばない方向で

データ収集を始めるにあたり、「どの論文からデータを集めるか」は結構重要な問題です。同じ物質に分類されている試料でも、論文によってデータは大きく違います。 しかし収集者側も、そこまでの予備調査の労力は費やせないため、対象論文を選ばざるを得なく…

文献データ収集の完全自動化は結構難しい

論文からのデータ収集作業の話題になると、「大変だから全部自動化しよう」という流れになる気がします。数字はOCRで読める。 目盛りもデータ点も検出できる。 最近はテキストマイニングとか機械学習の技術も進んでいる。 よってデータは自動取得できる。そ…

研究者が論文からのデータ収集をやってくれたらなぁ

「論文を読んだときに、そこに掲載されていたグラフをなぞって、数値データとして保存しておく」という作業は一瞬で終わる簡単な作業です。そんな「グラフの数値データ化」が、何十年もなかなか進まないのは、どうしてかなーと思ったりします。それが解決で…

実験値Materials Informaticsをやるべき理由

アメリカが2011年に始めた、Material Genome Initiativeという巨大なプロジェクトは、数千物質の自動第一原理計算データを用いたMIであり、輝かしい成功を収めています。データ解析や機械学習という、これまで物性科学の分野では見かけなかったアプローチを…