Starrydataにおいて最も難しく、かつ重要な作業は試料情報記入です。 論文の本文を読んで、試料の製法を理解したうえで、それを分類し、詳細を英語で記入します。 Form 試料形態 SingleCrystal 単結晶 Bulk バルク(多結晶など) OrientedBulk 多結晶配向体 Ep…
Starrydataによるデータ収集アルバイトをLancers上で始めました。熱電特性の論文を読んでStarrydata2にデータを登録していただき、組成・製法などの試料情報を記入していただくくことで、論文1本あたり1000円をお支払いできるようになりました。 準備 1. Lan…
論文のグラフからデータを収集することは、著作権を侵害してしまうのではないか? と、心配される方もいらっしゃると思います。 確かに、論文の文章や画像は、著作物です。しかし、下記の高裁判決にありますように、論文のデータ自体には著作性が否定されて…
Starrydataに登録されている情報を、コマンドから直接ダウンロードする機能(API)ができましたので紹介します。 1. 試料検索 WebブラウザのURLバーに以下の文字列を入れます。 https://www.starrydata2.org/paperlist/api/paper/search?atom=Bi,Teすると、…
www.youtube.com収集対象のグラフをPDFから切り出します(編集→スナップショット)。 切り出したグラフを Ctrlキーとvキーを押すことで、WebPlotDigitizerに貼り付けます。 XY軸の4点を決めて数値を入力します。 収集対象となるサンプルの数(=datasetの数…
Starrydata Webシステムとその応用に関しまして、この秋は以下の学会・講演会で発表を予定しています。 第1回データ利活用研究コミュニティWS 日時:2018年9月5日(水)13:00-18:30 会場:東京大学本郷キャンパス 伊藤国際学術研究センターB2F 参加申込…
youtu.be保存したデータにミスがあった場合には、データを編集することができます。
データ収集アルバイトとしてまとまった数の論文を一気にデータ収集したい方や、熱電材料の材料系ごとに一気にデータをダウンロードしたい方のために、熱電特性グラフが載っている論文のDOIのリストを作成し、GitHub上で公開しました。doilist_all.txtが、現…
youtu.be論文の情報の一番下に、 Data Report Detail Link(下線付き)と表示されます。 そのうちの、Dataを選択すると、動画のような画面が表示されます。データ入力画面の下部には、WebPlotDigitizer (External web system)が表示されます。 このWebPlotDi…
youtu.be
youtu.be
youtu.be新しいリストを作ります。 ‘Create List ’をクリックして 新しいリストのタイトルを入力します。 ‘Create List ’の前の’+’をクリックすると、入力したタイトルのリストができます。探した論文をリストに追加します。 検索して得られた論文(表示さ…
youtu.be論文を探しましょう。 キーワードを入力することで論文を探せます。 キーワードは、タイトル、著者、SID(Starrydata2の特有な番号)、ジャーナル、DOIの何れかを選んでから入力します。 例えば、skutterditeに関する論文を選択するなら、タイトルを…
youtu.beyoutu.beユーザ名 メールアドレス 姓 名 パスワード パスワード(確認用) を入力するとサインアップができます。サインアップした後、Database lists GeneralDB Sources : 17,364Extracted Sources: 936Figures : 4,617Samples : 5,883Mylist : 0 T…
熱電特性の論文を読んでStarrydata2にデータを登録していただくことで、論文1本あたり500円をお支払いできるようになりました。 (論文ダウンロード〜グラフトレース作業の報酬になります。論文の本文を読む作業は必要ありません。)作業締切は8/2(水)とな…
論文投稿と学会発表を期に、Starrydata2の説明のための英語ページを立ち上げました。 以下にリンクを張っておきます。Starrydata2の紹介サイトですが、読んだ人が2ってことは1はどこ?と気になってしまうと思ったので、タイトルはStarrydataとしております。…
pymatgenのCompositionクラスには組成式関係のよく使う機能がいろいろと実装済みです。 from pymatgen import Composition composition_str="As2Se4Cu2" comp=Composition(composition_str) print("comp=",comp) print("comp.element_composition:",comp.ele…
pymatgenのMPResterクラスを使って、Materials Projectからデータを取得してみます。 MPResterクラスのソースコードを見ると、以下のようなメソッドがあります。 使い方も、ソースコードに書いてあります。
Materials ProjectのAPIの仕様を読んで、いろいろテストした結果を書いてみます。 www.materialsproject.org
Materials Projectから、検索条件に当てはまるデータを取ってくる方法について紹介します。 まずは、ブラウザのURL欄に書き込むことで入手する方法です。
アメリカは2011年にMaterials Genome Initiative(MGI)が始まり、莫大な予算をつけてきたことや、IT技術が進んでいることなどにより、すごいMIができるサイトがいっぱいあります。すべて無料で使用でき、元データを一括で入手することもできます。私の専門分…
データ収集を始めるにあたり、「どの論文からデータを集めるか」は結構重要な問題です。同じ物質に分類されている試料でも、論文によってデータは大きく違います。 しかし収集者側も、そこまでの予備調査の労力は費やせないため、対象論文を選ばざるを得なく…
論文からのデータ収集作業の話題になると、「大変だから全部自動化しよう」という流れになる気がします。数字はOCRで読める。 目盛りもデータ点も検出できる。 最近はテキストマイニングとか機械学習の技術も進んでいる。 よってデータは自動取得できる。そ…
「論文を読んだときに、そこに掲載されていたグラフをなぞって、数値データとして保存しておく」という作業は一瞬で終わる簡単な作業です。そんな「グラフの数値データ化」が、何十年もなかなか進まないのは、どうしてかなーと思ったりします。それが解決で…
アメリカが2011年に始めた、Material Genome Initiativeという巨大なプロジェクトは、数千物質の自動第一原理計算データを用いたMIであり、輝かしい成功を収めています。データ解析や機械学習という、これまで物性科学の分野では見かけなかったアプローチを…