材料科学データベースMPDSでアクセス可能なデータ種別とカテゴリ詳細
材料科学のデータサイエンス向けプラットフォーム MPDS では、PAULING FILEデータベースの情報を中心に、プロジェクトチームオリジナルの第一原理計算の結果、機械学習の結果が登録されています。さらに、膨大な項目を分類するため、14種の検索・分類基準が設けられています。MPDSについての報告は Blokhin 2018 で発表されていますが、本稿では、MPDSに登録されているデータ種別と検索方法について解説します。
データ種別
MPDS内では、大きく3種類のデータに分かれています。
・査読付き論文からの情報 peer-reviewed data from journals
・第一原理計算の結果 own ab initio calculations
・機械学習計算の結果 own machine learning
査読付き論文からの情報 peer-reviewed data from journals
中心となるのはPAULING FILEで収集されている論文からの情報です。PAULING FILEは無機結晶物質の結晶学的データ、相図、物性を同一フレームにまとめた材料科学者のためのリレーショナルデータベースです。実験的な観察に焦点を当て、1891年から現在までの世界的な科学文献の原著をもとにデータを加工しています。登録されている結晶構造、相図、物性の各データベースは、特定の出版物に由来しています。これまでに、PAULING FILEプロジェクトを引用した論文はすでに数千に及びます。Pauling File プロジェクト自体は、例えば、Villars 2004、Villars 2008、Xu 2011、Kong 2012、 Villars 2013、Villars 2018といった著書で報告されています。(2019年10月、PAULING FILEプロジェクトの創設者であるPierre Villarsは、データ駆動型材料開発を支える基礎研究に対して、権威あるNIMS賞を受賞しています。)
現在、MPDSには30万の論文と、7.6万の相図、50万の結晶構造、100万近い物性が登録されています。
第一原理計算結果 own ab initio calculations
MPDSのグループが、第一原理計算で取得したデータ群です。主に3.5万の電気的特性、7000の格子振動スぺクトル、7000の熱力学特性、30000の機械的特性などが記録されています。
機械学習結果 own machine learning
MPDSグループが、機械学習により習得したデータ群です。主に60万を超える熱力学的特性、10万以上の機械的特性、18万の電気化学的特性、12万の相転移情報が記録されています。
データ検索
ここからはデータの登録区分と検索方法について説明します。
検索カテゴリ
MPDS内では、14の条件によりデータの検索・フィルタリングが可能です。
基本項目 basic
材料クラスMaterials classes
物性 physical properties
化学元素 chemical elements
化学式 chemical formulae
結晶情報 crystallography
空間群 space groups,
結晶系 crystal systems
プロトタイプ prototypes
原子環境 atomic environments
書籍情報 bibliography
著者 publication author
発行年 Publication years
雑誌名 journal or book
地域 Geography
組織 Organization
DOI Publication DOI
アクセスと検索
MPDSへは以下URLでアクセスが可能です。
全てのデータは、ブラウザベースのGUIとプログラムを利用したAPIの2つの方法で提供されています。MPDSではAPIでの一括データアクセス、処理が大きな魅力ですが、グラフィカルインターフェースも非常に整えられています。データアクセスのカテゴリについてはどちらも共通であり、ここでは説明の分かりやすさのため、GUIを元に説明します。プログラム的な使用方法についてはAPIの記事で説明します(現在執筆中)が、公式のチュートリアルはこちらの内容をご覧ください。
HPにアクセスすると、以下のような画面が表示されます。アカウント情報がなくとも検索自体は可能ですが、最低限の公開情報のみへのアクセスとなるため、最低でも無料のアカウント登録のうえ、ご利用いただくことをおすすめします。アカウント登録と詳細はアカウント登録に関するこちらの記事をご覧ください。検索には二種類のモード(シンプル、アドバンス)が2選択可能です。中央の検索窓よりシンプルな検索が可能で、上記14項目の要素を任意に入力し、検索を行うことができます。更に検索窓右の ≡ マークより、詳細検索を実施可能です。
検索項目詳細
ここからは、検索できる項目の詳細を説明します。
材料クラス material classes
MPDSでは専門用語から物理的なカテゴリ、化学名、元素数、周期表グループ、一部の同位体名など、さまざまな材料クラスが収集されています。例えば、cell-only、disordered、non-disorderedは結晶構造(S-entries)に対して有効であり、特定の領域にのみ適用される多くの補助用語があります。別の例として、ab initio literatureという用語は、理論的な第一原理モデリング論文から得られたデータを指します。さらに、ペロブスカイト、バデライト、スティショバイト、イエリマイトなど、既知の鉱物名の大部分をサポートしています。更に、高度な検索を可能とするために、 unary、binary、ternary、quaternary、quinary、というarityクラスにより結果の要素数を明示的に制御することができます。
登録されている項目は膨大ですが、項目は https://mpds.io/tutorial/ のlisting 1 で確認可能です。Listing 1の項目をクリックいただくことで実際にフィルタリングをかけた検索結果を確認できます。
上記ページに一度に表示される候補は限られていますが、更新することで材料クラスの候補を変更できます。材料クラスは赤色で表示されます。
物性 physical properties
物性は主に以下7つの大項目に分かれています。
光学特性 (optical properties)
相転移 (phase transitions)
電子・電気特性 ( electronic and electrical properties)
超伝導 (superconductivity)
磁気特性 (magnetic properties)
機械的特性 (mechanical properties)
熱的・熱力学的特性 (thermal and thermodynamic properties)
各項目が複数の小項目に分かれており、階層構造は整った形で確認可能です。詳細な項目については詳細検索 ≡ より進み、basicタブ -> Physical property 項の”the hierarchy” より確認いただけます。各物性の詳細項目は’expand’ボタンより確認可能です。入力、選択した物性はオレンジ色で表示されます。
化学元素 chemical elements
化学元素は、名前または記号(例:cupper、Cu)で入力することができます。もちろん、化学元素はスペース、カンマ、ダッシュを区切り文字として使って、任意に組み合わせて検索することができます。例えば、Cd-O-Sの検索結果には、Cd、O、Sだけでなく、Tl、H、N、Kなども含まれることがあります。要素数を制限するために、引数の数を表す材料クラス (unary、binary、ternary、quaternary、quinary) を追加する必要があります
例えば、Cd, O, Sを含み、5元素からなるものを検索したい場合、Cd-O-S quinary と検索します。
選択した元素はグレーで表示されます。
化学式 chemical formulae
化学式での指定は、元素の順序などに関係なく可能です。結果は標準的な元素の順序(電気陰性度による)に従い表示されます。最も頻繁に使用される化学式をアルファベット順に以下に示します。
明示的な指定だけでなく、匿名化学式の使用も可能です。これらは、元素名を文字A、B、C、Dで表した化学式です。原子番号の順序は任意であるが、匿名の化学元素は常にアルファベット順で提供する必要があります。例) A2B, ABC3, など。このような検索方法は、現在匿名化学式での検索は、二元、三元、四元の化合物のみがサポートされています(すなわち、文字E、Fなどは使用できず、欠陥のある元素はカウントされません)。
結晶系と空間群 crystal systems and space groups
MPDSでは7つの結晶系と230の空間群に完全対応しています。空間群は、数字または国際略号で指定することができます。結晶系と空間群の完全なリストは、 Wikipedia等をご確認ください。結晶系、空間群、プロトタイプシステム(下記参照)は相互に排他的であり、検索クエリで組み合わせることはできないことに注意してください。本カテゴリは、青色で表示されます。
プロトタイプ構造 prototypes
プロトタイプ構造はStrukturberichtとcombinedの2つの表記に対応しています。前者のは、古い結晶学的な分類法で、今でも科学文献で時々使われています(下記のリストを参照)。後者の表記は、化学式、ピアソン記号、空間群番号の組み合わせで与えられます。例えば、世界の文献で最も一般的な原型はNaCl cF8 225であり、約40,000件の結果があります。。その他の重要な構造プロトタイプは、例えば立方晶ペロブスカイトCaTiO3 cP5 221、亜鉛閃石ZnS cF8 216、超伝導クプラ―とBa2Cu3YO6.3 tP14 123などです。現在、約14000種類のプロトタイプ構造があり、そのうち約250種類がStrukturbericht記号です。指定できるStrukturberict記号は以下の通りです。非常に古い表記法ですが、Strukturberichtは今でも文献でよく使われています。本カテゴリも空間指定に関わるため、結晶系、空間群と同様の青色で表示されます。
原子環境 atomic environments
結晶構造中の原子環境は、多面体内に配置されています(TiO6やHgX12など)。この多面体の種類と原子組成から、MPDSデータ全体を検索することが可能です。詳細はDaams et al. (1992)の研究に従います。また、原子環境を検索する際に、特定の化学記号を指定することができます。このカテゴリでは、最初に与えられた化学記号を多面体の中心と見なすため、この後に続けて係数を指定することはできません。次に頂点となる元素を指定します。中心および頂点原子は並べて(またはスペースまたはマイナス記号を使用し細分化して)記述することができ、X記号は任意の化学元素を表します。最後に、中心原子の配位数(Coordination Number: CN) を指定します。
入力例としては以下のようになります。
(a)U中心、任意のCN、任意の頂点 U
(b)任意の中心、任意のCN、Se頂点 X-Se
(c)U中心、CN=6、O頂点 UO6
(d)U中心、CN=7、任意の頂点 UX7
多面体の種類は、分かりやすくビジュアライズされた項目より選択可能です。
詳細検索 ≡ → crystallography → all polyhedra より選択可能です。
論文情報
論文より登録されている情報に関しては、対応する著者名、出版年、ジャーナル号、ページ、DOI、地域などで検索可能です。この情報は、MPDSを利用した研究を発表する際の引用にも利用することができます。なお、Pauling Fileに登録されている論文は以下に記載されています。
最後に
本稿では、材料科学のデータサイエンス向けプラットフォームMPDSについて、登録データのカテゴリと検索方法について紹介しました。アカウントの作成やAPIの取得方法についてはこちらを、結果の解析方法や、APIの活用方法についてはこちらをご覧ください(現在執筆中)。
Cliffhunger株式会社は、日本国内唯一のMPDS代理店として、導入、活用のサポートを実施しています。また、Data Alchemit プロジェクトとして、貴社のデータサイエンスを更に加速させるコンサルティングサービスを展開しています。ご興味のある方は以下までお問い合わせください。
Comments