G-B8ZBWWKGWV
PR

【理論編】マテリアルズインフォマティクスとは? 従来型研究開発の違いを分かりやすく説明

マテリアルズインフォマティクスの順問題と逆問題 マテリアルズインフォマティクス
スポンサーリンク

マテリアルズインフォマティクス(MI)とは?

マテリアルズインフォマティクスは、データをもとに統計的な手法を利用した精度の高い材料の物性の予測や、目標とする物性の材料の予測によって、従来の実験科学的な手法をサポートして材料開発を高速化・効率化する技術です。デジタル技術の発展に伴い、膨大な数の実験や論文のデータを解析できるようになったことから実現できた技術で、材料開発のプロセスを大きく変える画期的な技術として注目されています。

マテリアルズインフォマティクス(MI)と従来型研究開発の違い

従来型研究開発とMI利用材料開発の違いを説明します。

従来型材料開発は、研究者の経験とひらめきに基づく材料設計、実験による化合物合成、物性評価、そして結果をフィードバックして新しい材料設計をします。材料の分野や目標によりますが、フィードバックを数十~数百回繰り返して、目標の物性を持つ材料を開発できるイメージです。従来型材料開発では、材料合成や物性評価に時間がかかり、さらにそのサイクルを数十~数百回繰り返すため、開発期間が数年に及ぶこともあります。

MIを利用した材料開発は、MIによる精度の高い材料の物性の予測や、目標とする物性の材料の予測ができるようになります。精度の高い材料の物性の予測により、時間のかかっていた材料合成と物性評価の期間が大幅に短縮され、フィードバックを効率化・高速化できます。さらに、目標とする物性の材料の予測により、研究者の経験とひらめきに基づく属人的な材料設計ではなく、データをもとにした合理的な提案がされます。時には人間の先入観によらない新しい材料が提案されることもあり、従来の材料開発では見落とされていた新しい発見につながる可能性もあります。

フィードバックを効率化・高速化したうえで、実際に求める物性の材料になっているかどうかは従来型材料開発と同様に材料合成・物性評価して確認します。ただし、MIを利用することで材料合成する件数を最小限に抑えることができるため、MIを利用した材料開発は開発期間の短縮やコストの低減が可能になります。

従来型材料開発とMI利用材料開発

マテリアルズインフォマティクス(MI)のプロジェクトの進め方

MIは研究部門とデータサイエンティストが共同で実施したり、工場や営業が参加したりして、複数部署でのプロジェクト進めることが多いです。

一般的に、機械学習やAIのプロジェクトは小さく始めることが推奨されていますが、先が見えないままPoC(Proof of Concept、概念検証)段階で行き詰ってしまうことがよくありました。

プロジェクトを成功に導くためには、最終的に誰がどう使うのか、必要なデータは何で、成功はどのような指標で評価するのかなどをあらかじめ体系的に把握しておきつつ、素早く仮説検証サイクルを回すことが不可欠であり、このプロセスが欠けた場合、解析はできたが実施に適用できない、収集したデータでは目的が達成できないなどの問題が生じます。

プロジェクトを成功させるためのツールとして、三菱ケミカルから機械学習プロジェクトキャンバスが公開されています。プロジェクトを実施する前にこれら12の要素をすべて埋めることで、プロジェクトの成功に必要な要素を過不足なく検討することができるツールとなっています。機械学習プロジェクトキャンバスと解説記事のリンクを紹介します。

マテリアルズインフォマティクス(MI)の手順

具体的なマテリアルズインフォマティクスの実践は別記事でまとめました。

マテリアルズインフォマティクス(MI)の課題

データ量が少ない

MIに利用するデータ元は以下の4つが代表的です。

  • 社外のデータベース
  • 論文、特許
  • 理論計算
  • 自社の実験データ

社外のデータベースや論文、特許のデータには、所望の物性値がない場合が多いです。特に最先端の材料開発ほど、所望の物性値がある可能性は低いです。理論計算は計算機を使えばデータを作成することができますが、物性によっては理論計算できない場合も多いです。

自社で実験データを作成する方法はコストと時間がかかるため、大量にデータをそろえるのが難しいです。複雑なモデルを利用した機械学習をする場合、データを数千以上使用します。画像認識や言語処理の分野ではインターネット上のデータを収集して大量のデータをそろえることができます。しかし、材料開発をするMIでデータをつくるためには、化合物を合成してデータを取得する必要があり、データを取得するために時間とコストがかかります。そのためデータが数十しか集まらないことも多いです。

データ量を増やす対策としては、コンビナトリアルケミストリーや実験の自動化などの工夫が必要です。どうしてもデータ数が少ない場合は、相関モデルとしてシンプルな線形回帰モデルを使用します。

データ質が低い

社外のデータベースや論文、特許のデータには実験手法や分析手法が異なるデータが混在していてデータの質が低いです。データの質が低いと、材料の物性値の予測精度が下がります。

自社に多数のデータがあっても、データに記録されている項目が属人化されていてバラバラな場合はデータが欠損して質が低いです。また、実験者のスキルによって材料の合成方法や精製方法に差が出ることがあります。さらに、物性が低かったデータはきちんと残っていないこともありますが、MIでは偏りのないほど質のいいデータになるため、失敗したデータも貴重なので残しておかなければなりません。

自社データの質を高くする対策は、実験の手順や条件、データを記録する項目を標準化する必要があります。また、結果にかかわらず実験データを蓄積しておくことが重要です。

マテリアルズインフォマティクスではデータ量の少なさや質の低さが問題になることが多いですが、既存のデータベースを使える場合はこの問題が解決される場合があります。データベースについては別記事にまとめています。

データ人材の不在

データサイエンティストなど、データを適切に扱える人材が不足しています。MIでは、材料に対する深い理解とデータサイエンスの知見の両方を兼ね備えた人材が求められます。多くの企業でMIが導入されはじめているため、データサイエンティストのニーズが高まっています。

人材不足を解決するためには、大学での学部創設や講義プログラムを拡充したり、社内でMI研修をしたりして人材を育成する必要があります。

まとめ

この記事では、マテリアルズインフォマティクス(MI)とは何か、従来型研究開発とMIを利用した材料開発の違い、MIプロジェクトの進め方、MIの課題とその対策について説明しました。

関連書籍

「マテリアルズインフォマティクス」では、分子記述子とその利用法逆問題解析の手法などが説明されています。また、マテリアルズインフォマティクスを実践的に体得できるようGitHub等を参照できるようになっています。材料開発の実践に役立つ一冊です。

「化学・化学工学のための実践データサイエンス」では化学・化学工学系のデータ処理で実際に使える統計解析・機械学習手法を解説しています。データセットの作成、データの前処理、特徴量選択(変数選択)、モデルの作成と検証、モデルの逆解析など、マテリアルズインフォマティクスのやり方で紹介した内容がさらに詳しく説明されています。Pythonによるサンプルコードも付いており、この本があればマテリアルズインフォマティクスを実践できます

「詳解 マテリアルズインフォマティクス」では、有機化学・無機化学分野でのデータの具体的な扱い方、さらには様々な深層学習手法とその具体的利用の理解を助けるための応用事例が紹介されています。深層学習手法では、シンプルなものからDNNまでまとめられています。応用事例では、有機系の物性予測を中心に、最近の論文の紹介・解説がされています。

「事例でわかる マテリアルズインフォマティクス」は、「詳解 マテリアルズインフォマティクス」の続編です。

タイトルとURLをコピーしました