化学にAI革命を起こす方法｜論文データ抽出、自動実験ロボット、オープンリポジトリ

世界には、ChatGPTに代表される生成AIなど、AIがシンギュラリティを超えて発展しすぎることを心配している人がいます。一方で化学の世界はAIが発展しすぎている状況ではなく、むしろ化学はAI革命に乗り遅れています。

化学の分野でAIを活用しきれていない理由は、データが不足していることです。データ不足の課題を解決するため、いくつかの解決策が並行して進められています。

化学におけるAI活用の現状と課題
1. データの規模が不十分
2. データの偏り
データを増やすための方法
まとめ
関連文献

化学におけるAI活用の現状と課題

AIの性能は、トレーニングに使用するデータによって決まります。性能の良いAIを開発するためには、大規模で偏りがないトレーニングデータが必要です。しかし化学分野ではこのような理想的なデータを作成または入手することが難しいため、AIを十分に活用できていません。

データの規模が不十分

「十分な」トレーニングデータ数は、使用するAIのモデルによって変わります。例えば、原子をエッジ、結合をノードとして分子の化学構造をグラフ表現としてとらえた説明変数で分子の物性予測をしようとすると、少なくとも5,000～10,000データが必要です。しかし、化学のデータをつくるためには実験をして結果を分析するために時間やコストがかかるため、通常これほどの数のデータを準備することは困難です。

しかし、十分なデータをそろえることができれば、化学分野でもAIの力を発揮させることができます。化学におけるAI活用で最も成功した事例のひとつが、タンパク質の構造を予測するAlphaFold[1]です。グラフ表現アプローチを使用したAlphaFoldでは、200,000を超える構造を含むProtein Data Bankのデータに基づいてトレーニングされました。AlphaFoldは、十分な規模のデータを使用した場合にAIが優れた能力を発揮できる事例と言えます。

データの偏り

新しい発見をした化学者は論文や特許で研究成果を発表しますが、多くの場合では性能の高かった結果のみ公表されます。例えば、高い特性を示した化合物は公表する一方で低い特性を示した結果は公表しない、高い収率を示した反応は公表する一方で進行しなかった反応は公表しないのが一般的です。AIモデルのトレーニングためのデータを充実させる観点では、性能の低かった結果も含めた網羅的なデータが必要です。

データを増やすための方法

発表された論文からデータを抽出

これまでに発表された論文には大量のデータがありますが、論文から必要な情報を抽出するのは非常に大変でした。ウィスコンシン大学から、会話型大規模言語モデルを使用して論文からのデータ抽出を自動化するChatExtractが発表されました[2]。ChatExtractは、データを含む文を識別し、そのデータを抽出し、一連のフォローアップ質問を通じてデータの正確性を保証します。GPT-4を利用すると精度と再現率が90%でした。

論文からデータを抽出する場合、ケンブリッジ大学で開発された化合物名を構造に変換するアルゴリズム（OPSIN）[3]も役に立つでしょう。OPSINは化合物名のテキストを約99%の精度で化学構造に変換できます。

自動実験ロボット

自動で実験してデータを作成するロボットの活用も有力な方法です。

現在でも、ペプチド合成など一部の反応は自動合成装置による自動化が実現されています。しかし自動化できるのは、基質の化学的範囲、反応の種類、反応条件の範囲が限定されている場合に限られます。一般的なスクリーニング実験では様々な基質を反応させるため、化学反応の種類や最適な反応条件を調整する必要があります。そのため、実験を自動化するロボットは人間の化学者に比べて比較的狭い範囲の化学反応しか実行できません。

このような状況ですが、自動実験ロボットはどんどん高度化しています。例えばリバプール大学では、人間と同じように研究室を動き回って実験をできる自動実験ロボットが開発されました[4][5]。このロボットは、実験装置の位置や実験方法をプログラムすれは、充電時間の2時間を除く1日22時間働き続けます。さらに、得られた実験結果からベイズ最適化によって次の実験計画を立てることもできます。

オープンリポジトリの充実

もうひとつは、論文を投稿する際にデータをオープンリポジトリに追加して、大規模で信頼性が高く偏りがないデータベースにしていく取り組みです。いくつかの論文では投稿する際にデータをオープンリポジトリに保管することを要求しています。オープンリポジトリに保管するデータは、論文に掲載したデータだけでなく、性能が低かったデータも含めたすべてのデータを登録することがデータの偏りをなくすために好ましいです。

まとめ

化学はAI革命に乗り遅れています。その理由は、化学分野に大規模で偏りがないトレーニングデータが不足しているためです。しかし化学分野ではこのような理想的なデータを作成または入手することが難しいため、AIを十分に活用できていません。十分なデータをそろえることさえできれば、AlphaFoldのように化学分野でもAIの力を発揮させることができます。

データを増やすための方法として３種類の取り組みが並行して実施されています。ひとつは発表された論文からデータを抽出する方法、もうひとつは自動実験ロボットを利用する方法、最後はオープンデータを充実させる方法です。