マテリアルズインフォマティクスを実践する上で何より重要なものはデータです。そのため、各分野でデータベースが充実されつつあります。この記事では、代表的なデータベースを紹介します。
マテリアルズインフォマティクスのためのデータベースは4種類に分けることができます。
構造データベース | 機械的に構造を発生させたデータベース。 未知化合物も含まれます。物性等のデータはありません。 ケミカルスペースには無数の化合物がありますが、そのうち存在する可能性のあるものをリストアップしています。 |
物性値(実測値)データベース | 化学品メーカー、論文、特許などから化学構造と実測値データを集めたデータベース。 実際に合成された化合物のデータベースです。 実測データがある点で価値があります。 データの測定条件が異なるものも含まれ、比較障害がある点は注意が必要です。 |
物性値(計算値)データベース | 量子化学計算によって、構造と物性を対応させたデータベース。 網羅的に均質なデータがある点で、マテリアルズインフォマティクスに適したデータベースです。 計算レベルが所望の物性に適しているか確認する必要があります。 |
反応データベース | 論文や特許情報から実績のある反応を収録したデータベース。 反応予測(順方向、逆合成解析)をするために使用します。 |
この記事は長文のため、適宜目次をクリックして目的の項目へジャンプしてください。
- 構造データベース
- 物性値(実測値)データベース
- CAS REGISTRY
- PubChem
- ChemSpider
- ZINC15
- ChEMBL
- Crystallography Open Database
- Cambridge Structural Database
- Protein Data Bank
- Organic Materials Database
- Inorganic Crystal Structure Database
- International Centre for Diffraction Data
- HTEM
- Khazana
- MatNavi
- Tox21
- Molecule net
- Predicting Molecular Properties
- Materials Data Facility
- NOMAD Repository
- 分子生物学データベース
- 物性値(計算値)データベース
- 反応データベース
- まとめ
構造データベース
GDB-11、GDB-13、GDB-17
GDBはグラフ構造を基に炭素からへテロ原子への置換を系統的に行うことで生成されていて、未知化合物を大量に含む有機化合物の構造データベースです。GDB-17は、主な低分子薬が17原子までという理由で17になっています。
データベース | 重原子数 | 構成原子 | 収録分子数 |
GDB-11 | 11以下 | C、N、O、F、H | 26,400,000 |
GDB-13 | 13以下 | C、N、O、S、Cl、H | 977,468,314 |
GDB-17 | 17以下 | C、N、O、S、ハロゲン、H | 166,443,860,262 |
- Reymond Research Group (https://gdb.unibe.ch/research/)
- 文献:The Chemical Space Project (https://doi.org/10.1021/ar500432k)
物性値(実測値)データベース
CAS REGISTRY
CAS REGISTRYは、1957年から現在にいたるまで科学文献で特定された物質のほか、1900年代初期にまでさかのぼって追加したあらゆる物質を網羅しているデータベースです。CAS REGISTRYでは毎日何千もの新しい物質が追加されています。対象化合物は、有機化合物、無機化合物、合金や配位化合物、鉱物、混合物、ポリマー、塩、タンパク質、核酸などあらゆる物質を含みます。化学物質名、構造、CAS登録番号、対応する物性の測定値が収録されています。
- CAS REGISTRY (https://www.cas.org/ja/cas-data/cas-registry)
PubChem
PubChemは主に低分子有機化合物のデータベースですが、ヌクレオチド、脂質、ペプチドなどの高分子も含まれています。化学構造、識別子、化学的および物理的特性、生物学的活性、特許、安全データ、毒性データなどが収録されています。PubChemのデータは、化学品メーカー、研究機関、政府機関、論文をもとにしています。化合物数は2024年時点で118M分子で、データ量は増え続けています。
- PubChem (https://pubchem.ncbi.nlm.nih.gov/)
ChemSpider
ChemSpiderは主に低分子有機化合物のデータベースで、PubChemと似ています。物質名称、組成式、構造式などによる検索が可能で、化学構造、識別子、化学的および物理的特性、生物学的活性、スペクトルなどを調べることができます。ChemSpiderのデータは、化学品メーカー、研究機関、政府機関、論文をもとにしています。化合物数は2024年時点で129M分子で、データ量は増え続けています。
- ChemSpider (https://www.chemspider.com/)
ZINC15
ZINC15は、市販の有機化合物の立体構造を収録したデータベースです。タンパク質や天然物と良く結合する化合物を特定して医薬品ターゲットを探索するために作られました。ZINC15はChEMBL、HMDB、DrugBank、ClinicalTrialsなどのサードパーティ データベースを利用しており、230M分子のデータが収録されています。
- ZINC15 (https://zinc15.docking.org/)
- 文献:ZINC 15 – Ligand Discovery for Everyone (https://doi.org/10.1021/acs.jcim.5b00559)
ChEMBL
ChEMBLは医薬品および医薬品候補化合物などの生物活性低分子を手動で厳選したデータベースです。分子化学、生物活性、ゲノムデータを統合して、ゲノム情報を効果的な新薬に変換するのに役立ちます。2.4M分子のデータが収録されています。
- ChEMBL (https://www.ebi.ac.uk/chembl/)
Crystallography Open Database
Crystallography Open Database(COD)は、有機、無機、金属有機化合物および鉱物(生体高分子は除く)の結晶構造のオープンアクセスデータベースです。
- Crystallography Open Database (https://www.crystallography.net/cod/)
Cambridge Structural Database
Cambridge Structural Database(CSD、ケンブリッジ結晶構造データベース)は1965年からデータを蓄積している有機分子や有機金属分子の結晶構造データベースです。化合物の名称、分子式、2次元構造図、結合表、3次元原子座標、結晶学データ等を収録しています。毎年約5万分子が追加されています。
- Cambridge Structural Database (https://www.ccdc.cam.ac.uk/structures/)
Protein Data Bank
Protein Data Bank(PDB)は、蛋白質、核酸、糖鎖など生体高分子の3次元原子座標のデータベースです。世界中の構造生物学者が決定した構造情報は、論文発表前PDBに登録することが義務付けられており、論文発表と同時にPDBへ登録済みの構造データが一般公開される仕組みになっています。
- Protein Data Bank (https://www.rcsb.org/)
Organic Materials Database
Organic Materials Databaseは、有機化合物の結晶構造データベースです。 約12,500の結晶構造データが収録されています。
- Organic Materials Database (https://omdb.mathub.io/)
- 論文:Band Gap Prediction for Large Organic Crystal Structures with Machine Learning (https://doi.org/10.1002/qute.201900023)
Inorganic Crystal Structure Database
Inorganic Crystal Structure Database(ICSD)は世界最大の無機化合物と有機金属化合物の結晶構造データベースです。無機化合物と有機金属化合物の、名称、分子式、三次元原子座標値、結晶学データ、トポロジー情報、書誌情報が収録されています。
- Inorganic Crystal Structure Database (https://www.psds.ac.uk/icsd)
International Centre for Diffraction Data
International Centre for Diffraction Dataは、無機化合物(元素、鉱物、金属、金属間化合物など)の結晶構造データベースです。2024年時点で1,186,076分子が収録されています。
- International Centre for Diffraction Data (https://www.icdd.com/)
HTEM
HTEM(High Throughput Experimental Materials Database)は、無機化合物(酸化物、窒化物、硫化物、金属間化合物)をコンビナトリアル合成法で合成し、測定した光学特性や電気特性を収録したデータベースです。2024年時点で82,776個の薄膜サンプルから得たデータが含まれています。
- HTEM (https://htem.nrel.gov/)
Khazana
Khazanaは、構造や物性データの量子化学計算値データベース群です。高分子(Polymer Genome)、アルミ化合物(AGNI)などがあります。
- Khazana (https://khazana.gatech.edu/)
Polymer Genome
Polymer Genomeは高分子材料の量子化学計算値データベースです。800以上の有機ポリマーについて、1万件以上の物性値が収録されています。
- Polymer Genome (https://www.polymergenome.org/)
MatNavi
MatNaviは、物質・材料研究機構が整備しているデータベース群です。材料に関するデータベースとしては、高分子(PoLyInfo)、無機材料(AtomWork)、計算状態図(CPDDB)、電子構造計算(CompES-X)、無機化合物および金属材料中の拡散(Kakusan)、高温熱物性(Thermophysical Property)、金属材料(Kinzoku)、CCT線図(CCTD)などがあります。ただし、スクレイピングなどのデータの一括取得は基本的には禁止されているため、現時点ではMIに使うのは難しいでしょう。
- MatNavi (https://polymer.nims.go.jp/)
PoLyInfo
PoLyInfoは、高分子材料設計に必要なデータを学術文献から収集して体系的に整理したデータベースです。化学構造、重合方法、加工方法、物性(熱、電気、機械)、NMRスペクトルなど約100種類を対象としています。
- PoLyInfo (https://polymer.nims.go.jp/)
AtomWork
AtomWorkは科学技術文献から抽出した無機材料の結晶構造、X線回折、特性、状態図を収録したデータベースです。
- AtomWork (https://crystdb.nims.go.jp/)
Tox21
Tox21は毒性学に関する共同研究プロジェクトで用いられた12種類のターゲットに対する毒性の有無が記載された2クラス分類用のデータセットです。
- Tox21 (https://tox21.gov/)
Molecule net
MoleculeNetは、機械学習による分子特性予測をテストするために設計されたベンチマーク用データセットです。複数のパブリックデータベースのデータが含まれています。例えば、量子化学計算(QM7、QM7b、QM8、QM9)、物性(水への溶解度、水和自由エネルギー、LogP)、生物物理学(HIV複製阻害、 ヒトβ-セクレターゼ阻害)、生理学的物性(血液脳関門の透過性、複数の毒性)などです。700,000以上の分子のデータが含まれています。
- Molecule net (https://moleculenet.org/)
Predicting Molecular Properties
Predicting Molecular Properties は、kaggleコンペにて使われた2原子間のカップリング定数のデータセットです。
- Predicting Molecular Properties (https://paperswithcode.com/task/molecular-property-prediction)
Materials Data Facility
Materials Data Facility (MDF)は研究者や研究機関などのユーザーが持つデータを蓄積するデータベースです。データの公開と再利用の促進を目的としています。研究者や機関が研究データセットを公開したり、公開されたデータセットを利用したりできます。様々な化合物が対象で、実験データも量子化学計算データも含まれます。
- Materials Data Facility (https://materialsdatafacility.org/)
NOMAD Repository
NOMAD Repositoryは研究者や研究機関などのユーザーが持つデータを蓄積するデータベースです。
- NOMAD Repository (https://nomad-lab.eu/nomad-lab/)
分子生物学データベース
分子生物学データベースで公開されている情報は、バイオインフォマティクス研究の根幹となります。国際塩基配列データベース(日本:DDBJ、EU:ENA、アメリカ:GenBank)をはじめ、アミノ酸配列データベース、代謝パスウェイデータベースなど多種多様なデータベースが公開され、その大半は無料で利用できます。
この考え方は塩基配列のみではなく、遺伝子発現データ、タンパク質立体構造データ、遺伝子多型データでも同様で、登録機関への登録が義務付けられています。
近年は、次世代シーケンサーに代表される実験装置の発展により、データベースに登録されるデータが爆発的に増加しています。また、研究目的に応じて必要な情報を抽出して整理した様々な二次データベースが作成され、日本でも1000を超えるデータベースが公開されています。
適切なデータベースを選ぶのが困難な状況になったため、日本では分子生物学分野の多種多様なデータベースを統合してデータの価値を高めるため、バイオデータベースセンター(NBDC)が設立されました。NBDCにおいて、多種多様なデータベースのカタログ化が進められており、Integbioデータベースカタログとして公開されています。
国際塩基配列データベース
- DDBJ(DNA Data Bank of Japan、日本):https://www.ddbj.nig.ac.jp/index.html
- ENA(European Nucleotide Archive、EU):https://www.ebi.ac.uk/ena/browser/
- GenBank(アメリカ):https://www.ncbi.nlm.nih.gov/genbank/
遺伝子データベース、タンパク質配列データベース
- UniProt(The Universal Protein Resource):https://www.uniprot.org/
- RefSeq(Reference Sequence):https://www.ncbi.nlm.nih.gov/refseq/
ゲノムデータベース、比較ゲノムデータベース
- UCSC Genome Browser:https://genome.ucsc.edu/
- Ensembl:https://www.ensembl.org/index.html
- H-Inv DB(Annotated Human Gene DB):https://dbarchive.biosciencedbc.jp/data/h-inv/LATEST/README.html
- RAP-DB(Rice Annotation Project):https://rapdb.dna.affrc.go.jp/
- COGs(Cluster of Orthologous Groups):https://www.ncbi.nlm.nih.gov/research/cog-project/
- MBGD(Microbial Genome Database for Comparative Analysis):https://mbgd.nibb.ac.jp/
モチーフデータベース
- InterPro(CATH-Gene3D、CDD、HAMAP、NCBIfam、PANTHER、Pfam、PIRSF、PRINTS、PROSITE profiles、PROSITE patterns、SFLD、SMART、SUPERFAMILY):https://www.ebi.ac.uk/interpro/
- PROSITE:https://prosite.expasy.org/
代謝パスウェイデータベース
- KEGG PATHWAY:https://www.genome.jp/kegg/pathway.html
遺伝子発現データベース
- NCBI GEO:https://www.ncbi.nlm.nih.gov/geo/
- ArrayExpress:https://www.ebi.ac.uk/arrayexpress/
- Stanford Microarray Database:http://smd.princeton.edu/
遺伝子多型データベース
- NCBI dbSNP:https://www.ncbi.nlm.nih.gov/snp/
- HapMap:https://www.genome.gov/10001688/international-hapmap-project
遺伝子オントロジーデータベース
- The Gene Ontology:http://geneontology.org/
物性値(計算値)データベース
QM9
構造データベースGDB-17に含まれる分子のうち重原子数が9以下の133,885分子について、B3LYP/6-31G(2df,p)レベルでの量子科学計算値データベースです。最適化構造、双極子モーメント、分極率、HOMOエネルギー、LUMOエネルギー、バンドギャップ、ゼロ点振動エネルギー、エンタルピー、熱容量などのデータが収録されています。
QMシリーズにはほかにもQM7、QM7b、QM8、がありますが、QM9が使われることが多いです。QM7、QM7bはQM9と比較してデータベースの分子数が少なく計算レベルが低いためです。QM8はQM9から歪みの大きい3,054分子を削除し、重原子数を8個以下に制限した21,786分子を対象としています。
- QMシリーズ (http://www.quantum-machine.org/)
- QM9の文献:Quantum chemistry structures and properties of 134 kilo molecules (https://doi.org/10.1038/sdata.2014.22)
- QM8の文献:Electronic spectra from TDDFT and machine learning in chemical space (https://doi.org/10.1063/1.4928757)
PubChemQC
PubChemQCはPubChemに登録されている実際に合成された分子を対象とした、量子科学計算値データベースです。2023年に公開されたデータセットは2016 年のPubChemカタログの94%の化合物をカバーしており、その数は85,938,443分子です。データセットに含まれる物性は、orbitals, orbital energies, total energies, dipole momentsなどで、B3LYP/6-31G*/PM6で計算されたデータです。
- PubChemQC (https://nakatamaho.riken.jp/pubchemqc.riken.jp/b3lyp_pm6_datasets.html)
- 文献:PubChemQC B3LYP/6-31G*//PM6 Data Set (https://doi.org/10.1021/acs.jcim.3c00899)
Materials Project
Materials Project は、ICSDに収録された無機結晶構造を対象とした、量子科学計算値データベースです。結晶構造、バンド構造、熱力学量、相図、磁気モーメント等を収録しています。2024年時点で154,718分子が収録されています。
- Materials Project (https://next-gen.materialsproject.org/)
- 論文:Commentary: The Materials Project: A materials genome approach to accelerating materials innovation (https://doi.org/10.1063/1.4812323)
AFLOW
AFLOWは無機結晶構造を対象とした、量子科学計算値データベースです。エンタルピー、バンド構造、熱特性 等を収録しています。2024年時点で3,530,330化合物の734,308,640の計算された物性値が収録されています。
- AFLOW (https://www.aflowlib.org/)
- 論文:AFLOW: An automatic framework for high-throughput materials discovery (https://doi.org/10.1016/j.commatsci.2012.02.005)
Open Quantum Materials Database
Open Quantum Materials Database(OQMD)は無機結晶構造を対象とした、量子科学計算値データベースです。2024年時点で1,226,781化合物の物性値が収録されています。
- Open Quantum Materials Database (https://oqmd.org/)
Open Materials Database
Open Materials Databaseは、主にCrystallography Open Databaseに登録されている有機、無機、金属有機化合物および鉱物を対象とした、量子科学計算値データベースです。
- Open Materials Database (https://openmaterialsdb.se/)
Computational Materials Repository
Computational Materials Repository(CMR)は、様々な用途のための量子化学計算値データベース群です。有機化学や無機化学など様々な用途の約30種類のプロジェクトがあります。
- Computational Materials Repository (https://cmr.fysik.dtu.dk/)
反応データベース
Reaxys
ReaxysはCrossFire Beilstein、CrossFire Gmelin、Patent Chemistry Databaseの3つのデータベースを統合してできた、反応データベースかつ実測値データベースです。対象物質は、有機化合物、無機化合物、有機金属錯体です。収録されている物性は、構造、実測物性値、反応、引用文献、合成ルート、毒性、LogPなど多岐にわたります。73M反応が収録されています。
- Reaxys (https://www.reaxys.com/#/login)
USPTO Dataset
USPTO Datasetは、米国特許のテキストデータから化学反応を抽出したデータベースです。テキストマイニングのミスで間違っている反応や重複した反応が含まれます。
- USPTO Dataset (https://developer.uspto.gov/data)
Open Reaction Database
Open Reaction Database(ORD)は、オープンアクセスの有機反応データベースです。データはUSPTO Datasetや、論文から得ています。
- Open Reaction Database (https://open-reaction-database.org/)
まとめ
この記事では約50のデータベースを紹介しました。この中でみなさんの役に立つデータベースが見つかるとうれしいです。