分子記述子とは何でしょうか? いったい何に使うものでしょうか?
分子記述子は化学構造の特徴をベクトルで表現したものです。化合物の類似性を比較する場合や、マテリアルズインフォマティクスで化合物の物性予測をする場合などに使用します。化合物の特徴の捉え方によって数千種類の分子記述子が開発され、用途によって使い分けられてきました。
分子記述子とは?
化合物の化学構造に基づいて、類似性を比較する場合や、機械学習を適用した物性予測をする場合に、化学構造を数値、ベクトルまたは行列に変換してコンピューターに読み込ませます。この変換した数値、ベクトルまたは行列のことを分子記述子と言います(多くの場合ベクトルです)。化学構造のどこに着目してベクトル化するかによって、様々な分子記述子が提案されています。
分子記述子は何に使う?
分子記述子は、化合物の類似性を比較する場合や、マテリアルズインフォマティクスで化合物の物性予測をする場合などに使用します。
化合物の類似性を比較する場合は、比較したい化合物の分子記述子ベクトルに対して、ユークリッド距離、マンハッタン距離、コサイン類似度などを使用して類似性を評価します。ベクトルがバイナリベクトルの場合は、タニモト係数、ハミング距離が使用されることもあります。
マテリアルズインフォマティクスをする場合は、まず化合物と活性値・物性値を対応させたデータセットを準備し、化合物の分子記述子と機械学習のアルゴリズムを選定し、データセットから学習させてアルゴリズムのパラメータを設定し、得られたアルゴリズムを利用して活性値・物性値が未知の化合物の活性値・物性値を予測します。
分子記述子はどのくらいある?
分子記述子は数千種類が知られています。書籍「Molecular Descriptors for Chemoinformatics」中に3,300種類、分子記述子の計算プログラム「Dragon7.0」中に5,270種類が収載されています。
分子記述子には、これを使えばどんな用途にも万能に使用できるというものはなく、用途ごとに使い分けられています。
分子記述子の選び方
以下のポイントに注意して、用途に応じて適切な分子記述子を選びます。
- 予測する分子の特性と相関していること(化合物の双極子モーメント、水素結合ドナーやアクセプターの数、極性表面積など、特性に相関する分子記述子を選びます)
- 構造的に異なる分子に対して個別の値を生成すること(類似構造の化合物であっても、同じ値を生成しないこと)
- 化合物のサイズ・複雑さに適合していること(小分子に適合した分子記述子はタンパク質など巨大分子には不適切です)
分子記述子の種類
分子記述子には、化学構造から導かれる情報と理論計算によって得られる値があります。
化学構造から導かれる分子記述子は、0~4次元の記述子として分類されます。ただし、分子記述子の「次元」は一般的に使用される空間の広がりを表す指標とは定義が異なっている部分があります。
理論計算によって得られる分子記述子には、HOMO、LUMO、バンドギャップなどがあります。
概要 | 例 | |
0次元 | 原子の結合情報を含まない記述子。 分子の構造的特徴に関する情報があまり含まれていないため、他の記述子と組み合わせて使用されることがあります。 | ・原子数 ・結合数 ・分子量 ・logP ・屈折率 ・双極子モーメント |
1次元 | 官能基などの部分構造の有無から分子の特徴を表現する分子記述子。 1次元記述子は化学構造のトポロジー全体を表現することはできませんが、計算コストが低いです。 類似性分析や化学データベースのスクリーニングに使用されます。 | ・MACCS keys ・PubChem fingerprints ・Daylight fingerprints |
2次元 | 分子内の原子と原子の結合に基づいて分子の特徴を表現する分子記述子。 分子グラフに基づいて分子の特徴を表現する分子記述子。 | ・ECFP ・ニューラルグラフフィンガープリント ・Atom pair fingerprint ・BCUT |
3次元 | 分子中の原子の空間座標に基づいて分子の特徴を表現する分子記述子。 3次元記述子は分子に関する多くの情報を含み、異性体分子を区別できるという利点があります。 | ・PSA ・TPSA ・3D-MoRSE ・WHIM ・GETAWAY ・Fsp3 |
4次元 | 3次元記述子に4番目の次元を加えた記述子。 追加する次元は、分子と受容体の活性部位の間の相互作用や、分子の複数の立体構造状態などです。 | ・GRID ・CoMFA ・Volsurf |
0次元
LogP
LogPは化合物の脂溶性を表す記述子です。LogPのPは分子の有機層(オクタノール層)と水層中の平衡状態での濃度比率で、その常用対数を取ったものがLogPです。LogPが大きいほど使用性が高いことを示します。
LogPは計算方法によって、CLogP、ALogP、XLogP、MLogP、ALogPS、QLogP、ELogPなどいくつかの種類が知られています。
1次元
1次元分子記述子は分子フィンガープリント(molecular fingerprint)が有名です。1次元分子記述子の分子フィンガープリントは、Structure keysとも言います。フィンガープリントは計算速度と精度のバランスが良いためよく使用されます。
Structure keysは、構造に関する記述子を多数組み合わせて、分子全体の構造的特徴を表現しようとする記述子です。あらかじめ部分構造のライブラリを作成しておき、それに該当する構造があれば1を、なければ0を割り当てます。
例えば、部分構造ライブラリには原子の種類(O、N、F、Cl、Br、I、など)、官能基(水酸基、カルボキシル基、ニトリル、アミド、など)、部分構造(ベンゼン環、二重結合、メチレン鎖、など)があります。それぞれの有無を1または0で表現したバイナリベクトルに変換したものがStructure keysで、ライブラリの種類によっていくつかのStructure keysがあります。
Structure keysはあらかじめ定義していない部分構造の特徴は捉えることはできません。
MACCS keys
MACCS(Molecular ACCess System)keysはStructure keysのひとつです。MACCS keysは166の部分構造のライブラリからなります。部分構造の詳細はこちらのサイトで説明されています。
PubChem fingerprints
PubChem fingerprintsは881の部分構造のライブラリからなるStructure keysです。部分構造の詳細はこちらのサイトで説明されています。
Daylight fingerprints
Daylight fingerprintsは1024の部分構造のライブラリからなるStructure keysです。部分構造としては、sp3 カーボン、環構造、化学構造などの詳細はこちらのサイトで説明されています。
2次元
ECFP
ECFP(Extended Connectivity Fingerprint)は分子中の各原子の近傍の部分構造を探索して数値化します。ECFPは分子の部分構造の情報を効率的に取り込むことができる記述子です。
Structure keysは定義されていない特徴が活性に影響する場合に精度が下がります。ECFP は柔軟に特徴を表現することができます。ECFP は特に構造活性相関モデル用に開発され、薬理活性の予測等に用いられています。
ニューラルグラフフィンガープリント
ECFPと同じサーキュラーフィンガープリントの一種です。各原子の特徴をニューラルネットワークで集めて特徴量を作成する分子記述子です。
Atom pair fingerprint
アトムペアフィンガープリントは、(原子1のアトムタイプ、原子1と原子2の距離、原子2のアトムタイプ)というフォーマットで分子中の全ての重原子の組合せを考えます。アトムタイプには、原子の種類、結合する重原子の数、π電子数の情報が記録されます。アトムペアフィンガープリントは分子全体の情報を効率的に取り込むことができる記述子です。
3次元
PSA
PSA(Polar Surface Area、化合物の極性表面積)とは分子表面のうち極性を帯びている部位の面積値の総和です。PSAは酸素や窒素などのへテロ元素の周辺の面積値の総和で、分子の極性を示す記述子です。PSAは化合物の膜透過性などを評価する上で有用な指標です。
一方で、分子の立体構造が必要で計算コストが高い、分子表面やヘテロ原子の定義が決まっていないという問題がありました。
TPSA
TPSA(トポロジカル極性表面積)は分子の極性を示す記述子です。TPSAは上記のPSAの問題を解決するために開発されました。TPSAは立体構造を計算せず結合パターンのみを考えることで計算コストの大幅に低減し、へテロ元素は酸素・窒素・リン・硫黄と定義しています。
Fsp3
Fsp3は、全炭素原子中のsp3炭素の割合です。Fsp3は化合物の脂肪属性の度合を示す記述子です。Fsp3は化合物の立体的な特徴を記述する記述子として用いられます。
4次元
GRID
GRIDは、リガンドと標的タンパク質の構造の情報(サーキュラーフィンガープリント)および相互作用の情報(塩橋、水素結合)を含む記述子です。リガンドと標的タンパク質の結合親和性に関する機械学習をする際に利用されます。
分子間相互作用には、タンパク質とリガンド間の塩橋と水素結合、リガンド内円形フィンガープリント、タンパク質内円形フィンガープリント、タンパク質-リガンド SPLIF フィンガープリント
CoMFA
CoMFAは化合物の立体構造に電子物性を加えた記述子。
Volsurf
Volsurfは分子の周辺にグリッド場を定義し、そのグリッド点に水や疎水原子を配置し、それらの原子と分子との相互作用エネルギーから記述子を算出しています。Volsurfは、分子全体の体積、表面積、球状度、親水性、疎水性、臨界充填パラメータ等を表現した記述子です。薬物動態の物性水産に適しています。