G-B8ZBWWKGWV
PR

BigSMILES|高分子を記述するための構造ベースの線形表記法

BigSMILES(アイキャッチ) 化学とAI

BigSMILESはSMILESの構文にいくつかのルールを追加した線形表記法です。この記事では、BigSMILESの表記ルールを説明します。

BigSMILESは、メモリのコンパクトさ、コンピューターによる取り扱いやすさ、幅広い適用性など、SMILESの多くの利点を引き継いでいます。そのため、BigSMILESはポリマーデータベース向け構造記述子に適しています。

スポンサーリンク

線形表記法とは?

線形表記法は、分子を1行のテキストで表現する表現方法です。線形表記法はコンピューターが分子構造を取り扱うのに適しており、化学構造をデータベースに保存する場合に利用されます。また、線形表記法は機械学習やデータマイニングアルゴリズムへも利用可能で、データ駆動型の研究や材料の発見に貢献しています。

小分子向けの線形表記法にはSMILESやInChIなど多様な線形表記法があります。これらのうち、SMILESは最も人間が解釈しやすく人気のある線形表記法であり、広範囲なデータベースに利用されています。さらに、SMILESは多くの機械学習アルゴリズムにも利用されています。

小分子とは対照的に、高分子は化学構造が明確に定義できないため、効率的な線形表記法の開発が遅れました。高分子は本質的に確率的な分子であり、化学構造を明確に定義できません。このため小分子向けに開発されたすべての線形表記法は高分子には適用できません。

高分子向けの線形表記法:BigSMILES

そこで、高分子向けの線形表記法としてBigSMILESが開発されました。BigSMILESはSMILESに基づいた高分子向けの線形表記法です。いくつかの新しい追加ルールと演算子を除き、BigSMILESのすべての構文は、元のSMILESと同じ構文に従います。つまり、BigSMILESはSMILESと同様にコンパクトなテキスト文字列です。

BigSMILESでは、高分子の繰り返し単位を中括弧{ }で囲んで表現します。繰り返し単位の化学構造は、通常のSMILES構文を使用しますが、異なる繰り返し単位がどのように接続されて高分子を形成するかを指定する追加の結合記述子が使用されています。下の図に示すように、このシンプルな構文設計により、ホモポリマー、ランダムポリマー、ブロックポリマーなどのさまざまな化学組成の高分子を表現できます。さらに、線形ポリマー、分岐ポリマー、環状ポリマーなどさまざまな形状の高分子も表現できます。

BigSMILESの構文と、BigSMILESを使用して記述できる構造の一部の概略図
BigSMILESの構文と、BigSMILESを使用して記述できる構造の一部の概略図

BigSMILESの構文

ランダムポリマー

BigSMILESの構文は、高分子の構造式表現に似ています。BigSMILESでは、繰り返し単位をコンマで区切り、中括弧で囲みます。中括弧で囲まれた繰り返し単位全体が、ランダムな構造を持つ分子フラグメントの一部を表します。

BigSMILES(アイキャッチ)
ポリ(エチレン-酢酸ビニル)の構造式(左)とBigSMILES表現(右)の比較

構造式でオレンジ色に網掛けされたエチレンモノマーと緑色に網掛けされた酢酸ビニルモノマーの表現は、BigSMILES表現と非常によく似ています。BigSMILES表現には、「$」が省略された簡略表現と、他の繰り返し単位への結合部位が明示的に示された完全な表現の2種類があります。

ブロックポリマー

ブロックポリマーは、ランダムポリマーを連結させたものとして記述されます。中括弧{ }同氏の結合は各括弧[ ]で挟んだ「$」や「<」、「>」で表現します。

ブロックポリマー
ブロックポリマー

結合記述子の構文:AAタイプ

ひとつ目の結合タイプはAAタイプの結合で、結合部分に「$」表記が使用されます。「$」は任意の繰り返し単位間で結合できることを意味しています。例えば、ビニルモノマーのエチレンと1-ブテンから形成される線形ポリマーセグメントの場合、BigSMILESでは次のように記述されます。

{$CC$, $CC(CC)$} or {$CC$, CCC($)C$}

繰り返し単位ごとに結合部位が2つだけあり、2つの結合部位が繰り返し単位の末端にあるように記述されている場合、記号「$」を完全に省略できます。

{$CC$, $CC(CC)$} → {CC, CC(CC)}

ポリ(エチレン-co-1-ブテン)

ポリイソプレンのように異なる異性化状態がある場合はすべての異性体を記述します。

ポリイソプレン

同じ分子内にAA型接続の直交セットが複数存在する場合は、記号「$」に正の整数nを付加して「$n」にすることで、異なる接続セットを区別できます。

「$」は単結合接続を表します。ただし、繰り返し単位が他の結合によって接続されている場合、結合タイプまたは結合順序は、SMILES結合順序表現を使用して指定できます。二重結合で結合する場合は「$=n」、三重結合で結合する場合は「$#n」を使用します。

結合記述子の構文:ABタイプ

ふたつ目の結合タイプはABタイプの結合です。繰り返し単位が常に特定の方向にある開環重合体や、特定の官能基で結合する制限がある縮合重合体では、繰り返し単位間の結合を区別して指定するために、「<」と「>」の2種類の結合記述子が導入されています。これは、「<」と「>」の異なる記号同士で結合し、「<」と「<」などの同じ記号同士では結合しないことを意味します。

縮合重合体

フラグメント名の定義

BigSMILESでは、構造の一部をユーザー定義のフラグメントとして取り扱うことができます。これは、構造が複雑で、BigSMILES表現が長くなる場合に特に役立ちます。

フラグメントの定義は、BigSMILES文字列全体の最後に置かれ、中括弧で囲まれ、ピリオドで区切られます。フラグメントが元のBigSMILESオブジェクト内で使用される場合、角括弧[ ]で囲まれます。フラグメントはBigSMILES構文に準拠し、元のBigSMILES内に置換されたときに有効なBigSMILESを生成する必要があります。

フラグメントをユーザー定義することにより、BigSMILESの読みやすさが向上する例を図4に示します。

フラグメント名の定義

まとめ

BigSMILESはSMILESの構文にいくつかのルールを追加した線形表記法です。この記事では、BigSMILESの表記ルールを説明しました。

BigSMILESは、メモリのコンパクトさ、コンピューターによる取り扱いやすさ、幅広い適用性など、SMILESの多くの利点を引き継いでいます。そのため、BigSMILESはポリマーデータベース向け構造記述子に適しています。

参考文献

タイトルとURLをコピーしました