技術
SMILES: 分子記述言語
SMILES言語 (Simplified Molecular Input Line Entry System) は、Daylight C.I.S.社の創立者である Dr. David Weininger が考案した分子記述言語です。
簡便でわかりやすく、定評ある分子記述法として広く普及しています。
- 分子の二次元構造を文字列として記述
- 情報をコンパクトに保存
- 原子座標の羅列と違い、ユーザーにも理解しやすい
SMILESには、以下の種類があります。
- generic SMILES
- 原子とそれらの間の結合のみを記述したSMILESは「generic SMILES」です。
どの原子を先頭にして、どの向きに原子を辿り、分岐でどちらを側鎖とみなすかによって、同一の構造に対して複数通りのgeneric SMILESを記述できることがあります。 - isomeric SMILES
- 同位体や不斉中心についての記述を含むSMILESを「isomeric SMILES」といいます。Generic SMILESと同様、isomeric SMILESも複数通り存在することがあります。
- canonical SMILES
- 一定のルールに基づいて先頭の原子・そこから辿る向き・側鎖の選択などを行うことで、一つの構造に対して唯一となるgeneric SMILESを定めることができます。
この唯一のgeneric SMILESを「canonical SMILES」あるいは「unique SMILES」といいます。
また、generic SMILESをcanonical SMILESに変換することを、SMILESの正規化(canonicalization)と呼びます。
Canonical SMILESは分子構造と1対1で対応するため、THOR/Merlinデータベースのキー項目としても利用されます。 - absolute SMILES
- 正規化されたisomeric SMILESを、「absolute SMILES」と呼びます。
SMARTS: パターン記述言語
SMARTS言語 (SMiles ARbitrary Target Specification) は、
SMILES言語を検索クエリ用に拡張したパターン記述言語です。以下のようなさまざまな構造検索の条件を表記できます。
- 単純指定
- 例1: 「芳香族炭素」(c)
例2: 「二重結合」(=) - ワイルドカード指定
- 例3: 「水素以外の任意の原子」(*)
例4: 「任意の結合」(~) - 条件指定
- 例5: 「3原子と結合する原子」([X3])
例6: 「環を構成する結合」(@) - 上記の組み合わせ指定
- 例7: 「非芳香族炭素」または「非芳香族窒素」([C,N])
例8: 例1 かつ 例5 を満たす原子([cX3])
例9: 例2 かつ 例6 を満たす結合(=;@)