化学分野で人工知能の活用『DECIMER』

化学分野で人工知能の活用『DECIMER』

AIで化学情報のデータベース化を目指す


化学物質の構造式は、その物質がどのように構成されているか(どの原子から成り立っているか)、それらが空間的にどのように配置され、どのように結合しているかを示すものです。化学者は構造式から、分子同士の反応可能性、複雑な化合物の合成方法、そして細胞内の標的分子と結合することで治療効果がある可能性のある自然物質などを推測することができます。

19世紀に発展した分子の構造式の表示は今もなお化学の教科書で使用されており、化学の世界を直感的に理解可能にしています。しかしこの化学の情報は人間にとって直感的に理解できるものである一方、ソフトウェアにとっては白黒のピクセルの集まりに過ぎません。化学構造式の情報を自動的に検索可能なデータベースで利用できるようにするには、これらを機械読み取り可能なコードに変換する必要があります。

この機械読み取り可能なコードへの変換を実現するために、イェーナ大学のChristoph Steinbeck教授とWestphalian University of Applied SciencesのAchim Zielesny教授率いるチームによって開発されたのが「DECIMER」という人工知能ツールです。DECIMERは「Deep Learning for Chemical Image Recognition」の略で、化学構造式の画像を機械学習を用いて認識するプラットフォームです。これはオープンソースであり、誰でもインターネットで利用可能で、標準のウェブブラウザで使用できます。化学構造式を含む科学論文をドラッグアンドドロップでアップロードするだけで、AIツールが自動的に処理を行います。

具体的には、DECIMERは文書全体を画像の有無を調べ、画像情報を識別し、それが化学構造式か他の画像かを分類します。そして識別された構造式を化学構造コードに変換するか、構造式エディタで表示してさらなる処理が可能となります。この工程がプロジェクトの中核であり、重要な成果です。

この方法により、カフェイン分子の化学構造式は機械読み取り可能な構造コード「CN1C=NC2=C1C(=O)N(C(=O)N2C)C」に変換され、これをデータベースに直接アップロードして分子に関するさらなる情報と関連付けることができます。

DECIMERの開発にあたっては、最近確立された現代のAI技術が使用されており、これは現在大いに議論されている大規模言語モデル(ChatGPTなど)でも使用されています。チームは既存の機械読み取り可能なデータベースから構造式を生成し、これを訓練データとして使用しました。これまでに約4.5億の構造式が用いられています。研究者だけでなく、企業も特許の仕様書から構造式をデータベースに移すためにこのAIツールを使用しています。

Christoph Steinbeck教授とAchim Zielesny教授は数年前に化学画像の解読のためのAIツールの開発アイデアを思いつきました。2人の化学者は、古代のアジアのボードゲームである囲碁のAI技術の発展に興味を持っていました。2016年には、世界中の何百万人もの人々と共に、当時の最高の囲碁プレイヤーである韓国の李世乭とコンピュータソフトウェア「AlphaGo」による壮spectなトーナメントを見ました。この試合でAIが4対1で勝利しました。

「AIがどれほど強力であるかを示す驚くべき出来事でした」とSteinbeck教授は振り返っています。それまではアルゴリズムがこのゲームで人間の創造性や直感に匹敵することはほとんど考えられていませんでした。その後しばらくして、AIツールが自分自身と何度も対戦してプレースタイルを最適化するプロセスを通じて、努力のかさなる人間のゲームセッションを通じて従来のAlphaGoのように綿密にトレーニングされるのではなく、新たな方法でほぼ超人的なプレー力を獲得したことを見ると、これらの新しい方法が十分な訓練データを持つ場合、他の非常に複雑な問題も解決できる可能性があることが分かりました。この新しい方法を研究分野に活用したいと考えました。

DECIMERを通じて、Steinbeck教授とそのチームは将来的には1950年代からの化学関連の文献を機械読み取り可能にし、オープンなデータベースに翻訳することを目指しています。なぜなら、Steinbeck教授はドイツの化学分野における国家研究データインフラのコーディネーターでもあり、既存の知識を持続可能に保ち、世界の科学コミュニティに利用可能にすることが重要な Anliegen(関心事)であるからです。

DECIMER AIツールは以下のURLから利用できます: https://decimer.ai

出典:https://www.sciencedaily.com/releases/2023/08/230822111634.htm