


本研究では、少数データからの効率的なタンパク質機能改良を可能にする、新たな機械学習モデル「LEAPS」を開発した。従来のタンパク質工学は、大規模な実験データ、高度な専門知識、そして長期にわたる試行錯誤を必要とし、研究の遂行が研究機関の機関の資金力や人材規模に大きく依存していた。このため、学生チームや小規模な研究室がタンパク質工学に取り組む上での障壁は依然として高い。LEAPSは、こうした制約を大幅に緩和し、研究者が容易にタンパク質の多目的最適化(multi-objective optimization)に取り組める環境を提供する。本モデルにより、iGEMに参加する学生チームや限られたリソース下にある研究者でも、酵素活性や抗体親和性などの機能改良に挑戦することが可能となり、研究の可能性が飛躍的に拡大する。さらに、我々はLEAPSをWebアプリケーションとして実装・公開することで、より広範な研究コミュニティが利用可能なプラットフォームを構築した。本モデルは、データ駆動型のタンパク質工学を促進し、生命科学のあらゆる分野における研究開発を加速させる可能性を秘めている。
タンパク質は、分子レベルで生命現象を司る中心的な役割を担っている。同時に、医学・生物学研究における基盤的なツールであり、近年興隆する合成生物学やバイオものづくりにおいてもキーコンポーネントとして位置づけられる。したがって、その機能理解と、目的に応じた機能改変・設計は、基礎科学から応用開発まで、あらゆる分野にまたがる極めて重要な研究課題である。
特に実用的な応用を目指す場面では、単一の特性ではなく、酵素活性・基質特異性・安定性といった複数の性質を同時に最適化することが求められる。例えば、工業利用される酵素においては、高温プロセス下での安定性と高い酵素活性の両立が生産コストの削減に直結する。また、医薬品として用いられる抗体では、標的抗原への高い結合親和性と、長期保存や生体内での挙動に関わる熱力学的安定性の両立が、治療効果と品質を保証する上で不可欠である。このように、特定の目的に合致したタンパク質を創出するためには、複数の特性を同時に改良する「タンパク質の多目的最適化」が必須となる。
しかし、従来のタンパク質工学的手法では、効率的な多目的最適化の実現は依然として困難である。従来の主要な手法には、以下のような課題が存在する。
指向性進化 (Directed Evolution): ランダムな変異導入と選択(スクリーニング)を繰り返すことで目的の機能を持つタンパク質を取得する手法である。しかし、ライブラリの構築と評価に膨大な実験数を要するため、多大な時間とコストを消費する。また、一点ずつのアミノ酸置換といった逐次的な変異導入に依存するため、複数の変異が協調して機能を発現するような(エピスタティックな)配列空間の探索が難しく、局所最適解 に陥りやすいという限界がある。
合理設計 (Rational Design): タンパク質の立体構造情報や機能発現メカニズムに関する知見に基づき、アミノ酸配列を設計する手法である。高度な専門知識と構造情報が不可欠であり、適用可能な対象が限定される。さらに、複数の特性に寄与する因子を同時に考慮した精密な設計は極めて困難である。
これらの課題により、効率的かつ網羅的な多目的最適化を実現する新たな方法論が求められている。
タンパク質改良における根源的な困難は、探索すべき配列空間が天文学的な広さを持つことにある。仮に3残基のペプチドを考えた場合でも、各位置に取りうるアミノ酸は20種類であるため、その組み合わせは 通りとなる。250アミノ酸残基から構成されるとタンパク質を想定すると、理論的に取りうる配列の総数は にも達する。これは観測可能な宇宙に存在する原子数をもはるかに凌駕する数であり、全配列を網羅的に探索することは到底不可能である。
この広大な配列空間を効率的に探索するアプローチとして、近年、機械学習の応用が注目を集めている。機械学習モデルは、アミノ酸配列と機能の間の複雑な関係性をデータから学習することにより、未知の配列の機能を予測したり、望ましい機能を持つ配列を生成したりすることが期待されている。 この能力は、タンパク質の多目的最適化を実現する上で大きな可能性を秘めている。しかし、多くの既存モデルは、高精度な予測・設計のために依然として大規模な実験データを必要とする。この「データ要求性の高さ」が、学生チームや小規模な研究室にとっては、機械学習を活用する上での新たな参入障壁となっている。したがって、少数データからでも効果的に学習し、高精度な多目的最適化を可能にする新しい機械学習手法の開発が必要である。
我々はこの課題を解決するために、**タンパク質言語モデル (Protein Language Model, pLM)**に着目した。pLMは、ChatGPTやGeminiに代表される大規模言語モデル (Large Language Models, LLM)と同様の原理に基づいている。LLMが大量のテキストデータから単語の出現パターンや文脈を学習し、自然言語の文法構造を内在的に獲得するのと同様に、pLMはタンパク質のアミノ酸配列を「言語」として扱う。タンパク質は、20種類のアミノ酸(単語に相当)が、N末端からC末端へという明確な方向性を持って連なったポリマー(文章に相当)である。pLMは、数十億もの既知のアミノ酸配列を学習することで、タンパク質として成立するための普遍的な「文法」、すなわちアミノ酸の組み合わせや残基間の相互作用のルールを獲得する。

fig.1 大規模言語モデルとタンパク質言語モデルの類似性
この「文法の理解」こそが、多目的最適化を可能にする鍵となる。pLMは、タンパク質全体の文脈を考慮してアミノ酸配列を評価・生成するため、個々の残基の機能だけでなく、残基間の複雑な長距離相互作用(エピスタシス)をも捉えることができる**。**これにより、点変異の単純な組み合わせでは到達できない、機能的に優れた配列領域へのジャンプ(大きな変化)を可能にする。すなわち、pLMは in silico において、指向性進化法では困難であった非連続的な配列空間の探索を可能にし、タンパク質設計に新たな可能性をもたらす。

我々は、少数データからのタンパク質多目的最適化を実現するため、予測モデルと生成モデルを統合した独自の機械学習手法「LEAPS」を開発した。LEAPSは以下のワークフローによって「in silico完結型」のタンパク質改良を行う。
1.生成モデルによって新規な配列を生成する
2.出力した配列を予測モデルで高機能な配列を選別する
3.選別した高機能な配列を生成モデルに学習させる
4.1.に戻り、生成モデルが高機能な配列を生成する

この反復的な最適化サイクルにより、LEAPSは広大な配列空間の中から、複数の特性を同時に満たす最適な配列候補を効率的に探索する。本手法は、「大規模データがなければ高性能なモデルは構築できない」という従来の常識を覆し、わずかなデータからでも実用的なタンパク質改良を可能にする。この「少数データ適応性」という柔軟性は、未知のタンパク質や新規機能の創出といった応用にも対応可能であり、データの多寡に依存しない、より普遍的なタンパク質設計フレームワークの実現可能性を示すものである。
本研究が特に重要な応用先として想定しているのは、iGEMに参加する学生チームをはじめとする、リソースに制約のある研究環境である。iGEMの学生の多くは資金、時間、実験設備といったリソースの制約に直面している。その結果、タンパク質の機能改良という魅力的なテーマに挑みたくとも、そのために必要な大規模なデータセットを自ら構築することは困難であり、アイデアの実現を断念せざるを得ない。
LEAPSは、この状況を打破する可能性を秘めている。わずか40程度の実験データからでも実用レベルの機能改良をガイドできるため、学生チームであっても、独自の酵素や抗体の設計・改良といった高度なプロジェクトに挑戦することが可能になる。これは、研究テーマの選択における自由度を格段に高め、より挑戦的でインパクトの大きい研究への扉を開くものである。
次世代を担う若手研究者が、自らの着想を容易に検証できる環境を手にすることは、科学技術の未来そのものに直結する。LEAPSはリソースの制約によって埋もれていたかもしれない革新的なアイデアを実現可能にする。LEAPSは単なる一技術ツールではなく、「研究の可能性を解放するプラットフォーム」としての役割を担うことを目指す。
我々は、LEAPSの恩恵を広く研究コミュニティに届けるため、本手法を実装したWebアプリケーション「LEAPS-Software」を開発し、公開する。これにより、プログラミングや機械学習の専門知識を持たないウェットの研究者でも、直感的なインターフェースを通じて、自らが扱うタンパク質の改良に取り組むことが可能になる。
LEAPSのような強力なタンパク質設計ツールをオープンなプラットフォームとして提供するにあたり、その潜在的なリスクとデュアルユース(軍事・民生両用)の懸念について慎重に考慮する必要がある。誰でも容易にタンパク質を改良できる技術は、悪意のある第三者による誤用のリスクを内包する。例えば、毒素タンパク質、アレルゲン、あるいはウイルスの受容体結合ドメインといった、人体や環境に有害なタンパク質の機能が増強される可能性は否定できない。また、意図せずとも、改良されたタンパク質が予期せぬ毒性やアレルギー性を獲得する(unintended gain-of-function)可能性も考慮しなければならない。
そこで我々は、これらのリスクを低減するため、セーフティプロトコルをLEAPS-Softwareに実装した。このシステムは、モデルによって出力された配列を既知の有害タンパク質の配列データベースと自動的に照合し、配列の類似性が一定の閾値を超えた場合にアラートを出すメカニズムである。技術の発展と安全性の確保は両輪であり、責任ある研究実践を推進していく。
私たちの作ったLEAPSモデルは既存のタンパク質言語モデルを流用している。したがって、pLM分野の発展は、直接的にLEAPSの機能強化へと繋がる。 将来的に、より高度な次世代pLMが開発された際には、それをLEAPSのフレームワークに統合することで、予測精度の向上、より新規性の高い配列の生成、そして多目的最適化における探索効率の飛躍的な向上が見込まれる。このように、LEAPSは一度開発して完成する静的なツールではなく、AI技術の進化と相乗的に性能を向上させ続ける、動的なプラットフォームとして構想されている。
我々は、このLEAPSというツールが、iGEMコミュニティにおけるAI駆動型研究のスタンダードを引き上げる一助となることを強く願う。学生チームが直面するリソースの壁をAIの力で乗り越える成功事例を示すことで、計算科学的手法をウェットな実験に導入する心理的・技術的障壁を低減させたいと考えている。本プロジェクトが、将来のiGEMチームにとってAIを標準的なツールキットの一部として捉えるきっかけとなり、合成生物学の可能性をさらに押し広げることに貢献できるならば、これ以上の喜びはない。





© 2025 - Content on this site is licensed under a Creative Commons Attribution 4.0 International license
The repository used to create this website is available at gitlab.igem.org/2025/tsukuba.