M o d e l

Contributors

Index

Advantage of LEAPS : Comparison with Random Mutation Baseline

Reference

Abstract

指向性進化法はタンパク質改良の中心的な手法であり、抗体開発をはじめとする医薬品研究、プラスチック分解酵素の改良など環境問題の解決に向けた応用において、重要な役割を果たしてきた。しかし、指向性進化法は労働集約的な手法であり、ハイスループットなスクリーニング系がなければ実現できない。さらに、配列空間内の一部分しか探索できず、局所解に陥りやすいという問題もある。そこで私たちは少数のデータからタンパク質の機能を改良する機械学習モデルLEAPSを開発した。LEAPSは、入力された配列から多様な新規配列を生成し、その機能を予測する過程を繰り返すことで、広大な配列空間を効率的に探索できる。従来、少数データからの望んだ性質を持つタンパク質の設計は困難であった。LEAPSはその壁を飛び越え、タンパク質設計の新たな時代を切り拓く。

Introduction

タンパク質はあらゆる生命現象に関与する重要な生体高分子である。これらは何十億年という進化の中で、多様化し、選抜され、適応してきた。そのために、天然に存在するタンパク質は酵素として化学反応を触媒するもの、構造体として細胞や組織の形態を支えるもの、抗体として免疫応答に関与するものなど、さまざまな機能を有する。一方で、熱安定性、触媒効率、基質特異性、発現量などに制約があり、必ずしも人為的利用に最適化されているわけではない。産業応用に向けては、多くのタンパク質が改良された後に利用される。この改良手法として代表的なものが指向性進化法と合理設計である。指向性進化法では、ランダム変異と選抜を繰り返して望ましい性質を持つタンパク質を実験的に探索する[1]。合理設計はタンパク質の構造や機構の知見に基づいて特性を意図的に改変する手法である[2]。どちらも今までに多くの成果をあげているが、それぞれに欠点が存在する。指向性進化法では探索可能なのは広大な配列空間のごく一部分に限られ、局所解に陥りがちである。また、大量の変異体を選抜しなければならず、ハイスループットなスクリーニング系が必要不可欠である。スクリーニング系が構築できたとしても、膨大な人的、物的、時間的なコストが要求されてしまう。このような理由からすべてのタンパク質に適用可能な手法ではない。合理的設計は、構造情報や反応機構の理解に基づいて改変を行うため、理論的に効率的な改良が可能である。しかし実際には、タンパク質の立体構造やダイナミクス、基質との相互作用について完全な理解が得られている場合は限られており、未知の要素が多く存在する[3]。そのため設計通りに機能改変が達成されないことも少なくない。タンパク質に関する専門的な知識も必要であり、誰もができることではない。このように、改良が望まれるタンパク質は無数にあるにも関わらず、どちらの手法も適応可能なタンパク質の範囲が限られている。

そこで注目されているのが、近年目覚ましい発展を遂げている機械学習である。深層学習をはじめとする機械学習技術はさまざまな分野で応用され、大きな成果を挙げている。たとえば、アミノ酸配列からタンパク質の立体構造を予測するAlphaFoldの登場[4]は、タンパク質研究、ひいては生命科学に大きな革命をもたらした。また、変異導入に伴う機能変化を予測するモデルや、言語モデルを応用して新規配列を生成する手法も数多く提案されている。

これらは従来の指向性進化法や合理設計では難しかった広大な配列空間の探索を、計算的に効率化する可能性を示している。しかし、これらの機械学習手法にも課題が残されている。まず、生成モデルを単独で用いた場合、膨大な新規配列を生成できる一方で、そのうちのどれが改良された機能を持つのかは不明であり、結局は実験的に多くの配列を検証する必要が生じる[5]。そのため、タンパク質改良に直接適用することは難しい。逆に、予測モデルのみを用いた場合は、候補配列を得るためにランダム変異や既存の変異体ライブラリに依存せざるを得ない[6]。その結果、探索範囲が制限されてしまう。すなわち、生成と予測を独立に運用する従来の枠組みでは、効率的かつ多様性を確保した配列探索が困難である。さらに、多くの既存モデルは膨大な実験データを必要とするため、データが乏しいタンパク質に対しては適用が難しい[7]。また、探索範囲が局所的な配列分布に偏る傾向もある[8]。このように多様性を維持しながら広範囲を探索し、機能を最適化する仕組みはいまだ十分に確立されていない。

このような背景のもと、私たちは少数の実験データから効率的に機能改良を実現する新たなアプローチ LEAPS (Language model guided Exploration of Augmented Protein Sequence space) を開発した。LEAPSは、データ拡張、配列生成と機能予測を統合的に組み合わせることで、生成モデルと予測モデルを相互に活用した反復的最適化を実現する。具体的には、生成モデルにより新規配列を創出し、予測モデルでその機能を評価する。高評価の配列を用いて生成モデルをLoRA（Low-Rank Adaptation）によってファインチューニングし、再び配列を生成するというサイクルを繰り返すことで、生成される配列を徐々に目的のものへと収束させる。この枠組みにより、予測モデルさえ構築できれば、従来の指向性進化では困難であった複数性質の同時向上、すなわち多目的最適化も可能となる。

これにより、生成モデル・予測モデルの単独使用が抱える制約を克服し、配列空間を広範囲かつ効率的に探索できる。LEAPSは、従来の方法が直面していた「データ不足」「局所解への陥りやすさ」「探索の多様性欠如」といった問題を乗り越え、汎用性の高いタンパク質設計モデルとして機能する。

Model Overview

LEAPSは、わずか40個のラベル付き配列という非常に少ないデータからでも、タンパク質の単一の機能を、あるいは複数の機能を同時に改良できるように開発されたモデルである。まず、入力されたタンパク質配列からシャッフリングと変異導入、その後のQualifierによる選抜によって大量の仮想的な機能変異体データが生み出される。次に、入力されたラベル付きの40配列からタンパク質の機能値(e.g. enzymatic activity, Thermal stability)を回帰予測する予測モデルを学習させる。この予測モデルを用いて先ほど生成した変異体から、評価値の高い配列を選抜する。この高評価配列を学習したGeneratorは、その類縁配列を新たに生成する。生成された配列はValidatorとPredictorによって選抜され、その中で高く評価された配列はGeneratorに再び学習される。この高評価配列の学習と生成、その後の評価を反復的に繰り返すことで、生成される配列を配列空間中の高機能領域へと収束させ、タンパク質を改良する。

Module Description

Shuffling & Mutation program

Shuffling & Mutation programは、Generatorの学習に必要なデータ拡張を目的として、多数の変異体を効率良く作り出すためのモジュールである。

第一に、配列のシャッフリングによる変異体生成を実施する。この手法では、複数の野生型配列を一定のウィンドウサイズ（1,3,5）で分割し、それぞれのウィンドウ単位で配列断片を異なる配列間でランダムに交換することで、新規の組み合わせを持つ変異体を生み出す。

第二に、入力された40配列に対して、配列中の全ての位置において、その位置のアミノ酸を20種類の標準アミノ酸のいずれかに置換した全ての点置換変異体をつくりだす。この操作により、各配列の各位置での機能的な重要性を網羅的に探索可能な点変異体ライブラリを構築する。

上記のプロセスによって多様かつ網羅的に変異体を生み出すことを可能にした。しかし、後続の尤度計算において「困難な変異（challenging mutations）」が複数存在すると、予測精度が有意に悪化すことが知られている[9]。そこで、全ての変異体に対して入力された変異体のいずれかに対して、差分が4残基以内の変異体のみを、スクリーニングの候補とすることでこの問題を回避している。

Qualifier

上記のShuffling & Mutation programは、多様な変異体を作り出せるが、その多くは機能を失っている。そのような非機能変異体はGeneratorの学習から除く必要がある。Qualifierは尤度と呼ばれる、タンパク質配列のもっともらしさを計算することで、機能を喪失している変異体を除去する。

タンパク質言語モデルSaProt-650Mを用いて、生成された変異体の尤度スコアを計算する。

$\sum_{i \in M} \log p(x_i = x_i^{mt} | \boldsymbol{x}_{-M}) - \log p(x_i = x_i^{wt} | \boldsymbol{x}_{-M})$

上述のmasked marginal scoring functionを用いて、各変異体について野生型配列との対数尤度差を算出する。masked marginal scoring functionは評価対象の残基位置iをマスクトークン[MASK]で置き換え、モデルがその位置に各アミノ酸が出現する確率 $P(a_i| context)$ を予測する。この確率分布から、野生型残基と変異残基それぞれの対数尤度を取得し、その差分 $\varDelta log - likelihood$ を算出することで、変異が配列の自然性や進化的妥当性に与える影響を定量的に評価する。

この値が正（つまり、変異体の尤度が野生型よりも高い、または同等）である変異体のみを選別する。このPrimary スクリーニングで残った変異体のみが、仮想的なfunctional 変異体として、Secondory スクリーニングへと進む。

Shuffling & Mutation programとQualifierによって実験を行わずに質の高い仮想的な変異体データセットを構築する。これにより、従来では困難であった40配列を元にしたGeneratorの学習が可能となっている。（Engineering Cycle 7.1参照）

Predictor

Predictorは入力配列にラベルされた機能値から配列と機能の関係を学習し、未知配列の機能値を予測する。私たちはニューラルネットワーク、新規なデータ拡張手法と独自のカスタムドロップアウトの導入によって予測モデルの精度向上を達成した。

このPredictorはパラメータを凍結されたESM2とその最終層に結合される回帰モデルとしての全結合層によって構成される。この全結合層がESM2から出力されるタンパク質の埋め込み表現とその機能の関係を学習する。ニューラルネットワークが持つ非線形性によって線形モデルやランダムフォレストでは捉えられない高次の特徴間相互作用を学習することが可能となっている。

ニューラルネットワークは高い表現力を有する一方で、過学習のリスクも孕む。そこで我々は、ニューラルネットワークの高い表現力を維持しながら、過学習を抑制するデータ拡張手法とカスタムドロップアウトを開発した。これによりPredictorは、高い表現力と汎化性能を獲得し、従来のLASSO回帰を用いた手法よりも高い精度で予測する。

Generator

Generatorは予測器に高い評価をつけられ、Secondory スクリーニングを突破した配列を学習し、その類似配列を生成する。事前学習済みの自己回帰型タンパク質言語モデルであるProGen2をファインチューニングすることで、タンパク質言語モデルが学習した進化的・構造的制約に基づいて配列を生成する。そのため生物学的に妥当な変異空間に位置する配列を優先的に生成し、ランダム探索では到達困難な大域的な最適解へと効率的に探索する。

Validator

予測モデルとは独立し、非機能配列を除去するための外部評価手法として、ValidatorにはEVmutationを利用している。

EVmutationは、進化的情報に基づいて変異の効果を予測する手法である。具体的には、タンパク質ファミリーにおける配列保存性と共変異パターン（複数の位置が連動して変化するパターン）を解析することで、特定の変異が機能に与える影響を定量的に評価する。下記の式によって計算されたスコアが高いものを除去することで、非機能配列の混入を防ぐ。

$E(\mathbf{x}) = \sum_{i=1}^{L} h_i(x_i) + \sum_{i<j} J_{ij}(x_i, x_j)$

$\Delta E = E(\mathbf{x}_{\mathrm{mut}}) - E(\mathbf{x}_{\mathrm{wt}})$

Generatorは進化的・生物学的に妥当な配列を生成する傾向があるものの、生成された配列が必ずしも機能を保持するとは限らない。また、Predictorはこの非機能配列を識別・除外できないことが明らかになっている（Engineering Cycle 4参照）。

予測モデルと生成モデルを組み合わせた反復的な最適化サイクルにおいて、非機能的な配列が混入すると、それを基にさらに質の低い配列が生成される悪循環に陥る。このような品質劣化の連鎖を防ぐためには、独立した評価基準による非機能配列の除去機構が不可欠である。そこで、進化的制約を考慮したEVmutationをValidatorとして導入することで、機能を喪失した配列を効果的にフィルタリングし、最適化プロセスの健全性を維持する。

Advantage of LEAPS : Comparison with Random Mutation Baseline

LEAPSの特徴は、予測モデルによる評価と生成モデルのLoRAファインチューニングを繰り返すことで、効率的に高活性配列を探索できる点にある。

単純なランダム変異による最適化では、探索範囲が限定的で局所解に陥りやすい。一方、LEAPSはタンパク質言語モデルが学習した進化的・構造的知識を活用するため、生物学的に妥当な変異空間を優先的に探索し、より効率的に最適解へ到達できると期待される。

ただし、生成モデルの優位性を実証するには、ランダム変異との定量的比較が不可欠である。もし同等の性能が得られるなら、計算コストの高い生成モデルを使う意義は薄れる。そこでタンパク質配列の各位置に1%の確率で点変異を導入し、予測モデルで評価・選抜するプロセスを反復する手法を実装し、それをGeneratorとして代替すること以外の条件を統一する対照実験を行なった。

Fig. 1. GeneratorにRandom mutationとProGen2を用いた場合の最終iteration配列の予測輝度スコア

このヒストグラムでは、Estimated brightness > 2 の部分の差を強調するため、頻度の描画を一部省略した。Random mutationに比べ、GeneratorにProGen2を用いた方が、最大値の配列と上位25%の配列ともに上回った。

Fig. 1. に示すように、最終iterationで得られた配列の予測輝度スコア分布を比較した結果、GeneratorにProGen2を用いた場合、Random mutationと比較して明確な性能向上が確認された。具体的には、ProGen2では予測輝度スコアの最大値が50に達し、Random mutationの約22を大きく上回った。また、上位25%の配列の平均スコアも、ProGen2が約12であったのに対し、Random mutationでは約2.5にとどまり、ProGen2の優位性が示された。

特に注目すべきは、Estimated brightness > 15の高スコア領域における配列数の違いである。ProGen2では比較的多くの配列がこの値を超えており、少数の変異体のみが高活性になっているのではなく、配列集団全体が高機能化されている可能性が高いということである。

この結果は、タンパク質言語モデルを活用することで、単なる確率的探索では到達困難な高活性領域へ効率的にアクセスできることの可能性を示唆している。

本研究では、タンパク質配列最適化におけるLEAPSの有効性を、ランダム変異による対照実験と比較することで検証した。その結果、GeneratorとしてProGen2を用いた場合、Random mutationと比較して予測輝度スコアの最大値および上位配列の平均スコアが顕著に向上することが示された。この結果は、タンパク質言語モデルが学習した進化的・構造的知識を活用することで、単純な確率的探索では到達困難な高スコア領域へ効率的にアクセスできることを定量的に実証している。

Random mutationでは各位置に等確率で変異を導入するため、探索は配列空間全体に分散し、局所解に陥りやすい。一方、ProGen2は大規模なタンパク質配列データベースから学習した配列パターンに基づいて変異を提案するため、生物学的に妥当な変異空間を優先的に探索する。さらに、LoRAファインチューニングにより選抜された高活性配列の特徴を学習することで、iterationを重ねるごとに探索方向が最適化され、効率的な収束が実現されたと考えられる。

実験コストが計算コストよりもはるかに高い創薬や酵素工学の文脈では、限られた実験回数で高活性な配列を見出すことが重要である。本結果は、LEAPSが従来の確率的手法と比較してより高いスコアの配列に到達できることを示しており、実験検証前の候補配列選定における本手法の優位性を裏付けている。

LEAPSは効率的な配列探索によって実験回数を大幅に削減できるため、AIを活用したタンパク質改良を加速させる有力なアプローチである。この手法は限られたリソースの中で最適な配列候補を効率的に見つけ出すことを可能にし、タンパク質工学における研究開発のサイクルを飛躍的に短縮することが期待される。

Reference

[1] Arnold FH. Design by directed evolution. Acc Chem Res. 1998;31(3):125–31. [2] Bornscheuer UT, Huisman GW, Kazlauskas RJ, Lutz S, Petiard J, Schwaneberg U. Engineering enzymes for non-natural reactions. Annu Rev Biochem. 2012;81:53–82.

[3] Kinch LN, Grishin NV. Opportunities and challenges in design and optimization of protein function. Protein Sci. 2020;29(11):2311–23.

[4] Jumper, J., Evans, R., Pritzel, A., Green, T., Figurnov, M., Ronneberger, O., Tunyasuvunakool, K., Bates, R., Žídek, A., Potapenko, A., Bridgland, A., Meyer, C., Kohl, S. a. A., Ballard, A. J., Cowie, A., Romera-Paredes, B., Nikolov, S., Jain, R., Adler, J., … Hassabis, D. (2021). Highly accurate protein structure prediction with AlphaFold. Nature, 596(7873), 583–589.

[5] Gustafsson, C., Govindarajan, S., & Emig, R. (2001). Exploration of sequence space for protein engineering. Journal of Molecular Recognition, 14(5), 308–314.

[6] Teyra J, Colak R, Kinch LN, Grishin NV, Ghabas A. Recent Advances in Machine Learning Variant Effect Prediction Tools for Protein Engineering. Int J Mol Sci. 2022;23(7):3799.

[7] Sliwoski GR, Lowe EW, Kinch LN, Grishin NV, Ghabas A. Incorporating physics to overcome data scarcity in predictive modeling of protein function: A case study of BK channels. PLoS Comput Biol. 2023;19(9):e1011460.

[8] Romero PA, Arnold FH. Exploring protein fitness landscapes by directed evolution. Nat Rev Mol Cell Biol. 2009;10(12):866–76.

[9]Kinch LN, Grishin NV, Ghabas A. What makes the effect of protein mutations difficult to predict? Cell Rep Methods. 2023;3(10):100609.

The repository used to create this website is available at gitlab.igem.org/2025/tsukuba.