E n g i n e e r i n g

Contributors

Index

Project

Cycle 1: 生成モデル・予測モデルの初期構築

Cycle 2: 蛍光タンパク質における単目的最適化

Cycle 3: 予測モデルの精度改善

Cycle 4: 予測モデルESM2の拡張

Cycle 5: 予測モデルにESM2+全結合層+データ拡張（Conservative mutations）+カスタムドロップアウト（長すぎるので暫定）

Cycle 6: LoRA fine-tuning of the generative model

Cycle 7: Likelihood-based Data Augmentation

Cycle 8: In Silico Concept Validation

Cycle 9: 蛍光タンパク質を用いたLEAPS version 3の検証

Cycle 10: Comparative Study

Conclusion

Reference

Project

我々は、LEAPSの構想段階において、本システムが持つ大きな潜在能力を感じ取っていた。

LEAPSの主要な特徴は、以下の三点に集約される：

少数データからの改良：従来手法では大量の実験データが必要とされてきたが、LEAPSは限られたデータセットからでもタンパク質の改良に活用することが期待される。
WET実験を伴わないタンパク質改良：反復的な予測と生成のプロセスによって、実際の実験を実施せずにタンパク質改良を行うことが可能である。これにより、実験コストと時間の削減が見込まれる。
多目的最適化：複数の性質を同時に最適化することで、より実用的なタンパク質設計につながる可能性がある。

こうしたLEAPSの潜在能力を引き出すため、Engineeringでは以下のアプローチによってシステムの構築を進めた。

第一段階: 概念実証（Cycle 1~2）

従来のpLMを用いたin silicoでのタンパク質改良では、予測モデルまたは生成モデルを単体で使用した改良方法が主流である。一方で、LEAPSは予測モデルと生成モデルを連結し、かつ反復的に使用している。そのため、初めに予測・生成・評価の一連の設計フローが機能することを示すことを目標とした。この段階では、単一サイクルの予測・生成・評価プロセスによって、狙った性質を持つタンパク質配列が実際に設計できることを概念的に実証することに注力した。

第二段階: 各モジュールの改良（Cycle 3~7）

概念実証によってシステムの基本的な動作を確認した後、予測モデルと生成モデルの性能向上に取り組んだ。LEAPSは高度にモジュール化されており、予測モデルや生成モデルを独自に改変・置換することが可能である。各モジュールを最適化するために様々な実験条件で検証し、後続の反復的最適化プロセスにおいて、より高品質な配列生成と正確な評価が可能となる基盤を構築した。

第三段階: 反復的な予測＆生成による最適化の実現（Cycle 8, 10）

各モジュールの性能が十分に向上した後、プロジェクトは反復的な生成と評価を通じた配列改良へと進み、生成される配列が目標とする多目的な機能の向上に向かって段階的に収束していくことを検証した。各イテレーションにおいて、評価値の分布や配列の多様性をモニタリングし、最適化プロセスが適切に機能するように調整を行った。

このような三段構えのアプローチにより、システムの基本機能の確立、各要素の性能向上、そして実用的な最適化能力の獲得を段階的に達成することができた。以降のセクションでは、各段階で実施した具体的な実験と、モデル性能を向上させるために行った様々な改良について詳述する。

Cycle 1: 生成モデル・予測モデルの初期構築

Cycle 1.1: ProGen2による配列の生成

Design:

我々のモデルは反復的な生成と予測を繰り返すことで、タンパク質配列を目的の性質を持つものへと改良する。このためには生成モデルが機能的なタンパク質配列を生成できなければならない。本サイクルでは、概念実証として適切なタンパク質の選定と、生成モデルの構築方針の決定を行った。

実験計画最適化の専門家である都築さんへのインタビューを通じて、概念実証で改良するタンパク質には以下の性質を持つものを選定すると良いとの助言を得た:

DNA配列にしたときに全合成できる長さ: 合成コストと実験効率の観点から、配列長が適度に短いことが望ましい
大腸菌で発現可能: 実験系の構築が容易で、迅速な検証が可能
アッセイしやすい: 改良効果を定量的に評価できる測定系が確立されている

これらの性質を全て持つタンパク質として、**緑色蛍光タンパク質(GFP)**を選定した。GFPは配列長が約238アミノ酸[1]と全合成可能な範囲内であり、大腸菌での発現系が確立されており、さらに蛍光強度という明確で定量的な評価指標を持つ。これらの特性により、GFPは我々の反復的改良アプローチの概念実証に最適な対象であると判断した。

機械学習の専門家へのインタビューから、大規模なタンパク質配列生成モデルを自分たちでゼロから構築するのは現実的ではないことが明らかになった。学習に必要な計算リソース、データ量、そして開発期間を考慮すると、既存の事前学習済みモデルを活用する方が効率的である。

そこで、以降のサイクルでは事前学習済みのモデルをファインチューニングして利用する方針を採用した。生成モデルにはProGen2[2]を選定した。

Build:

以下の3つの理由から、生成モデルとしてProGen2[2]を採用した。

・数億規模のタンパク質配列データベースで事前学習されており、既知タンパク質に依存しすぎない形で多様かつ構造的に自然な配列を生成できる

・特定のタンパク質ファミリーに対してファインチューニングすることが可能

・すでに先行研究[3]で利用されており、機能的な配列を生成できることが実証されている

本研究では、ProGen2の複数あるモデルサイズのうちのProGen2-smallモデルを採用した。これは、ファインチューニングを繰り返し実施する必要があるため、計算資源の観点から効率的に学習を行うためである。

先行研究[3]から約3万配列を取得し、学習データとして利用した。モデルのファインチューニングには、全パラメータを更新するフルファインチューニングを採用した。

また、生成された配列とAequorea victoria由来GFP配列 [1]、UniProt [4]から無作為に取得した配列をタンパク質言語モデルESM2 [5]の埋め込みに変換し、PCAで次元削減してプロットした。

Test:

生成された配列はavGFPと相同性が高く、一般的にホモログの基準とされる30%を大きく超えていた。

fig. 1. ESM-2の埋め込みを用いた各種タンパク質配列の主成分分析

生成されたアミノ酸配列（青）、UniProtからランダムに取得した配列（赤）、およびAequorea victoria由来GFP配列（緑）を、タンパク質言語モデルESM-2で特徴量に変換し、主成分分析（PCA）で可視化した。

生成配列はavGFP配列近傍の特徴空間を占めており、またUniProtからランダムに取得した配列とは明確に異なる領域に分布していた。

Learn:

配列相同性から生成された配列はavGFPのホモログであることを強く示している。また、タンパク質言語モデルは配列の“意味”を捉えることができ、入力された配列の埋め込みは、潜在空間内で同じファミリーや同じ機能を持つ配列同士が近くに集まりやすい。これと上記のプロットを踏まえると、生成された配列はGFPと機能的に類似している可能性が高い。この二つの結果から、ProGen2は生物学的に意味のあるGFP様タンパク質を生成できたと考える。

Cycle 1.2: 予測モデルProtT5によるGFPの輝度予測

Design:

我々が最終的に目指すフレームワークには、タンパク質の機能を配列のみから予測するモデルが必要である。このサイクルでは予測モデルがタンパク質の機能を予測し、目的の性質を持つものを選抜することが可能であることを証明するため、タンパク質言語モデルのProtT5を用いたGFPの輝度の予測モデル構築を目指した。

Build:

先行研究から約5万配列の輝度のデータを取得し、輝度が一定以上のものにBright、一定以下のものにDimのラベルを付与した。学習データとテストデータを9対1の割合で分割して、ProtT5-XL-uniref50 [6]を用いてLoRAによる二値分類のファインチューニングを行った。

Test:

fig. 2. 実際のラベルとモデル予測ラベルの混同行列

混同行列において、True Positive (TP)は実際にBrightであり、モデルもBrightと予測した配列数、False Positive (FP)は実際にDimであるがモデルがBrightと予測した配列数、False Negative (FN)は実際にBrightであるがモデルがDimと予測した配列数、True Negative (TN)は実際にDimであり、モデルもDimと予測した配列数を表す。

この結果から、モデルの正解率(Accuracy)は約0.843、適合率(Precision)は約0.731、再現率(Recall)は約0.909、F1スコアは約0.810と算出された。特に再現率が高く、実際にBrightな配列の約91%を正しく検出できていることが示された。

Learn:

本サイクルにおいて、ProtT5-XL-uniref50を用いたファインチューニングにより、GFPの配列情報のみから輝度を高精度で予測できることが実証された。約84%の正解率と91%の再現率は、タンパク質言語モデルが配列中の機能的特徴を効果的に捉えられることを示している。

本モデルは高い再現率を維持しながら機能的タンパク質配列を効率的にスクリーニングできることが確認された。これにより、我々が目指すフレームワークにおいて、予測モデルによる配列選抜が実用可能であることが証明され、次のサイクルへの基盤が確立された。

しかし、学習に5万配列を要するという課題もあり、改善が望まれた。

Cycle 1.3: 生成モデルProGen2と予測モデルProtT5によるGFPの設計

Design:

このサイクルでは、生成モデルによる配列の生成と予測モデルによる配列の選抜により既存のGFP配列に類似した新規蛍光タンパク質配列の設計を目指した。また、反復的な最適化は行わず、生成から評価までの一連の設計フローによって光るGFPを得られる可能性を概念的に示すことを目的とした。

Build:

DMSデータセットで学習させた生成モデルProGen2を用いて、既存のGFP配列を入力として新規配列候補を生成した(Cycle1.1参照)。生成された配列群は、予測モデルに入力することで蛍光強度をbright または dim の二値分類として予測し（Cycle1.2参照）、蛍光性を有すると予測された候補配列を選抜した。

デザインフェーズで選抜された候補配列について、Wet実験による検証を実施した。選抜された配列をコドン最適化し、IDT社の遺伝子合成サービスを利用して合成した。合成遺伝子をpET28a(+)発現ベクターのNcoIサイトにクローニングした。発現ベクターをBL21(DE3)に形質転換し、液体LB培地でIPTG誘導によって発現させた。大腸菌を破砕、蛍光タンパク質を抽出して、ルミノメーターでスペクトルと輝度を測定した。

Test:

Enginering_Fig. 4.jpg

fig. 3. 蛍光を発する大腸菌

**(A)は抽出したT01_02配列のタンパク質、(B)はT01_04配列を発現する大腸菌のコロニーである。　　　　　**

選抜した3つの候補配列について蛍光測定を実施した結果、2配列で明確な蛍光が確認された。各配列のタンパク質濃度あたりの相対蛍光強度は以下の通りであった（野生型GFPを100%として規格化）。

３配列中２配列で蛍光が確認できた。

候補配列1（3残基置換）：蛍光なし

候補配列2（4残基置換）：蛍光強度 317%（蛍光確認）

候補配列3（5残基置換）：蛍光強度 54%（蛍光確認）

予測モデルでbrightと分類された3配列のうち、2配列で実際に蛍光が観察された。蛍光が確認されなかった1配列については、フォールディング、もしくは発色団を囲む疎水性パッキングに問題があった可能性が示唆される。

Learn:

GFPの5残基変異体は理論上1.5京通り以上存在し、その配列空間は膨大である。先行研究[7]において、5箇所以上の変異が入ると蛍光強度が小さい変異体が非常に多くなることが報告されており、5残基以上の変異体で機能を保持する配列を作成することは極めて困難とされてきた。

本サイクルでは、ProGen2生成モデルと予測モデルを組み合わせた設計アプローチにより、選抜した3配列のうち1配列において、蛍光する5残基変異体の合成に成功した。これは、膨大な配列空間（1.5京通り以上）の中から、わずかな試行回数で機能性配列を探索できたことを示している。

従来のランダム変異やスクリーニング手法では、1.5京通りという膨大な配列空間から機能性の5残基変異体を見つけ出すには大量の実験が必要となる。しかし、本手法では生成モデルによる配列生成と予測モデルによる事前スクリーニングを組み合わせることで、少数の候補配列から従来困難とされてきた5残基変異体の取得に成功した。

多重変異体の設計という従来困難とされてきた領域において、AIを活用したアプローチの優位性が実証された。

Cycle 2: 蛍光タンパク質における単目的最適化

Cycle 2.1: 予測モデルにESM2+LASSO回帰を利用

Design:

Cycle 1では、予測モデルにより再現率(Recall)約0.909という非常に高い予測精度を達成することができた。一方で、このモデルの学習には約5万件の配列-蛍光輝度データセットが必要という課題があった。バイオベンチャー企業バイオフェノリクス社のぬくい氏へのインタビューでは、通常の改良対象となるタンパク質において、これほど大量のアッセイデータを取得することは現実的に困難であるとの指摘を受けた。具体的には、実際に集めることができるデータ量は40配列程度とのことであった。これを踏まえて、学習データが40配列程度の少量であっても、実用的な精度で予測できるモデルの開発を目指した。

また、実験最適化の専門家であるつづきさんへのインタビューで、蛍光の色、つまり蛍光波長を改良、改変するのがわかりやすく、かつ面白いのではないかという提案をいただいていた。蛍光波長は測定が容易で客観的な指標であり、かつ視覚的にも変化が分かりやすいため、モデルの予測精度を評価する上で適切なターゲットであると考えられた。

そこで、このサイクルでは40配列分の蛍光最大波長のデータから、実用的な精度の予測モデルを構築することを目標とした。そして、このような少数データ環境下では二値分類モデルは高い精度を出すことができない。そのため、先行研究を参考に少数データにおいても過学習せずに回帰予測が可能なLASSO回帰を利用した予測モデルを構築した。

Build:

まず蛍光タンパク質配列を入力として、タンパク質言語モデルESM2 を用いて高次元の埋め込みベクトル（1280次元×n残基）を獲得した。得られた埋め込みは配列の進化的・構造的特徴を反映しており、配列の類似性だけでなく潜在的な機能的違いも表現可能であると考えられる。参考にしていた論文ではUniRepというタンパク質言語モデルが使用されていたが、本研究ではより大規模なデータセットで学習され、優れた表現能力を持つことが報告されているESM2を採用した[5]。ESM2は数億のタンパク質配列で事前学習されており、UniRepと比較してより豊富な進化的情報を捉えることができると期待された。その後、このベクトルを説明変数として用い、対応する蛍光最大波長を目的変数としてLASSO回帰モデルを学習させた。

学習データには、FPbase[9]から取得した40件の配列と最大蛍光波長のデータセットを利用し、テストデータも同様にFPbaseから取得した。

Appendix: What is embedding and training

Embedding

タンパク質のアミノ酸配列はタンパク質の構造、機能を端的に表すものである一方で、アミノ酸配列をコンピューターがそのまま理解することは困難である[8]。さらにアミノ酸配列が持つ情報量は非常に大きいため、それをそのまま機械学習に使用することも困難である[8]。

これらの問題を解決するため、機械学習をする際にエンベッディングという操作が行われる。この場合のエンベッディングとはタンパク質のアミノ酸配列をESM2を用いてコンピューターが理解しやすい多次元配列に変換する作業である[10]。

ESM2にn個の残基を持つアミノ酸配列を入力することを考えると、ESM2は1個の残基ごとに1280次元のベクトルを出力する。このベクトルは対象となった残基とほかの残基との相互関係を表しており同じ残基だとしてもアミノ酸配列内での位置が違えば異なるベクトルが出力される。

そして、n残基アミノ酸の場合は前述のベクトルがそれぞれの残基について出力されるので、1280×nのサイズの行列 $\begin{bmatrix} x_{11} \\ x_{21} \\ \vdots\\x_{n1} \end{bmatrix}\begin{bmatrix} x_{12} \\ x_{22} \\ \vdots\\x_{n2} \end{bmatrix}\cdots\begin{bmatrix} x_{1,1280} \\ x_{2,1280} \\ \vdots\\x_{n,1280} \end{bmatrix}$ が出力される。

Training

ESM2によって出力された配列を基に予測モデルを作成する。

下の式はLASSO回帰において予測に使われる式である[11]。

$\hat{y}=b_{0}+b_{11}x_{11}+b_{21}x_{21} \cdots b_{n,1280}x_{n,1280}$

$\hat{y}$ は目的変数と呼ばれ、今回プロジェクトではGFPの輝度や蛍光波長などのスカラー値である。

次に、 $x_{11}$ ~ $x_{n,1280}$ は説明変数と呼ばれエンベッディングで出力された行列の各成分が用いられる。説明変数にそれぞれ $b_{11}$ ~ $b_{n,1280}$ の定数を掛け、定数 $b_{0}$ を足したものが目的変数 $\hat{y}$ になる。

学習用データセットには40配列分のタンパク質のアミノ酸配列情報と、それぞれのタンパク質の機能の値(輝度、蛍光波長など)がセットになったものを用いる。学習を行うことで、目的変数 $\hat{y}$ とそのタンパク質の真の機能の値 $y$ との誤差がなるべく小さくなるような $b_{11}$ ~ $b_{n,1280}$ と $b_{0}$ を求めることができ、その後学習データセットに含まれないアミノ酸配列に対してもその機能を予測することができるようになる。

fig. 4. ESM2による埋め込み表現とLASSO回帰を組み合わせた蛍光波長予測パイプライン

Test:

fig. 5. 蛍光タンパク質の最大蛍光波長における予測値と実測値の相関

ESM2埋め込みベクトルを用いたLASSO回帰モデルにより予測した波長（横軸）と実測波長（縦軸）の散布図。決定係数 $R^2=0.8$ は良好な予測精度を示す。

Learn:

LASSO回帰モデルによる蛍光波長予測の結果、決定係数 $R^2=0.8$ という良好な予測精度が得られた(fig. 5)。この結果から、わずか40配列という少数の学習データであっても、ESM2による埋め込み表現とLASSO回帰を組み合わせることで、実用的な精度での蛍光波長予測が可能であることが示された。

このサイクルを通じて、以下の重要な知見が得られた。第一に、タンパク質言語モデルESM2から得られる埋め込みベクトルは、配列の進化的・構造的特徴を効果的に捉えており、少数データ環境下でも有用な特徴量として機能することが確認された。第二に、LASSO回帰による自動的な特徴量選択が、限られたサンプルサイズにおける過学習の抑制に有効であることが実証された。これは、実際のバイオベンチャー企業が直面する「大量のアッセイデータを得ることが難しい」という実務上の制約に対する、現実的な解決策となり得る。

また、蛍光波長という連続値を予測対象としたことで、Cycle1の二値分類モデルでは捉えきれなかった微細な性質の違いを定量的に評価できるようになった。これにより、単なる二値的な判断ではなく、「どの程度の波長シフトが期待できるか」という具体的な予測が可能となり、タンパク質工学における意思決定により有用な情報を予測モデルが提供できるようになった。

Cycle 2.2: 様々な蛍光波長の蛍光タンパク質の設計

Design:

このサイクルでは、生成された配列を予測モデルから得られた予測値を元に選抜することで、指定した蛍光波長を発する蛍光タンパク質を設計することを目指した。また、ここでも反復的な最適化は行わず、生成から評価までの一連の設計フローによって狙った性質を持つ蛍光タンパク質を得られる可能性を概念的に示すことを目的とした。

Build:

予測モデルはCycle 2.1で構築したESM2+LASSO回帰モデルであり、学習データはFPbaseから取得した40件の配列と最大蛍光波長のデータセットを利用した。

生成モデルはProGen2であり、学習データにはCycle 1ではavGFPのDMSデータセットを用いたが、今回はFPbase由来の様々な蛍光波長を持つ蛍光タンパク質700配列を利用した。これらの配列は、青色から赤色領域まで幅広い蛍光スペクトルをカバーしていた。

生成された配列群は、予測モデルに入力することで予測蛍光最大波長を得た。予測蛍光最大波長を参考に、青色、緑色、黄色に蛍光すると考えれらた配列を選抜した。

青色、緑色、黄色に蛍光すると予測された候補配列それぞれ6配列ずつについて、Wet実験による検証を実施した。選抜された配列をコドン最適化し、IDT社の遺伝子合成サービスを利用して合成した。合成遺伝子をpET28a(+)発現ベクターのNcoIサイトにクローニングした。発現ベクターをBL21(DE3)に形質転換し、液体LB培地でIPTG誘導によって発現させた。大腸菌を破砕、蛍光タンパク質を抽出して、ルミノメーターでスペクトルと輝度を測定した。

Test:

3色それぞれを代表する配列にブラックライトを照射して、蛍光の様子を撮影した(fig. 6.)。また、蛍光高度計を用いて各サンプルの蛍光スペクトルデータを取得し、これにより実測蛍光最大波長を得た。それらのサンプルのうち青色、緑色、黄色に光ったものから代表各1サンプルの蛍光スペクトルについて以下に示した(fig. 7.)。また、蛍光スペクトルデータが取得出来たサンプルについて、予測蛍光最大波長と実測蛍光最大波長の相関プロットを作成し、サンプル数は少ないものの強い相関が見られた(fig. 8.)。

fig. 6. 紫外線によって蛍光する抽出したタンパク質

3色それぞれを代表する配列にブラックライトを照射して、蛍光の様子を撮影した。

(a)

(b)

(c)

fig. 7. 青色(a)、緑色(b)、黄色(c)蛍光タンパク質の代表配列における蛍光スペクトル

実線は蛍光スペクトルを示す。

fig. 8. 予測蛍光最大波長(λem-pred)と実測蛍光最大波長(λem-obs)の相関プロット

破線は完全一致線(y = x)。色分けは目標とした蛍光色を示し(青/緑/黄)、蛍光を発した配列のみをプロットした。

Learn:

本サイクルでは、生成モデルと予測モデルを組み合わせた一連の設計フローにより、指定した蛍光波長を発する蛍光タンパク質の設計が可能であることが示された。

FPbase由来の多様な蛍光タンパク質配列で学習したProGen2により、幅広い蛍光波長範囲をカバーする配列群を生成することができた。これらの生成配列に対して、ESM2+LASSO回帰モデルによる蛍光波長予測を行い、目的とする波長域(青色、緑色、黄色)に対応する配列を選抜した結果、実際に意図した色に蛍光する配列が複数得られた(fig. 6.)。特に、各色を代表する配列の蛍光スペクトル測定では、明瞭な蛍光ピークが確認され(fig. 7.)、テストデータだけでなく設計した配列に対しても予測蛍光最大波長と実測蛍光最大波長の間に強い相関が観察された(fig. 8.)。サンプル数は限られているものの、この結果は予測モデルの有効性を支持している。今後は本手法の汎用性を示すために、蛍光波長以外の性質についても指定可能であることを明らかにすることが望まれた。

一方で、色ごとの成功率には顕著な差が見られた。黄色蛍光タンパク質では設計した6配列のうち3配列が目的の波長域で蛍光を発したのに対し、青色および緑色では各6配列中1配列のみしか蛍光を示さなかった。この結果から、予測モデルによる蛍光波長の予測精度は一定の有効性を示す一方で、実際に機能的な蛍光タンパク質として発現・フォールディングする配列を選抜する能力には改善の余地があることが明らかになった。

Cycle 2.3: 狙った輝度を持つ蛍光タンパク質の設計

Design:

このサイクルでは、生成された配列を予測モデルから得られた輝度予測値を元に選抜することで、高輝度な蛍光タンパク質を設計することを目指した。蛍光最大波長の予測と同様に、40件の配列と輝度のデータセットからESM2とLASSOを組み合わせた輝度予測モデルを構築したが、テストデータでは芳しい結果は得られなかった(fig. 9.参照)。

fig. 9. 蛍光タンパク質の輝度における予測値と実測値の相関

ESM2埋め込みベクトルを用いたLASSO回帰モデルにより予測した輝度（横軸）とFPbaseから取得した実測輝度（縦軸）の散布図。決定係数 $R^2=0.29$ は予測と実測値に強い相関がないことを示す。

一方で、先行研究[12]においては同様の手法で輝度を予測し、ランダム変異を組み合わせることで輝度を改良したという結果があったため、本サイクルを実施することとした。また、ここでも反復的な最適化は行わず、生成から評価までの一連の設計フローによって狙った性質を持つ蛍光タンパク質を得られる可能性を概念的に示すことを目的とした。

Build:

予測モデルはCycle 2.2と同様にESM2+LASSO回帰モデルを構築した。学習データはFPbase[9]から取得した配列と輝度のデータセットを利用した。生成モデルはProGen2であり、学習データにはCycle 2.2と同様にFPbase由来の様々な蛍光波長を持つ蛍光タンパク質700配列を利用した。生成された配列群は、予測モデルに入力することで予測輝度を得た。予測輝度のTop6配列とworst6配列を選抜し、Wet実験による検証を実施した。選抜された配列をコドン最適化し、IDT社の遺伝子合成サービスを利用して合成した。合成遺伝子をpET28a(+)発現ベクターのNcoIサイトにクローニングした。発現ベクターをBL21(DE3)に形質転換し、液体LB培地でIPTG誘導によって発現させた。大腸菌を破砕、蛍光タンパク質を抽出して、ルミノメーターでスペクトルと輝度を測定した。

Test:

table 1. 予測された輝度と実際に計測された輝度を示す表


配列番号	Predicted brightness	Measured relative fluorescence intensity	λEm Max
T02_19	75.11518086	0.73196138	346.5
T02_20	72.03856262	0.8719466	337.5
T02_21	71.65047504	17.6066062	337
T02_23	62.60040511	0.17434677	522.5
T02_25	-23.72972317	0.171889755	511.5
T02_26	-16.59943373	0.108705103	509.5
T02_28	-10.87838477	0.427399856	474
T02_29	-10.60020859	0.376423762	474.5

低予測輝度群（Worst 6）は予測通り全て相対蛍光強度1未満となり、低輝度配列の予測は比較的正確であった。しかし、高輝度配列の予測では偽陽性（高予測値だが実測は低い）が多く見られた。これは、学習データが限られていること、および輝度に影響する複雑な構造要因を完全には捉えきれていないことを示唆している。

Learn:

今回の結果から、ESM2+LASSO回帰モデルでは輝度の予測に十分な性能が得られないことが明らかになった。40配列という限られたデータセットで実用的な精度を達成するためには、予測モデルのアーキテクチャや特徴量の選択を抜本的に改良する必要があると考えられる。

本サイクルは、生成モデルと予測モデルを組み合わせた設計フローの「概念実証」としての意義はあったが、実用的な設計手法の確立には至らなかった。予測モデルの改良が必要である。

Cycle 3: 予測モデルの精度改善

Cycle 3.1: 予測モデルにESM2+ランダムフォレスト回帰

Design:

ESM2+LASSO回帰は、蛍光最大波長の予測というタスクにおいては高い性能を発揮することができた（fig. 5,7参照）。一方で、輝度の予測においては予測値と実測値にはあまり相関がなく（fig. 8, 9参照）、実用的なレベルとは言えなかった。

この原因として、LASSO回帰が線形モデルであるため、輝度のような複雑な非線形関係を捉えきれていない可能性が考えられた。蛍光最大波長は発色団のアミノ酸の種類という比較的単純な要因によって概ね決まる[13]。一方で、輝度は発色団の形成効率、タンパク質の折りたたみ、量子収率など、配列から直接的には予測しにくい多様な要因に依存する[13]。そのため、特徴量間の非線形な相互作用を学習できるモデルが必要であると考えた。

そこで本サイクルでは、ランダムフォレスト回帰を予測モデルとして採用することとした。ランダムフォレストは決定木ベースのアンサンブル学習手法であり、非線形関係の学習能力が高く、過学習に対しても比較的頑健である[14]。加えて、少数のデータセットでも有効に機能することが知られている[14]。ここでは、ESM2による埋め込みベクトルを特徴量として、ランダムフォレスト回帰により輝度を予測するモデルを構築した。

Build:

予測モデルとして、ESM2埋め込みベクトルを入力とするランダムフォレスト回帰モデルを構築した。具体的には、ESM2から各配列の表現ベクトルを抽出し、1280次元×n残基の埋め込みベクトルを特徴量として使用した。scikit-learnのRandomForestRegressorを用い、決定木の数（n_estimators）を1000本に設定し、その他のパラメータ（max_depth、min_samples_split、min_samples_leafなど）はデフォルト値を採用してモデルを学習させた。学習データには、FPbaseから取得した40件の配列と輝度のデータセットを利用し、テストデータも同様にFPbaseから取得した。モデルの予測精度は、テストデータに対する決定係数（R² ）により評価した。

Test:

fig. 10. テストデータにおける予測輝度（横軸）と実測輝度（縦軸）の散布図

青丸はLASSO回帰による予測結果（R² = 0.29）、赤丸はランダムフォレスト回帰による予測結果（R² = 0.39）を示す。破線は理想的な予測（予測値=実測値）を表す対角線。ランダムフォレスト回帰はLASSO回帰と比較して予測精度の改善が見られた。

Learn:

ランダムフォレスト回帰は、LASSO回帰と比較して輝度予測の精度を大きく改善した(fig. 10参照)。LASSO回帰では予測値と実測値の間にほとんど相関が見られなかったのに対し、ランダムフォレスト回帰ではR²値が向上し、より実用的なレベルに近づいた。

この改善は、ランダムフォレストが持つ非線形関係の学習能力によるものと考えられる。輝度は発色団の形成効率、タンパク質の立体構造、量子収率など、複数の要因が複雑に絡み合って決まる物性である[13]。線形モデルでは捉えきれなかったこれらの特徴量間の相互作用を、決定木ベースのランダムフォレストは柔軟に学習できたと推察される[15]。本サイクルの結果から、輝度のような複雑な物性を高精度に予測するためには、非線形な関係を捉えることのできるモデルが必要であると考えられた。

また、ランダムフォレスト回帰の導入により一定の改善は見られたものの、R²値は依然として実用レベルには到達していない。この要因として、ESM2埋め込みベクトルの次元数の問題が考えられた。1280次元×n残基という高次元の特徴量は、40件という限られたサンプル数に対して過剰であり、いわゆる「次元の呪い」を引き起こしている可能性がある[16]。この問題を解決し、配列全体の情報を保持しつつ次元数を効果的に削減することで、さらなる予測精度の改善が望まれた。

Cycle 3.2: max pooling

Design:

Cycle 3.1でランダムフォレスト回帰を導入したことにより、非線形関係の学習が可能になった。しかし、ESM2埋め込みベクトルは1280次元×n残基という非常に高次元な特徴量であり、これが「次元の呪い」(curse of dimensionality)を引き起こしている可能性が考えられた。

次元の呪いとは、特徴量の次元数が増加するにつれて、データが高次元空間に疎に分布してしまい、機械学習モデルの性能が劣化する現象である。特に、サンプル数が限られている場合（ここでは約40件）、高次元の特徴空間では各サンプル間の距離が均一化してしまい、モデルが意味のあるパターンを学習できなくなる。ランダムフォレストは高次元データに対してある程度頑健であるものの、特徴量の次元数がサンプル数を大きく上回る場合には、過学習や汎化性能の低下が生じやすい[AL]。

1280次元×n残基という特徴量の数は40件というサンプル数に対して明らかに過剰である。この問題を解決するため、配列全体の情報を保持しながら次元数を大幅に削減する手法が必要となる。

そこで本サイクルでは、Max Poolingを適用することとした。Max Poolingは、各次元（1280次元）について全残基位置での最大値を取る操作であり、配列長によらず固定長の1280次元ベクトルに集約できる。この操作により、各特徴次元において最も顕著に活性化した情報を抽出することができ、次元数が大幅に削減されたため（1280次元×n残基 → 1280次元）、40サンプルに対する特徴量の次元比が改善され、次元の呪いの影響を軽減することが期待された[17]。特に、蛍光タンパク質において輝度や励起最大波長に影響を与える重要なアミノ酸残基（発色団周辺の残基など）の情報を、Max Poolingによって選択的に抽出し、予測モデルの性能向上を目指した。

Build:

予測モデルとして、Max Pooling処理を施したESM2埋め込みベクトルを入力とするランダムフォレスト回帰モデルを構築した。具体的には、ESM2から各配列の表現ベクトル（1280次元×n残基）を抽出した後、各次元について全残基位置での最大値を取るMax Pooling操作を適用し、1280次元の固定長ベクトルに集約した。

学習データは、FPbaseから取得した40配列の輝度データセットを使用し、Cycle 3.1と同様の手順でデータを準備した。

モデル学習には、scikit-learnのRandomForestRegressorを用い、Cycle 3.1と同一のハイパーパラメータ設定（n_estimators=1000、その他はデフォルト値）を採用した。モデルの予測精度は、テストデータに対する決定係数（R^2）により評価した。

Test:

fig. 11. テストデータにおける予測輝度（横軸）と実測輝度（縦軸）の散布図

赤丸はランダムフォレスト回帰による予測結果（R^2 = 0.388）、茶色丸はランダムフォレスト回帰+max poolingによる予測結果（R^2 = 0.434）を示す。破線は理想的な予測（予測値=実測値）を表す対角線。

Learn:

Max Poolingの導入により、特徴量の次元数を大幅に削減し（1280次元×n残基 → 1280次元）、次元の呪いの影響を軽減することができた。その結果、予測精度はLASSO回帰と比較して改善が見られた（R^2 = 0.434）。これは、Max Poolingによって配列全体から重要な特徴を効率的に抽出できたこと、および特徴量とサンプル数のバランスが改善されたことに起因すると考えられる。

しかし、依然としてR^2値は0.434に留まっており、改善の余地は残されている。Cycle 3.1と3.2の結果から、非線形な関係を捉えることができる柔軟なトップモデルの導入が予測精度の向上につながることが明らかになった。一方で、Max Poolingなどの次元削減手法は一定の改良効果はあるものの、これ以上の大幅な性能向上は見込めないように思える。さらなる性能向上に向けた今後の課題として、より表現力の高いトップモデルの導入が挙げられる。

Cycle 4: 予測モデルESM2の拡張

Cycle 4.1: 予測モデルにESM2+全結合層

Design:

Cycle 3.1でLASSO回帰から非線形な関係を学習できるランダムフォレスト回帰へとトップモデルを変更したことで、輝度のような予測が難しいタスクにおいてもある程度の予測精度を保つことができた。しかし、依然として改善の余地が残されており、より表現力の高いモデルの導入が求められた。

ランダムフォレスト回帰は非線形な関係を学習できるが、その学習メカニズムは決定木の集合による段階的な分割に基づいている。一方、タンパク質の物性は、複数のアミノ酸残基間の複雑な相互作用や階層的な構造的特徴に依存すると考えられる。このような高度に非線形で階層的な特徴表現を学習するには、ニューラルネットワークがより適していると考えられた。

そこで本サイクルでは、ESM2埋め込みベクトルの上に全結合層を構築したニューラルネットワークモデルを導入することとした。全結合層では、入力の各要素と出力の各要素がすべて接続されており、重み行列を用いた線形変換と活性化関数を組み合わせることで、複雑な非線形写像を学習することができる[18]。

多層の全結合層を積み重ねることで、モデルは階層的に特徴を抽出し、より複雑な入力-出力の関係を表現できるようになる。各層が前の層の出力を非線形変換することで、単純な線形モデルやランダムフォレストでは捉えられない高次の特徴間相互作用を学習することが可能となる[18]。

具体的には、Mean Pooling後の1280次元ベクトルを入力とし、段階的に次元を削減する多層構造を採用した。第1層では1280次元を640次元に削減し、第2層で1次元の予測値を出力する構成とした。各全結合層の後にはReLU活性化関数を配置し、負の値を0に変換することで非線形性を導入した。

この段階的な次元削減により、1280次元という高次元の特徴量から、回帰タスクに本当に必要な情報だけを選択的に抽出し、最終的に1つの予測値に集約することができる。全結合層の重み行列は学習によって最適化され、予測に重要な特徴を階層的に抽出することが期待される。さらに、ニューラルネットワークは勾配降下法による最適化を通じて、入力から出力への滑らかで連続的な写像を学習するため、特徴空間内での補間性能が向上し、未知の配列に対する予測精度の改善も期待された。

Build:

予測モデルとして、Max Pooling処理を施したESM2埋め込みベクトルを入力とするニューラルネットワーク回帰モデルを構築した。具体的には、事前学習済みのESM2モデルから各配列の表現ベクトル（1280次元×n残基）を抽出した後、attention maskで重み付けしたMax Pooling操作を適用し、1280次元の固定長ベクトルに集約した。ESM2モデルのパラメータは凍結し、特徴抽出器として固定的に使用した。

ニューラルネットワークの構造は、以下の層を順に配置した。第1層として1280次元から640次元への全結合層とReLU活性化関数、第2層として640次元から1次元への全結合層。これらの全結合層のパラメータ（重みとバイアス）のみを学習対象とし、回帰タスクに最適化した。

学習データは、FPbaseから取得した40配列の輝度データセットを使用し、Cycle 3.1と同様の手順でデータを準備した。モデル学習には、Transformersを用い、損失関数として平均二乗誤差（MSE）、最適化アルゴリズムとしてAdam（学習率0.001）を採用した。学習は100エポック実施し、Early StoppingおよびOptunaによるハイパーパラメータ最適化を行った。モデルの予測精度は、テストデータに対する決定係数（R^2）により評価した。

Test:

fig. 12. テストデータにおける予測輝度（横軸）と実測輝度（縦軸）の散布図

茶色丸はランダムフォレスト回帰+max poolingによる予測結果（R^2 = 0.434）、緑丸はESM2+全結合層による予測結果（R^2 = 0.51）を示す。破線は理想的な予測（予測値=実測値）を表す対角線。

ESM2+全結合層がランダムフォレスト回帰+max poolingよりも優れた予測性能を示すことが明らかとなった。

Learn:

ESM2埋め込みベクトルの上に全結合層を構築したニューラルネットワークモデルの導入により、ランダムフォレスト回帰+max poolingと比較して予測精度の向上が確認された（R^2 = 0.434 → 0.51）。これは、多層の全結合層が階層的に特徴を抽出し、ランダムフォレストでは捉えきれなかった高次の特徴間相互作用を学習できた[17]ことに起因すると考えられる。特に、勾配降下法による最適化を通じて、ESM2の表現空間から輝度予測に本当に必要な情報を選択的に抽出し、滑らかで連続的な写像を学習できたことが、未知配列に対する予測精度の改善につながったと推察される[5][17]。

しかし、ニューラルネットワークは高い表現力を持つ反面、パラメータ数が多いため過学習を起こしやすいという課題がある。特に本研究では約40件という限られたサンプル数に対して、全結合層の重みとバイアスという多数のパラメータを学習する必要があり、過学習のリスクは無視できない[16]。

Cycle 2から4.1にかけての一連の改良により、トップモデルの表現力を段階的に向上させることで予測精度を改善できることが示された。今後は、ニューラルネットワークの高い表現力を維持しつつ、過学習を適切に制御することで、さらなる予測精度の向上を目指す。

Cycle 4.2: 予測モデルにESM2+全結合層+データ拡張（Conservative mutations）

Design:

Cycle 4.1でESM2埋め込みベクトルの上に全結合層を構築したニューラルネットワークモデルを導入したことで、ランダムフォレスト回帰では捉えきれなかった高次の特徴間相互作用を学習し、予測精度の向上を達成した。しかし、ニューラルネットワークは高い表現力を持つ反面、パラメータ数が多いため過学習を起こしやすく、特に本研究のように約40件という限られたサンプル数では過学習のリスクが深刻な課題となった。

過学習を防ぎモデルの汎化性能を向上させるためには、正則化手法の導入に加えて、トレーニングデータそのものを効果的に拡張することが有効であると考えられた。しかし、単純なランダムな配列変異では、タンパク質の構造や機能を破壊してしまう可能性があり、生物学的に妥当なデータ拡張とは言えない。

そこで本サイクルでは、BLOSUM62置換行列を活用した、機能を維持する変異によるデータ拡張手法を導入することとした。BLOSUM62は、進化的に保存されているアミノ酸置換のスコアを示す行列であり、自然界で実際に観察される置換パターンに基づいている[19]。スコアが正の置換は、進化の過程で頻繁に起こる、つまりタンパク質の機能を維持しやすい置換を意味し、負の置換は稀にしか起こらない、機能を損ないやすい置換を意味する。

本手法では、元のアミノ酸とBLOSUM62スコアが正または0以上の類似したアミノ酸への置換のみを許容することで、タンパク質の機能を大きく損なわない範囲での配列変異を実現する。具体的には、既存のトレーニングデータから配列をサンプリングし、その配列中の数箇所のアミノ酸を、進化的に類似した別のアミノ酸に置換する。このようにして生成した配列には、元のラベル値に小さなノイズを加えた値をラベルとして付与することで、トレーニングデータを拡張する。

この手法により、限られた実験データから生物学的に意味のある多様な配列バリエーションを生成でき、モデルがわずかな配列変化に対して頑健な予測を行えるようになることが期待される。機能を維持する変異によるデータ拡張は、トレーニングデータの実効的な増加をもたらし、ニューラルネットワークの過学習を抑制しつつ、未知配列に対する汎化性能の向上に寄与すると考えられた。

Build:

予測モデルの基本構造はCycle 4.1と同様に、ESM2埋め込みベクトルとMean Pooling、2層の全結合層（1280次元→640次元→1次元）から構成した。

データ拡張の実装として、既存のトレーニングデータからランダムにサンプリングした配列に対して、BLOSUM62行列に基づく機能維持的な変異を導入した。具体的には、各配列中のX箇所をランダムに選択し、その位置のアミノ酸を、BLOSUM62スコアが正または0以上となる類似アミノ酸に置換した。候補となるアミノ酸が複数存在する場合は、その中からランダムに1つを選択した。生成された変異配列には、元の配列のラベル値に±10%の範囲でランダムノイズを加えた値をラベルとして付与した。

この操作により、元の40配列のトレーニングデータに対して、X配列分の変異配列を追加生成し、合計(40+X)配列の拡張されたデータセットでモデルを学習した。学習設定は、損失関数としてMSE[20]、最適化アルゴリズムとしてAdam[21]を使用し、100エポックの学習とEarly Stopping[22]、Optunaによるハイパーパラメータ最適化[23]を実施した点で、Cycle 4.1と同一とした。

学習データは、FPbaseから取得した40配列の輝度データセットを使用し、Cycle 3.1と同様の手順でデータを準備した。モデルの予測精度は、テストデータに対する決定係数（R^2）により評価した。

Test:

fig. 13. テストデータにおける予測輝度（横軸）と実測輝度（縦軸）の散布図

緑丸はESM2+全結合層による予測結果 (R^2 = 0.509)、オレンジ丸はESM2+全結合層+データ拡張（Conservative mutations）による予測結果 (R^2 = 0.51) を示す。破線は理想的な予測（予測値=実測値）を表す対角線。

Learn:

BLOSUM62置換行列を活用した機能維持的な変異によるデータ拡張の導入により、データ拡張なしのモデルと比較して予測精度の向上が確認された（R^2 = 0.509 → 0.51）(数値)。これは、生物学的に妥当な配列バリエーションを追加することで、限られた実験データでもより安定した学習が可能となり、モデルの汎化性能が向上したことに起因すると考えられる。

本手法の重要な点は、BLOSUM62行列に基づいて進化的に類似したアミノ酸への置換のみを許容することである。ランダムな変異では、タンパク質の機能を破壊する置換が含まれるため、実際には低活性であるにもかかわらず元の配列と同じ高い活性値がラベルとして付与され、モデルの学習を阻害する。一方、BLOSUM62に基づく機能維持的な変異では、自然界で実際に観察される置換パターンに従うため、元の配列と類似した活性を持つ配列を生成でき、生物学的に妥当なデータ拡張が可能となる。

この手法により生成された変異配列は、元の配列と類似しつつも微妙に異なる。そのため、モデルが特定の配列パターンに過度に適合するのを防ぎ、わずかな配列変化に過剰に反応しない、未知配列に対しても安定した予測を行えるロバストな学習が促されたと推察される。元のラベル値に小さなノイズを加えたことも、適度な範囲での予測を学習する上で寄与した可能性がある。

データ拡張による予測精度の改善は、限られた実験データから生物学的に妥当な学習サンプルを効果的に増やす本手法の有効性を示している。一方で、本サイクルで導入した機能維持的な変異のみでは、モデルが学習できる配列空間の多様性に限界がある可能性がある。BLOSUM62に基づく保守的な置換は、元の配列と類似した活性を持つ配列の生成には有効であるが、活性が大きく異なる配列に対する予測精度の向上には寄与しにくいと考えられる。より広範な配列空間をカバーし、多様な活性値を持つサンプルを学習に取り込むことで、モデルの予測性能をさらに向上させる余地が残されている[24]。

Cycle 4.3: 予測モデルにESM2+全結合層+データ拡張（Conservative mutations+Deleterious mutations）

Design:

Cycle 4.2でBLOSUM62置換行列を活用した機能維持的な変異によるデータ拡張を導入したことで、限られた実験データから生物学的に妥当な配列バリエーションを生成し、モデルの汎化性能の向上を達成した。

しかし、Cycle 4.2のモデルは機能維持的な変異のみで拡張されたデータを学習している。これでは、モデルは「機能する配列」の特徴は学習できるが、「機能しない配列」の特徴を学習する機会がない。本研究では、誰もが利用可能な普遍的なタンパク質改良モデルの開発を目指しており、ユーザーが用意する約40件という限られたトレーニングデータには、実験によって選抜された高活性配列が含まれることが想定される。そのため、タンパク質の機能を大きく損なう配列が含まれていない可能性も存在する。このような状況では、モデルは非機能配列を適切に識別できず、実際には活性がほとんどない配列に対しても高い活性値を予測してしまうリスクがある。これは、数字を分類するモデルが、訓練時に見たことのない全く異なる入力に対しても、自信を持って誤った分類を行ってしまう現象と類似している[25]。

この問題は、本研究のように予測モデルと生成モデルを組み合わせた反復的な最適化サイクルにおいて、特に致命的な影響をもたらす。予測モデルが非機能配列を高活性と誤って予測すると、生成モデルはそれらの配列から誤った特徴を学習し、次のサイクルでさらに質の低い配列を生成する悪循環に陥る。ゴミを入れるとゴミが出てくる——このような品質の劣化の連鎖を防ぐためには、予測モデルが「機能しない配列」を正確に識別する能力を持つことが不可欠である[17][25]。

機能維持的な変異によるデータ拡張は、高活性領域における微細な特徴の学習には有効であるが、配列空間における活性の全範囲をカバーするには不十分である。BLOSUM62に基づく保守的な置換は、元の配列と類似した活性を持つ配列の生成には適しているが、活性が大きく異なる低活性配列や非機能配列に対する予測精度の向上には寄与しない。モデルが機能する配列と機能しない配列を弁別する明確な決定境界を学習するためには、非機能配列を明示的に学習データに含める必要がある。

そこで本サイクルでは、機能維持的な変異に加えて、タンパク質の機能を意図的に破壊する破壊的変異（Deleterious mutations）によるデータ拡張を導入することとした。この手法では、BLOSUM62行列においてスコアが負となる、進化的に非保存的な置換を用いて低活性配列を人工的に生成する。しかし、単純にランダムな位置を破壊するだけでは、機能への影響が不十分である可能性がある。

そこで、ESMモデルのマスク予測能力を活用し、各アミノ酸位置の重要度を定量化する手法を採用した。具体的には、配列中の各位置を一つずつマスクし、ESMモデルがその位置のアミノ酸をどれだけ高い確信度で予測できるかを評価する。予測確信度が高い位置は、その配列の文脈において重要な役割を果たしている可能性が高く、そこを破壊することでタンパク質の機能により大きな影響を与えることが期待される。

破壊的変異の導入においては、特定された重要な位置に対して、BLOSUM62スコアが負となる非保存的なアミノ酸置換を行う。生成された破壊配列（擬似非機能配列）には、極めて低い活性値（実質的にゼロ）をラベルとして付与することで、モデルに「機能しない配列」の特徴を明示的に学習させる。

この二段階のデータ拡張戦略——機能を維持する変異と機能を破壊する変異——により、モデルは配列空間における活性の全範囲をカバーした学習が可能となる。機能維持的な変異は高活性領域における微細な特徴を学習させ、破壊的変異は非機能配列を識別する決定境界を明確化する。これにより、予測モデルは機能する配列と機能しない配列を適切に弁別できるようになり、後続の生成サイクルにおいても高品質な配列の生成を維持できることが期待される。

Build:

予測モデルの基本構造はCycle 4.2と同様に、ESM2埋め込みベクトルとMean Pooling、2層の全結合層（1280次元→640次元→1次元）から構成した。

データ拡張は二段階で実施した。第一段階として、Cycle 4.2と同様の機能維持的な変異を導入した。

第二段階として、破壊的変異による8個の低活性配列の生成を実装した。まず、トレーニングデータの各配列に対して、ESM2のマスク言語モデル機能を用いて各アミノ酸位置の重要度を評価した。具体的には、配列中の各位置を順次マスクトークンに置き換え、ESMモデルが出力する予測確率分布から、元のアミノ酸の対数確率を算出した。この値が高いほど、その位置がモデルにとって予測しやすい、すなわち配列の文脈において重要な位置であることを示す。

重要度スコアに基づき、各配列の各残基位置ごとのスコアの平均値を算出し、これを重みとした重み付きサンプリングにより、破壊対象となる配列を選択した。選択された配列に対して、重要度スコアの高い上位24箇所から、スコアに比例した確率で8箇所をサンプリングした。これにより、重要な位置が優先的に破壊されるように設計した。

選択された位置のアミノ酸に対して、BLOSUM62スコアが-1以下となる非保存的な置換候補を抽出した。候補が存在しない場合は、順次スコアの閾値を0以下に緩和し、それでも候補がない場合は元のアミノ酸以外の任意のアミノ酸を候補とした。候補の中からランダムに1つを選択して置換を実行し、生成された破壊配列には1e-6という極めて低い活性値をラベルとして付与した。

この二段階のデータ拡張により、元の40配列のトレーニングデータに対して、機能維持的な変異配列と破壊的変異配列を追加生成し、合計で大幅に拡張されたデータセットでモデルを学習した。学習設定は、損失関数としてMSE、最適化アルゴリズムとしてAdamを使用し、100エポックの学習とEarly Stopping、Optunaによるハイパーパラメータ最適化を実施した点で、Cycle 4.2と同一とした。

学習データは、FPbaseから取得した40配列の輝度データセットを使用し、Cycle 3.1と同様の手順でデータを準備した。モデルの予測精度は、DMSデータセットから取得した輝度0の配列に対する予測スコアの値からバイオリンプロットを作成した。また、FPbaseから取得したテストデータに対する決定係数（R^2）による評価もした。

Test:

fig. 14. 非機能配列（活性値0）に対する予測値のバイオリンプロット

黄緑のバイオリンプロットはESM2+全結合層+データ拡張（Conservative mutations）による予測結果、青のバイオリンプロットはESM2+全結合層+データ拡張（Conservative mutations + Deleterious mutations）による予測結果を示す。

Deleterious mutationsを用いてデータ拡張をしたモデルは非機能配列に対する予測値が全体的に少し小さくなっている。しかし、依然として輝度0を予測値として返すことは少ないようである。そのため、非機能配列を識別、除去するには不十分である。

fig. 15. テストデータにおける予測輝度（横軸）と実測輝度（縦軸）の散布図

オレンジ丸はESM2+全結合層+データ拡張（Conservative mutations）による予測結果（R² = 0.509）、黄丸はESM2+全結合層+データ拡張（Conservative mutations + Deleterious mutations）による予測結果（R² = 0.48）を示す。破線は理想的な予測（予測値=実測値）を表す対角線。

一方で、機能的な配列に対する予測タスクにおいては、破壊的変異の追加により予測精度の低下が確認された。テストデータのR²スコアを比較したところ、Conservative mutationsのみ（テストR² = 0.48）に対して、Deleterious mutationsを追加したモデル（テストR² = 0.51）では、テストスコアが低下し、破壊的変異の導入がむしろ機能的配列に対する予測性能を阻害したことが明らかになった。

この予測精度の低下は、破壊的変異によって生成された低活性配列のデータが、高活性領域における微細な特徴の学習を妨げた可能性を示唆している。機能維持的な変異のみで拡張されたデータセットでは、モデルは高活性配列の特徴空間に集中して学習できるのに対し、破壊的変異を追加すると、低活性領域の特徴も同時に学習する必要が生じる。限られた学習容量を持つ2層の全結合層では、この両方の領域を同時に高精度で学習することが困難であり、結果として高活性領域における予測精度が犠牲になったと考えられる。

Learn:

破壊的変異によるデータ拡張の導入は、期待に反して機能的な配列に対する予測精度の低下をもたらした。Conservative mutationsのみのモデル（テストR² = 0.48）に対して、Deleterious mutationsを追加したモデル（テストR² = 0.51）では、テストスコアが低下し、Conservative mutationsによるデータ拡張とは反対に汎化性能の悪化が確認された。破壊的変異によって生成された低活性配列は、ネガティブサンプルとして導入されたが、むしろ高活性領域における微細な特徴の学習を妨げる結果となったと考えられる。限られた学習容量を持つモデルにおいて、高活性領域と低活性領域の両方を同時に学習することが求められた結果、いずれの領域においても十分な精度を達成できなかったと推察される。

さらに、本サイクルの主目的であった非機能配列の識別能力については、期待された改善が得られなかった（fig. 14）。破壊的変異を学習データに追加したにもかかわらず、実際には活性がゼロである非機能配列に対して高い活性値を予測する傾向が残存した。

この失敗の原因として、以下の可能性が考えられる。まず、2層の全結合層という比較的単純なアーキテクチャでは、配列空間における複雑な非線形決定境界の学習が困難であった可能性がある。高活性領域と低活性領域を適切に分離するには、より深い層や高度なアーキテクチャが必要かもしれないが、限られたデータ量では過学習のリスクが高まる[26]。次に、破壊的変異データと機能維持的変異データのバランスが不適切であった可能性がある。低活性配列の過剰な追加により、モデルの学習リソースが低活性領域に偏り、本来重要である高活性領域における予測精度が犠牲になったと考えられる。

より本質的には、人工的に生成した破壊配列による学習アプローチそのものに限界がある。機械学習モデルは学習データに含まれるパターンしか学習できず、訓練時に見たことのないタイプの非機能配列に対しては適切な予測を行えない。本サイクルの結果は、非機能配列の識別という課題に対して、人工的なデータ生成と単純なアーキテクチャによる予測モデルの強化では不十分であることを示している。さらに、破壊的変異の導入が機能的配列に対する予測精度を低下させたことから、データ拡張の量と質のバランスが予測性能に重大な影響を及ぼすことが明らかになり、高品質な仮想データを生成するデータ拡張手法こそがモデルの予測精度向上につながるのだと考えられた。

予測モデルと生成モデルを組み合わせた反復的最適化において、非機能配列を適切に識別できない予測モデルに依存すると、生成モデルの学習に誤ったシグナルを与え、品質劣化の連鎖を引き起こす。しかし、本サイクルで試みた破壊的変異によるデータ拡張は、非機能配列の識別能力を向上させるどころか、機能的配列に対する予測精度さえも低下させる結果となった。この問題を解決するためには、予測モデルに依存しない方法で非機能配列を識別し、排除する必要があると考えた。

Cycle 5: 予測モデルにESM2+全結合層+データ拡張（Conservative mutations）+カスタムドロップアウト（長すぎるので暫定）

Design:

Cycle 4.3において、Conservative mutationsによるデータ拡張[27]を導入した結果、予測精度の向上と過学習の抑制効果が確認された。適切な正則化はモデルがトレーニングデータの特定のパターンに過度に適合することを防ぎ、活性予測に本質的な特徴の学習を促進するということである。

しかし、依然として汎化性能に改善の余地が残されていた。限られた40配列という小規模データから学習する本研究の設定において、1280次元という高次元のESM2埋め込み空間[5]では、モデルが訓練データに含まれる偶発的な相関やノイズ的特徴を真の活性決定因子として誤って学習してしまうリスクが高い。

この問題は、物体検出における背景相関の問題と本質的に類似している[28]。猫の検出モデルが訓練画像の多くで「青空」という背景と共起していた場合、モデルは猫の本質的特徴（耳の形、ひげのパターン）ではなく、背景の色という偶発的な相関を学習してしまう。タンパク質活性予測においても同様に、配列長や特定位置のアミノ酸組成といったデータセット固有のバイアスがたまたま活性値と相関していた場合、モデルはこれらを活性の決定因子として誤って学習してしまう。

通常のドロップアウトは、ランダムにニューロンを無効化することで特定の特徴への過度な依存を防ぐが、本質的な特徴とノイズ的特徴を平等に扱ってしまう[29]。小規模データでは、限られた学習機会の中で本質的特徴を効率的に学習する必要があり、より戦略的な正則化手法が求められる。

そこで本サイクルでは、変動係数（Coefficient of Variation, CV）に基づくカスタムドロップアウト[30]を導入することとした。このアプローチの核心的なアイデアは、「バッチ内のサンプル間で値が大きく変動する特徴次元は、偶発的な相関やノイズである可能性が高い」という仮説に基づいている。

具体的には、各バッチにおいて特徴ベクトルの各次元について、変動係数CV = σ / |median|を計算する。CVが大きい次元は、サンプル間で値が不安定であり、配列によって大きく異なる——すなわち、活性の普遍的な決定因子ではなく、データセット固有のノイズや偶発的パターンである可能性が高い。一方、CVが小さい次元は、多くのサンプルで一貫した値を示しており、活性に対する本質的な寄与を反映している可能性が高い。

カスタムドロップアウトでは、CVの大きい上位50%の次元を選択的にドロップする。これは物体検出の例で言えば、「背景の色」のような画像間で大きく変動する特徴を優先的に無効化し、「猫の耳の形」のような一貫して現れる本質的特徴を保護することに相当する。

このデータ依存的な戦略により、ランダムドロップアウトよりも効率的な正則化が実現できる。ESM2の埋め込み空間において、配列間で一貫して重要な生物物理学的特徴（疎水性パターン、二次構造傾向など）を保護しつつ、データセット固有のアーティファクトを抑制することが期待される。そこで本サイクルでは、変動係数（Coefficient of Variation, CV）に基づくカスタムドロップアウトを導入することとした。このアプローチの核心的なアイデアは、「バッチ内のサンプル間で値が大きく変動する特徴次元は、偶発的な相関やノイズである可能性が高い」という仮説に基づいている。

このデータ依存的な戦略により、ランダムドロップアウトよりも効率的な正則化が実現できる。ESM2の埋め込み空間において、配列間で一貫して重要な生物物理学的特徴（疎水性パターン、二次構造傾向など）を保護しつつ、データセット固有のアーティファクトを抑制することが期待される。

Build:

カスタムドロップアウトの実装は以下の通りである。訓練時において、各バッチの特徴ベクトル（1280次元）に対して、次元ごとに標準偏差と中央値を計算し、変動係数CV = σ / (|median| + ε)を算出した。ここで、εは数値安定性のための微小値（1e-8）である。CVの大きい上位50%の次元（640次元）を特定し、それらの次元の値をゼロに設定するマスクを生成した。最後に、期待値を保持するためのスケーリング係数（1 / (1 - 0.5) = 2.0）を適用した。推論時にはドロップアウトは適用せず、全ての次元をそのまま使用した。

その他の条件は、Cycle 4.3と同一である。

カスタムドロップアウトの効果を検証するために、ドロップアウトなしのモデル、通常のランダムドロップアウト（p=0.5）を使用したモデル、カスタムドロップアウト（p=0.5）を使用したモデルの3条件でテストデータに対する予測精度を決定係数（R²）により評価した。

Test:

fig. 16. テストデータにおける予測輝度（横軸）と実測輝度（縦軸）の散布図

オレンジ丸はESM2+全結合層+データ拡張（Conservative mutations）、紫丸はESM2+全結合層+データ拡張（Conservative mutations）+カスタムドロップアウトによる予測結果（R² = 0.545）を示す。破線は理想的な予測（予測値=実測値）を表す対角線。

ESM2+全結合層+データ拡張（Conservative mutations）+カスタムドロップアウトがより優れた予測性能を示すことが明らかとなった。

Learn:

変動係数に基づくカスタムドロップアウトの導入により、予測精度の顕著な向上が確認された。テストデータのR²スコアを比較したところ、ドロップアウトなしのモデル（テストR² = 0.51）に対して、カスタムドロップアウトを適用したモデル（テストR² =0.545）では明確な性能改善が認められた。

特に注目すべきは、ランダムドロップアウトと比較してもカスタムドロップアウトが優れた性能を示した点である。ランダムドロップアウトは全ての次元を平等に扱うため、本質的特徴とノイズ的特徴を無差別にドロップし、小規模データにおける限られた学習機会を非効率に消費する。一方、カスタムドロップアウトはバッチごとに変動係数を計算し、学習の各段階で動的にドロップ対象を選択する。この適応的なアプローチにより、モデルは訓練の進行に応じて徐々に本質的特徴に焦点を絞ることができ、効率的な学習が実現されたと考えられる。

本サイクルの結果は、Cycle 4.2のConservative mutationsによる高品質なデータ拡張と、カスタムドロップアウトによる戦略的な正則化を組み合わせることで、限られた40配列という制約の中でも予測モデルの性能を着実に向上させることができることを示した。この知見は、次のサイクルにおける予測モデルのさらなる改良、そして最終的には生成モデルとの統合による反復的最適化サイクルの実現に向けた重要な基盤となる。

Cycle 6: LoRA fine-tuning of the generative model

Cycle 6.1:

Design:

Cycle 1と2において、ファインチューニングされた生成モデルを用いることで狙った性質を持つタンパク質を生成することができた。このときに用いた手法はモデルが持つパラメータ全てを更新するフルファインチューニングというものである。このフルファインチューニングは、モデル全体を更新できるためタスクに対する適応能力が最も高く、パラメータ効率的手法と比較して、理論上は最も高い性能上限に到達できる。一方で、小規模データセットでは、パラメータ数が多すぎて過学習しやすい[31]。さらに、すべてのパラメータを更新するため、長い学習時間と膨大な計算資源を要する。そのため、フルファインチューニングは我々が目指している、モデルを繰り返しファインチューニングすることで生成する配列を目的の性質を持つものへと収束させていくという手法では現実的な計算量に落とし込むことができない。そこで本サイクルでは、ファインチューニングを効率的に行うため、LoRA(Low-Rank Adaptation)[32]を用いたパラメータ効率的ファインチューニングを導入する。

LoRAは、事前学習済みモデルの重み行列に低ランク分解された適応行列を追加し、この適応行列のみを学習する手法である。これにより、更新するパラメータ数を大幅に削減しながら、フルファインチューニングに近い性能を達成できる。具体的には、元のモデルの重みを固定したまま、各層に小規模な学習可能な行列を挿入することで、計算コストとメモリ使用量、学習時間を劇的に削減できる。

本サイクルでは、LoRAファインチューニングの有効性を検証するため、フルファインチューニングとの理論的、および実験的な比較を行う。

Build:

モデルの学習の実装は以下の通りである。データセットは前回のイテレーションで生成された配列に対して、スクリーニングをかけたものを用いてる。このデータセットを訓練データとテストデータに9:1で分割した。事前学習済みモデルは半精度でロードし、LoRAは注意機構のqkv_projおよびout_projに限定し、それ以外の重みを凍結した。これにより、計算コストとメモリ使用量を抑えつつ、文脈を獲得することを狙った。モデル学習には、Transformersを用い、損失関数としてトークンごとのクロスエントロピー、最適化アルゴリズムとしてAdamを採用した。学習は6エポック実施し、Early StoppingおよびOptunaによるハイパーパラメータ最適化を行った。

モデルの生成の実装は以下の通りである。生成時に必要となるパラメータは、対象とする配列の特徴を反映したものを採用した。例えば、GFPを想定する場合、プロンプトは”MSKGE”として、GFPの配列長である238からプロンプトの長さである5を引いた233のトークン数で生成した。これにより、既知のN末端のモチーフを保持したまま、長さが整合する配列を安定して生成することができる。

LoRAを用いたファインチューニングの効果を検証するために、フルファインチューニングによる学習とLoRAを用いたファインチューニングによる学習において、学習可能なパラメータ数と学習時間を比較した。また、既知蛍光タンパク質を学習データとして、両モデルが生成した配列を主成分分析することで、両モデルの分布を定量的に比較した。

Test:

fig. 17. Full Fine-TuningとLoRAのTrainable parametersとRuntimeの比較

LoRAでは、Full Fine-Tuningに比べて訓練可能パラメーター数を256分の1に制限した。これにより実行時間は0.7倍に減少した。

fig. 18. Full Fine-tuningとLoRAが出力したと既知蛍光タンパク質の主成分分析（ESM２ Embedding）

Learn:

本サイクルでは、LoRAによるパラメータ効率的ファインチューニングが、タンパク質生成モデルの反復的な改善において実用的な手法であることが示された。LoRAはフルファインチューニングと比較して、訓練可能パラメータ数を256分の1に削減しながら、実行時間を0.7倍に短縮することに成功した。この大幅な計算コストの削減により、モデルを繰り返しファインチューニングするという我々のアプローチが現実的な計算量で実現可能となった。さらに、主成分分析による比較から、LoRAファインチューニングで生成された配列の分布は、フルファインチューニングと極端な乖離がなく、これにより、LoRAは小規模データセットにおける過学習のリスクを低減しつつ、十分な性能を発揮できることが示唆された。今後のサイクルでは、このLoRAファインチューニングを標準手法として採用することとした。

Cycle 7: Likelihood-based Data Augmentation

Cycle 7.1:

Design:

Cycle 2.2では、予測モデルの学習データを40という非常に少ない数に絞った状態であったにも関わらず、目的の蛍光波長を発する蛍光タンパク質を設計できた。一方で、生成モデルは配列のみから学習可能で機能を定量的に表すラベルは不要であるが、依然として700配列という比較的多くのデータを必要としていた。

この予測モデルと生成モデルが要求する学習データの不均衡を解消し、真に少数のデータからタンパク質を改良可能なモデルを開発するために、限られた配列から生成モデル用の学習データを拡張する手法として、タンパク質言語モデルを活用したデータ拡張法を考案した。

具体的には、少数の野生型配列から大量に変異体を生成した後、タンパク質言語モデルによる尤度に基づいて生物学的に妥当な配列を選別することで、実験を行わずに質の高い仮想的な学習データセットを構築するというものである。

尤度とは、タンパク質言語モデルが学習した自然界のタンパク質配列の統計的パターンに基づいて、ある配列がどれだけ「もっともらしい」かを定量化した指標である[33]。

本サイクルでは以下の数式で表されるmasked marginal scoring functionを用いて計算した[34]。

$\sum_{i \in M} \log p(x_i = x_i^{mt} | \boldsymbol{x}_{-M}) - \log p(x_i = x_i^{wt} | \boldsymbol{x}_{-M})$

ここで、 $M$ は変異導入位置の集合、 $x_i^{mt}$ は変異型のアミノ酸、 $x_i^{wt}$ は野生型のアミノ酸、 $\boldsymbol{x}_{-M}$ は変異位置以外の配列を表す。この式は、変異位置以外の配列情報を条件として、各変異位置における変異型アミノ酸と野生型アミノ酸の出現確率の対数比を全変異位置について合計したものである。

このスコアが正であれば、変異型配列は野生型よりも言語モデルの観点から尤度が高く、自然界に存在しうるタンパク質配列としてより妥当であることを示す。逆に負であれば、尤度が低く、生物学的に不自然な配列である可能性が高い。実際に、GFPの網羅的変異解析(DMS)データセットを用いて尤度と蛍光輝度の関係を調べたところ、両者の間に明確な相関が認められた(Fig. 19.)。

vprVVWVVqvNysoaPnz4s88q9Vqwx0aAMA1gMQOAAAAoJlAdycAAAAAzQQSOwAA0AAIBmAokdAAAAQDOBxA4AAACgmUBiBwAAANBMILEDAAAAaCbPHYt0w1foUwAAAAAElFTkSu0AQmCCのコピー.png

Fig. 19. GFPのDMSデータセットにおける尤度スコアと蛍光輝度の相関

SaProt-650Mモデルを用いてmasked marginal scoring functionにより計算した尤度スコアと、実験的に測定されたGFP変異体の蛍光輝度の関係。

本手法では、この尤度スコアをフィルタリング基準として用いることで、生成された大量の変異体の中から、構造的・機能的に安定である可能性の高い配列のみを選別し、生成モデルの学習データとして活用する設計とした。これにより、わずか数十の実験データから生成モデルの学習に必要な高品質な仮想変異体を生み出し、限られたデータでも効果的に新規なタンパク質を生成可能なモデルの構築を目指した。

Build:

第一に、一残基置換変異（point mutation）による変異体生成を実施した。各野生型配列に対して、配列中の全ての位置において、その位置のアミノ酸を20種類の標準アミノ酸のいずれかに置換した全ての組み合わせを生成した。つまり、配列長がL残基の野生型配列1つから、最大で(L × 19)個の一残基置換変異体を生成した。この操作により、野生型配列の各位置での機能的な重要性を網羅的に探索可能な変異体ライブラリを構築した。

第二に、配列のシャッフリング（shuffling）による変異体生成を実施した。この手法では、複数の野生型配列を一定のウィンドウサイズ（1,3,5）で分割し、それぞれのウィンドウ単位で配列断片を異なる野生型間でランダムに交換することで、新規の組み合わせを持つ変異体を生成した。具体的には、各配列を指定したウィンドウサイズで分割し、同じ位置にあるウィンドウ同士を、設定したシャッフル率（0.1）に従ってランダムに入れ替えた。この操作を、設定した変異体数に達するまで繰り返し実行した。

生成された全ての変異体に対して、野生型配列との配列類似性に基づく検証を実施した。具体的には、各変異体と対応する野生型配列との間でアミノ酸残基を1つずつ比較し、異なる残基数をカウントした。この差分が4残基以内の変異体のみを、後続の尤度スクリーニングの候補として保持した。

次に、タンパク質言語モデルSaProt-650Mを用いて、生成された変異体の尤度スコアを計算した。前述のmasked marginal scoring functionを用いて、各変異体について野生型配列との対数尤度差を算出し、この値が正（つまり、変異体の尤度が野生型よりも高い、または同等）である変異体のみを選別した。

生成モデルの学習には、ProGen2-small[2]をベースモデルとして、PEFT（Parameter-Efficient Fine-Tuning）ライブラリによるLoRA（Low-Rank Adaptation）を適用した[32][35]。LoRAのパラメータは、rank r=32、alpha=64（r × 2）、dropout=0.1に設定した。

モデルの性能評価のため、3つの条件で学習したモデルを比較した：（1）Cycle 2.2と同様の700配列全体を学習したモデル（Full dataset model）、（2）40配列のみを学習したモデル（Limited dataset model）、（3）40配列から尤度ベースのデータ拡張により生成した配列を学習したモデル（Augmented dataset model）。各モデルから同一の条件で配列を生成し、生成された配列をESM2-650Mモデル[5]で埋め込みベクトルに変換後、主成分分析（PCA）により2次元に次元削減してプロットすることで、各モデルが生成する配列の分布と多様性を視覚的に比較した。

Test:

fig. 20. 40配列でLoRAによるファインチューニングしたProGen2が生成した配列の予測構造

40配列では過学習が原因でまともな配列が生成されていなかった。予測構造でも全く生物学的に妥当な構造をとっていなかった。

Temperatureを0.1まで下げなければ、蛍光タンパク質と相同な配列を生成せず、とても実用的に使用できるような配列を生成しなかった。

スクリーンショット 2025-10-09 120801.png

fig. 21. Cycle 2.2と同じ700配列でLoRAによるファインチューニングしたProGen2が生成した配列の予測構造

スクリーンショット 2025-10-08 194247.png

fig. 22. 40配列からデータ拡張で生成した配列でLoRAによるファインチューニングしたProGen2が生成した配列の予測構造

Learn:

本サイクルでは、タンパク質言語モデルの尤度に基づくデータ拡張手法により、限られた学習データから生成モデルを効果的に訓練できるかを検証した。結果として、この手法は少数データでの生成モデル学習における深刻な問題を解決する有効なアプローチであることが実証された。

まず、40配列のみで学習したLimited dataset modelは、Fig. 20に示されるように、生物学的に妥当な構造を全く生成できなかった。予測構造は蛍光タンパク質の典型的なβバレル構造を形成しておらず、明らかに過学習が生じていた。Temperatureを0.1まで下げなければ蛍光タンパク質と相同な配列すら生成されず、実用性は皆無であった。これは、生成モデルが配列のみから学習可能であるという利点を持つ一方で、配列空間の多様性を適切に捉えるには依然として一定量以上のデータが必要であることを示している。

対照的に、700配列全体で学習したFull dataset model（Fig. 21）は、Cycle 2.2で示された通り、生物学的に妥当な構造を持つ配列を安定的に生成できた。これは、十分な学習データがあれば生成モデルが適切に機能することを再確認するものである。

重要な発見は、40配列から尤度ベースのデータ拡張により生成した配列で学習したAugmented dataset modelが、Fig. 22に示されるように、Limited dataset modelとは対照的に、生物学的に妥当な蛍光タンパク質様の構造を生成できたことである。この結果は、タンパク質言語モデルが学習した自然界のタンパク質の統計的パターンを活用することで、実験データなしに質の高い仮想的な学習データを構築できることを実証している。

本手法の成功の鍵は、masked marginal scoring functionによる尤度計算とそれに基づく選別プロセスにある。Fig. 19で示された尤度スコアと蛍光輝度の相関は、尤度が単なる配列の「自然さ」だけでなく、機能的な妥当性とも関連していることを示唆している。尤度が正の変異体のみを選別することで、構造的・機能的に安定である可能性の高い配列を優先的に学習データに含めることができ、これが過学習を防ぎ、適切な配列分布の学習を可能にしたと考えられる。

また、point mutationとshufflingという2つの変異導入手法を組み合わせたことも、多様性と妥当性のバランスを取る上で効果的であった。Point mutationは各位置での機能的重要性を網羅的に探索し、shufflingは異なる野生型間での有益な配列断片の組み合わせを創出する。野生型との差分を4残基以内に制限したことで、野生型から大きく逸脱しすぎない範囲で多様性を確保できた。

本手法により、予測モデル（40データ）と生成モデル（従来700データ必要）が要求する学習データ量の不均衡が解消され、両者を同等の少数データから構築できる道が開かれた。これは、実験コストの大幅な削減と、より早期の段階でのタンパク質設計サイクルの実現を可能にする重要な進展である。

Cycle 7.2:

Design:

Cycle 7.1では、タンパク質言語モデルSaProt-650Mとmasked marginal scoring functionを組み合わせた尤度計算により、生成された変異体配列の生物学的妥当性を評価した。この手法は実験的に測定されたGFPの蛍光輝度と比較的良好な相関を示し、配列のフィルタリング基準として有効であることが確認された。しかし、masked marginal scoringは各変異位置を独立に評価するため、複数の変異間の相互作用、すなわちエピスタシス（epistasis)を考慮できないという限界があった。

エピスタシスとは、ある位置の変異が他の位置の変異と組み合わさることで、個々の変異効果の単純な和では説明できない相乗的または拮抗的な効果を生じる現象である[36]。タンパク質の機能や安定性において、エピスタシスは重要な役割を果たすことが知られており、特に複数の変異を同時に導入する場合には、その相互作用を適切に評価することが設計精度の向上に不可欠である。

このデータ拡張手法は、生成モデルが学習するための高品質な仮想変異体を生み出すことを目的としている[37]。しかし、尤度計算の精度が不十分であれば、生物学的に不適切な配列が学習データに混入し、生成モデルはそれらの配列から誤った特徴やパターンを学習してしまう。その結果、モデルは機能的に劣る、あるいは構造的に不安定な配列を生成するようになる。いわゆる「ゴミを入れるとゴミが出てくる（garbage in, garbage out）」という機械学習における根本的な問題である。したがって、データ拡張における配列選別の精度を高めることは、生成モデルの性能を左右する極めて重要な要素となる。

そこで本サイクルでは、エピスタシスを考慮可能な尤度計算手法[38]や、異なるアーキテクチャを持つタンパク質言語モデルとmasked marginal scoringを組み合わせることで、変異体スクリーニングの精度向上を目指した。

Build:

具体的には、以下の4つの組み合わせを比較検証する実験を設計した：

SaProtとmasked marginal scoring: Cycle 7.1で使用した手法であり、ベースライン（基準）として機能する。配列情報のみに基づく標準的な評価手法である。
ESM2とpseudo perplexity: Pseudo perplexityは、配列全体の文脈を考慮して尤度を計算する手法[39]であり、masked marginal scoringと異なり、変異間の相互作用を間接的に捉えることが可能である。エピスタシスの影響をより適切に評価できる可能性がある[40]。
ProGen2とperplexity: ProGen2[2]は自己回帰型の生成モデルであり、配列を左から右へ順次生成する過程で学習されたモデルである。本検証では、モデルサイズとしてsmallとbaseの2種類を用いる。Perplexity[41]は自己回帰モデルにおける標準的な尤度評価指標であり、配列全体の生成確率を反映する。モデルアーキテクチャの違いが尤度計算の性能に与える影響を検証する。

これらの手法を比較することで、エピスタシスの考慮可能性とモデル性能のバランスを評価し、限られたデータから高品質な変異体を効率的に選別するための最適な尤度計算手法を特定することを目指した。

各尤度計算手法の性能を定量的に評価するため、GFPの網羅的変異解析（DMS）データセットから10,000配列を無作為に抽出し、テストデータとして使用した。このデータセットには、各変異体配列に対応する実験的に測定された蛍光輝度の値が含まれており、尤度スコアと実際の機能との相関を評価するための基準として機能する。タンパク質言語モデルとして、SaProt-650M、ESM2-650M、ProGen2-base、の3種類を使用した。SaProt-650MとESM2-650Mはマスク言語モデルのアーキテクチャを持ち、双方向の文脈情報を考慮して配列を評価する。一方、ProGen2-baseは自己回帰型の生成モデルであり、配列を一方向に生成する過程で学習されている。尤度計算手法として、以下の3つを実装した。 Masked marginal scoring[34]は、Cycle 7.1で使用した手法であり、以下の式で表される：

$\sum_{i \in M} \log p(x_i = x_i^{mt} \mid \boldsymbol{x}_{-M}) - \log p(x_i = x_i^{wt} \mid \boldsymbol{x}_{-M})$

ここで、 $M$ は変異導入位置の集合、 $x_i^{mt}$ は変異型のアミノ酸、 $x_i^{wt}$ は野生型のアミノ酸、 $\boldsymbol{x}_{-M}$ は変異位置以外の配列を表す。この手法では、各変異位置を独立に評価し、変異型と野生型の対数尤度差を合計することで、変異体全体のスコアを算出する。マスク言語モデルであるSaProtに対して適用した。

Pseudo perplexity[39]は、配列全体の尤度を評価する手法であり、以下の式で定義される：

$\exp\left(-\frac{1}{L}\sum_{i=1}^{L} \log p(x_i \mid \boldsymbol{x}_{-i})\right)$

ここで、 $L$ は配列長*、* $x_i$ は位置 $i$ のアミノ酸、 $\boldsymbol{x}_{-i}$ は位置 $i$ 以外の配列を表す。この手法では、配列中の各位置を順次マスクし、残りの配列を条件として各アミノ酸の出現確率を予測する。全位置について負の対数尤度の平均を算出し、その指数を取ることでperplexityを得る。Pseudo perplexityが低いほど、モデルがその配列を予測しやすい、すなわち生物学的に妥当である可能性が高いことを示す。Masked marginal scoringと異なり、配列全体の文脈を考慮するため、変異間の相互作用を間接的に捉えることができる。マスク言語モデルであるESM2に対して適用した。

Perplexity[41]は、自己回帰型モデルにおける標準的な尤度評価指標であり、以下の式で表される：

$\exp\left(-\frac{1}{L}\sum_{i=1}^{L} \log p(x_i \mid \boldsymbol{x}_{<i})\right)$

ここで、 $x<i\boldsymbol{x}{<i} x<i$ は位置 $i$ より前の配列を表す。自己回帰モデルは、配列を左から右へ順次生成する過程で学習されているため、各位置のアミノ酸は、それより前の配列のみを条件として予測される。全位置について負の対数尤度の平均を算出し、その指数を取ることでperplexityを得る。ProGen2-baseに対して適用した。

各モデルと尤度計算手法の組み合わせについて、抽出した10,000配列に対する尤度スコアを計算し、実験的に測定された蛍光輝度との相関係数を算出することで、各手法の予測精度を定量的に評価した。

Test:

スライド2.png

Fig. 23. 各尤度計算手法と蛍光輝度の相関

GFPのDMSデータセットから抽出した10,000配列について、各モデルと尤度計算手法の組み合わせで算出したスコアと、実験的に測定された蛍光輝度との相関を示す。横軸は各手法により計算された尤度スコア、縦軸は実験的に測定された蛍光輝度を表す。

Left : (A) SaProt-650MとMasked marginal scoring（Spearman’s ρ = 0.52）

Center : (B) ESM2-650MとPseudo perplexity（Spearman’s ρ = 0.199）

Right : (C) ProGen2-baseとPerplexity（Spearman’s ρ = 0.312）

スライド1.png

Fig. 24. 尤度フィルタリングによる輝度分布の比較各手法で尤度スコア0以上と計算された配列

（Likelihood ≥ 0）における、実験的に測定された蛍光輝度のバイオリンプロット。(A)SaProt+Masked marginal scoring 、(B) ESM2+Pseudo perplexity、(C) ProGen2+Perplexity

Learn:

本研究では、GFP変異体の蛍光輝度予測において、複数のタンパク質言語モデル(pLM)と尤度計算手法の組み合わせを系統的に比較検証した。その結果、当初から採用していたSaProt-650MとMasked marginal scoringの組み合わせが、ESM2やProGen2といった他の主要モデルと比較して最も高い予測性能を示すことが確認された。

特に注目すべき点は、SaProtが尤度スコア0以上と判定した配列群において、実測値の低い偽陽性配列の割合が顕著に少なかったことである。この高い精密度は、モデルが「機能的に有望」と判断した配列が実際に高い蛍光輝度を持つ確率が高いことを意味する。この特性は実用上極めて重要であり、生成モデルに渡す学習データのスクリーニング段階で、低機能配列を効率的に除外できることを示している。

Cycle 8: In Silico Concept Validation

Design:

本プロジェクトでは、タンパク質言語モデルを用いた生成モデルと予測モデルの反復的な学習サイクルにより、限られた実験データから目的の性質を持つタンパク質配列を最適化する手法の確立を目指してきた。

Cycle 1と2では、生成モデルによる配列生成と予測モデルによる評価を組み合わせることで、目的の性質を持つタンパク質を設計できる可能性を概念的に実証した。Cycle 3から5では、ESM2埋め込みベクトルを活用したニューラルネットワークの導入やBLOSUM62に基づくデータ拡張手法により、予測モデルの精度と汎化性能を段階的に改良してきた。Cycle 6と7では、わずか40という少数データ環境下での生成モデルのファインチューニングを可能にする技術基盤を構築した。

これまでのサイクルを通じて、少数データ環境下における我々の目標を達成するための準備が整った。本サイクルでは、改良された予測モデルと少数データ対応の生成モデルを統合し、生成と予測の反復サイクルを実装する。具体的には、生成モデルで新規配列を生成し、予測モデルで評価した後、高評価配列のみを用いて生成モデルを再学習させる。このプロセスを複数回繰り返すことで、生成される配列が目的の性質に向けて収束していくことを *in silico *環境で検証する。

配列の収束を確認する指標として、以下を設定した。第一に、各サイクルで生成される配列群において、サイクルを重ねるごとに複数の目的性質が同時に最適化された配列の割合が増加していること。第二に、生成される配列の多様性が適度に維持されながらも、配列空間上での分布が目的性質に適した特定の領域へと集約していくこと。これらの指標により、生成モデルが予測モデルの評価に基づいて効果的に学習し、目的の性質を持つ配列空間を探索できているかを定量的に評価する。

Build:

予測モデルには、Cycle 5で最も高い予測性能を示したESM2埋め込みベクトルと全結合層による多出力ニューラルネットワークモデルを採用した。

生成モデルには、Cycle 7.2で導入したBLOSUM62に基づくデータ拡張手法とCycle 6で確立したLoRAによる効率的なファインチューニング手法を組み合わせたアプローチを採用した。

学習データは、FPbaseから取得した40配列の蛍光タンパク質データセットを使用した。各配列には、蛍光最大波長、励起最大波長、輝度の3つの性質がラベルとして付与されている。

本サイクルでは、蛍光最大波長448 nm、励起最大波長383 nm、輝度は最大化という明確な最適化目標を設定した。これは青色蛍光タンパク質の特性を持ちながら、高輝度を実現する配列の設計を目指すものである。

生成モデルの学習におけるEarly Stoppingの実装として、各エポック終了時に生成モデルから1000個の配列をサンプリングし、ESM2により埋め込みベクトルに変換した後、これらの埋め込みベクトルの分散を計算した。

各サイクルで生成された配列の予測性質値の分布をヒストグラムで、および配列空間上での分布をESM2による埋め込みと主成分分析で可視化し、サイクルを重ねるごとの変化を追跡した。

Test:

(A)

(B)

(C)

fig. 25. 反復サイクルにおける生成配列の予測性質値の分布変化

Iteration 1とIteration 8で生成された配列の予測性質値のヒストグラム。(A) 蛍光最大波長の分布。目標値448 nmを赤い破線で示す。(B) 励起最大波長の分布。目標値383 nmを赤い破線で示す。(C) 輝度の分布。サイクルを重ねるごとに、目標値付近に分布が集中し、輝度が高い配列の割合が増加していることが確認できる。

fig. 26. 主成分分析による配列空間上での生成配列の分布変化

ESM2埋め込みベクトルに主成分分析を適用し、第一主成分（PC1）と第二主成分（PC2）の2次元空間に投影した生成配列の分布。各色は異なるサイクル（Iteration 1: 青、Iteration 4: 赤、Iteration 8: 緑）を示す。初期サイクルでは配列が広範囲に分散しているが、サイクルを重ねるごとに特定の領域に集約していく様子が観察される。黄色の点は元の学習データ（FPbaseの40配列）を示す。

fig. 27. サイクルごとの目標性質を満たす配列の割合と配列多様性の推移

各サイクルで生成された配列のうち、3つの目標性質（蛍光最大波長448±10 nm、励起最大波長383±10 nm、輝度10以上）をすべて満たす配列の割合。サイクルを重ねるごとに目標を満たす配列の割合が増加し、配列空間上での分布が目的の領域に収束している。

Learn:

Fig. 25に示すように、初期サイクル(Iteration 1)では生成される配列の予測性質値が広範囲に分散していたが、サイクルを重ねるごとに目標値付近への集中が顕著になった。特に蛍光最大波長(A)では、Iteration 8において448 nm付近に明確なピークが形成され、励起最大波長(B)でも383 nm付近への収束が確認された。輝度(C)については、サイクルの進行とともに高輝度配列の割合が段階的に増加していた。

また、Fig. 27に注目すると3つの目標性質をすべて満たす配列の割合は、Iteration 1の約1.7%から開始し、Iteration 8では約3.9%まで上昇した。この生成と評価の過程で、3つの目標性質を満たす配列を２倍にしており、輝度が50に近い配列の数は大きく増加している。わずか40配列という極めて限られた学習データから出発したことを考慮すると、顕著な成果といえる。

Fig. 26の主成分分析による可視化から、生成される配列の分布が配列空間上で徐々に変化していることが確認された。初期サイクル(青)では配列が広範囲に散在していたが、中間サイクル(赤)を経て最終サイクル(緑)では初期よりも小さな領域に集約した。この変化は、反復学習サイクルが設計通りに機能し、生成モデルが予測モデルの評価に基づいて目的の性質を持つ配列空間へと効果的に収束していったことを示している。

Cycle 9: 蛍光タンパク質を用いたLEAPS version 3の検証

Design:

LEAPSの全体像が完成した。本システムは、シャッフリングから始まり、尤度でのスクリーニング、生成モデルによる配列の生成、予測モデルによる配列の選別、そして再び生成モデルによる配列の生成というプロセスを経て、この後半部分を繰り返していく。このサイクルが実際にタンパク質の改良を実現できるかどうかを検証する。

検証には蛍光タンパク質を用いた実験を行った。輝度を最大化しつつ、最大励起波長を383 nmに、最大蛍光波長を448 nmにするという多目的最適化を実施した。この実験により、LEAPSシステムの有効性を評価する。

Build:

学習データには、FPbase[9]から取得した40配列の輝度データセットを使用した。データの準備はCycle 3.1と同様の手順で行った。

LEAPS v3に用意したデータセットを入力として、以下のように複数のラベルの改良を指定した。

・輝度：最大化

・最大励起波長：383 nmに近づける

・最大蛍光波長：448 nmに近づける

LEAPSが出力した配列を無細胞系用に合成し、無細胞系（PUREfrex®）を用いて発現させた。発現させたタンパク質はHisタグカラムを用いて精製した。精製した蛍光タンパク質については、輝度と最大蛍光波長、最大励起波長を計測した。これらの測定値をもとに、最適化の効果を評価した。

Test & Learn:

~coming soon~

It will be done by the Grand Jamboree.

Cycle 10: Comparative Study

Design:

Cycle 1から8を通して、我々は生成モデルと予測モデルを組み合わせた反復的最適化により、タンパク質を目的の機能へと改良するモデルLEAPSを完成させた。このモデルが従来の手法と大きく異なるのは、予測モデルによる評価と生成モデルのLoRAファインチューニングを繰り返すことで、配列空間を効率的に探索し、高活性配列へと収束させる点にある。計算機上での配列最適化においては、単純なランダム変異を導入して予測モデルで評価する手法も考えられるが、この手法では探索可能なのは広大な配列空間のごく一部分に限られ、局所解に陥りがちである。一方、LEAPSはタンパク質言語モデルが学習した進化的・構造的制約に基づいて配列を生成する。そのため生物学的に妥当な変異空間を優先的に探索し、ランダム探索では到達困難な大域的な最適解へと効率的に収束できると期待される。

LEAPSは、タンパク質言語モデルが学習した生物学的な知識を活用することで、より効率的に有望な配列候補を生成できると期待される。

しかし、実際に生成モデルを用いた配列最適化が、単純なランダム変異と比較してどれだけ優れているのかを定量的に示すことは、本モデルの有用性を実証する上で不可欠である。もしランダム変異でも同程度の性能改善が得られるのであれば、計算コストのかかる生成モデルとLoRAファインチューニングを用いる意義は薄れる。LEAPSの真価は、生物学的に妥当な配列変異を学習した生成モデルが、ランダムな探索では到達困難な高活性領域へと効率的に収束できる点にある。

そこで本サイクルでは、LEAPSの生成モデル部分をランダム変異生成に置き換えた対照実験を実施し、最終的に出力される配列の予測活性スコアを比較することで、生成モデル活用による改良効果を定量的に評価することとした。具体的には、同一の予測モデルと同一のサイクル数を用いて、(1) LEAPSによる生成モデルベースの最適化と、(2) ランダム変異による最適化を並行して実施する。各サイクルにおいて、LEAPSでは生成モデルから配列を生成し予測モデルで評価・選抜してLoRAファインチューニングを行うのに対し、ランダム変異版では元配列にランダムな点変異を導入した配列群を生成し、同様に予測モデルで評価・選抜する。ただし、ランダム変異版では生成モデルのファインチューニングは行わず、選抜された高スコア配列を次サイクルの変異導入の起点とする。

もし生成モデルを用いたLEAPSが、ランダム変異と比較して明確に高い活性スコアの配列を生成できることが示されれば、タンパク質言語モデルを活用した配列最適化の有効性が実証される。これにより、限られた実験データから効率的に高機能タンパク質を設計するという、本研究の目的が達成される。

Build:

ランダム変異による対照実験では、生成モデルを用いず、確率的変異導入と予測モデルによる評価・選抜のみで配列最適化を行う手法を実装した。各アミノ酸位置に1%の確率で点変異を導入し、選抜された高活性配列を次サイクルの変異導入の起点とする反復プロセスを構築した。

実験設定は以下の通りである。第1イテレーションでは、wild-type配列から10万個の変異配列を生成し、予測モデルで評価後、上位100配列を選抜した。第2イテレーション以降は、前サイクルの上位100配列を起点に各3万個の変異配列を生成・評価・選抜した。

LEAPSによる最適化は、Cycle 8の手法をそのまま適用し、生成配列数をランダム変異実験と揃えた(第1イテレーション10万、第2イテレーション以降各3万)。両手法ともに同一の予測モデルを使用し、各イテレーションで上位100配列を選抜する。唯一の違いは、配列生成が生物学的知識を学習した生成モデルによるものか、純粋に確率的なランダム変異によるものかという点である。

Early stoppingによって止まった最終イテレーションのおける選抜配列の予測輝度をヒストグラムとしてプロットした。それぞれの予測輝度の平均値に、2標本のZ検定を用いて有意な差があるかを調べた(Fig.28)。

また、各イテレーションにおいて生成モデルとランダム変異によって生成された配列をESM-2で特徴量に変換し、主成分分析（PCA）で可視化した。

Test:

Fig.28. GeneratorにRandom mutationとProGen2を用いた場合の予測輝度

このヒストグラムでは、Estimated brightness > 2 の部分の差を強調するため、頻度の描画を一部省略した。Random mutationに比べ、GeneratorにProGen2を用いた方が、最大値の配列と上位25%の配列ともに上回った。Z値から算出されるP値は10の-3乗未満であり、有意な差である。

Learn:

ランダム変異による配列最適化とLEAPSを比較した結果、LEAPSが統計的に有意に優れた性能を示した(p < 0.001)。予測輝度が2を超える高活性領域において両手法の差は特に顕著であり、LEAPSは最大値だけでなく上位25%の配列群全体で一貫して高い活性を示した。

この結果は、タンパク質言語モデルが学習した生物学的知識を活用することの有効性を実証している。ランダム変異では各アミノ酸位置に独立に変異を導入するため、広大な配列空間の探索は本質的に非効率的である。一方、ProGen2は膨大な自然タンパク質配列から進化的・構造的制約を学習しており、LEAPSはこの知識を活用して生物学的に妥当な変異パターンを優先的に探索する。さらに、反復的LoRAファインチューニングにより、生成モデルは各サイクルで高活性配列の特徴を学習し、次サイクルでより有望な配列を生成できる。

本結果は、計算コストのかかる生成モデルとLoRAファインチューニングを用いる意義を明確に示している。実験コストが計算コストよりもはるかに高い創薬や酵素工学の文脈では、実験検証前により高活性な配列候補を提示できるLEAPSの優位性は重要である。

Conclusion

Cycle 1〜10を通して、我々は限られた実験データからタンパク質を効率的に改良するシステムLEAPSを開発、改良し、その有効性を検証した。これは、以下の技術的革新によって実現された。

Predictor Improvement

従来は、ESM2の埋め込みベクトルに対してLASSO回帰などの単純な線形回帰をトップモデルとして予測モデルを構築していた。我々はESM2埋め込みベクトルと全結合層を組み合わせたニューラルネットワーク、BLOSUM62に基づくデータ拡張と変動係数に基づくカスタムドロップアウトを導入することで、少数データ環境下でも蛍光タンパク質の輝度予測タスクにおいてR^2 = 0.545という実用的な予測精度を達成した。これは、従来のLASSO回帰による予測精度（R^2 = 0.291）を大きく上回る。

Data Augmentation For Generator

少数データ環境下においてProGen2のような大規模なモデルをファインチューニングすると過学習を引き起こし、生物学的に妥当な配列を生成できない。そこで、タンパク質言語モデルSaProtとmasked marginal scoringを活用し、少数の野生型配列から生物学的に妥当な仮想変異体をつくりだすことで、生成モデルの学習に必要なデータを実験なしで拡張した。そして、40という非常に少ないデータ量で、ProGen2による学習データと類似した配列の生成を実現した。

Multi-objective optimization

In silico検証では、3つの目標を同時に設定し、反復的な生成と評価のサイクルを通じて、これらの目標をすべて満たす配列の割合を2倍以上に増加させた。さらに、輝度のスコアが50を超える配列の数はこのサイクルを通じて、大幅に増加している。この結果は、LEAPSが複雑な多目的最適化タスクにおいても有効に機能することを示している。

Comparison with Random Mutation Baseline

Cycle 10の比較研究において、LEAPSはランダム変異による最適化と比較して統計的に有意に優れた性能を示した（p < 0.001）。特に高活性領域において、LEAPSは最大値だけでなく上位25%の配列群全体で一貫して高い予測活性を達成した。この結果は、タンパク質言語モデルが学習した進化的・構造的知識を活用することで、ランダムな探索では到達困難な配列空間を効率的に探索できることを実証している。

Reference

Inouye, S., & Tsuji, F. I. (1994). Aequorea green fluorescent protein. FEBS Letters, 341(2–3), 277–280.
Nijkamp, E., Ruffolo, J. A., Weinstein, E. N., Naik, N., & Madani, A. (2023). ProGen2: Exploring the boundaries of protein language models. Cell Systems, 14(11), 968-978.e3.
Sarkisyan, K. S., Bolotin, D. A., Meer, M. V., Usmanova, D. R., Mishin, A. S., Sharonov, G. V., Ivankov, D. N., Bozhanova, N. G., Baranov, M. S., Soylemez, O., Bogatyreva, N. S., Vlasov, P. K., Egorov, E. S., Logacheva, M. D., Kondrashov, A. S., Chudakov, D. M., Putintseva, E. V., Mamedov, I. Z., Tawfik, D. S., … Kondrashov, F. A. (2016). Local fitness landscape of the green fluorescent protein. Nature, 533(7603), 397–401.
Bateman, A., Martin, M., Orchard, S., Magrane, M., Ahmad, S., Alpi, E., Bowler-Barnett, E. H., Britto, R., Bye-A-Jee, H., Cukura, A., Denny, P., Dogan, T., Ebenezer, T., Fan, J., Garmiri, P., Da Costa Gonzales, L. J., Hatton-Ellis, E., Hussein, A., Ignatchenko, A., … Sundaram, S. (2022). UniProt: the Universal Protein Knowledgebase in 2023. Nucleic Acids Research, 51(D1), D523–D531.
Lin, Z., Akin, H., Rao, R., Hie, B., Zhu, Z., Lu, W., Smetanin, N., Verkuil, R., Kabeli, O., Shmueli, Y., Costa, A. D. S., Fazel-Zarandi, M., Sercu, T., Candido, S., & Rives, A. (2023). Evolutionary-scale prediction of atomic-level protein structure with a language model. Science, 379(6637), 1123–1130.
Elnaggar, A., Heinzinger, M., Dallago, C., Rehawi, G., Wang, Y., Jones, L., Gibbs, T., Feher, T., Angerer, C., Steinegger, M., Bhowmik, D., & Rost, B. (2021). ProtTrans: Toward Understanding the Language of Life Through Self-Supervised Learning. IEEE Transactions on Pattern Analysis and Machine Intelligence, 44(10), 7112–7127.
Gonzalez Somermeyer, L., Fleiss, A., Mishin, A. S., Bozhanova, N. G., Igolkina, A. A., Meiler, J., Alaball Pujol, M. E., Putintseva, E. V., Sarkisyan, K. S., & Kondrashov, F. A. (2022). Heterogeneity of the GFP fitness landscape and data-driven protein design. eLife, 11, e75842.
Ofer, D., Brandes, N., & Linial, M. (2021). The language of proteins: NLP, machine learning & protein sequences. Computational and structural biotechnology journal, 19, 1750–1758.
Lambert, T.J. FPbase: a community-editable fluorescent protein database. Nat Methods 16, 277–278 (2019).
Yang, K. K., Wu, Z., Bedbrook, C. N., & Arnold, F. H. (2018). Learned protein embeddings for machine learning. Bioinformatics, 34(15), 2642–2648.
Tibshirani, R. (1996). Regression Shrinkage and Selection via the Lasso. Journal of the Royal Statistical Society. Series B (Methodological), 58(1), 267–288.
Predicting the Effects of Mutations on Protein Function with ESM-2. (n.d.).
Tsien R. Y. (1998). The green fluorescent protein. Annual review of biochemistry, 67, 509–544.
Kathuria, C., Mehrotra, D., & Misra, N. K. (2018). Predicting the protein structure using random forest approach. Procedia Computer Science, 132, 1654–1662.
Svetnik, V., Liaw, A., Tong, C., Culberson, J. C., Sheridan, R. P., & Feuston, B. P. (2003). Random Forest: a classification and regression tool for compound classification and QSAR modeling. Journal of Chemical Information and Computer Sciences, 43(6), 1947–1958.
Peng, D., Gui, Z., & Wu, H. (2023). Interpreting the Curse of Dimensionality from Distance Concentration and Manifold Effect. ArXiv, abs/2401.00422.
Valentini, G., Malchiodi, D., Gliozzo, J., Mesiti, M., Soto-Gomez, M., Cabri, A., Reese, J., Casiraghi, E., & Robinson, P. N. (2023). The promises of large language models for protein design and modeling. Frontiers in Bioinformatics, 3.
Ian Goodfellow, Yoshua Bengio, & Aaron Courville (2016). Deep Learning. MIT Press.
Henikoff, S., & Henikoff, J. G. (1992). Amino acid substitution matrices from protein blocks. Proceedings of the National Academy of Sciences of the United States of America, 89(22), 10915–10919.
Jadon, A., Patil, A., Jadon, S. (2024). A Comprehensive Survey of Regression-Based Loss Functions for Time Series Forecasting. In: Sharma, N., Goje, A.C., Chakrabarti, A., Bruckstein, A.M. (eds) Data Management, Analytics and Innovation. ICDMAI 2024. Lecture Notes in Networks and Systems, vol 998. Springer, Singapore.
Kingma, D. P., & Ba, J. (2014). Adam: A method for stochastic optimization.
Hu, T., & Lei, Y. (2022). Early Stopping for Iterative Regularization with General Loss Functions.
Takuya Akiba, Shotaro Sano, Toshihiko Yanase, Takeru Ohta, and Masanori Koyama. 2019. Optuna: A Next-generation Hyperparameter Optimization Framework. In Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining (KDD ‘19). Association for Computing Machinery, New York, NY, USA, 2623–2631.
Minot, M., & Reddy, S. T. (2022). Nucleotide augmentation for machine learning-guided protein engineering. Bioinformatics Advances, 3(1).
Yang, J., Zhou, K., Li, Y. et al. Generalized Out-of-Distribution Detection: A Survey. Int J Comput Vis 132, 5635–5662 (2024).
Yue Zhou, Chenlu Guo, Xu Wang, Yi Chang, & Yuan Wu. (2024). A Survey on Data Augmentation in Large Model Era.
Shen, H., Price, L. C., Bahadori, T., & Seeger, F. (2021). Improving Generalizability of Protein Sequence Models with Data Augmentations.
Geirhos, R., Jacobsen, J., Michaelis, C., Zemel, R., Brendel, W., Bethge, M., & Wichmann, F. A. (2020). Shortcut learning in deep neural networks. Nature Machine Intelligence, 2(11), 665–673.
Srivastava, N., Hinton, G., Krizhevsky, A., Sutskever, I., & Salakhutdinov, R. (2014). Dropout: a simple way to prevent neural networks from overfitting. J. Mach. Learn. Res., 15(1), 1929–1958.
Saeys, Y., Inza, I., & Larrañaga, P. (2007). A review of feature selection techniques in bioinformatics. Bioinformatics (Oxford, England), 23(19), 2507–2517.
Lialin, V., Deshpande, V., & Rumshisky, A. (2023). Scaling Down to Scale Up: A guide to Parameter-Efficient Fine-Tuning. arXiv (Cornell University).
Edward J. Hu, Yelong Shen, Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Shean Wang, Lu Wang, & Weizhu Chen. (2021). LoRA: Low-Rank Adaptation of Large Language Models.
Rives, A., Meier, J., Sercu, T., Goyal, S., Lin, Z., Liu, J., Guo, D., Ott, M., Zitnick, C. L., Ma, J., & Fergus, R. (2021). Biological structure and function emerge from scaling unsupervised learning to 250 million protein sequences. Proceedings of the National Academy of Sciences, 118(15).
Hie, B., Zhong, E. D., Berger, B., & Bryson, B. (2021). Learning the language of viral evolution and escape. Science (New York, N.Y.), 371(6526), 284–288.
Lingling Xu, Haoran Xie, Si-Zhao Joe Qin, Xiaohui Tao, & Fu Lee Wang. (2023). Parameter-Efficient Fine-Tuning Methods for Pretrained Language Models: A Critical Review and Assessment.
Tewhey, R., Kotliar, D., Park, D. S., Liu, B., Winnicki, S., Reilly, S. K., Andersen, K. G., Mikkelsen, T. S., Lander, E. S., Schaffner, S. F., & Sabeti, P. C. (2016). Direct Identification of Hundreds of Expression-Modulating Variants using a Multiplexed Reporter Assay. Cell, 165(6), 1519–1529.
Shorten, C., & Khoshgoftaar, T. M. (2019). A survey on Image Data Augmentation for Deep Learning. Journal of Big Data, 6(1).
Hsu, C., Nisonoff, H., Fannjiang, C., & Listgarten, J. (2022). Learning protein fitness models from evolutionary and assay-labeled data. Nature biotechnology, 40(7), 1114–1122.
Salazar, J., Liang, D., Nguyen, T., & Kirchhoff, K. (2020). Masked Language Model Scoring. In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. Association for Computational Linguistics.
Madani, A., Krause, B., Greene, E.R. et al. Large language models generate functional protein sequences across diverse families. Nat Biotechnol 41, 1099–1106 (2023).
Daniel Jurafsky, & James H. Martin (2025). Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition, with Language Models.

The repository used to create this website is available at gitlab.igem.org/2025/tsukuba.