R e s u l t s

Overview

本プロジェクトでは、LEAPSシステムの機能検証として、計算機シミュレーションとウェットラボ実験を通して、複数の新規知見を得た。

Generatorに関しては、学習データに対する配列シャッフリングによるデータ拡張手法を導入することで、学習効率の大幅な向上を達成した。Predictorに関しては、複数のデータ拡張技術(BLOSUM行列に基づく類似アミノ酸置換、破壊的変異の導入)とカスタムドロップアウト層の実装により、予測精度を段階的に改善した。特筆すべきは、これらの新規アーキテクチャの組み合わせにより、わずか40サンプルという少数の訓練データでも高い予測精度を実現できた点である。さらに、EVmutationを用いた配列尤度スコアリングの統合により、生成配列の品質向上を確認した。

以下に特筆すべきPredictor、Integrated System、およびWET Labにおける各実験結果の詳細を報告する。

Predictor

Introduction

予測器はLEAPSの性能を決定づける最も重要な構成要素である。私たちはこの予測器を、ESM2が生成するベクトル表現を入力とする回帰モデルを設計・構築した。少数のデータセットでも効果的な学習が行えるよう、複数の新規手法を考案し実装した。これらの工夫により、わずか40サンプルという極めて限られた教師データからでも、実用に足る予測精度を獲得することに成功した。以下、Predictorの性能が段階的に向上していった経緯を示す。

ESM2+ランダムフォレストによる予測精度の向上

Background & Objective

ESM2+LASSO回帰（旧モデル）は蛍光最大波長の予測では高性能を発揮したが、輝度予測では予測値と実測値の相関が低く実用的でなかった。この原因として、LASSO回帰は線形モデルであるため、輝度のような複雑な非線形関係を捉えきれていない可能性が考えられた。輝度は発色団形成効率、タンパク質折りたたみ、量子収率など多様な要因に依存するため、非線形な相互作用を学習できるモデルが必要であると判断した。そこで本サイクルでは、ランダムフォレスト回帰を採用し、輝度予測精度の向上を目指した。

Methods

本サイクルでは2つのモデルを比較検証した。1つ目はESM2+LASSOで、ESM2埋め込みベクトル(1280次元×n残基)を特徴量とし、LASSO回帰で輝度を予測するモデルである。2つ目はESM2+RFで、同じくESM2埋め込みベクトルを特徴量とし、ランダムフォレスト回帰で輝度を予測するモデルである。ランダムフォレスト回帰にはscikit-learnのRandomForestRegressorを使用し、決定木の数を1000本に設定、その他のパラメータはデフォルト値を採用した。学習とテストにはFPbaseから取得した40件の配列と輝度データを用い、評価指標としてテストデータに対する決定係数(R²値)を使用した。

Results

図１には①ESM2+LASSOの散布図と線形回帰直線をR²値とともに示した。この結果から、予測値と実測値の相関がほとんど見られないことが確認された。一方、図2には②ESM2+RFの散布図と線形回帰直線をR²値とともに示した。ランダムフォレスト回帰はLASSO回帰と比較してR²値が向上し、予測精度が改善されたことが明らかになった。

Discussion

ランダムフォレスト回帰はLASSO回帰と比較して輝度予測精度を大きく改善した。LASSO回帰ではほとんど相関が見られなかったのに対し、ランダムフォレスト回帰ではR²値が向上した。この改善の要因は、ランダムフォレストの非線形関係学習能力によるものと考えられる。輝度は複数の要因が複雑に絡み合う物性であり、線形モデルでは捉えきれなかった特徴量間の相互作用を、決定木ベースのランダムフォレストが柔軟に学習できたと推察される。本サイクルの結果から、複雑な物性を高精度に予測するには、非線形関係を捉えられるモデルが必要であることが示された。

ESM2+全結合層による予測精度の向上

Background & Objective

ランダムフォレスト回帰の導入により輝度のような予測が難しいタスクにおいてもある程度の予測精度を保つことができたが、依然として改善の余地が残されており、より表現力の高いモデルの導入が求められた。ランダムフォレスト回帰は非線形な関係を学習できるが、その学習メカニズムは決定木の集合による段階的な分割に基づいている。一方、タンパク質の物性は複数のアミノ酸残基間の複雑な相互作用や階層的な構造的特徴に依存すると考えられる。このような高度に非線形で階層的な特徴表現を学習するには、ニューラルネットワークがより適していると考えられた。

そこで本サイクルでは、ESM2埋め込みベクトルの上に全結合層を構築したニューラルネットワークモデルを導入することとした。全結合層では入力の各要素と出力の各要素がすべて接続されており、重み行列を用いた線形変換と活性化関数を組み合わせることで複雑な非線形写像を学習することができる。多層の全結合層を積み重ねることで、モデルは階層的に特徴を抽出し、より複雑な入力-出力の関係を表現できるようになる。各層が前の層の出力を非線形変換することで、単純な線形モデルやランダムフォレストでは捉えられない高次の特徴間相互作用を学習することが可能と予想された。

Methods

予測モデルとして、Mean Pooling処理を施したESM2埋め込みベクトルを入力とするニューラルネットワーク回帰モデルを構築した。具体的には、事前学習済みのESM2モデルから各配列の表現ベクトル(1280次元×n残基)を抽出した後、attention maskで重み付けしたMean Pooling操作を適用し、1280次元の固定長ベクトルに集約した。ESM2モデルのパラメータは凍結し、特徴抽出器として固定的に使用した。

ニューラルネットワークの構造は、第1層として1280次元から640次元への全結合層とReLU活性化関数、第2層として640次元から1次元への全結合層を順に配置した。これらの全結合層のパラメータ(重みとバイアス)のみを学習対象とし、回帰タスクに最適化した。学習データはFPbaseから取得した40配列の輝度データセットを使用した。モデル学習にはPyTorchを用い、損失関数として平均二乗誤差(MSE)、最適化アルゴリズムとしてAdam(学習率0.001)を採用した。学習は100エポック実施し、Early StoppingおよびOptunaによるハイパーパラメータ最適化を行った。モデルの予測精度はテストデータに対する決定係数(R²)により評価した。

Results

BlockNote image

図２にはテストデータにおける予測輝度と実測輝度の散布図を示した。ピンク丸はランダムフォレスト回帰+Max Poolingによる予測結果、緑丸はESM2+全結合層による予測結果を示す。破線は理想的な予測(予測値=実測値)を表す対角線である。ESM2+全結合層がランダムフォレスト回帰+Max Poolingよりも優れた予測性能を示すことが明らかとなった。

Discussion

ESM2埋め込みベクトルの上に全結合層を構築したニューラルネットワークモデルの導入により、ランダムフォレスト回帰と比較して予測精度の向上が確認された。これは、多層の全結合層が階層的に特徴を抽出し、ランダムフォレストでは捉えきれなかった高次の特徴間相互作用を学習できたことに起因すると考えられる。特に、勾配降下法による最適化を通じてESM2の表現空間から輝度予測に本当に必要な情報を選択的に抽出し、滑らかで連続的な写像を学習できたことが、未知配列に対する予測精度の改善につながったと推察される。

Blosumを用いたデータ拡張

Background & Objective

全結合層を持つニューラルネットワークモデルの導入により予測精度の向上を達成したが、ニューラルネットワークは高い表現力を持つ反面、パラメータ数が多いため過学習を起こしやすく、特に約40件という限られたサンプル数では過学習のリスクが深刻な課題となった。過学習を防ぎモデルの汎化性能を向上させるためには、正則化手法の導入に加えて、トレーニングデータそのものを効果的に拡張することが有効であると考えられた。しかし、単純なランダムな配列変異ではタンパク質の構造や機能を破壊してしまう可能性があり、生物学的に妥当なデータ拡張とは言えない。

そこで本サイクルでは、BLOSUM62置換行列を活用した機能を維持する変異によるデータ拡張手法を導入することとした。BLOSUM62は進化的に保存されているアミノ酸置換のスコアを示す行列であり、自然界で実際に観察される置換パターンに基づいている。スコアが正の置換は進化の過程で頻繁に起こる、つまりタンパク質の機能を維持しやすい置換を意味し、負の置換は稀にしか起こらない機能を損ないやすい置換を意味する。

本手法では、BLOSUM62スコアが正または0以上の類似したアミノ酸への置換のみを許容することで、タンパク質の機能を大きく損なわない範囲での配列変異を実現する。生成した配列には元のラベル値に小さなノイズを加えた値をラベルとして付与することで、トレーニングデータを拡張する。この手法により、限られた実験データから生物学的に意味のある多様な配列バリエーションを生成でき、モデルがわずかな配列変化に対して頑健な予測を行えるようになることが期待された。

Methods

予測モデルの基本構造は、ESM2埋め込みベクトルとMean Pooling、2層の全結合層(1280次元→640次元→1次元)から構成した。データ拡張の実装として、既存のトレーニングデータからランダムにサンプリングした配列に対して、BLOSUM62行列に基づく機能維持的な変異を導入した。具体的には、各配列中のX箇所をランダムに選択し、その位置のアミノ酸をBLOSUM62スコアが正または0以上となる類似アミノ酸に置換した。生成された変異配列には、元の配列のラベル値に±10%の範囲でランダムノイズを加えた値をラベルとして付与した。

この操作により、元の40配列のトレーニングデータに対してX配列分の変異配列を追加生成し、合計(40+X)配列の拡張されたデータセットでモデルを学習した。学習設定は損失関数としてMSE、最適化アルゴリズムとしてAdamを使用し、100エポックの学習とEarly Stopping、Optunaによるハイパーパラメータ最適化を実施した。

Results

図３にはテストデータにおける予測輝度と実測輝度の散布図を示した。緑丸はESM2+全結合層による予測結果、黄緑丸はESM2+全結合層+データ拡張による予測結果を示す。破線は理想的な予測(予測値=実測値)を表す対角線である。ESM2+全結合層+データ拡張がより優れた予測性能を示すことが明らかとなった。

Discussion

BLOSUM62置換行列を活用した機能維持的な変異によるデータ拡張の導入により、データ拡張なしのモデルと比較して予測精度の向上が確認された。これは、生物学的に妥当な配列バリエーションを追加することで、限られた実験データでもより安定した学習が可能となり、モデルの汎化性能が向上したことに起因すると考えられる。

本手法の重要な点は、BLOSUM62行列に基づいて進化的に類似したアミノ酸への置換のみを許容することである。ランダムな変異ではタンパク質の機能を破壊する置換が含まれモデルの学習を阻害するが、BLOSUM62に基づく機能維持的な変異では自然界で実際に観察される置換パターンに従うため、元の配列と類似した活性を持つ配列を生成でき、生物学的に妥当なデータ拡張が可能となる。この手法により生成された変異配列は元の配列と類似しつつも微妙に異なるため、モデルが特定の配列パターンに過度に適合するのを防ぎ、わずかな配列変化に過剰に反応しない、未知配列に対しても安定した予測を行えるロバストな学習が促されたと推察される。

破壊的変異導入によるデータ拡張

Background & Objective

BLOSUM62行列に基づく機能維持的な変異(Conservative mutations)によるデータ拡張を導入し、限られた実験データから生物学的に妥当な配列バリエーションを生成することで、モデルの汎化性能を向上させた。

しかし、機能維持的な変異のみで学習したモデルには重大な課題があった。モデルは「機能する配列」の特徴は学習できるが、「機能しない配列」の特徴を学習する機会がないため、実際には活性がほとんどない配列に対しても高い活性値を予測してしまうリスクがあった。この問題は、予測モデルと生成モデルを組み合わせた反復的最適化サイクルにおいて特に致命的である。予測モデルが非機能配列を高活性と誤って予測すると、生成モデルが誤った特徴を学習し、次のサイクルでさらに質の低い配列を生成する悪循環に陥るためである。

本サイクルでは、機能維持的な変異に加えて、タンパク質の機能を意図的に破壊する破壊的変異(Deleterious mutations)によるデータ拡張を導入することで、モデルが「機能する配列」と「機能しない配列」を適切に選別できるようにすることを目的とした。具体的には、ESMモデルのマスク予測能力を活用して各アミノ酸位置の重要度を定量化し、重要な位置に対してBLOSUM62スコアが負となる非保存的な置換を行うことで、低活性配列を人工的に生成する手法を採用した。

Methods

予測モデルの基本構造は、ESM2埋め込みベクトルとMean Pooling、2層の全結合層(1280次元→640次元→1次元)から構成し、Cycle 4.2（engineering)と同様とした。

データ拡張は以下の二段階で実施した:

第一段階: 機能維持的な変異 Cycle 4.2（engineering)と同様に、BLOSUM62スコアが正となる保守的な置換による機能維持的な変異を導入した。

第二段階: 破壊的変異(新規) トレーニングデータの各配列に対して、以下の手順で低活性配列を生成した:

ESM2のマスク言語モデル機能を用いて、配列中の各位置を順次マスクトークンに置き換え、元のアミノ酸の対数確率を算出することで重要度を評価
各配列の重要度スコアの平均値を算出し、重み付きサンプリングにより破壊対象となる配列を選択
重要度スコアの高い上位3N箇所からN箇所をスコアに比例した確率でサンプリング
選択された位置に対して、BLOSUM62スコアが-1以下となる非保存的な置換を実行
生成された破壊配列に1e-6という極めて低い活性値をラベルとして付与

学習設定は、損失関数MSE、最適化アルゴリズムAdam、100エポック、Early Stopping、Optunaによるハイパーパラメータ最適化を実施した。学習データはFPbaseから取得した40配列の輝度データセットを使用した。

Results

図４には、非機能配列(活性値0)に対する予測値のバイオリンプロットを示す。黄緑はConservative mutationsのみ、青はConservative mutations + Deleterious mutationsによる予測結果を表す。両モデルとも、非機能配列に対して高い活性値を予測しており、非機能配列を適切に識別できていないことが示された。

Discussion

破壊的変異によるデータ拡張の導入により、機能的な配列に対する予測精度の向上と過学習の抑制効果が確認された。破壊的変異によって生成された低活性配列がネガティブサンプルとして機能し、モデルが訓練データの特定のパターンに過度に適合することを防ぐ正則化効果をもたらしたと考えられる。

しかし、本サイクルの主目的であった非機能配列の識別能力については、期待された改善が得られなかった。破壊的変異を学習データに追加したにもかかわらず、実際には活性がゼロである非機能配列に対して高い活性値を予測する傾向が残存した。

予測モデルと生成モデルを組み合わせた反復的最適化において、非機能配列を適切に識別できない予測モデルに依存すると、生成モデルの学習に誤ったシグナルを与え、品質劣化の連鎖を引き起こす。この問題を解決するためには、予測モデルに依存しない方法で非機能配列を識別し、排除する必要がある。また、トレーニングデータとテストデータのR²スコアの具体的な数値を明示し、過学習抑制効果を定量的に評価することが望ましい。

カスタムドロップアウトを用いた予測精度の向上

Background & Objective

破壊的変異によるデータ拡張では、機能的配列の予測精度向上と過学習抑制効果を確認した。しかし、40配列という小規模データセットから1280次元の高次元ESM2埋め込み空間で学習する本研究では、汎化性能に改善の余地が残されていた。

主な課題は、モデルが偶発的な相関やノイズ的特徴を真の活性決定因子として誤学習するリスクである。これは物体検出における背景相関の問題と類似している。

通常のランダムドロップアウトは特定特徴への過度な依存を防ぐが、本質的特徴とノイズ的特徴を平等に扱ってしまう。そこで本サイクルでは、変動係数（Coefficient of Variation, CV）に基づくカスタムドロップアウトを導入した。核心的アイデアは「バッチ内のサンプル間で値が大きく変動する特徴次元は、偶発的な相関やノイズである可能性が高い」という仮説に基づく。CVが大きい次元はサンプル間で不安定であり、活性の普遍的決定因子ではなくデータセット固有のノイズである可能性が高い。一方、CVが小さい次元は一貫した値を示し、活性への本質的寄与を反映している可能性が高い。

本アプローチにより、ESM2埋め込み空間において配列間で一貫して重要な生物物理学的特徴（疎水性パターン、二次構造傾向など)を保護しつつ、データセット固有のアーティファクトを抑制することを目指した。

Methods

カスタムドロップアウトの実装は以下の通りである。訓練時において、各バッチの特徴ベクトル（1280次元）に対し、次元ごとに標準偏差σと中央値medianを計算し、変動係数CV = σ / (|median| + ε)を算出した（εは数値安定性のための微小値1e-8）。CVの大きい上位50%の次元（640次元）を特定し、それらの値をゼロに設定するマスクを生成した。期待値保持のためスケーリング係数（1 / (1 - 0.5) = 2.0）を適用した。推論時にはドロップアウトを適用せず、全次元を使用した。

Cycle 4.3（engineering)で導入した二段階データ拡張（Conservative mutations + Deleterious mutations）を継続し、配列レベルの多様性とカスタムドロップアウトによる特徴レベルのロバスト性を組み合わせた二重の正則化戦略を構築した。

カスタムドロップアウトの効果検証のため、以下の3条件でテストデータに対する予測精度を決定係数（R²）により評価した。

ドロップアウトなし
通常のランダムドロップアウト（p=0.5）
カスタムドロップアウト（p=0.5）

その他の条件（モデルアーキテクチャ、学習率、エポック数など）はCycle 4.3（engineering)と同一とした。

Results

BlockNote image

図５には、オレンジ丸はESM2+全結合層+データ拡張（Conservative mutations）、紫丸はESM2+全結合層+データ拡張（Conservative mutations）+カスタムドロップアウトによる予測結果（R² = 0.545）を示す。破線は理想的な予測（予測値=実測値）を表す対角線**。**

Discussion

本サイクルでは、変動係数に基づくカスタムドロップアウトという新規な正則化手法を提案し、小規模データセットにおける特徴選択の効率化を試みた。理論的には、データ依存的な特徴マスキングにより、ランダムドロップアウトよりも効率的に本質的特徴の学習を促進できると期待される。

予測器の予測精度の向上の変遷

Background & Objective

本研究では、予測器の性能向上を目指し、段階的かつ体系的な改良を重ねてきた。初期段階から現在に至るまで、様々なアーキテクチャの最適化、ハイパーパラメータのチューニング、特徴量エンジニアリングの改善など、多角的なアプローチを試みてきた。これらの取り組みは、各フェーズにおいて異なる課題に対処し、予測モデルの精度を段階的に向上させることを目的としていた。

本セクションでは、これまでに実施してきた一連の改良プロセスを時系列的に整理し、各段階における予測精度の推移を定量的に評価する。具体的には、決定係数（R²値）を指標として用いることで、各改良ステップがモデル性能に与えた影響を可視化し、最終的な予測器の到達点を明確にする。このような体系的な振り返りは、今後の研究開発における方向性を示唆するとともに、本研究で採用したアプローチの有効性を検証する上で重要な意味を持つ。

Methods

本分析では、予測器開発の各フェーズで得られたR²値を時系列順に整理し、視覚的に比較可能な形式で提示する。開発プロセス全体を通じて実施された各実験・改良フェーズを時系列順に列挙し、それぞれの段階で記録されたR²値を抽出した。予測精度の推移を明確に示すため、折れ線グラフを用いて改良の変化を明示した。

Results

図６には、本研究で開発・改良を行った予測器の各バージョンにおけるR²値を時系列順に示した棒グラフを提示する。横軸は開発フェーズ（engineer cycle）を表し、縦軸はR²値（0〜1の範囲）を示している。

初期のベースラインモデルから始まり、特徴量の追加、モデルアーキテクチャの変更、正則化手法の導入、ドロップアウトの適用など、各改良ステップを経るごとにR²値が段階的に向上していることが視覚的に確認できる。特に、[具体的なフェーズ名]において顕著な性能向上が観察され、R²値が0.291から0.388へと大幅に改善された。

最終的な予測器モデルでは、R²値が0.545に達し、初期モデルと比較して133%の性能向上を実現した。この結果は、体系的な改良アプローチが予測精度の向上に有効であったことを定量的に示している。

Discussion

本研究で開発した予測器は、限られた学習データセット（少数サンプル）という制約条件下においても、十分に高い予測精度を達成することができた。この成果は、単にデータ量に依存するのではなく、モデルアーキテクチャの工夫と最適化によって性能を向上させることが可能であることを実証している。

特に注目すべきは、我々が独自に設計・実装した新規アーキテクチャが、従来手法と比較して少ないデータでも効率的に学習できる点である。これは過学習を抑制しつつ、重要な特徴を適切に捉える能力を持つモデル設計が功を奏した結果と考えられる。具体的には、[実装した具体的な技術や手法]が、データの持つ本質的な構造を効果的に学習することに寄与したと推察される。

この結果は、本研究における「Engineering Success」を明確に示すものである。つまり、理論的な検討だけでなく、実装レベルでの技術的課題を克服し、実用的な性能を持つシステムを構築できたことを意味する。この成功は、今後の応用展開や実用化に向けた重要な足がかりとなる。

さらに、本研究で確立した段階的改良プロセスは、他の予測タスクやドメインにも適用可能な汎用的なフレームワークとして位置づけることができる。今後は、より大規模なデータセットでの検証や、異なるタスクへの展開を通じて、提案手法のロバスト性と汎化性能をさらに評価していく必要がある。

Integrated system

LEAPSが探索する配列空間の遷移

Background & Objective

先行実験により、予測器と生成器を組み合わせたLEAPSアプローチが高性能な配列を効率的に生成できることが実証された。本解析では、LEAPSが実際に配列空間をどのように探索しているかを明らかにするため、最適化プロセスにおける各イテレーションでの配列分布の変化を可視化し、その探索効率と収束挙動を評価する。

Methods

LEAPSが生成する各イテレーションごとの配列の遷移をESM2のベクトル表現をPCAで描画することで示す。

Results

BlockNote image

Discussion

実験結果の可視化から、LEAPSアルゴリズムは二段階の探索戦略を採用していることが明確に観察された。

初期探索フェーズ（青色で示される領域）： 最適化の初期段階において、アルゴリズムは配列空間の広範な領域を系統的に探索している。この探索的な挙動は、親配列の近傍に限定されることなく、配列空間全体に分散した多様な候補配列群を評価していることを示している。この広域探索により、局所最適解への早期収束を回避し、有望な配列領域を効率的に同定することが可能となっている。

収束フェーズと新規配列空間の発見： 特筆すべきは、最終的な収束領域が親配列（黄色で示される）が位置する空間とは明確に異なる配列空間に位置していることである。これは、LEAPSが単なる親配列の局所的な改良にとどまらず、配列空間の探索を通じて、親配列とは本質的に異なる構造や特性を持つ、より高機能な配列群を発見したことを意味している。

探索効率と機能的配列の発見： この探索パターンは、LEAPSの高い探索効率を裏付けている。広域な初期探索により機能的な配列の候補領域を複数特定し、その後、それらの中から最も有望な領域へと段階的に探索を集中させることで、効率的に高機能配列への最適化を達成している。このプロセスは、探索の広さ（exploration）と深さ（exploitation）のバランスを動的に調整する洗練された最適化戦略を示唆している。

WET Lab

Introduction

LEAPSはいくつものDBTLサイクルとin silicoでのシミュレーションによって改良が施された。しかし、いくらコンピューター上で改良できたとしても実環境で改良ができないと意味がない。我々は、LEAPが実際にタンパク質改良ができているかを確かめるために、蛍光タンパク質を用いたLEAPSの機能検証実験を行った。各WET実験フェーズの実験結果を以下に示す。

生成モデルProGen2と予測モデルProtT5によるGFPの設計

Background & Objective

ここでは、生成モデルと予測モデルを組み合わせて機能的なタンパク質が生成されるか検証した。avGFPを親配列として生成モデルProGen2が生成したavGFPの変異体を予測モデルProtT5による2値分類で光るか光らないかに分類し、光ると判定された配列を実際に合成しアッセイを行った。

Methods

DMSデータセットで学習させた生成モデルProGen2を用いて、既存のGFP配列を入力として新規配列候補を生成した(Cycle1.1参照)。生成された配列群は、予測モデルに入力することで蛍光強度をbright または dim の二値分類として予測し（Cycle1.2参照）、蛍光性を有すると予測された候補配列を選抜した。

デザインフェーズで選抜された候補配列について、Wet実験による検証を実施した。選抜された配列をコドン最適化し、IDT社の遺伝子合成サービスを利用して合成した。合成遺伝子をpET28a(+)発現ベクターのNcoIサイトにクローニングした。発現ベクターをBL21(DE3)に形質転換し、液体LB培地でIPTG誘導によって発現させた。大腸菌を破砕、蛍光タンパク質を抽出して、ルミノメーターでスペクトルと輝度を測定した。

Results


配列番号	Bright or not	mutation point from parental sequence
T01_01
T01_02	Bright	N105S,N144D,I161V
T01_03	Bright	E5L,F8I,V11L,E34V
T01_04	Bright	S28G,S72G,N135S,I171V,V224A

Discussion

この結果で象徴的だったのが、５残機変異体であったにもかかわらず蛍光が確認された点である。Gonzalez Somermeyer et al (2022) によれば、avGFPからの変異体に応じた蛍光強度は、5残機変異体になった途端に蛍光強度が大きく下がることがわかっている。今回の結果は、生成モデルと予測モデルを同時に使用することがタンパク質の改良に有効であることを示唆した。

様々な蛍光波長の蛍光タンパク質の設計

Background & Objective

ESM2＋LASSO回帰の予測モデルを構築した。このモデルはDryでのシミュレーションでは最大蛍光波長の予測精度はR^2値で0.82と高い予測精度を示した。回帰モデルでも十分な性能が確認されたため、WETでのアッセイを通して予測器の性能を確認した。

Methods

予測モデルはCycle 2.1（engineering)で構築したESM2+LASSO回帰モデルであり、学習データはFPbaseから取得した40件の配列と最大蛍光波長のデータセットを利用した。

生成モデルはProGen2であり、学習データはFPbase由来の様々な蛍光波長を持つ蛍光タンパク質700配列を利用した。

生成された配列群を、予測モデルに入力して予測蛍光最大波長を得た。予測蛍光最大波長を参考に、以下の配列を取得した。

・最も短波長（青色）に蛍光すると予測されたトップ６配列

・最も510 nm（緑色）で蛍光すると予測されたトップ６配列

・最も長波長（黄色）に蛍光すると予測されたトップ６配列

BrightnessはavGFPの輝度を１とした時の相対輝度である。

上記の配列に対してWet実験による検証を実施した。

Results


配列番号	Predicted λem max	measured λem max	relative fluorescence intensity
T02_01	446.6143776	444.5	0.195714501
T02_08	510.0172309	514	0.763415312
T02_13	528.8389668	526	0.045807175
T02_14	530.1542217	523.5	0.206491094
T02_17	533.4684669	525.5	5.406032773

注: “relative fluorescence intensity”とは、avGFPの蛍光スペクトルを積分した値を「1」とした時、各サンプルの蛍光スペクトルを積分した値の相対値のことである。

Discussion

予測波長と実測波長の誤差は2〜8 nmの範囲内に収まり、ESM2+LASSO回帰モデルによる波長予測がDryの解析結果と同じく高い精度を示した。特にT02_01（青色域）とT02_13（緑-黄色域）では誤差が3 nm以下となり、優れた予測性能を確認できた。

輝度を最大化させた配列の生成

Background & Objective

輝度の予測では、最大蛍光波長の予測とは反対に、低い予測精度をDryシミュレーションで記録した。そこで、輝度の予測ができるかどうかをWETでのアッセイを通して検証した。

Methods

学習データはFPbaseから取得した配列と輝度のデータセットを利用した。生成モデルはProGen2であり、学習データにはFPbase由来の様々な蛍光波長を持つ蛍光タンパク質700配列を利用した。生成された配列群は、予測モデルに入力することで予測輝度を得た。予測輝度のTop6配列とworst6配列を選抜し、Wet実験による検証を実施した。

BrightnessはavGFPの輝度を１とした時の相対輝度である。

Results


配列番号	Predicted brightness	Measured relative fluorescence intensity	λEm Max
T02_19	75.11518086	0.73196138	346.5
T02_20	72.03856262	0.8719466	337.5
T02_21	71.65047504	17.6066062	337
T02_23	62.60040511	0.17434677	522.5
T02_25	-23.72972317	0.171889755	511.5
T02_26	-16.59943373	0.108705103	509.5
T02_28	-10.87838477	0.427399856	474
T02_29	-10.60020859	0.376423762	474.5

Discussion

低予測輝度群（Worst 6）は予測通り全て相対蛍光強度1未満となり、低輝度配列の予測は比較的正確であった。しかし、高輝度配列の予測では偽陽性（高予測値だが実測は低い）が多く見られた。これは、学習データが限られていること、および輝度に影響する複雑な構造要因を完全には捉えきれていないことを示唆している。

蛍光タンパク質を用いた”LEAPS version 3 & 4”の検証

Background & Objective

LEAPSの全体像が完成したため、LEAPSのアルゴリズムが実際に多目的最適化を実現できるかを検証するため、蛍光タンパク質モデルとして用いた実験を行った。今回は蛍光強度を最大化し、最大蛍光波長と最大励起波長をそれぞれ448 nm, 383 nmに設定して多目的最適化を行う。これらの指標を同時に最適化することで、LEAPSがどのようにトレードオフ関係を学習し、配列設計を提案できるかを検証することを目的とした。

Results

Coming Soon

Experiments will have been done until Grand Jamboree

４. PETaseを用いた”LEAPS version 3 & 4”の検証

Background & Objective

GFPは学術的によく調べられているタンパク質でりLEAPSの概念実証に有用であった。しかし、LEAPSの本領は工業や医療に用いられるタンパク質を容易に改良できる可能性がある点である。この検証のために、近年工業的に利用が期待されているペットボトル分解酵素「（PETase）を用いてLEAPSの応用可能性を検証する。PETaseは「酵素活性」と「熱耐性」を同時に改良する多目的最適化を検証する。

Results

Coming Soon

Experiments will have been done until Grand Jamboree

The repository used to create this website is available at gitlab.igem.org/2025/tsukuba.