S o f t w a r e   O v e r v i e w

Background

近年、タンパク質の改良や設計においてAIや機械学習を活用する動きが広がっているが、これらの手法を扱うには高度な専門知識が必要である。そのため、タンパク質研究者や学生チームが新しい設計手法に挑戦したくても、機械学習という高い壁に阻まれてしまうことが少なくない。こうした課題を解決するために、我々はin silico(コンピュータ上)で完結し、少量のデータからでも多目的最適化を実現できるタンパク質改良モデル「LEAPS」を設計・開発した。LEAPSはわずか40個のアッセイデータを用いて目的タンパク質の特性を同時に最適化できる高効率なモデルであるが、複数の機械学習手法を組み合わせた複雑な構造を持つため、扱える研究者は限られているのが現状である。そこで我々は、より多くの研究者がこの技術を利用できるよう、LEAPSを「LEAPS-Software」として公開することを決定した。

Primary Function of LEAPS-Software

LEAPSは、機械学習の専門知識や大規模データがなくても、研究者や学生が効率的にタンパク質設計を進められるオープンプラットフォームである。直感的なUIと柔軟な最適化設定を備え、目的に応じて多目的最適化と単目的最適化を使い分けることができる。

多目的最適化(Multi-objective Optimization)

LEAPS-Softwareでは、複数の性能を同時に高めたり範囲内に調整したりしながら、相互のトレードオフを考慮した多目的最適化を行うことができる。ユーザーは反応速度、熱安定性、基質特異性、至適pHなどの値を入力して、それぞれにmaximize(最大化)、minimize(最小化)、range(範囲指定)のいずれかの目標を与えるだけで、アルゴリズムが複数の条件を満たす配列候補を自動生成する。たとえば「反応速度を最大化しつつ、至適pHは中性域に保ち、熱安定性は所定の範囲に収める」といった複数の目標を同時に満たす候補が提示される。

単目的最適化(Single-objective Optimization)

LEAPS-Softwareは多目的最適化に加え、単一の指標に焦点を絞って迅速に改良を進める単目的最適化にも対応している。対象とするラベルを一つに限定し、その目標を maximizeminimizerange のいずれかで設定すると、条件に合致する配列候補を自動的に生成する。
たとえば「熱耐性のみを高める」「基質特異性だけを向上させる」といったケースでは、短時間で効率的な設計改変を実行できる。

ユーザーフレンドリーなUI設計

考えさせないUI

LEAPS-Softwareは「考えさせないUI」を設計の中心に据えている。利用者がデータセットのアップロードから結果の確認まで、迷うことなく一方向の流れで完結できることを目指した。

当初、LLMとの対話で設定を進めるUIも検討したが、自由度の高い入力は手順の逸脱と再現性の低下を招きやすく、私たちのユースケースには適さないと判断した。そこで、必要な情報を段階的に見せる形式を採用し、「いま何をすれば良いか」が一目で分かる設計にしている。

設計の工夫

すべての入力項目は、「なぜ」「どこで」「何を」「いつ」「誰が」「どのように」の観点で慎重に設計している。選択肢を減らして判断回数を最小化し、関連する項目をまとめて見やすくし、必要な項目だけを提示する。また、処理に時間がかかる場合は読み込み中の表示を使い、画面全体で統一されたデザインと言葉遣いを保つことで、心理的コストを下げている。

サイト設計の実装

状態の可視化と入力支援

開閉式の表示でステップごとに情報を分け、タスクの状態(待機中・実行中・成功・失敗・中断)をアイコンと色で即座に伝える。データセット入力では、カンマ区切りかタブ区切りかを自動で判別して表形式でプレビューし、ヘッダーの不整合や欠損は入力欄の直下に控えめに表示する。詳しい調整項目は「高度な設定」に隠しており、ほとんどの利用者は初期設定のまま進められるようにした。

結果表示とアラートの最適化

生成された配列と予測値を素早く一覧表示し、処理中は読み込み表示で視覚的なフィードバックを提供する。危険性のあるタンパク質を排除するセーフティプロトコルの表示では、該当する場合のみタンパク質IDを1件だけ明示する。アラートを節約することで注意の質を保ち、警告が多すぎて慣れてしまう問題を防ぐ。

実際の利用者による改善

「迷わず意図どおりに使えるか」を基準に、実際の使い方を想定した検証を重ねた。身近な非エンジニアに使ってもらう簡易テストを実施し、使いやすさの原則に基づいて評価した。

具体的な改善事例

エラー表示の改善: 送信後にまとめてエラーを通知する方式から、各入力欄でその場でエラーを確認できる方式に変更し、修正箇所が文脈で分かるようにした。

項目のまとめ方の最適化: たくさんの入力欄が並ぶページから、意味のあるまとまりごとに小さなウィンドウに集約し、一度に覚えておく情報を減らした。

セーフティプロトコルによる安全性の追求

AIによるタンパク質工学の危険性

近年、AlphaFoldやpLMなどのAI技術が発展し、タンパク質の構造予測や設計がこれまでになく効率的に行えるようになっている。これらの技術は創薬や酵素工学、バイオものづくりなど幅広い分野で応用が進んでおり、従来は数年かかっていた設計作業が、今では数週間から数日で完了することもある。その一方で、AIによる自動設計が普及することで、新たなリスクも生まれている。そのひとつとしてAIが意図せず危険な機能を持つタンパク質を生み出してしまう可能性が指摘されている。特に、病原体や毒素に関連する遺伝子配列(SOC: Sequences of Concern)に似た配列が生成される危険が指摘されており、実際にAIが有害な配列を作り出せることが確認され、国際的な議論を呼んでいる。そのため、LEAPS-Softwareのようなタンパク質設計ツールには、危険性のあるタンパク質の生成を検知するようなスクリーニング機能を導入し、危険な配列を自動的に除外する仕組みが必要である。AIの力は人間の想像を超える新しい発見をもたらすが、その分、悪用や事故のリスクも高まる。したがって、研究者は技術の利便性だけでなく、安全性と倫理性を常に意識して開発を進める責任がある。

セーフティプロトコル

我々は、LEAPS-Softwareの危険性を排除するべく、配列相同性と構造類似性という2つの独立した手法を用いたセーフティプロトコルを導入した。配列相同性では、MMSeqs2によってアミノ酸配列レベルでの類似性を危険性が確認された配列データベースと照合する。これにより、配列が類似している毒性タンパク質のヒットIDが抽出される。一方、構造類似性ではFoldSeekをデフォルトパラメータで使用し、3次元構造レベルでの危険性が確認された類似性をデータベースと照合する。こちらでは構造的に類似した毒性タンパク質のヒットIDが得られる。ヒットしたIDをソフトウェア上で表示することで、ユーザーは改良したタンパク質の潜在的なリスクを把握し、安全上の問題を事前に回避できる。

f0jirclxb8ng8nfawks8.png

二重評価アプローチの科学的根拠

配列類似性検索に加えて構造類似性検索を実施する理由は、タンパク質の危険性評価における重要な生物学的原理に基づいている。配列レベルでの類似性が低くても、タンパク質の立体構造が、毒素の活性部位などの危険なモチーフと類似している可能性がある。逆に、配列が部分的に類似していても、実際の立体構造が大きく異なり生物学的活性を持たない場合もある。このため、両者をクロスチェックすることで、単一手法では見逃される危険性を捕捉し、評価の精度と信頼性を向上させることができる。

使用ツールと技術仕様

・MMSeqs2

 MMSeqs2(Many-against-Many sequence searching)は、数百万から数十億の配列を含む大規模データベースに対して高速な類似性検索を実行できるツールである。BLASTと比較して計算速度が大幅に向上しており、大量の配列を効率的にスクリーニングすることができる。本研究では、MMSeqs2のデフォルトパラメータを使用し、感度と特異度のバランスが取れた標準的な検索条件で解析を実施した。

・FoldSeek

 FoldSeekは、タンパク質の3次元構造を高速に比較検索できる革新的なツールである。配列ではなく構造情報を3Di(3次元相互作用)記述子に変換し、配列検索と同様の高速アルゴリズムで構造類似性を評価する。これにより、従来の構造比較手法と比較して高速で大規模構造データベースの検索が可能となった。FoldSeekについても、デフォルトパラメータを採用し、一般的な構造類似性判定の基準に従った。

免責事項と利用規約

我々は、先述したセーフティ機構に加えて免責事項と利用規約を作成し、LEAPS-Softwareの利用開始前に利用者に同意してもらう仕組みも実装した。主に悪用への抑止力と我々の責任範囲の明確化を図るものであり、これによってセーフティ機構の技術的な限界点を、倫理的課題・社会的責任問題の観点からカバーするものである。

当初、セーフティ機構によって有害なタンパク質がLEAPS-Softwareに入力されることを拒否し、また出力時に有害なタンパク質との類似構造を持つ配列には警告を出すことによって、Softwareがバイオテロ等の非人道的な行為に利用されることを避けようとしていた。しかしながら、Human Practicesによって専門家のアドバイスをいただく中で、毒素の定義の難しさから完璧な有害タンパク質のリストを作成することや、フィルタリングの技術的な限界があることを指摘され、当初のシステムの不十分さに直面した。さらに、ウイルスタンパク質や毒素の改変は適切な研究が行われれば、新たな医薬品開発の一助となる可能性があり、一律に有害タンパク質リスト上の配列の利用が防がれると本来有用であった研究を返って阻んでしまう結果につながる恐れを指摘された。これらのフィルタリング技術への課題提示と同時に複数の専門家から、免責事項によって利用者の悪用があった場合の責任の所在を明確にしておくことや、悪用に対する懸念を明示して利用者情報を収集することによって、悪用への抑止を図ることが提案されていた。

ここに加えて、未公開の研究内容に関する情報をSoftwareに入力することに対して、研究者の抵抗感があることもわかっていた。

以上の経緯を踏まえて、最終的なセーフティ機構では有害タンパク質の配列や立体構造の類似性が高い場合でも警告を表示するのみにとどめ、利用者がその警告を理解すればそのままLEAPS-Softwareの利用を続行できるようにした。そして、利用者の責任と我々サービス提供者の責任の範囲を明確に示し、悪用を禁ずる旨の内容を盛り込んだ利用規約を策定し、利用者に表示・同意させることによって、LEAPS-Softwareの適切な利用を促すこととした。また、情報保持に関する課題についても利用規約やプライバシーポリシーを策定することによって、その緩和を試みた。

次から各文書で示されていることの概要を述べる。具体的な内容についてはpdfを参照されたい。

免責事項

免責事項では、入力するアミノ酸配列、つまり改良したいタンパク質に毒性や病原性があるか、こちらが指定する特に注意するべきタンパク質のリストに当てはまるかを確認している。これによって、利用者に改めて配列の危険性の有無を把握させる役割を担っており、悪用に対する抑止力として機能する。

チームが独自で作成したリストは、日本語版は日本の厚生労働省が作成している規制対象リストである”病原体等の名称と疾患名称の対照表”を参考に、英語版はアメリカ合衆国の保健福祉省 (HHS) の傘下にある疾病予防管理センター (CDC) と、農務省 (USDA)が共同で作成している”Select Agents and Toxins List”を参考にして作成した。これは日本国内と日本国外とではリストに差があり、それぞれを分けたリストとすることで利用者が研究をする環境によりあったものを提供したいという意図である。

LEAPS_Disclaimer_ja.pdf

利用規約

利用規約では、まずLEAPS-Softwareを開発した理念を示している。これにより、タンパク質研究の発展に寄与するための開発であるという我々の姿勢を明確にし、利用者の適切な利用へと繋げる意図がある。

また、利用者とサービス提供者である我々の責任と権利を明確に示している。利用者が公共の安全・倫理に反する行為にLEAPS-Softwareを利用することを明確に禁じ、利用開始前に表示される免責事項や利用規約、プライバシーポリシーに同意した上での利用を義務付けた。法令遵守についても、免責事項よりも詳細に記述されている。これによって、悪用があった場合の責任の所在は利用者であることを定めている。一方で、我々の責任としては、入力された情報の厳格な管理について詳細に記述している。これは、研究者が未公開の研究データを入力して利用するということの重大性をサービス提供者として真摯に受け止め、安心して研究に役立ててもらえるようにする意図がある。

その他、サービスの停止やロゴの使用など重要な権利に関する規定を設けている。

LEAPS_Terms of Use_ja.pdf

プライバシーポリシー

LEAPSでは研究情報の保持の観点から、利用者のチャットに第三者がアクセスできないようメールアドレスを用いた利用登録を行なっている。これに伴い、個人情報の扱いについて定めたプライバシーポリシーを作成した。個人情報が指し示す内容や、収集後の利用用途、保存期間などに関して詳しく定めている。利用者の権利が侵害されないよう対応について明示することによって、利用者の安全・安心を担保する目的がある。

LEAPS_Privacy Policy_ja.pdf

Slide 1Slide 2Slide 3Slide 4Slide 5

© 2025 - Content on this site is licensed under a Creative Commons Attribution 4.0 International license

The repository used to create this website is available at gitlab.igem.org/2025/tsukuba.