S a f e t y   a n d   S e c u r i t y

Lab Works

P1に該当する生物・遺伝子の安全な使用と組換え

The Plan and Its Rationale

我々はラボ実験をするに当たって、カルタヘナ法を遵守した。宿主としては大腸菌Escherichia coli、特にJM109とBL21を使用した。遺伝子はGFP、β-ラクタマーゼ、PETaseなど比較的安全なものを使用した。また、宿主範囲が狭いベクター(PUC、PET28a)を使用した。指定されたP1レベルの実験施設にてのみ組換え実験を実施した。封じ込め操作として、使用済みの器具および遺伝子組換え生物(大腸菌)はすべてオートクレーブ(121℃、20分)で不活化した。オートクレーブが不可能な器具は、100ppm以上の次亜塩素酸ナトリウム溶液または紫外線照射で滅菌した。そして運搬時の二重梱包を徹底した。これらの操作によって適切な拡散防止措置を行った。安全に実験を行うため、本実験従事者全員が筑波大学の遺伝子組換え従事者研修コースで実験設備の詳細な内容、対象生物のバイオセーフティレベルに応じた知識、輸送および処理方法について学習した。また、本Projectの特徴としてAIによって生成された遺伝子配列の利用がある。AIによって生成された変異体は予期せぬ機能や生物学的活性を示す可能性がある。これに対応するため、生成された変異体タンパク質を含む組換え大腸菌は上記の適切な生物の使用や適切な封じ込め操作を行った。

Relevant Articles

「遺伝子組換え生物等の使用等の規制による生物の多様性の確保に関する法律」第12条および第13条がこれに該当する。

Toxic Protein Filtering for Software

AI技術を用いたタンパク質設計の危険性

近年、生命科学分野では人工知能(AI)の進歩が著しく、その中でも AlphaFold や protein Language Models(pLMs) といった技術は、タンパク質の構造予測や設計を飛躍的に効率化するツールとして注目を集めている。これらの技術は創薬、酵素工学、バイオマテリアル開発など、幅広い応用可能性を秘めており、従来であれば数年を要した設計工程が数週間から数日のスケールで進められるようになってきた。

しかしその一方で、AI技術による急速なタンパク質設計の普及は、バイオセーフティおよびバイオセキュリティの観点から新たなリスクを伴う。最大の懸念は、設計や改良が比較的容易に行えてしまうことであり、研究者の意図に反して危険な機能を持つ新規タンパク質が生み出される可能性がある点である。例えば、通常は無害な酵素を改変した結果、毒性のある副作用を持つ変異体が生成されるリスクや、病原体の機能強化に悪用されうる危険性が議論されている[1][2][3][4]。

SOC(Security of Concern)の概念

この文脈で特に注目されるのが SOC(Sequences of Concern) という概念である。SOCとは、病原体や毒素に関連する遺伝子配列、あるいはその一部が危険な機能を発揮する可能性がある配列を指す。国際的な研究コミュニティでは、SOCに該当する配列を特定し、研究や産業利用に際して適切に規制・監視することが重要とされている。AIを活用した設計ツールは、このSOCに近似する配列を意図せず生成する可能性を孕んでおり、強力なチェック機構が不可欠である[1][2]。

レッドチーミング(Red Teaming)

さらに、AI技術の危険性を浮き彫りにする実践的な取り組みとして レッドチーミング(Red Teaming) がある。これは本来セキュリティ分野で用いられる手法で、想定される攻撃者の立場に立ってシステムの脆弱性を検証する試みである。近年、生命科学やAIバイオの領域でもこの手法が導入され、AIを用いて「意図的に」危険なタンパク質を生成できるかどうかが検証されている。その結果、特定のアルゴリズムを利用することで実際に有害な性質を持ちうる配列が設計可能であることが示され、国際社会に大きな衝撃を与えた。[5]

LEAPS-Softwareのような設計ツールとリスク管理

LEAPS-Softwareのような効率的かつ革新的なタンパク質設計ツールには、「危険性のある配列を生成しない」ためのフィルタリングや安全管理の仕組みを内包することが必須となる。研究者は単に新規配列を創り出すだけでなく、SOCのデータベースや危険性スクリーニング技術を組み合わせて、社会的に受容可能な範囲でAI技術を活用する責任を負っている。

上記の理由から、本機能ではLEAPS-Softwareによって改良されたタンパク質配列を対象に、意図せざる有害機能やデュアルユースの懸念が含まれないかをスクリーニングする仕組みを追加する。
LEAPS-Softwareのように探索・設計能力の高い手法は、既存の人間の直観を超える新規機能を偶発的に獲得させる可能性がある。特に、病原因子に類似した活性残基の配置や、毒性ドメインに近いモチーフが設計過程で混入した場合、実験系における取り扱いや第三者による利用に際して重大なリスクを引き起こしうる。
したがって、生成された配列に危険性が潜んでいないかを事前にスクリーニングすることは不可欠である。

スクリーニングワークフローの全体像

対象は、LEAPS-Softwareが生成した新規改変後のタンパク質配列である。評価は配列類似性と構造類似性の双方から並列で危険性シグナルを判定する。

今回、配列相同性検索に加えて構造類似性検索を加えた理由は、配列の類似性が低くても、構造的に危険モチーフに収束している場合がありうるため、両者のクロスチェックが重要であると判断したためである。MMSeqs2とFoldSeekのパラメーターはデフォルトの設定を用いた。

スクリーンショット 2025-10-09 13.43.43.png

Fig. 1. Overview of screening workflow

ブラックリストの構築と公開方針

当初、私たちはiGEMコミュニティのために包括的な危険性のあるタンパク質のリストを作成することを考えていた。しかし、危険性のあるタンパク質の包括的なリストは悪用される危険性があることがIHPを通して分かった。そして、iGEMではすべての成果物をGitLabに掲載する必要があるため、今回GitLabに公開する、及びLEAPS-Softwareに使用するブラックリストは仮のブラックリストとして包括的なデータベースの全面公開は行わないこととした。

今回使用する仮のブラックリストは以下の手順で取得した。

1. MMSeqsによる配列相同性検索のためのデータセット

  1. Uniprot KBで2025/10/07にKW-0800とKW-0261のキーワードでかつReviewedの配列を取得して、重複を除いた。

  2. 冗長性を無くし簡潔なデータセットにするために、MMseqs2を用いてクラスタリングを行って配列の圧縮を図った。(fig. 2はFASTAの配列をESM2に通してエンベッティングを行い、1280次元をPCAで描画したものである。これを見ると、視覚的にも近縁な配列がクラスターを形成していることがわかる。

  3. クラスタリングした結果、2128個のクラスターを得てそれぞれの代表配列のみを集めた配列データセットを作成した。

Database_Clustering_ESM2embetting.png

Fig. 2. Clustering using ESM2 embeddings

2. FoldSeekによる構造類似性検索のためのデータセット

  1. 2128個の代表配列をColabfoldを用いて立体構造を取得して、立体構造データベースとした。

スクリーニングの限界と展望

計算効率の向上と今後の標準化に向けて

大規模なデータベースとの比較を実現するため、本プロジェクトではMMSeqs2(配列類似性検索)とFoldseek(構造類似性検索)という高速かつ高精度なツールを活用した。今後、同様の安全性プロトコルを導入する際には、International Biosafety and Biosecurity Initiative for Science (IBBIS) が提唱する共通プロトコル「Commec」を参考にすることを強く推奨する[7][8]。Commecは、合成生物学プロジェクトにおける安全性評価の標準化を目指した包括的な枠組みであり、研究コミュニティ全体での安全性向上に寄与することが期待されている。

類似性ベース手法の本質的課題

本プロジェクトで採用した配列類似性や構造類似性を基盤としたスクリーニング手法は、既知のデータベースとの比較によって機能を予測するという原理に依存している。この手法は既知の危険因子を効率的に検出できる一方で、既存のデータベースに記載のない未知の危険機能や、従来にない新規の生物学的機能については、類似性が低いために見逃されるリスクが高いという欠点がある。さらに、タンパク質構造予測における不確実性といった技術的限界も、現時点では避けられない課題として残されている。これらの問題は、安全性評価における偽陰性の可能性を示唆しており、今後の改善が求められる領域である。

iGEMコミュニティへの提言

今後、iGEMコミュニティ全体においても、AIを活用したDNA設計やタンパク質設計を中心としたプロジェクトが増加していくことは疑いの余地がない。この技術革新の波の中で、次世代の研究者には単なる技術的知識だけでなく、BiosafetyとBiosecurityに関する十分な理解を持つことの重要性を強調したい。責任ある研究実践とリスク評価の文化を醸成し、安全かつ倫理的なAI駆動型合成生物学プロジェクトの推進をコミュニティ全体で実現していくことが強く望まれる。

Disclaimer and Terms of Use

Background

フィルタリングの限界

LEAPS-Softwareには安全性を保証するためのブラックリストを用いたフィルタリングを実装している。このフィルタリングは毒素タンパク質やウイルスタンパク質配列検出に非常に有効である。一方でこの仕組みにはいくつかの限界がある。フィルタリングには主に、ブラックリストの選定と適正利用の妨害という2つの課題があり、それらを以下で解説する。

なお、フィルタリングを含めたSoftwareの安全管理策はHuman-Practiceの結果を受けて方針の決定や実装を行なった。詳細はIHPページのSoftwareを参照のこと。

ブラックリストの選定

我々が懸念している悪用は、主に強毒性を持つ改良配列の生成とこれを生物兵器に利用することなどである。これを防ぐためのブラックリストに選定するべき危険のあるタンパク質は毒素や病原性のあるものだ。しかし、毒素や病原性は一概に線引きをすることは難しい。

例えば毒素は暴露量以上で生体に悪影響を及ぼすが、それ以下であれば無害のものもある。また毒素は究極的にはただ生理活性の高い物質と表現できる。それゆえに一般的に毒性があると認められていなくても、許容量を超えたり、ある特性を高めたりすると有害になる可能性を秘めている。病原性であれば、人間には感染しなくてもトリやイヌには感染するものなど、宿主に依存して危険であるかが変化する。

以上に示したように、同じタンパク質配列であっても量や条件によって毒素とみなされるかは変化する。この性質がある限り、悪用の可能性があるタンパク質を一律の基準で完全に選び取ったブラックリストを作成することは非常に難しい。

適正利用の妨害

仮にブラックリストを完全に構築できても、その先で新たな課題に直面する。

ブラックリストを用いたフィルタリングの方法は主に2つある。1つ目は毒素や病原性を持つ危険なタンパク質が入力されることを防ぎ、ブラックリストに含まれるタンパク質配列での利用そのものを阻止する方法である。しかしこのシステムは適正な利用を妨害してしまうリスクがある。

毒素や病原体の研究には、医薬品開発も含まれる。適切な量で適切な場所に作用する毒素は医薬品となるし、病原性を持つタンパク質の研究はそのままワクチン開発と直結する。このような研究は我々が想定する悪用とは全く反対の、むしろ非常に有益な研究である。ブラックリストによるフィルタリングでSoftwareの利用が防がれてしまうと、このように適正な研究も一律で防ぐこととなる。これは我々がLEAPS-Softwareの開発にあたって掲げた「機械学習を用いたタンパク質改良を広く提供し、これによってタンパク質研究分野の発展を促進する」という理念と大きく反してしまう。

この適正利用の妨害を避けるため、ブラックリストに含まれるタンパク質配列であっても利用を認め、警告を出すのみに留めることが考えられた。これがフィルタリング方法の2つ目である。LEAPS-Softwareではこちらのフィルタリングを採用し、広くタンパク質研究の恩恵が得られることを優先した。ただし、このフィルタリングのみでは、悪用も簡単になってしまうため、別の対策を取る必要があった。

未公開研究データを入力することへの懸念

LEAPS-Softwareを利用するためには、まず初めに配列情報とその機能を数値で評価したデータセットを入力する必要がある。このデータセットはこれは未公開の研究情報にあたる。未公開の研究データは機密性の高いものであり、インターネット上にアップロードすることへの研究者の抵抗感があることが、IHPによって判明していた。また、インターネット上に悪用に備えてサービス提供側としてデータを保持しなければならないため、その必要性を説明する必要がある。また得た情報を我々が悪用しないことを約束する必要がある。

決定した対策

これらの経緯を踏まえて以下の方針に則り免責事項、利用規約、プライバシーポリシーを策定した。

  • 利用者の責任の範囲を明確にする

  • サービス提供者の責任の範囲を明確にする

  • 悪意ある第三者による誤用(悪用)を抑止する

これを利用者に表示・同意させることによって、LEAPS-Softwareの安全性を補強し、より安心して利用することのできるSoftwareを目指した。

免責事項などの策定意図及びその概要

免責事項

免責事項は主に利用者に改めて配列の危険性の有無を把握させる役割を担っている。

具体的には、毒素や病原体由来のタンパク質であるか、入力するアミノ酸配列が特に注意するべきタンパク質のリストに当てはまるかを、Yes/Noクエスチョンで確認させている。シンプルな構造であるが、危険な配列を扱っていることを改めて認識させることによって悪用を抑止する意図がある。

注意すべきタンパク質に関しては、各国の規制が異なることを考慮した上で日本語版と英語版でリスト化した。エボラウイルスのように世界的にそのリスクの高さが認知されている病原体等は多くの国で遺伝子の保持や合成が規制されているのに対し、日本脳炎ウイルスのように各国の土着の病原体等に関しては規制が異なっている。そのため、日本語版では日本の厚生労働省から発行されている”病原体等の名称と疾患名称の対照表”、英語版ではアメリカ合衆国の疾病予防管理センター (CDC) と、農務省 (USDA)が共同で作成している”Select Agents and Toxins List”を参考としている。利用者が自身の所属する国や地域に適したリストを確認することで、LEAPS-Softwareをよりスムーズに使用することが可能になる。

スクリーンショット 2025-10-09 14.35.09.png

Fig. 3. Project Start Screen Project Start Screen

プロジェクトの開始時に免責事項が表示されている様子。免責事項条文、条文内のリストについてはpdfを参照のこと。

LEAPS_Disclaimer_ja.pdf

利用規約

利用規約では、主に利用者の責任範囲とサービス提供者の責任範囲を明文化する役割を担っている。また、ここに加えてLEAPS-Softwareを開発した理念を示している。これにより、LEAPS-Softwareはタンパク質研究の発展に寄与するためのプロダクトとして提供するという我々の姿勢を強調し、利用者の適切な利用へと繋げる意図がある。

利用者の責任範囲は、Softwareに入力する配列、出力される配列の取り扱いの全てとし、この利用によって生じる利益・不利益は全て利用者に帰属すると定められている。特に、利用者が公共の安全・倫理に反する行為にLEAPS-Softwareを利用することを明確に禁じている。

サービス提供者の負う責任の範囲は、Softwareに入力された配列の取り扱い、サービスのメンテナンス、その他得られた個人情報の取り扱いの全てとした。ただし、出力配列の性能や処理時間などサービス提供の精度に関しては保証できないとした。ここにおいて、未公開の研究データについて言及することで、未公開データの入力が研究者にとって重大であることを真摯に受け止め、厳重に管理することを利用者に約束した。

またその他、サービスの停止やロゴの使用など重要な権利に関する規定を設けている。

この利用規約は利用開始時のアカウント作成時に案内を表示し、アカウントの作成完了と同時に利用者が同意したものとみなすことした。

利用者、サービス提供者双方の責任範囲を定め、情報の取り扱いについてもそこに含めることによって安心してサービスを利用してもらう意図がある。加えて、サービス提供者が悪用に加担しない姿勢を示すことによって、万が一悪用があった場合に備え、サービスをできるだけ持続できるような工夫をとっている。

スクリーンショット 2025-10-09 14.30.39.png

Fig. 4. Terms of Use Display Screen

全文についてはpdfを参照のこと。利用規約を作る際にはIDTのIDT Online Terms and Conditions of Sale[9]を参考にした。

LEAPS_Terms of Use_ja.pdf

プライバシーポリシー

LEAPSでは研究情報の保持の観点から、利用者のチャットに第三者がアクセスできないようメールアドレスを用いた利用登録を行なっている。これに伴い、個人情報の扱いについて定めたプライバシーポリシーを作成した。個人情報が指し示す内容や、収集後の利用用途、保存期間などに関して詳しく定めている。利用者の権利が侵害されないよう対応について明示することによって、利用者の安全・安心を担保する目的がある。

このプライバシポリシーの作成にあたって、私たちのチームには法務の専門家がいないため、文言の検討や表現の明確化にあたっては大規模言語モデルであるChatGPTによる提案と推敲の支援を受けた。あくまでも補助的な利用であり、内容の決定はチームが行った。

スクリーンショット 2025-10-09 14.31.25.png

Fig. 5. Privacy Policy Display Screen

全文についてはpdfを参照のこと。

LEAPS_Privacy Policy_ja.pdf

Reference

  1. International Gene Synthesis Consortium. (n.d.). IGSC Harmonized Screening Protocol v3.0 [PDF]. Retrieved from https://genesynthesisconsortium.org/wp-content/uploads/IGSC-Harmonized-Screening-Protocol-v3.0-1.pdf

  2. International Gene Synthesis Consortium. (n.d.). Home (IGSC). Retrieved from https://genesynthesisconsortium.org

  3. National Center for Biotechnology Information. (n.d.). NCBI Bookshelf. Retrieved from https://www.ncbi.nlm.nih.gov/books/NBK614591

  4. Integrated DNA Technologies (IDT). (n.d.). Biosecurity challenges in the age of AI. In Decoded+ Support & Education. Retrieved from https://sg.idtdna.com/page/support-and-education/decoded-plus/biosecurity-challenges-in-the-age-of-ai

  5. Ikonomova, S., Wittmann, B., Piorino Macruz de Oliveira, F., Ross, D., Schaffter, S., Vasilyeva, O., Strychalski, E., Horvitz, E., Diggans, J., Lin-Gibson, S., & Taghon, G. (2025). Experimental evaluation of AI-driven protein design risks using safe biological proxies. Science. Retrieved from https://www.nist.gov/publications/experimental-evaluation-ai-driven-protein-design-risks-using-safe-biological-proxies

  6. PMC. (n.d.). Article in PMC. Retrieved from http://pmc.ncbi.nlm.nih.gov/articles/PMC12158449/

  7. Laird, T. S., Flyangolts, K., Bartling, C., Gemler, B. T., Beal, J., Mitchell, T., Murphy, S. T., Berlips, J., Foner, L., Doughty, R., Quintana, F., Nute, M., Treangen, T. J., Godbold, G., Ternus, K., Alexanian, T., Wheeler, N., & Forry, S. P. (2025). Inter-tool analysis of a NIST dataset for assessing baseline nucleic acid sequence screening. bioRxiv (Cold Spring Harbor Laboratory).

  8. Wittmann, B. J., Alexanian, T., Bartling, C., Beal, J., Clore, A., Diggans, J., Flyangolts, K., Gemler, B. T., Mitchell, T., Murphy, S. T., Wheeler, N. E., & Horvitz, E. (2024). Toward AI-Resilient Screening of Nucleic Acid Synthesis Orders: process, results, and recommendations. bioRxiv (Cold Spring Harbor Laboratory).

  9. Usage, IDT Online Terms and Conditions of Sale (n.d.). Integrated DNA Technologies.

Slide 1Slide 2Slide 3Slide 4Slide 5

© 2025 - Content on this site is licensed under a Creative Commons Attribution 4.0 International license

The repository used to create this website is available at gitlab.igem.org/2025/tsukuba.