fukuリサーチャーの鈴木貴之です。本日は、文献からの遺伝子名認識と抽出についての調査結果を紹介します。
遺伝子名認識技術の重要性
遺伝子研究は日々進展しており、特に非モデル生物(研究が十分に進んでいない生物)に関するゲノム・遺伝子機能の理解は、今後の大きな発展が期待される分野です。こうした研究を支える基盤として、先行研究の調査は不可欠であり、PubMedをはじめとするライフサイエンス系の文献データベースが広く活用されています。
しかし、こうした文献データベースを用いた遺伝子名での検索には課題があります。PubMedのAutomatic Term Mapping(https://pubmed.ncbi.nlm.nih.gov/help/#automatic-term-mapping)と呼ばれる検索システムは、通常は包括的な文献検索を可能にしますが、遺伝子名には限定的にしか適用されません。そのため、遺伝子名の表記ゆれや同名異義語によって、検索結果にノイズが混入したり、逆に重要な文献が見落とされるといった問題が生じます。たとえば、マウスの Pten遺伝子について調べたい場合、ヒトや他の生物種にも同名のオーソログ遺伝子が存在するため、それらが一括でヒットしてしまいます。さらに、PTEN, BZS, CWS1, phosphatase and tensin homologなど、多様な表記が混在するため、検索精度の担保が困難です。
このような課題に対処するために、遺伝子名認識(gene mention recognition) 技術が重要な役割を果たします。これは、文献中などの自然言語で記述された遺伝子名を検出し、それをEntrez GeneやEnsemblなどの標準化されたIDに変換(正規化)する技術です。上述の例において、遺伝子名が生物種ごとの一意のIDと結びつけられていれば、マウスのPten遺伝子に関する文献だけを抽出するといった、より精緻な情報検索が可能になります。このような適切な情報へのアクセスは研究成果データの利活用促進に繋がり、研究促進にも貢献すると考えられます。実際に、NCBI(National Center for Biotechnology Information)が提供するPubTator3 (https://www.ncbi.nlm.nih.gov/research/pubtator3/)はこの遺伝子名認識技術を活用した検索システムの好例です。
このように、文献中の曖昧な遺伝子表現を構造化し、標準化する技術は、研究者が正確かつ網羅的に先行研究にアクセスし、活用していく上で、今後ますます重要になると考えられます。
遺伝子名認識の難しさ
文章から遺伝子を正確に把握するタスクの難しさについて、実例とともにいくつかの課題を紹介します。
略語のあいまいさ
略語は、同一表記が複数の意味を持つために解釈が困難なケースがあります。たとえば「TF」という略語は、文脈によって意味が大きく異なります。Allie by DBCLS(https://allie.dbcls.jp/short/exact/Any/TF.html)によると、「TF」には953種類の展開形が確認されています。頻繁に使われる展開形は、1位がTranscription factor (転写因子)、2位がTissue Factor (組織因子)であり、79位には遺伝子名であるtransferrinも存在します。「TF」という略語が登場した際に、それが一般的な生物学概念(例:転写因子)を指しているのか、特定の生物種に属する遺伝子を指しているのかを判断するには、文脈の理解が必要です。人間にとっては明白なことが多いですが、機械的な判断は高度なタスクであると考えられます。
表記揺れと同義語の多様性
遺伝子の表記は一貫していないことが多く、多様な同義語や表記揺れが存在します。たとえば「IL6(インターロイキン6)」は、炎症反応や免疫応答に関わるサイトカインの1つですが、文献中ではさまざまな表記が用いられます。IL6、IL-6、IL 6、Interleukin 6、さらにはBSF2, IFNB2, CDF, HSFなど、同義語が多数存在します。これらの表現を網羅的に正規化しなければ、検索漏れや誤マッピングが発生する恐れがあります。また、IL6は多くの生物種に存在するため、生物種の特定も必要になります。さらには、IL6がタンパク質名を指すのか、それをコードする遺伝子名を指すのかなどの区別も必要です。このような区別は文脈に依存しており、単純な文字列マッチングでは対応が困難です。
専門知識を要する高難度タスク
このような曖昧性や多義性の課題に加えて、表記された遺伝子の文献中における位置付けも注釈に加えるケースがあります。例えば文献中のメインテーマとなる遺伝子であれば「STARGENE」、新たな機能が報告された遺伝子の場合は「GENERIF」、単純に言及された遺伝子は「GENE」、などとカテゴリ分けします。このようなタスクは、専門知識と文脈理解を要するため、容易ではありません。たとえば、2021年に公開されたNLM Gene Corpus (https://doi.org/10.1016/j.jbi.2021.103779)は、米国国立医学図書館(NLM)が主導し、20年以上の経験を持つ専門家6名によって人手によりマニュアル遺伝子名認識タスクが実施されたデータセットです。作業対象は550件の文献タイトルおよび要旨に及び、詳細なガイドラインに従って遺伝子名の識別・正規化・カテゴリ分けが行われました。このような事例は、遺伝子名認識というタスクが、専門知識と熟練を要する作業であることを物語っています。
マニュアル遺伝子注釈付けのガイドライン
遺伝子名認識技術の開発および評価には、専門家が手動で注釈付けした高品質な回答データセットが不可欠です。特に、機械学習を用いた手法では、訓練データの不完全性がモデル性能の劣化や誤学習に直結するため、精度の高いアノテーションが求められます。
前章でも言及した、2021年に米国国立医学図書館(NLM)によって作成された NLM Gene Corpus は、こうした目的に応じて詳細な注釈ガイドラインの下で作成されました。注釈は20年以上の経験を持つ専門家6名により行われ、文献のタイトルとアブストラクトを対象に遺伝子名の識別と役割分類が実施されました。その際に参照可能な補助資料(DOI: 10.1016/j.jbi.2021.103779)では、注釈対象の定義および分類基準が詳細に記載されています。
このガイドラインはその後も広く受け入れられており、2023年のBioCreative VIII(生命科学情報抽出の国際共同タスク)においても、新規に400件の文献に対してマニュアル遺伝子名認識が行われた際に採用されました。
以下に、NLM Geneガイドラインにおける主な注釈方針を要約します:
遺伝子名の注釈ルール(抜粋)
このガイドラインは、機械による自動注釈を目指す上での理想的な判断基準の指示プロトコルと位置付けることができると考えます。言い換えれば、本ガイドラインが示すレベルの理解と分類を、将来的には機械が自動で高精度に実行可能になることが目標といえます。
機械的な遺伝子名認識技術とその精度
代表的な遺伝子名認識手法とその精度について、最近の動向を含めて紹介します。
初期の代表的なシステムがGNormPlus(2015年)(https://doi.org/10.1155/2015/918710)です。NCBIのPubTator Centralというサービスの内部でも使われていた技術となります。これは、CRF(条件付き確率場)という統計モデルを使い、各単語に「遺伝子名の一部かどうか」というラベルを割り当てる「シーケンスラベリング」の考え方に基づいています。特徴量設計やルールベースの後処理も組み合わせることで、F1スコア0.87という高い精度が実現されました。評価にはBioCreative II GNコーパスが使われており、ヒト遺伝子に特化した262文献を対象としています。
その後継となるGNorm2 (2023年) は、PubTator3.0などの内部処理に活用されており、機械学習手法もより現代的になっています。具体的には、PubMedBERTやBioformerといった大規模な事前学習済みの言語モデル(いずれもTransformerのエンコーダ構造)を活用しており、従来のCRFベースよりも高い柔軟性と精度を誇ります。NLM Geneコーパスを使った評価では、F1スコアが0.89を超えると報告されています。エラーとしては、遺伝子名の境界のずれ、生物種の誤認識、タンパク質との混同などが指摘されています。

また、SciLinker(2025年)(https://doi.org/10.3389/frai.2025.1528562)という手法では、Pythonの自然言語処理ライブラリ(spaCyやStanzaなど)をベースに、BiLSTM-CNN-Charモデルで構築されたStanzaのNERモデルを用いて遺伝子名を認識しています。訓練データとしてBioNLP13CGという比較的古いが広く使われるデータセットが使われ、F1スコアは0.84でした。
一方、EXTRACT2.0(2017年)(https://doi.org/10.1101/111088)は辞書ベースのアプローチを採用しています。Gene OntologyやSTRINGなどの既存データベースから得られる語彙を使ってマッチングを行いますが、表記ゆれへの対応や新規語への柔軟性は機械学習系よりも劣ります。
近年は大規模言語モデル(LLM)を活用した手法が注目されています。例えばBioNER-LLaMA(2024年)は、Meta社のLLaMA 7Bモデルに指示チューニング(instruction tuning)を行い、生命科学系のエンティティ抽出に特化したモデルです。NLM Geneコーパスを使った評価では、PubMedBERTやGPT-4よりも高精度で、strict F1が約0.83、partial F1では0.95以上という性能を記録しました。略語の誤認識、境界エラー、抽出漏れなどが代表的なエラーです。

以上のように、機械的な遺伝子名認識は、CRFからBERT、そしてLLMといった多様な技術が応用されてきています。一方でいくつかの技術では異なる評価データセットを使っているため、単純な性能比較は困難であり、技術選定の指針を得ることは依然として難しい現状があると考えられます。さらに、略語のあいまいさ、生物種ごとの違い、文脈依存表現といった課題は依然として残っており、今後の継続的な改善と工夫が必要と考えられます。
まとめ・考察
遺伝子名認識の重要性については、生命科学分野の多くの研究者の間で共通認識が形成されているかと思われます。重要であるからこそ、比較的最近の2023年においてもBioCreative VIIIにより、専門家による手動注釈に基づく回答データセットの拡充が実施されました。これにより、遺伝子名認識技術の性能向上および客観的評価の基盤が強化されつつあります。
一方で、回答データセットの作成には高い人的・時間的コストが伴うため、データの網羅性と多様性には依然として限界があります。具体的には、2020年以降のデータに限定すると、NLM Gene Corpus(550件)、BioCreativeによる新規データ(400件)、およびEBIが提供するEurope PMC由来のフルテキスト注釈データ(300件)を合わせても、回答付き文献数は合計1350件にとどまっています。既存の1350件が、機械的な遺伝子名認識技術の性能評価や比較において、統計的・実用的に十分かどうかは、今後の検証が必要と思われます。
さらに、既存データセットはモデル生物や頻出遺伝子に偏る傾向があり、非モデル生物や低頻度遺伝子の表記揺れ、図表中の遺伝子名表現など、現実の文献に見られる多様な表記に対応できていない可能性が高い点も課題の1つと考えています。これらをカバーする評価データの整備は、今後の技術発展と実運用への応用に向けて重要と考えられます。