補足資料に関する研究の最新動向

はじめに

Science Aidリサーチャーの鈴木貴之です。本日は、ライフサイエンス論文に付随する補足資料について話題提供します。

補足資料とは?

本記事で扱う「補足資料」とは、ライフサイエンス論文本文(PDFでダウンロードする論文内)に含まれていない追加資料を指します。多くの場合は、Web論文ページに、Supplementary MaterialsやSupplementary Informationといったリンクがあり、そこから個別にアクセスまたはダウンロードできます。

歴史的には、2000年以降ウェブ出版の普及により、オンライン上で大規模データ、画像、動画、コードを公開できるようになり、本文とは別に補足資料として提供されるようになりました (DOI: 10.1186/s12859-015-0668-z)。補足資料は、研究結果の詳細情報を確認したり、研究の再現や検証を行う際に利用される場合が多いかと思います。

また、NCBIEBIが提供するサービスを使うことで、API経由で補足資料ファイルも含めた文献データを効率的に取得することも可能です。

補足資料の利点と課題

利点

  • 本論文の簡潔さを保ちつつ、詳細情報を提供出来る
  • 実験手順や解析データを補足することで、再現性の確保につながる
  • 表や動画など、本文に収めきれない大規模情報を公開できる

課題

  • 情報量が過剰になりやすい
  • 多くは十分に査読されず、品質保証が難しい
  • ファイル形式や命名規則がバラバラで、アクセスがしづらく読みずらい
  • リンク切れ・非公開化などでアクセスできなくなることも多い

補足資料に着目する意義は?

近年のライフサイエンス実験技術(シーケンス技術など)の発展により、一研究あたりに付随するデータ量が増加している傾向にあります。例えば、遺伝子発現解析データ、タンパク質発現解析データ、統計解析の詳細、メタデータ・サンプル情報(研究に使用した実験データ・サンプルのID、実験条件の詳細など)等が挙げられます。

これらの情報は、本文ではなく補足資料に収録されることが多くなっています。場合によっては本文中で言及されない解析結果データ、データベースIDや遺伝子名などが補足資料にのみ記載されていることもあります (後述の論文で報告されています)。したがって、網羅的な情報収集が必要な際には、補足資料の確認も必要と考えられます。

さらに近年では、既存研究データを統合的に再解析することで、新たな研究仮説をデータ駆動的に生成する取り組みも進んでいます (10.3390/biomedicines9050582)。こうしたデータ駆動解析においては、再解析するデータが多いほど意義のある結果につながります。すなわち、適切な補足資料も含めることで、より多様かつ豊富なデータに基づいた解析が可能となり、新しい知見や研究仮説の発見につながる可能性が高まると考えています。

これまでの補足資料研究

近年、ライフサイエンスの補足資料を対象とした研究は増えてきているようです。いくつか代表的な例を紹介します。

2023年には、ゲノム変異体情報の探索における補足資料の有用性を示す研究が報告されています。研究チームはPubMed Centralの約20%となる約80万件の論文に基づく補足資料をインデックスし、補足資料を含めることでゲノム変異の情報探索へもたらすインパクトを考察しています。結果としては、補足資料を検索に利用することで、利用しない場合に「見つからなかった」とされていた変異の約63%程度が検索ヒットするようになったと報告されています。この結果は、遺伝子変異体の検索において、補足資料は情報源として考慮すべきであるということが示唆されています (10.1093/database/baad017) 。

2024年にも非常に興味深い研究が報告されています。研究チームは、補足資料から大規模に哺乳類の遺伝子名を抽出し、検索可能にしたウェブアプリケーションRummageneを報告しました。解析対象は12万件におよぶ補足資料で、そこから64万の遺伝子セットを抽出したとされています。Rummageneは単なる遺伝子セットの検索機能のみならず、エンリッチメント解析や遺伝子機能予測も実行可能です (10.1038/s42003-024-06177-7)。補足資料に埋もれていた遺伝子セットを掘り起こし再利用可能とすることで、今後の遺伝子機能に関する研究への貢献が期待されます。

このように、補足資料を体系的に活用する試みが徐々に広がりつつあり、今後のライフサイエンス研究における知識発見の基盤となることが期待されます。

最新動向:2025年に報告された補足資料のデータベース

今年(2025年)、Swiss Institutes of Bioinformatics(SIB)は、様々な種類の補足資料ファイルの中身をテキストデータとして抽出し、データベース化したことを報告しました。PubMed Central Open Access Subsetに含まれる約620万件の論文から補足資料ファイルを2年間かけて収集・処理し、補足資料の内容を検索可能とし、一般公開しました。この補足資料データは、研究チームがこれまで提供してきたthe SIB Literature Services (SIBiLS) の一部サービスとして提供されています。

これは、補足資料がこれまでインデックスされておらず検索に引っかからないために多くの重要な情報が埋もれていた、という課題の解決に向けた大きな成果となると考えられます。

研究手法

  • PMC Open Access Subsetに含まれる論文の補足資料を自動収集
  • MeSH、DrugBank、Open Tree of Lifeなど13種類のコントロールボキャブラリを利用し、補足資料の内容をテキスト情報として抽出し、検索可能なファイルとしてデータベース化

研究成果

  • 補足資料全体から、1200以上のファイルタイプを発見
  • 本文に記載されていないデータベースIDが補足資料にのみ存在する事例を確認
    • 特にGene Ontology (GO) IDや、Human Protein Atlas IDが補足資料のみに記載されるケースが多い
  • SIBiLSの有用性のユースケースを報告
    • 例:POLG1 遺伝子を検索すると、本文のみでは61件だが、補足資料を含めると221件に増加

未対応事項

  • オープンアクセス論文に限定
  • zip形式の補足資料は未対応
  • FigshareやZenodoなど外部リポジトリのデータは未処理
  • 全ての補足資料ファイルからテキスト情報を抽出できたわけではないようです。テキスト情報が空の補足資料ファイルも散見されます。

補足資料データ検索・取得の方法

  • Web UIの使い方
    • SIBiLSBiodiversityPMCから補足資料の検索が可能です。
    • 下記は”oxidative stress”をクエリに補足資料を検索したスクリーンショットです。
    • ヒットしたそれぞれのファイルのLinksにカーソルを合わせると、Supp. data text fileという項目が出てくるので、そのリンクにアクセスすると補足資料のテキスト情報ページにとびます。

“oxidative stress”検索クエリでヒットする補足資料(Supplementary data)

補足資料”PMC10028207_Table_2.xlsx”のテキスト情報

下記は、私がテキスト情報の取得に使っているPython関数例です。

def get_supp_text(file_name:str):
    """
    指定された補足資料ファイルのテキストを取得する
    Args:
        file_name (str): 補足資料ファイル名
    Returns:
        str: テキスト内容、またはNone(エラーの場合)
    """
    base_url = "https://biodiversitypmc.sibils.org/api/fetch?ids="
    
    name = file_name + "&col=suppdata"
    url = base_url + name
    print(f"アクセスURL: {url}")
   
    response = requests.get(url)
    response.raise_for_status()
        
    # JSONレスポンスをパース
    data = response.json()
        
    # テキストを抽出
    text = None
    if data.get('success') and 'sibils_article_set' in data:
        articles = data['sibils_article_set']
        if articles and 'document' in articles[0]:
            text = articles[0]['document'].get('text', '')
    return text

まとめ

補足資料は、これまでインデックスされずに埋もれてきた有用な研究情報です。2024年のRummageneや2025年のSIBiLSへの追加機能といった新しいプラットフォームの登場により、その活用インフラが整いつつあります。補足資料は単なる参考資料としてだけでなく、二次分析やメタ解析に用いることで新たな仮説や示唆を生み出すかもしれません。私自身も、SIBiLSのようなサービスの活用を積極的に研究に取り入れていきたいと考えています。

【AI for Science試行録】第3回 Biomniソースコード検証 Part1

2025年6月2日にbioRxivで報告された、スタンフォード大学によるバイオメディカル汎用AIエージェントBiomniは、そのソースコードが公開されています。公式ドキュメントによるとはBiomniをフル環境で動かすにはUbuntu環境での10時間の環境構築が必要とされていますが、研究によっては手軽に手元のコンピュータで動かしたいケースも想定されます。

AI for Science試行録の第3回では、Biomniのソースコードを少々カスタマイズし、手元のMacBookで動作するのかを試した結果を報告します。さらに、Biomniへの新機能追加についても試してみたので、その結果も共有します。

検証環境

結果1:MacBookでの動作確認

  • MacBook上で無事動作しました。
  • 今回の検証では、以下の2点を主なカスタマイズポイントとしました。
    • Dockerの活用
      • Biomniではconda環境を使うので、Dockerコンテナ内に環境を構築。
    • 使用するデータベースやツールの取捨選択
      • Biomniの環境設定ファイル(bio_env.yml, data_lake.py)を編集し、MacBookのarm64アーキテクチャで動かないライブラリや、今回の検証で不要なデータベース・ツールのダウンロード・インストールを除外。
  • これらにより最小限の環境でBiomniエージェントを起動させることができ、必要なデータベースやライブラリが利用可能となっていることも確認しました。
    • test.ipynbでは、一例としてpymedというライブラリが利用可能となっていることを確認しています。

結果2:新機能追加の検証(MCPサーバーの活用)

Biomniは、外部MCPサーバーを容易に追加し、機能を拡張する機能を持っています。これを使って、既存Biomniでは対応が困難であった、柔軟なPubMed検索機能を追加できるかを試しました。

検証内容

  • 「2015年2月5日から2月28日の間の、PMC Open Aceess Subsetに含まれるレビュー論文のPMIDリストを出力する」というタスクを実行しました。

検証結果

標準のBiomni

  • 標準のBiomniではタスクの回答が得られませんでした。(長時間のトライアンドエラーが続いたため、途中で処理をストップしました。)

  • 標準のBiomniでは、query_pubmed という関数が呼び出され、その関数内ではpymedというライブラリが使用されています。pymedではstr型のクエリ内容を受け取りPubMedAPIリクエストを送るという機能しかありません。つまりPubMed特有の検索ルールを標準のBiomniが認識できていないことが、日付やPMC Open Access Subset、文献タイプによる複雑な条件での検索ができなかった原因です。

※ 検証の際の処理の詳細は、test.ipynbをご確認ください。

MCPサーバーを追加したBiomni

  • 今回の検証では、私が個人的に作成したPubMed検索スクリプトMCP形式に変換し、PubmedSamplerというMCPサーバーとして利用しました。名称から受ける印象に反して、PubMedに対して複雑な条件検索を行える関数を備えています。

  • PubmedSamplerをBiomniに連携させたところ、タスクは成功し、正解である5件の論文IDを取得できました。

  • PubmedSamplerのBiomniへの連携は下記の順に行いました。

    • mcp_config.yamlファイルを作成し、Biomniのrootディレクトリに配置
    • PubmedSamplerをBiomniのrootディレクトリに配置
    • エージェント起動後に、agent.add_mcp(config_path="./mcp_config.yaml")という1行を実行
  • PubmedSamplerのget_pmids_for_date_range関数では、日付、PMC Open Access Subset絞り込みの有無、文献タイプを引数として受け付けており、それらの情報を使ったAPIリクエスト方法が記述されています。MCPサーバーの追加により、この関数が参照可能となったためBiomniはスムーズにタスクを完了することができました。

※ PubmedSamplerおよび検証処理の詳細は、PubmedSampler-MCP-Servertest.ipynbをご確認ください。

課題

  • 特定のLLMでのエラー: gpt-5gpt-oss を利用する際にエラーが発生。今後は、これらLLMでの動作確認も進める必要があります。
  • 他のOSでの動作: 今回はMacBookのみで検証しましたが、Windowsなど他のOSでも同様に動くか確認が必要です。
  • 別の拡張方法: MCPサーバー以外に、直接ソースコードに関数を書き込んで新機能を追加する方法については未検証です。

まとめ

今回の検証から、Biomniは少々のカスタマイズによりラップトップ環境でも十分に活用できる可能性が高いことがわかりました。また、MCPサーバーの追加もそこまで煩雑ではなく、現時点では拡張性の高さを感じています。

今回の検証で使用したスクリプトは、https://github.com/science-aid/biomni_lightにまとめました。必要に応じてご使用ください。

【AI for Science試行録】第2回 特殊な要件を満たす文献セットの取得

Science Aidの鈴木です。AI for Science試行録の第2回は、ユーザーの特殊な要求に対してBiomniとFuturehouseがどのように処理を行うかを観察してみました。

AI for Scienceタスク

  • 特殊な要件を満たす文献セットの取得

下記がエージェントに入力したクエリとなっています。

あなたのタスクは、PubTatorおよびPubMedを用いた文献選定とフィルタリング処理です。以下の手順を順に実行してください 。

目的:PubTatorから2024-2025年の論文をランダム抽出し、特定の条件でフィルタリングしてPubMedIDリストを出力する。

処理手順、

Step 1: 論文データの取得

  • PubTator APIまたはデータベースから2024-2025年に発行された論文を取得
  • ランダムサンプリングで2000件を抽出
  • 各論文のメタデータ(タイトル、アブストラクト、生物種情報、遺伝子情報、PubMedID)を保持

Step 2: 生物種フィルタリング

以下のモデル生物を除外し、これらに該当しない生物種を対象とした論文のみを残す:

除外対象モデル生物リスト:

  • Escherichia coli
  • Saccharomyces cerevisiae
  • Schizosaccharomyces pombe
  • Bacillus subtilis
  • Dictyostelium discoideum
  • Caenorhabditis elegans
  • Drosophila melanogaster
  • Mus musculus
  • Rattus norvegicus
  • Bombyx mori
  • Schmidtea mediterranea
  • Ciona intestinalis
  • Danio rerio
  • Strongylocentrotus purpuratus
  • Oryzias latipes
  • Coturnix japonica
  • Xenopus laevis
  • Arabidopsis thaliana
  • Oryza sativa
  • Solanum lycopersicum
  • Lotus japonicus

フィルタリング条件:

  • 論文のタイトル、アブストラクト、キーワード、生物種タグに上記生物種が含まれる場合は除外
  • 学名の部分一致も考慮(例:E. coliS. cerevisiae等の省略形も除外)

Step 3: 遺伝子名記述論文の抽出

タイトルとアブストラクトに具体的な遺伝子名の記述がある論文のみを抽出:

遺伝子名の識別パターン:

  • 大文字で始まる3-8文字程度の遺伝子名(例:CsE74A, GAPDH, P53, ATP1A1)
  • イタリック体で表記された遺伝子名
  • 遺伝子名の後に数字や文字が続くパターン(例:CsE74A1, beta-actin)
  • 一般的な遺伝子命名規則に従うパターン

具体的な検索条件:

  • 正規表現パターン: [A-Z][A-Za-z0-9]{2,7}[A-Z0-9]*
  • ハイフンやアンダースコアを含む遺伝子名も考慮
  • 生物種略称の後に、遺伝子名が記載されている場合も含む(例:CsE74A)
  • PubTatorの遺伝子アノテーションがある場合はそれも利用

除外すべき一般用語:

以下のような一般的な略語は遺伝子名から除外:

  • DNA, RNA, ATP, GTP, GDP, ADP, etc.
  • PCR, qPCR, RT-PCR等の実験手法
  • ELISA, SDS-PAGE等の分析手法
  • 単位や化学式(mg, ml, CO2, H2O等)

Step 4: 結果出力

フィルタリング完了後、以下の形式で結果を出力:

`=== フィルタリング結果サマリー ===

初期抽出論文数: 2000件

生物種フィルタリング後: [X]件

遺伝子名記述フィルタリング後: [Y]件

=== PubMedIDリスト ===

[PubMedID1]

[PubMedID2]

[PubMedID3]

...`

重要な注意事項

  1. データ精度: PubTatorの生物種アノテーションが不完全な場合があるため、テキストベースの検索も併用する
  2. API制限: PubTator APIのレート制限を遵守し、必要に応じて処理を分割する
  3. エラーハンドリング: ネットワークエラーや不正なデータに対する適切な例外処理を実装
  4. 進捗報告: 処理の進捗を定期的に報告する
  5. データ保存: 中間結果を保存し、処理が中断された場合の復旧を可能にする

処理完了の確認

  • 全ステップが正常に完了したことを確認
  • 最終的な論文数が妥当な範囲内であることを検証
  • PubMedIDの形式が正しいことを確認

この処理を開始してください。

つまりやりたいこととしては、下記3点のサブタスクになります。

  1. 2024-2025年のPubMed論文から2000件をランダムに取得
  2. 非モデル生物を対象とした研究論文に絞り込む
  3. 遺伝子名がタイトルもしくはアブストラクトに記述されている論文に絞り込む

使ったAIエージェント

今回のタスクでエージェントに求める能力

  • ユーザーの求めるタスクを把握する能力
  • 特殊な要件を満たす文献セットを取得する能力
    • 任意に指定した範囲のPubMed文献から、任意の数の文献をランダムにサンプリングする能力
    • 論文内で対象とされている生物種を判断する能力
    • 論文のタイトルとアブストラクトから遺伝子名があるかを判断する能力

Biomni

タスク把握能力

  • 私の入力を元に、Biomniがプランしたタスクは下記8点でした。
  • タスクの把握について問題はなさそうです。
  1. Set up necessary imports and helper functions
  2. Research PubTator API endpoints and access methods
  3. Implement function to retrieve 2024-2025 papers from PubTator
  4. Randomly sample 2000 papers from the retrieved data
  5. Create model organism filtering function to exclude specified species
  6. Implement gene name detection and filtering function
  7. Apply filtering pipeline and generate final results
  8. Save results to output directory with proper formatting

2024年のPubMed文献の中から2000件をサンプリングするタスク

  • 失敗
  • biomniがやろうとしていることは正しいのですが、下記のPubMedAPIエンドポイントへ問い合わせるためのURLが間違っています。

      URL: https://eutils.ncbi.nlm.nih.gov/entrez/eutils/esearch.fcgi?db=pubmed&term=2024%5Bpdat%5D&retmax=3000&retmode=xml
      Found 1734669 total papers for 2024
    
    • 上記のURLだと2024という文字列が含まれる文献がヒットしてしまうので、1734669件という非常に多くの論文がヒットしてしまっています。
    • 実際には、https://eutils.ncbi.nlm.nih.gov/entrez/eutils/esearch.fcgi?db=pubmed&term=filter[all] AND “journal article”[pt]&retmax=10000&retmode=xml%mindate=2024/01/01&maxdate=2024/12/30というURLである必要があります。
    • さらに、これではPubMed APIの限度である9999件を超えてしまうので、2024年1月から6月、7月から12月、など2回に分けて問い合わせる必要があります。
    • 現在のエージェントシステムでは、上記のような少し込み入った作業は未対応のようです。
    • [20250811追記] Pymedというシンプルなパッケージを使っているので、クエリパラメータの理解をLLMの内部知識に依存していることが原因の一つと考えられます(参照:https://zenn.dev/roy29fuku/scraps/4fc0ddf94c8176#comment-3e5175aff1a0c6)。

モデル生物を対象とした論文をリストから除外するタスク

  • 失敗
  • biomniが事前に作成したモデル生物の文字列リスト(eg: "Oryza sativa", "O. sativa", "O.sativa", "rice", "Mus musculus", "M. musculus", "M.musculus", "mouse", "mice", など)を論文のタイトルとアブストラクトと比較し、文字列マッチした論文を除外するという処理を行なっていました。
  • 足りなかったこととしては、下記となります。
    • PubTatorのSpeciesタグが未確認
    • biomniが作成したリストは網羅的ではない(eg: patientsなどがアブストラクトに入っているとヒトを対象とした研究のことが多いが、patientsが取り除くリストに入っていない)

遺伝子名を認識するタスク

  • 失敗
  • 理想としてはLLMを使って判別をして欲しかったですが、biomniは愚直に正規表現等を使って遺伝子名の有無を判断するPythonスクリプトを生成しました。
  • 試みとしてはいいのですが、正規表現ではノイズを大量に拾ってしまい、余計な文献を選抜してしまっています。
    • 例えば、Detected genes: ['pre-term', 'full-term', 'no-triptan', 'US-based'] のような単語たちを遺伝子名と認識して処理してしまっています。

全体の感想

  • タスク把握能力は有能
  • 他のタスクは惜しい部分もあるが、失敗
  • 本件のような複雑なタスクにおいて、後述するfalconと比較すると、非常に優秀
  • CodeActアプローチなので、基本的に失敗の原因はbiomniが書くPythonコードに存在します。失敗の原因が明確となり、修正検討をしやすい点が良いと思いました。
  • そもそもバイオメディカルを目的としたエージェントなので、非モデル生物に関するタスクの処理は困難であることが予想されます。

Falcon (futurehouse)

タスク把握能力

  • 失敗
  • biomniのようにプランしたタスク一覧が表示されないので不明ですが、明らかに私の意図とは違う作業を行なっているようです。
  • Paper Searchと呼ばれる処理を行われていました。
    • 2024[dp] OR 2025[dp], min_year: 2024, max_year: 2025というクエリで得られる合計166の文献の中身を読み、それをまとめる処理を実行。

2024年のPubMed文献の中から2000件をサンプリングするタスク

  • 失敗
  • タスクを把握した形跡もなければ、実行した形跡もない。

遺伝子名を認識するタスク

  • 失敗
  • タスクを把握した形跡もなければ、実行した形跡もない。

全体の感想

  • 特殊なタスクには不向き
  • futurehouseについては、規定されている用途(例えばfalconであれば、produces a long report with many sources, good for literature reviews and evaluating hypotheses) に合致するタスクのみに対応していそう

できたこと

  • Biomniは、ユーザーの要求を理解する能力が非常に優秀。
  • Biomniは、CodeActアプローチが採用されており、分割されたサブタスクごとにPythonコードを生成するため、もしタスクが失敗してもその原因を特定しやすいという利点があります。また、生成されたコードをローカル環境で少し修正して使うという用途もあるかと思いました。

まとめ

  • 今回の特殊な要求については、現状ではbiomniとfuturehouseのどちらで処理するのも難しいという結論に至りました。
  • biomniは惜しい部分もありましたが、必要な3つのタスクのほとんど全てで失敗という結果でした。しかし、タスク実行のために生成されたPythonコードの一部には有用なものがありました。
  • 一方、Futurehouseは、今回のタスクのような特殊な要求の実行には不向きだと考えられます。

20250810追記

  • 先日の私の入力に、致命的な私のミスを発見
    • 除外する生物種リストにヒトが入っていなかった。
  • 上記のミスを修正、および前回のタスク失敗の原因を入力に加え、サブタスクごとに再実行

タスク1:2024年のPubMed文献の中から2000件をサンプリングするタスク

  • 結果:
    • 成功
  • 参考情報:
    • 適切なAPIリクエストを実行。
    • 依頼内容に追加で、生物種や遺伝子MeSHが付いている文献の割合まで出してくれた。

タスク2: モデル生物を対象とした論文をリストから除外するタスク

  • 結果:
    • 失敗
  • 参考情報:
    • 引き続きPubTatorのSpeciesタグが未確認。
    • Taxonomy IDを与えたが、使用していない。

タスク3: 遺伝子名を認識するタスク

  • 結果:
    • 失敗
    • 2000件の文献のうち、13件に絞り込まれた。
    • 目視確認すると、そのうち4件は目的対象と判断できる論文だったが、残りの9件はモデル生物を対象、もしくは生物を対象としていない研究だった。
  • 参考情報:
    • 偽陽性の削除のためにbiomniは何度もコード生成と実行を再試行しているが、結局多くのノイズを拾っている。
    • そもそもタスク2が失敗しているので、必要な文献が抜けている。

※ 余談: AI for ScienceとAI for Research

ここからは本記事とは関係のない、まったくの余談です。

下記論文(https://arxiv.org/pdf/2507.01903)にて、AI for ScienceとAI for Researchの言葉の使い分けが書かれていました。彼らによるとAI for Researchの方が、AI for Scienceより幅広い認識らしいです。この試行録はAI for Research的な内容も含むかもしれないですが、AI for Scienceではじめたので、そのままの名前で続けていきます。

【AI for Science試行録】第1回:研究課題の探索

Science Aidの鈴木です。隔週でAI for science情報を共有していこうと思ってます。

今回は、難しいタスクだとは思いつつ、研究課題を考える材料として、AIエージェントによる文献調査能力とアイデア提案能力を使ってみました。

AI for Scienceタスク

  • 「酸化ストレス」を対象とするドライ研究の新規課題候補を見つける。
    • 「酸化ストレス」は幅広い生物種に存在する仕組みで、研究量や研究領域が非常に多い分野。
    • 2025年の現在における、解決/未解決情報を改めて整理したい。
    • 上記を踏まえて、現在のドライ研究者はどこの領域を課題とすべきか、アイデアを調査したい。

使ったAIエージェント

今回のタスクでエージェントに求める能力

  • 先行研究の調査能力
  • イデアの提案力

AIエージェント使ってみた感想と知見(2025年7月13-18日)

  • 1週間弱の利用なのでまだ情報が浅いですが、それぞれのエージェントを使った感想を下記テーブルにまとめてみました。

AIエージェント比較表

Manus

項目 内容
長所 ・browser useに強い様子
・処理が早い
欠点 ・情報量が少なめ
・使用されたLLMや中間処理の詳細がわからない
・参考文献の不備が多い
期待するところ ・無料枠の増量
先行研究調査能力 ・参考情報程度に有用
イデア提案力 ・参考情報程度に有用

Falcon (futurehouse)

項目 内容
長所 ・projectsフォルダが便利
・出力情報が濃密
・タスク実行情報がリッチ
欠点 ・処理に少し時間がかかる
期待するところ OSS (Robin) も試したい
・Platformの処理速度の向上
・Projectsフォルダの使いやすさの向上
・今後のモデル(Finchなど)
先行研究調査能力 ・非常に有用
・幅広い観点に基づいた情報
イデア提案力 ・参考情報程度に有用

Biomni

項目 内容
長所 ・中間処理の詳細が明示
・オープンなSlackチャンネルあり
欠点 ・1回の入力タスクが多すぎるとエラーになる (20250718時点)
・Webアプリは承認が必要
期待するところ ・まだ使用できていないが、データ解析やデータベース活用関連のタスクに有用そう
OSSの有用性も検証したい
先行研究調査能力 ・かなり要約された情報
イデア提案力 ・シンプルだけど鋭い気がする
・幅広い提案
・提案のために様々なライフサイエンスデータベースへの検索調査をしてくれる

共通項

項目 内容
長所 ・ユーザーの入力に基づいたToDoタスクリストが生成される
先行研究調査能力 ・生成の根拠とされた参考文献が出力される
  • あくまで鈴木個人の意見なので、皆様の異論やご意見もぜひ教えてください!
  • 現状の感想を一言ずつまとめると、下記です。
    • falconは文献調査が得意そう。濃密な報告書が返ってくる。
    • Biomniは小さめタスクに分けて使う。中間処理の内容が明確なのがいい。
    • Manusは処理が非常に早い(その分、1回で返ってくる情報量は少なめ)。大きめのタスク(30行くらい)を一度に投げてもさくっとこなす。
  • 現状は3つを同時並行で使っていく形が便利そうだなと思いました。
  • 個人的には、根拠情報を辿るという意味合いでは、Biomniとfalconの使い勝手が良いと思っています。特にBiomniはタスク処理の内容が明確で辿りやすい点が便利でした。
  • 今後も使いながら情報更新していき、また共有したいと思います。(ChatGPT Agentも試したい)

できたこと

  • 「酸化ストレス」についての幅広い背景知識とトレンド情報の一部を得ることができた。
  • 「酸化ストレス」という幅広い研究分野の中の、注目領域の候補を効率的に収集できた
    • 下記が今回得られた注目領域の例:
      • 酸化ストレス vs 酸化ユーストレス
      • 活性酸素種によるエピジェネティック制御メカニズム
      • 極端な環境に住む生物における適応
      • 臨床表現型データと酸化ストレスマーカー
      • 進化的に保存されたレドックス制御モジュール
  • 注目領域における未解決問題候補を効率的に収集できた

まとめ

  • 得られた情報はあくまでアイデアや候補と考え、最終的には出力される参考文献などを詳しく読みながら自身の研究課題を詰めていく予定です。
  • とはいえ、研究分野の全体像をざっくりと把握する、という意味合いではAIエージェントは有用だと思いました。効率的な全体像の把握 > 論文を読む際の理解力の向上 > 訴求力のある研究計画作成、といった良いサイクルの原動力になるのではないかな、と思います。
  • 特に研究を始めたての段階、研究の方向性を少し変えてみようかなと考えている段階、の場合に有用かと思いました。

今後もテクノロジーをどのように研究に役立てるのか、地道に探っていこうと思います。 引き続きよろしくお願いいたします。

文献からの遺伝子名認識について

fukuリサーチャーの鈴木貴之です。本日は、文献からの遺伝子名認識と抽出についての調査結果を紹介します。

遺伝子名認識技術の重要性

遺伝子研究は日々進展しており、特に非モデル生物(研究が十分に進んでいない生物)に関するゲノム・遺伝子機能の理解は、今後の大きな発展が期待される分野です。こうした研究を支える基盤として、先行研究の調査は不可欠であり、PubMedをはじめとするライフサイエンス系の文献データベースが広く活用されています。

しかし、こうした文献データベースを用いた遺伝子名での検索には課題があります。PubMedのAutomatic Term Mapping(https://pubmed.ncbi.nlm.nih.gov/help/#automatic-term-mapping)と呼ばれる検索システムは、通常は包括的な文献検索を可能にしますが、遺伝子名には限定的にしか適用されません。そのため、遺伝子名の表記ゆれや同名異義語によって、検索結果にノイズが混入したり、逆に重要な文献が見落とされるといった問題が生じます。たとえば、マウスの Pten遺伝子について調べたい場合、ヒトや他の生物種にも同名のオーソログ遺伝子が存在するため、それらが一括でヒットしてしまいます。さらに、PTEN, BZS, CWS1, phosphatase and tensin homologなど、多様な表記が混在するため、検索精度の担保が困難です。

このような課題に対処するために、遺伝子名認識(gene mention recognition) 技術が重要な役割を果たします。これは、文献中などの自然言語で記述された遺伝子名を検出し、それをEntrez GeneやEnsemblなどの標準化されたIDに変換(正規化)する技術です。上述の例において、遺伝子名が生物種ごとの一意のIDと結びつけられていれば、マウスのPten遺伝子に関する文献だけを抽出するといった、より精緻な情報検索が可能になります。このような適切な情報へのアクセスは研究成果データの利活用促進に繋がり、研究促進にも貢献すると考えられます。実際に、NCBI(National Center for Biotechnology Information)が提供するPubTator3 (https://www.ncbi.nlm.nih.gov/research/pubtator3/)はこの遺伝子名認識技術を活用した検索システムの好例です。

このように、文献中の曖昧な遺伝子表現を構造化し、標準化する技術は、研究者が正確かつ網羅的に先行研究にアクセスし、活用していく上で、今後ますます重要になると考えられます。

遺伝子名認識の難しさ

文章から遺伝子を正確に把握するタスクの難しさについて、実例とともにいくつかの課題を紹介します。

略語のあいまいさ

略語は、同一表記が複数の意味を持つために解釈が困難なケースがあります。たとえば「TF」という略語は、文脈によって意味が大きく異なります。Allie by DBCLS(https://allie.dbcls.jp/short/exact/Any/TF.html)によると、「TF」には953種類の展開形が確認されています。頻繁に使われる展開形は、1位がTranscription factor (転写因子)、2位がTissue Factor (組織因子)であり、79位には遺伝子名であるtransferrinも存在します。「TF」という略語が登場した際に、それが一般的な生物学概念(例:転写因子)を指しているのか、特定の生物種に属する遺伝子を指しているのかを判断するには、文脈の理解が必要です。人間にとっては明白なことが多いですが、機械的な判断は高度なタスクであると考えられます。

表記揺れと同義語の多様性

遺伝子の表記は一貫していないことが多く、多様な同義語や表記揺れが存在します。たとえば「IL6(インターロイキン6)」は、炎症反応や免疫応答に関わるサイトカインの1つですが、文献中ではさまざまな表記が用いられます。IL6、IL-6、IL 6、Interleukin 6、さらにはBSF2, IFNB2, CDF, HSFなど、同義語が多数存在します。これらの表現を網羅的に正規化しなければ、検索漏れや誤マッピングが発生する恐れがあります。また、IL6は多くの生物種に存在するため、生物種の特定も必要になります。さらには、IL6がタンパク質名を指すのか、それをコードする遺伝子名を指すのかなどの区別も必要です。このような区別は文脈に依存しており、単純な文字列マッチングでは対応が困難です。

専門知識を要する高難度タスク

このような曖昧性や多義性の課題に加えて、表記された遺伝子の文献中における位置付けも注釈に加えるケースがあります。例えば文献中のメインテーマとなる遺伝子であれば「STARGENE」、新たな機能が報告された遺伝子の場合は「GENERIF」、単純に言及された遺伝子は「GENE」、などとカテゴリ分けします。このようなタスクは、専門知識と文脈理解を要するため、容易ではありません。たとえば、2021年に公開されたNLM Gene Corpus (https://doi.org/10.1016/j.jbi.2021.103779)は、米国国立医学図書館(NLM)が主導し、20年以上の経験を持つ専門家6名によって人手によりマニュアル遺伝子名認識タスクが実施されたデータセットです。作業対象は550件の文献タイトルおよび要旨に及び、詳細なガイドラインに従って遺伝子名の識別・正規化・カテゴリ分けが行われました。このような事例は、遺伝子名認識というタスクが、専門知識と熟練を要する作業であることを物語っています。

マニュアル遺伝子注釈付けのガイドライン

遺伝子名認識技術の開発および評価には、専門家が手動で注釈付けした高品質な回答データセットが不可欠です。特に、機械学習を用いた手法では、訓練データの不完全性がモデル性能の劣化や誤学習に直結するため、精度の高いアノテーションが求められます。

前章でも言及した、2021年に米国国立医学図書館(NLM)によって作成された NLM Gene Corpus は、こうした目的に応じて詳細な注釈ガイドラインの下で作成されました。注釈は20年以上の経験を持つ専門家6名により行われ、文献のタイトルとアブストラクトを対象に遺伝子名の識別と役割分類が実施されました。その際に参照可能な補助資料(DOI: 10.1016/j.jbi.2021.103779)では、注釈対象の定義および分類基準が詳細に記載されています。

このガイドラインはその後も広く受け入れられており、2023年のBioCreative VIII(生命科学情報抽出の国際共同タスク)においても、新規に400件の文献に対してマニュアル遺伝子名認識が行われた際に採用されました。

以下に、NLM Geneガイドラインにおける主な注釈方針を要約します:

遺伝子名の注釈ルール(抜粋)

  1. アノテーション対象と範囲
    • Annotatorは文献のタイトルとアブストラクトを対象に遺伝子名を注釈付する。必要に応じてフルテキストを参照する。
  2. 遺伝子の分類カテゴリ
    • GENERIFNCBI Geneに登録すべき新たな機能的知見を含む主要遺伝子。自動的にSTARGENEにも分類。
    • STARGENE:文献の主題であるが、NCBI Geneへの登録対象ではない遺伝子。
    • GENE:一般的な文脈で言及されている遺伝子。
    • DOMAIN:タンパク質ドメインやモチーフとしての言及。
    • OTHER:技術名やマーカーとしての遺伝子表現など、補助的役割での使用。
  3. 特殊なアノテーションの取扱い
    • 例: "Smad 1, 2, and 8" のような複数遺伝子の併記は、3つそれぞれの遺伝子IDにアノテーションされ、表現全体が一括でハイライトされる。
    • 複数の生物種にまたがる同一遺伝子(例:"ヒトおよびマウスのIL6"など)は、種別ごとに異なるIDがアノテーションされる。
    • 遺伝子ファミリーへの言及は、該当するすべての遺伝子メンバーのIDを付与する。
    • 曖昧または抽象的な言及(例: "gene A", "compound X")は対象外とする。
    • 治療技術の構成要素として使用される遺伝子も基本的に注釈対象外とされる。

このガイドラインは、機械による自動注釈を目指す上での理想的な判断基準の指示プロトコルと位置付けることができると考えます。言い換えれば、本ガイドラインが示すレベルの理解と分類を、将来的には機械が自動で高精度に実行可能になることが目標といえます。

機械的な遺伝子名認識技術とその精度

代表的な遺伝子名認識手法とその精度について、最近の動向を含めて紹介します。

初期の代表的なシステムがGNormPlus(2015年)(https://doi.org/10.1155/2015/918710)です。NCBIのPubTator Centralというサービスの内部でも使われていた技術となります。これは、CRF(条件付き確率場)という統計モデルを使い、各単語に「遺伝子名の一部かどうか」というラベルを割り当てる「シーケンスラベリング」の考え方に基づいています。特徴量設計やルールベースの後処理も組み合わせることで、F1スコア0.87という高い精度が実現されました。評価にはBioCreative II GNコーパスが使われており、ヒト遺伝子に特化した262文献を対象としています。

その後継となるGNorm2 (2023年) は、PubTator3.0などの内部処理に活用されており、機械学習手法もより現代的になっています。具体的には、PubMedBERTやBioformerといった大規模な事前学習済みの言語モデル(いずれもTransformerのエンコーダ構造)を活用しており、従来のCRFベースよりも高い柔軟性と精度を誇ります。NLM Geneコーパスを使った評価では、F1スコアが0.89を超えると報告されています。エラーとしては、遺伝子名の境界のずれ、生物種の誤認識、タンパク質との混同などが指摘されています。

From Figure1 of https://doi.org/10.1093/bioinformatics/btad599. The overall workflow of GNorm2

また、SciLinker(2025年)(https://doi.org/10.3389/frai.2025.1528562)という手法では、Python自然言語処理ライブラリ(spaCyやStanzaなど)をベースに、BiLSTM-CNN-Charモデルで構築されたStanzaのNERモデルを用いて遺伝子名を認識しています。訓練データとしてBioNLP13CGという比較的古いが広く使われるデータセットが使われ、F1スコアは0.84でした。

一方、EXTRACT2.0(2017年)(https://doi.org/10.1101/111088)は辞書ベースのアプローチを採用しています。Gene OntologyやSTRINGなどの既存データベースから得られる語彙を使ってマッチングを行いますが、表記ゆれへの対応や新規語への柔軟性は機械学習系よりも劣ります。

近年は大規模言語モデル(LLM)を活用した手法が注目されています。例えばBioNER-LLaMA(2024年)は、Meta社のLLaMA 7Bモデルに指示チューニング(instruction tuning)を行い、生命科学系のエンティティ抽出に特化したモデルです。NLM Geneコーパスを使った評価では、PubMedBERTやGPT-4よりも高精度で、strict F1が約0.83、partial F1では0.95以上という性能を記録しました。略語の誤認識、境界エラー、抽出漏れなどが代表的なエラーです。

From Figure1 of 10.1093/bioinformatics/btae163. Framework for the development of instruction tuned large language models utilizing existing NER datasets.

以上のように、機械的な遺伝子名認識は、CRFからBERT、そしてLLMといった多様な技術が応用されてきています。一方でいくつかの技術では異なる評価データセットを使っているため、単純な性能比較は困難であり、技術選定の指針を得ることは依然として難しい現状があると考えられます。さらに、略語のあいまいさ、生物種ごとの違い、文脈依存表現といった課題は依然として残っており、今後の継続的な改善と工夫が必要と考えられます。

まとめ・考察

遺伝子名認識の重要性については、生命科学分野の多くの研究者の間で共通認識が形成されているかと思われます。重要であるからこそ、比較的最近の2023年においてもBioCreative VIIIにより、専門家による手動注釈に基づく回答データセットの拡充が実施されました。これにより、遺伝子名認識技術の性能向上および客観的評価の基盤が強化されつつあります。

一方で、回答データセットの作成には高い人的・時間的コストが伴うため、データの網羅性と多様性には依然として限界があります。具体的には、2020年以降のデータに限定すると、NLM Gene Corpus(550件)、BioCreativeによる新規データ(400件)、およびEBIが提供するEurope PMC由来のフルテキスト注釈データ(300件)を合わせても、回答付き文献数は合計1350件にとどまっています。既存の1350件が、機械的な遺伝子名認識技術の性能評価や比較において、統計的・実用的に十分かどうかは、今後の検証が必要と思われます。

さらに、既存データセットはモデル生物や頻出遺伝子に偏る傾向があり、非モデル生物や低頻度遺伝子の表記揺れ、図表中の遺伝子名表現など、現実の文献に見られる多様な表記に対応できていない可能性が高い点も課題の1つと考えています。これらをカバーする評価データの整備は、今後の技術発展と実運用への応用に向けて重要と考えられます。

2025年BioHackathon国内版参加報告 by suzuki

先日、DBCLS(ライフサイエンス統合データベースセンター)主催の「2025年BioHackathon国内版」に参加しました。本記事はその参加報告です。

DBCLS は、2007年からライフサイエンスデータの利活用を目指したデータベース開発を行っている機関です。特に知識グラフを活用した情報統合に力を入れており、様々なデータベースやツールの開発に取り組まれています。

BioHackathonとは?

BioHackathonは、ライフサイエンス研究に携わる様々な分野の研究者、技術者、エンジニア、学生などが集まり、お互いに協力しながらデータベースや関連技術を活用して、研究や開発を集中的に進める場です。

今回は福井県の三国で開催されました。スケジュールは、1日目がDBCLSと質量分析インフォマティクス学会によるワークショップ、2日目の午前に自己紹介と課題出し、2-4日目に研究・開発に取り組み、5日目に成果発表という流れでした(私は参加しませんでしたが、3日目には恐竜博物館と東尋坊へのエクスカーションも企画されていました)。参加者の自己紹介や各グループが取り組んだ課題のスライドは、下記GitHub内のリンクに整理されています(https://github.com/dbcls/bh25.7/wiki)。

2025年BioHackathon国内版の様子

私自身、学生時代から何度か参加させていただいており、自身が取り組んでいる課題の研究意義を考え直すきっかけになったり、データ収集や解析、取り扱いに関する実践的なアドバイスをいただいたりと、毎回非常に有意義な時間を過ごさせてもらっていました。

会期中は1週間、ほとんど会場に缶詰状態となり、多くの方と話す機会があります。現在進行形の研究の話や、研究の歴史の話、さらには皆さんの人生経験なども聞く機会があり、刺激的です。大浴場での雑談や、夜にはお酒を交えたディスカッションなど、普段の学会では得られないようなリラックスした雰囲気での交流ができる点も魅力のひとつだと思います。Science Aid代表の山田さんとも、初めての出会いはこのBioHackathonで、研究の話をきっかけに交流が始まりました。

今回の取り組み

今回のBioHackathonでは、主に2ヶ月前から取り組んでいる、ライフサイエンス文献の補足資料に着目した研究に集中して取り組みました。補足資料は検索が難しく見逃されがちですが、データ駆動型研究にとって重要な手がかりとなる情報が多く含まれている可能性があるため、調査を進めています。例えば、18種類の論文誌から均等に収集した4155件の補足資料を調査したところ、合計で63種類ものファイル形式(拡張子)が含まれていることがわかりました。(※ 20250724アップデート:BioHackathon後に発見した2025年6月25日に発行された下記論文によると、3500万件程度の補足資料データを解析し、1200種類以上のファイル形式が確認されたようです。Unlocking the potential of PubMed Central Supplementary Data Files)。これは、補足資料に多様な情報が含まれていることが示唆される一方で、それらを整理・利活用するには大きなハードルとなっていることがわかります。研究はまだ初期段階で、課題の重要性を検証するフェーズなので、共同での開発といった形ではありませんでしたが、多くの方から貴重なご意見をいただき、議論を深める良い機会となりました。特にDBCLSには、私の研究課題と近いテーマに過去取り組まれていた方がいらっしゃったため、非常に鋭いアドバイスを数多くいただけたのは大きな収穫でした。

また、DBCLSのサービスの一つであるTogoTV(ライフサイエンス分野のツールやデータベースの使い方を紹介する動画コンテンツサービス)が、今回のBioHackathonでの開発取り組みインタビュー動画を撮影する試みを行うと聞き、私もインタビューに参加させていただきました。口下手と緊張が発動してしまい動画編集のご負担になってしまっているかもしれませんが、研究の背景や課題意識を簡潔に言語化する機会となり、自身の理解を整理する良い訓練にもなりました。

BioHackathonに参加されている皆様は、それぞれの領域における深い専門知識や熱意を持たれているように感じ、毎度刺激をいただいています。いつもお世話になりっぱなしで、それでも懐深く惜しみなく知識や経験を共有してくださるコミュニティの皆さんに感謝しております。今後は、私もコミュニティに何か貢献できるよう、さらに精進していきたいと思っています。

論文の著作権や再利用について

fuku株式会社の鈴木貴之です。ライフサイエンス分野のデータ利活用促進を目指して研究を行っています。最近は特に論文内で表現される情報の再利用促進に興味を持っています。

論文の発行数は年々増えており、一部の研究者からは人間の手に負える出版量を超えているという意見も出てきています(例: https://arxiv.org/pdf/2309.15884)。膨大となりつつある論文情報ですが、その中から適切な論文に網羅的かつ効率的にアクセスし利活用できるかどうかが、研究促進や発展に欠かせないと考えています。

先行研究の調査や引用のために論文が用いられることはもちろんですが、近年では、先行知見の統合解析、自然言語処理や大規模言語モデルによる知識抽出、さらには機械学習のための学習データ等としても再利用される機会が増えているように思います。こうした変化も踏まえ、改めて科学論文の著作権的な取り扱いや、再利用の実態について調査してみました。

本記事では、2025年5月時点の現在における下記3点について調査した結果を共有します。

  1. 科学論文のライセンスについて
  2. 利活用可能な論文数の増加について
  3. 大規模な論文再活用の事例

1 科学論文のライセンスについて

科学論文は、文章や図を用いて研究成果を発表した表現物であり著作物として認識されます。よって論文の創作と同時に作者に著作権が発生します。その著作権の取り扱いは、主に従来型(購買型・クローズド)、オープンアクセス誌(OA)、ハイブリッドオープンアクセス誌(ハイブリッドOA)の3つの形態に現状では区分されています。

従来型(購読型・クローズド)

従来の形式では、科学誌に論文を投稿する際に出版社との間で著作権譲渡契約が結ばれ、著作権の一部または全部が出版社に移転することが一般的です。出版社がその論文の発行・配信および商業的利用の管理権を保持する形になります。

例えば、AAASが発行する Science は主に購読型の論文誌として知られています。多くの場合、著者は論文の著作権をAAASに譲渡する契約を結び、論文は購読者のみがアクセスできる形式で公開されます。基本的には、出版社の許可がなければ、こうした論文をテキストマイニング等の機械的な論文再利用の対象として利用することはできません。

オープンアクセス誌(OA)

近年では、更なる研究成果の共有と再利用を促進するためのオープンサイエンスの潮流を受け、誰でもアクセス可能なオープンアクセス論文を出版する論文誌(オープンアクセス誌)が増えています。オープンアクセス誌では、著者がAPC(Article Processing Charge)を支払うことで読者からの購読料は不要となっています。また、出版社への著作権譲渡ではなく、著者が一定の権利を保持する契約形態となっています。著者は論文データの再利用条件を指定できるようになっており、その際に Creative Commons(CC)ライセンスが多く採用されています。

CCライセンスには「表示(BY)」「非営利(NC)」「改変禁止(ND)」「継承(SA)」の4つの基本要素があり、それらを組み合わせた6種類の主要なライセンス形態が提供されています。詳細は Creative Commons に記載されています。

例えば、Springer Natureが発行する Nature Communications および Scientific Data は、すべての論文がオープンアクセスとして公開される完全OA誌(Gold Open Access Journal)です。例えばNature Communicationsでは、CC BYライセンス化での出版を標準とし、必要に応じてCC BY-NC-NDやCC BY-NC-SA等の別ライセンスを選択することも可能という規約になっています。

ハイブリッドオープンアクセス誌(ハイブリッドOA)

オープンアクセス誌は全ての論文において著者のAPC支払いが必須である一方で、ハイブリッドオープンアクセス誌(ハイブリッドOA)は、希望する場合のみ比較的高額なAPCを支払うことで、その論文のみをオープンアクセス化できる仕組みです。この場合も著作権の扱いはオープンアクセス誌と同じで、著作権は著者に残り非独占的ライセンスを出版社に許諾するという形になります。

例えば、Springer Natureが発行する Nature Biotechnology は基本的に購読型のジャーナルですが、著者がAPCを支払えばOA論文として出版することが可能です。

論文のライセンスに関する補足情報

  • 近年は Rights Retention Strategy(RRS)も注目されています。これは、著者が特定のライセンスによる公開権を投稿前に明示し、たとえ購読型雑誌であっても、自らのリポジトリ等でOAとして公開することを可能にする手法です。ただし、一部の出版社ではこの方針を認めておらず、論文の受理自体が拒否される場合もあるようです。

  • 論文誌からオープンアクセスとして公開される論文はGold Open Access、論文誌ページ以外の場所で自ら公開したOA論文のことをGreen Open Accessと呼びます。Green Open Accessについては、出版社から定められているGreen OAによる猶予期間(エンバーゴ期間)を超えてから公開することが可能です。

  • アメリカのライフサイエンス研究最大の資金提供機関であるNIH(National Institutes of Health)は、2025年7月1日からオープンアクセスに関するルールを改定します。NIHの資金を受けた研究成果は出版と同時にOAで公開することが義務化(これまでは最大12ヶ月間のエンバーゴ期間が許容されていた)されます。今後も更なる論文のOA化が進むことが予想されます。 NIH Public Access Policy Overview | Data Sharing https://osp.od.nih.gov/policies/public-access/

テキストデータマイニング(TDM)の可否

テキストデータマイニング(TDM)の可否については、国ごとの法制度により微妙に異なるようで、統一見解はないようです。よって、TDMにおいては出版社のポリシーや個別のライセンス条件に留意する必要があります。例えば、商用利用目的でのTDMにおいては、ライセンスの確認が必要です(例:CCライセンスのNCが付与されている論文の場合は、商用利用目的でのTDMは不可)。また、TDM後の資料は、場合によりAdapted Materials(著作物の改変物)に該当するため、それを共有・公開する際には、TDM前の著作物に付与されているライセンスの確認が重要となります(例:CCライセンスのNDが付与されている場合は、改変物の共有は不可)。

※ Adapted Materialsは、「原著作物を改変・翻案して新たに作成された著作物」を指します。例えば、原著論文からTDMを通じて新たな知識表現(例:ナレッジグラフや関係抽出表など)を生成した場合、それが元の構造や表現を保持している場合に、Adapted Materialとみなされる可能性が高いと考えられます。一方で、TDMによって得られたデータから解釈した結果、例えば、統計的な傾向、単語の頻度情報など、原文の構造や著作性を含まないものはAdapted Materialsとはみなされません。 Content mining - Creative Commons

小括(1 科学論文のライセンスについて)

小括すると、論文誌には購買型、完全OA型、ハイブリッドOA型の3種類が存在します。論文の機械学習やTDMへの利用可否は、主に論文に付与されたライセンスと著者・出版社のポリシーに依存します。例えば、本記事の中盤で紹介させていただくPubMed Central OAサブセットやEurope PMC OAサブセットのようにTDMが許可された論文群もありますが、NC(非営利)やND(改変禁止)付きの場合は慎重な取り扱いが必要です。

2 利活用可能な論文数の増加について

PubMedはライフサイエンス分野において頻繁に使用される文献データベースかと思います。U.S. National Institutes OF Health’s National Library OF Medicine (NIH/NLM) により管理されています。2025年5月12日時点における論文収載数は、3800万を超える数、38,794,907件です。2000-2024年のPubMed論文数の推移はFig1となっており、2000年の頃の約3倍の論文が毎年PubMedに登録されています。2024年のPubMedへ登録された論文数を1,700,000件とすると、1分に約3件の論文がPubMedに登録されている計算となり、近年の論文数の増加は著しいことがわかります。

Fig1: 2000-2024年のPubMed論文数の推移

PubMed Central (PMC) は、ライフサイエンス論文の全文を無料で公開しているサービスです。これら論文は全て無料で読むことは可能ですが、機械学習テキストマイニング等のために再利用ができる論文はその中の一部であり、PMC Open Access Subsetと呼ばれています。PMCで”open access[filter] “と検索するとそのSubsetにアクセスすることができ、2025年5月22日時点で、約690万の文献がSubsetに含まれています。PMC Open Access論文数の2000-2024年の推移を可視化すると、Fig2のようになっています。PubMedにも増して顕著な増加傾向が確認されます。最も登録が多い2022年の論文数834,545件は、2000年の5,618件の約148倍です。PubMedと同様に2023年以降の論文数の増加率は鈍化しつつあることがわかりますが、依然として多くの論文が毎年PMCに登録されており、このペースでいくと、大規模に利活用できる論文数は今後も日々増大していくことが予想されます。

Fig2: The PMC Open Access論文数の2000-2024年の推移

PMC Open Access Subsetは、主にEntrez Programming Utilities (E-utilities)と呼ばれるインタフェースを使ってアクセスすることが一般的です。E-utilitiesを使うことでOA論文を機械的に処理することが可能となっています。また、私個人としてはあまり使った経験がないのですが、FTP Service, BioC API Serviceなども機械的なアクセス手段として用意されているようです。

Europe PMCは、ヨーロッパのEuropean Bioinformatics Institute (EBI) で管理される文献データベースです。2025年5月23日時点で、PubMedを超える4600万件以上の文献が登録されています。OAのフルテキスト論文は約107万件です(https://europepmc.org/search?query=HAS_FT:Y)。Fig3のような論文数の推移がグラフとして下記URLに載っています(https://europepmc.org/downloads/openaccess)。Europe PMCにおいても、専用のAPIFTPサイトを通じて、OA論文を機械的に再活用することが可能です。

Fig3: Europe PMCにおける論文数の推移

3 大規模な論文再活用の事例

今回は、大規模に論文情報を活用した研究をいくつか調査してみました。調査結果を簡単に共有します。

Data-driven historical characterization of epilepsy-associated genes (https://doi.org/10.1016/j.ejpn.2022.12.005)

こちらの論文では8,032件のPubMed論文要旨を対象として、解析を行い、脳の疾患であるてんかんに関連する遺伝子を網羅的に探索しています。探索条件を少し緩めと厳しめの2パターン用意し、2種類の関連遺伝子群を抽出しました。厳しめの探索パターンでは、8,032件の論文解析結果に加え、手動での品質管理も実施することにより、信頼性が高い遺伝子が抽出されており、その中には既知の遺伝子に加えて、臨床パネルには含まれていない遺伝子も見つかったようです。大規模な文献情報の解析が、機能性遺伝子の抽出に活用されています。

Systematic illumination of druggable genes in cancer genomes (https://doi.org/10.1016/j.celrep.2022.110400)

この研究は新規のPotential Druggable Genes(PDGs: 薬剤で標的にできる遺伝子の候補)を探索した結果を報告しています。16のがん関連特徴を使うことで、6083個のPDGsのそれぞれを評価して、スコア付けしています。つまりPDGsスコアの高い遺伝子は、がん治療における有望な遺伝子である可能性が高いことになります。文献情報が有効活用されたのはこの後になっています。有望な遺伝子について、どれだけの文献で何回出現したかを調査しています。つまり文献データベースでの出現率が低い遺伝子は、これまであまり着目されていなかった遺伝子といえるため、未開拓だが治療標的としては有望な遺伝子といえます。こちらの研究においても、大規模な文献情報の解析により見過ごされている遺伝子の発見に貢献をしています。

A study on large-scale disease causality discovery from biomedical literature (https://doi.org/10.1186/s12911-025-02893-0)

SemRepと呼ばれる、医学論文からルールベースで疾患の関係性を抽出するツールにより、新たな疾患の関係性を発見する土台を作ったという報告論文になります。専門家の詳細な語彙ルール評価により因果関係抽出ルールを進化させ、SemRepの精度が最大96.97%まで向上されました。精度の上がったSemRepを使うことで、実際にこれまで未着目である因果関係の発見が見込めるようです。例として、肥満と閉塞性睡眠時無呼吸症候群についてなどの「高頻度差の双方向性疾患因果関係性」というものが挙げられています。一方の方向への因果は強いが、逆方向への因果は弱い関係性を示します。また、歯周病が稀に敗血症性肺塞栓症(SPE)の原因となるといったような「稀な因果関係」についてもこれまでより抽出が可能になるようです。OA論文サブセットを知識発見の基盤として活用し、さらに論文情報の構造化により有用知見の発見に繋げた例といえるかと思います。

まとめ

今回は、論文のライセンス、利活用可能な論文数の増加、大規模な論文活用事例、の3点について共有させていただきました。まだまだクローズドな論文が多い現状もありますが、比較的オープンアクセス論文の増加量の方が多く、大規模に解析できる論文が増えてきているかと思います。論文で表現されている情報を統合的に再解析し新たな視点で知識抽出を行うことで、これまでに気づけなかった仮説や知見が生まれる可能性があると考えています。