補足資料に関する研究の最新動向

はじめに

Science Aidリサーチャーの鈴木貴之です。本日は、ライフサイエンス論文に付随する補足資料について話題提供します。

補足資料とは?

本記事で扱う「補足資料」とは、ライフサイエンス論文本文(PDFでダウンロードする論文内)に含まれていない追加資料を指します。多くの場合は、Web論文ページに、Supplementary MaterialsやSupplementary Informationといったリンクがあり、そこから個別にアクセスまたはダウンロードできます。

歴史的には、2000年以降ウェブ出版の普及により、オンライン上で大規模データ、画像、動画、コードを公開できるようになり、本文とは別に補足資料として提供されるようになりました (DOI: 10.1186/s12859-015-0668-z)。補足資料は、研究結果の詳細情報を確認したり、研究の再現や検証を行う際に利用される場合が多いかと思います。

また、NCBIEBIが提供するサービスを使うことで、API経由で補足資料ファイルも含めた文献データを効率的に取得することも可能です。

補足資料の利点と課題

利点

  • 本論文の簡潔さを保ちつつ、詳細情報を提供出来る
  • 実験手順や解析データを補足することで、再現性の確保につながる
  • 表や動画など、本文に収めきれない大規模情報を公開できる

課題

  • 情報量が過剰になりやすい
  • 多くは十分に査読されず、品質保証が難しい
  • ファイル形式や命名規則がバラバラで、アクセスがしづらく読みずらい
  • リンク切れ・非公開化などでアクセスできなくなることも多い

補足資料に着目する意義は?

近年のライフサイエンス実験技術(シーケンス技術など)の発展により、一研究あたりに付随するデータ量が増加している傾向にあります。例えば、遺伝子発現解析データ、タンパク質発現解析データ、統計解析の詳細、メタデータ・サンプル情報(研究に使用した実験データ・サンプルのID、実験条件の詳細など)等が挙げられます。

これらの情報は、本文ではなく補足資料に収録されることが多くなっています。場合によっては本文中で言及されない解析結果データ、データベースIDや遺伝子名などが補足資料にのみ記載されていることもあります (後述の論文で報告されています)。したがって、網羅的な情報収集が必要な際には、補足資料の確認も必要と考えられます。

さらに近年では、既存研究データを統合的に再解析することで、新たな研究仮説をデータ駆動的に生成する取り組みも進んでいます (10.3390/biomedicines9050582)。こうしたデータ駆動解析においては、再解析するデータが多いほど意義のある結果につながります。すなわち、適切な補足資料も含めることで、より多様かつ豊富なデータに基づいた解析が可能となり、新しい知見や研究仮説の発見につながる可能性が高まると考えています。

これまでの補足資料研究

近年、ライフサイエンスの補足資料を対象とした研究は増えてきているようです。いくつか代表的な例を紹介します。

2023年には、ゲノム変異体情報の探索における補足資料の有用性を示す研究が報告されています。研究チームはPubMed Centralの約20%となる約80万件の論文に基づく補足資料をインデックスし、補足資料を含めることでゲノム変異の情報探索へもたらすインパクトを考察しています。結果としては、補足資料を検索に利用することで、利用しない場合に「見つからなかった」とされていた変異の約63%程度が検索ヒットするようになったと報告されています。この結果は、遺伝子変異体の検索において、補足資料は情報源として考慮すべきであるということが示唆されています (10.1093/database/baad017) 。

2024年にも非常に興味深い研究が報告されています。研究チームは、補足資料から大規模に哺乳類の遺伝子名を抽出し、検索可能にしたウェブアプリケーションRummageneを報告しました。解析対象は12万件におよぶ補足資料で、そこから64万の遺伝子セットを抽出したとされています。Rummageneは単なる遺伝子セットの検索機能のみならず、エンリッチメント解析や遺伝子機能予測も実行可能です (10.1038/s42003-024-06177-7)。補足資料に埋もれていた遺伝子セットを掘り起こし再利用可能とすることで、今後の遺伝子機能に関する研究への貢献が期待されます。

このように、補足資料を体系的に活用する試みが徐々に広がりつつあり、今後のライフサイエンス研究における知識発見の基盤となることが期待されます。

最新動向:2025年に報告された補足資料のデータベース

今年(2025年)、Swiss Institutes of Bioinformatics(SIB)は、様々な種類の補足資料ファイルの中身をテキストデータとして抽出し、データベース化したことを報告しました。PubMed Central Open Access Subsetに含まれる約620万件の論文から補足資料ファイルを2年間かけて収集・処理し、補足資料の内容を検索可能とし、一般公開しました。この補足資料データは、研究チームがこれまで提供してきたthe SIB Literature Services (SIBiLS) の一部サービスとして提供されています。

これは、補足資料がこれまでインデックスされておらず検索に引っかからないために多くの重要な情報が埋もれていた、という課題の解決に向けた大きな成果となると考えられます。

研究手法

  • PMC Open Access Subsetに含まれる論文の補足資料を自動収集
  • MeSH、DrugBank、Open Tree of Lifeなど13種類のコントロールボキャブラリを利用し、補足資料の内容をテキスト情報として抽出し、検索可能なファイルとしてデータベース化

研究成果

  • 補足資料全体から、1200以上のファイルタイプを発見
  • 本文に記載されていないデータベースIDが補足資料にのみ存在する事例を確認
    • 特にGene Ontology (GO) IDや、Human Protein Atlas IDが補足資料のみに記載されるケースが多い
  • SIBiLSの有用性のユースケースを報告
    • 例:POLG1 遺伝子を検索すると、本文のみでは61件だが、補足資料を含めると221件に増加

未対応事項

  • オープンアクセス論文に限定
  • zip形式の補足資料は未対応
  • FigshareやZenodoなど外部リポジトリのデータは未処理
  • 全ての補足資料ファイルからテキスト情報を抽出できたわけではないようです。テキスト情報が空の補足資料ファイルも散見されます。

補足資料データ検索・取得の方法

  • Web UIの使い方
    • SIBiLSBiodiversityPMCから補足資料の検索が可能です。
    • 下記は”oxidative stress”をクエリに補足資料を検索したスクリーンショットです。
    • ヒットしたそれぞれのファイルのLinksにカーソルを合わせると、Supp. data text fileという項目が出てくるので、そのリンクにアクセスすると補足資料のテキスト情報ページにとびます。

“oxidative stress”検索クエリでヒットする補足資料(Supplementary data)

補足資料”PMC10028207_Table_2.xlsx”のテキスト情報

下記は、私がテキスト情報の取得に使っているPython関数例です。

def get_supp_text(file_name:str):
    """
    指定された補足資料ファイルのテキストを取得する
    Args:
        file_name (str): 補足資料ファイル名
    Returns:
        str: テキスト内容、またはNone(エラーの場合)
    """
    base_url = "https://biodiversitypmc.sibils.org/api/fetch?ids="
    
    name = file_name + "&col=suppdata"
    url = base_url + name
    print(f"アクセスURL: {url}")
   
    response = requests.get(url)
    response.raise_for_status()
        
    # JSONレスポンスをパース
    data = response.json()
        
    # テキストを抽出
    text = None
    if data.get('success') and 'sibils_article_set' in data:
        articles = data['sibils_article_set']
        if articles and 'document' in articles[0]:
            text = articles[0]['document'].get('text', '')
    return text

まとめ

補足資料は、これまでインデックスされずに埋もれてきた有用な研究情報です。2024年のRummageneや2025年のSIBiLSへの追加機能といった新しいプラットフォームの登場により、その活用インフラが整いつつあります。補足資料は単なる参考資料としてだけでなく、二次分析やメタ解析に用いることで新たな仮説や示唆を生み出すかもしれません。私自身も、SIBiLSのようなサービスの活用を積極的に研究に取り入れていきたいと考えています。