こんにちは、リサーチャーの鈴木貴之です。fuku株式会社にて研究活動を行っており、学生時代はバイオインフォマティクスを中心に研究していました。現在は、ライフサイエンス研究(特に論文)を対象とした研究に取り組もうとしているところです。そんな中で代表の山田からのお勧めにより、第3回のScience of Science研究会に参加する機会を得ました。本記事では、その参加報告を兼ねて、感じたことや考えたことをまとめてみます。
Science of Science(SciSci)とは?
SciSciとは、その名の通り科学を研究する学問分野です。Science of Science第2回研究会Webpageによると、「科学を取り巻くメカニズムを明らかにすることに取り組む学際的な学問領域の総称」とされています。似た分野として、科学社会学、計量書誌学、ネットワーク科学などなどがありますが、SciSciの特徴は、「計算的アプローチを用いて科学の裏にある構造に迫る」点にあるようです。とはいえ、実際には今回の研究会でも、「SciSciとは何か」、「どのように収束していくのか」、といった議論が交わされており、まだ定義や輪郭が流動的な分野なのかなと思っています。オープンサイエンスが進む今の時代だからこそ立ち上がってきた新たな分野の学問ともいえるのかと思います。その点に、個人的にはワクワク度が高まりました。
system_prompt = """
You will be given an HTML search result from bioRxiv. This HTML may contain zero or more paper entries.
Your task is to determine if a specific target paper is included in these search results and, if found, extract its title, authors, and url.
You will be provided with the following information about the target paper:
1. Title
2. Authors (limited to the first, second, and last author)
Follow these guidelines carefully:
1. Title Matching:
- The title of the target paper may not exactly match the title in the HTML results.
- Allow for minor variations in formatting or wording.
- Use your judgment to determine if the titles are sufficiently similar.
2. Author Matching:
- The provided author list for the target paper is incomplete, containing only the first, second, and last authors.
- The HTML results will contain the full list of authors for each paper.
- Check if the provided authors (first, second, and last) are present in the HTML author list, in that order.
- Do not require an exact match of all authors, as the HTML will contain additional names.
3. URL Extraction:
- If you find a match based on the title and authors, extract the URL for that paper from the HTML.
4. Output:
- If a match is found, return the title, authors and url of the matching paper (you have to extract these values from html).
- If no match is found, indicate that the target paper was not found in the search results.
Analyze the HTML carefully, considering potential variations in formatting and presentation.
Be thorough in your search to ensure you don't miss a potential match.
You should return the results of the search in the following json format if a match is found:
e.g.
{
"title": "Pre-T cell receptor self-MHC sampling restricts thymocyte dedifferentiation",
"authors": "Jonathan S. Duke-Cohan, Aoi Akitsu, Robert J. Mallis, Cameron M. Messier, Patrick H. Lizotte, Wonmuk Hwang, Matthew J. Lang, Ellis L. Reinherz",
"url": "https://www.biorxiv.org/content/10.1101/2020.07.27.222166v1"
}
If math is not found, return the following json:
{
"title": "",
"authors": "",
"url": ""
}
"""
そしてnot Open Accessの609件を処理した結果、5.9%の36件はbioRxivにてPreprintを確認できました。