時間経過を考慮した医学生物系文献情報からの知識抽出
Project/Area Number |
04J61609
|
Research Category |
Grant-in-Aid for JSPS Fellows
|
Allocation Type | Single-year Grants |
Section | 国内 |
Research Field |
Bioinformatics/Life informatics
|
Research Institution | The University of Tokyo |
Principal Investigator |
山本 泰智 東京大学, 大学院・新領域創成科学研究科, 特別研究員(DC2)
|
Project Period (FY) |
2004
|
Project Status |
Completed (Fiscal Year 2004)
|
Budget Amount *help |
¥1,000,000 (Direct Cost: ¥1,000,000)
Fiscal Year 2004: ¥1,000,000 (Direct Cost: ¥1,000,000)
|
Keywords | テキストマイニング / 生物医学文献 |
Research Abstract |
医学生物系文献データベースMEDLINEおよび、当該研究者に広く利用されているMEDLINE検索システムPubMedを用いて得られる情報(題目、アブストラクト、統制語によるキーワード(MeSHターム))等を用いて、大量の関連文献に収められている生物医学知識(疾患と遺伝子の関係等)のクラスタリングを行い、研究者が興味のある研究分野の知識を効率的に取得できるシステム開発を目指して研究を行った。 具体的にはPubMedから得られた文献集合を、その内容に応じて階層的クラスタリングを行うものである。クラスタリングに用いる文献情報のうちで主なものは、題目とアブストラクトに含まれる語の出現頻度および位置に関するものであるが、そのうちアブストラクトにおいては、当該文献で述べられている研究の、背景や手法、結果、結論が書かれていることが多い。文献クラスタリングを行う際に、ある語がそれらのうちのどれに該当するかについての情報を考慮できることは有益である。例えば、研究結果として得られる知識に重点を置いてクラスタリングすることで、背景に関連知識としてのみ含まれている語の重みを下げることができ、文献に述べられている研究の主題ではない情報の影響を抑えることができる。 この目的を達成するために、文献のアブストラクトの各行を、その内容に基づいて分類する手法を提案し、類似既存研究より優れた結果を得ることができた。さらにその情報を用いた文献の階層的クラスタリングシステムを構築した。
|
Report
(1 results)
Research Products
(2 results)