2006 Fiscal Year Annual Research Report
複数の学術文献からの遺伝子に関する記述の抽出と集約に関する研究
Project/Area Number |
06J11198
|
Research Institution | The University of Tokyo |
Principal Investigator |
岡崎 直観 東京大学, 大学院情報理工学系研究科, 特別研究員(DC2)
|
Keywords | 自動要約 / 略語抽出 / 修辞構造分析 / 複数文書自動要約 |
Research Abstract |
本研究の目標は,生物学研究者が遺伝子に関する情報を効率よく収集・把握できるようなシステムを構築し,生物学研究に貢献することである.これを要約というアプローチから実現するため,全体を4つのサブゴールに分解し,平成18年度は次の3つのサブゴールに関して研究を行った. 1,遺伝子に関する文献を網羅的に収集する方法.これは,ユーザが指定した遺伝子名を含む文献をデータベースから見つけ出し,その検索結果を返すというものである.本研究では,表記ゆれの大きな要因となっている略語現象に着目し,同じエンティティを指している略語とその定義を抽出する方法を提案した.英語の略語抽出では精度99%,再現率85-99%を達成し,略語抽出の既存手法の精度を大きく改善した.日本語の略語抽出においても,約90%のF尺度を達成する手法を提案した. 2,文献を要約する際の視点の検討.遺伝子に関する記述を集約した要約に対して,ユーザ側からどのような要求・期待があるのかを明らかにするタスクである.実験科学学術論文のアブストラクトは,「目的」→「手法」→「結果」→「結論」という共通の談話構造で構成されるという従来研究の報告に基づき,本研究が対象とする文書集合であるMEDLINEのアブストラクト文を分析した. 3,その視点に従って入力文書の情報を分類する方法.MEDLINEアブストラクトに含まれる各文が,2,で定義された視点を説明する文であるかどうかを判別する分類器を機械学習で獲得した.アブストラクトには典型的な流れがあるという観察に基づき,学習器として従来用いられていたSupport Vector Machine(SVM)に代え,Conditional Random Fields(CRF)を採用し,文単位での正解率が90%以上,アブストラクト単位での正解率が約60%と,既存手法よりも高い分類精度が得られることを確認した.
|
Research Products
(2 results)