自然言語処理の応用によるゲノム文献の高度検索システムの構築

Research Project

Project/Area Number	12208025
Research Category	Grant-in-Aid for Scientific Research on Priority Areas (C)
Allocation Type	Single-year Grants
Review Section	Biological Sciences
Research Institution	Kyoto University
Principal Investigator	黒橋禎夫京都大学, 情報学研究科, 講師 (50263108)
Project Period (FY)	2000
Project Status	Completed (Fiscal Year 2000)
Keywords	自然言語処理 / 情報検索 / 格フレーム / コーパス / 省略 / 代名詞
Research Abstract	自然言語の文章では,人間にとって理解可能な範囲で頻繁に省略や代名詞化がおこる.この問題は,文章を単語集合として扱っている現在の情報検索でさほど表面化しないが,今後,情報検索を高度化していくためには,省略・代名詞に対する照応詞の同定が必須の要素技術となる. 省略・代名詞解析には,用言(動詞,形容詞,名詞+判定詞)ごとに,どのような名詞が主語,目的語(格要素)になるかという情報をまとめた格フレーム辞書が必要となる.しかし,数千から数万の用言について,専門分野における特殊な用法までカバーする大規模で実用的な格フレーム辞書はこれまでのところ存在しなかった. 格フレーム自動構築における最大の問題は,用言の意味の多義性である.たとえば「(友達に)なる」と「(病気に)なる」,「(塩,調味料などを)加える」と「(砲撃を)加える」では,同じ動詞でも格フレームのパターンがまったく異なる.この多義性を解消しなければ,格フレームは自動的には構築できない.ここでのポイントは,用言の意味を決定づける重要な名詞は用言の直前にあり,かつそれは文章中で省略されることは比較的少ない,という点である.そこで,用言単独ではなく,用言とその直前の名詞のペア,すなわち「友達になる」や「病気になる」を格フレームの単位とし,そのまわりに他にどのような格要素が存在するかを大量のテキストから学習するという手法を考案した. 新聞記事を対象とし,約370万文から格フレームを学習したところ,9,900用言について平均6.0個の格フレームが学習された.さらに,この格フレーム辞書を用いて文章中の省略要素を同定する実験を行ったところ,70%程度の正解率が得られた.この手法は言語独立,分野独立であり,必要となるのはある分野の大量のテキストだけである.今後,ゲノム文献を対象としてこの手法の有効性を確認し,これを検索の高度化につなげていく予定である.

Report

(1 results)

2000 Annual Research Report

Research Products
(2 results)

All Publications (2 results)

[Publications] Daisuke Kawahara: "Japanese Case Frame Construction by Coupling the Uerb and its Closest Case Component"Proc.of Human Language Technology Conference (HLT01). (2001)
- Related Report
  2000 Annual Research Report
[Publications] 河原大輔: "自動構築された格フレーム辞書に基づく省略解析"言語処理学会第7回年次大会. (2001)
- Related Report
  2000 Annual Research Report