2012 Fiscal Year Annual Research Report
大規模テキストから自動獲得した知識に基づく言語解析の精度向上
Project/Area Number |
21700163
|
Research Institution | Kyoto University |
Principal Investigator |
柴田 知秀 京都大学, 情報学研究科, 助教 (70452315)
|
Project Period (FY) |
2009-04-01 – 2013-03-31
|
Keywords | 自然言語処理 / 大規模テキスト / 知識獲得 / 同義語 / 分布類似度 |
Research Abstract |
形態素解析用辞書、国語辞典、シソーラス、格フレーム、Wikipediaなど、日本語に関する様々な語彙知識を統一的に語彙データベースとして管理する枠組みを構築した。語彙知識はエントリ単位でXMLフォーマットにて記述されており、定義文、読み、上位語などの属性を記述することができる。また、日本語の処理で問題となる単語区切りについても、語彙データベース内で管理し、また、各エントリに代表表記を付与することにより、表記の揺れ(例: コンピュータグラフィックス = コンピューターグラフィクスなど)を解消することができる。これらの枠組みにより、語彙知識の統一的な管理・アクセスを可能とした。 そして、日本語文の最も基本的な解析、すなわち形態素解析と句認識の結果に語彙知識を埋め込む枠組みをデザインした。具体的には形態素解析器JUMAN、構文解析器KNPの上で実装した。語彙データベースから形態素解析用辞書と構文解析用辞書を出力し、それぞれを解析器で利用し、また、構文解析や省略解析などの様々な言語解析時に参照することや、検索・翻訳などのアプリケーションでの利用を可能にした。これにより、従来の言語解析システムでは必要であった語彙知識の適当なフォーマット変換などが不要となり、意味解析研究の障害の一つを取り除くことができた。また、語彙知識を省略解析などの言語解析時に利用することにより、改善例を確認することができた。
|
Current Status of Research Progress |
Reason
24年度が最終年度であるため、記入しない。
|
Strategy for Future Research Activity |
24年度が最終年度であるため、記入しない。
|
Research Products
(2 results)