語彙化文法理論に基づく言語学的に妥当な文法の自動獲得
Project/Area Number |
15700120
|
Research Category |
Grant-in-Aid for Young Scientists (B)
|
Allocation Type | Single-year Grants |
Research Field |
Intelligent informatics
|
Research Institution | The University of Tokyo |
Principal Investigator |
宮尾 祐介 東京大学, 大学院・情報学環, 助手 (00343096)
|
Project Period (FY) |
2003 – 2005
|
Project Status |
Completed (Fiscal Year 2005)
|
Budget Amount *help |
¥3,300,000 (Direct Cost: ¥3,300,000)
Fiscal Year 2005: ¥700,000 (Direct Cost: ¥700,000)
Fiscal Year 2004: ¥1,200,000 (Direct Cost: ¥1,200,000)
Fiscal Year 2003: ¥1,400,000 (Direct Cost: ¥1,400,000)
|
Keywords | 文法開発 / 語彙化文法 / HPSG / 構文解析 / predicate argument structure / predicate-argument structure / Proposition Bank / 文法獲得 / Corpus annotation |
Research Abstract |
本研究課題で開発を行ってきた英語構文解析器Enjuの改良、詳細な分析、及び成果発表を行った。特に、曖昧性解消確率モデルの改良・分析を行い、その成果を国際学会で発表した。曖昧性解消には、カンマの有無、句の長さ、品詞の情報が有効に働くこと、確率モデルの学習データは比較的少量でも高精度が達成できること、長い文でも解析精度はあまり変化しないことなどを実験的に示した。これらの成果はさらなる精度向上に向けての指針となると考えられる。また、Enjuの文法および確率モデルが構文解析だけでなく文生成にも適用でき、高精度を達成することを示した。 さらに、Enjuの応用についての研究も引き続き行った。生物学論文からの情報抽出に対して、昨年度はEnjuの出力(predicate argument structure)の上のパターン規則を自動獲得することで高精度が達成できることを示したが、これに加えて、機械学習アルゴリズムSVMを組み合わせることでさらに精度を向上させる研究を行った。Predicate argument structureのパターンを機械学習の素性とすることにより、Enjuの出力を機械学習の入力として利用し、これにより、機械学習のみやパターン規則のみを用いるよりも高精度が達成できることを示した。また、生物学論文の大規模データベースMEDLINEの全アブストラクト約1,500万件をEnjuで解析し、その解析結果を利用して文献検索を行うシステムを開発した。これほど大規模なテキストを構文解析する実験は初の試みである。さらに、この文献検索システムは既存のキーワード検索に比べてはるかに高い精度で検索結果が得られることを示し、構文解析の有用性を実用アプリケーションにおいて示した。
|
Report
(3 results)
Research Products
(12 results)