研究課題/領域番号 |
23500177
|
研究機関 | 京都大学 |
研究代表者 |
森 信介 京都大学, 学術情報メディアセンター, 准教授 (90456773)
|
研究期間 (年度) |
2011-04-28 – 2014-03-31
|
キーワード | 係り受け解析 |
研究概要 |
当該年度においては、まず、点予測を用いる最小全域木に基づく単語単位の係り受け解析器を提案し、実装と実験を行った。フルアノテーションの学習コーパスがある分野において既存手法と同等以上の精度であることを辞書の例文を用いて確認した。さらに経済新聞の記事の一部の係り受けのみを利用して部分的アノテーションとみなし、分野適応性において既存手法を有意に上回ることを確認した。この係り受け解析器についての発表を国際学会と国内の研究会で行った。現在、論文誌に投稿し、条件付き採録との結果を受けて、論文の加筆修正を行っている。これのような単語係り受け解析器のさまざまな分野での利用を進めており、目下、特許文書と論文抄録と料理レシピのフルアノテーションコーパスを作成している。次に、使役・受動態の格変換に取り組んだ。これらを係り受け解析の結果として得られる木の書き換えとしての定式化を考察した。大量の文の係り受け解析結果を比較し、様々な動詞における受動態と能動態の格変換関係をグラフの変換として推測・記述する枠組みについて考察した。木の書き換えとして定式化できる見通しを得た。以上の成果に基づいて、係り受け解析器をモデルも含めてフリーウェアとして公開した。また、日本語の単語係り受けの研究を推進するために、モデル作成のデータとなるコーパスも可能な限り配布する予定である。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
当初の予定は、単語単位の係り受け解析器を提案し実装するとしており、安定版が10月に完成した。また、設計の枠組みである点予測を用いる最小全域木に基づく係り受け解析を11月の国際学会で発表した。これに先だって、フルアノテーションコーパスとして、辞書の例文すべてと経済新聞の記事の一部を準備し、部分的アノテーションコーパスとして経済新聞の記事の一部を準備した。また、既存のコーパスである京大コーパスやEDRコーパスを部分的アノテーションコーパスに変換することも行った。以上のように、言語資源の構築は予定通りであり、これを用いることで、係り受け解析器の評価実験が可能となった。また、フリーウェアとして配布できる程度の完成度とすることで、大量のテキストを自動解析し、使役・受動態の格変換の調査に用いることができた。
|
今後の研究の推進方策 |
次年度は、文を跨ぐ関係、つまり複数の係り受け木の関係として記述される照応や省略などの高度な言語現象にグラフ理論の適用範囲を拡大させる。例えば、ある動詞の省略された格要素の補完は、先行詞を含む木と省略された格要素を持つ動詞を含む木を連結する問題と考えることができる。このとき、省略された要素に格助詞を付加して動詞に接続する必要があるので、最小シュタイナー木の探索として定式化することができる。次年度は、この定式化と実装を行う。
|
次年度の研究費の使用計画 |
主な支出項目は以下の通りである。o データ作成(主に評価用)o 提案モデルの実装と評価の計算機o 調査と成果発表の旅費
|