研究課題/領域番号 |
24700136
|
研究機関 | 国立情報学研究所 |
研究代表者 |
松崎 拓也 国立情報学研究所, 社会共有知研究センター, 特任准教授 (40463872)
|
キーワード | 自然言語処理 / 構文解析 |
研究概要 |
1. 日英翻訳システムの基礎となる日本語CCG文法の開発を進めた。特に、格要素を取る名詞(不飽和名詞)の解析について重点的に研究を進めた。また、CCG辞書の拡充につとめ、数学教科書から収集した語に対して辞書エントリを順次定義した。現在の辞書は約6000の辞書エントリを含み、計1600の単語表層形と2500種の意味関数の間の対応が定義されている。 2. CCG文法を用いた統語・意味解析処理の研究を進めた。まず、統計的係り受け解析器の出力した係り受け構造を制約として、その制約内で最もスコアの高いCCG導出木を出力とする方式について検討した。スコア関数として、導出木に含まれるシンボル数や特定のルールの適用回数などに対する重み付き和を用いた。係り受け解析器の出力が正しい場合にはほぼ正確な導出木が得られるようになった。 3. 係り受け解析器の解析精度を向上させるために、ターゲットドメインとして選んだ数学問題テキストに対する係り受けコーパスを作成し、新聞に対する係り受けコーパスである京大コーパスと併せ統計的係り受け解析器を再訓練し、数学問題に対する解析精度を向上させた。 4.係り受け解析器を経由せず、CCG文法を直接用いて解析を行うために、開発したCCG辞書を汎用構文解析器 Enju の形式に変換し、文法規則も同様にEnju の形式による再実装を行った。 5. 対象ドメインにおける意味的制約を統語曖昧性解消へ利用するために、意味表示部分の各部分の型を、対応する統語範疇に付加するためのプログラムを実装した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
翻訳の前提となるCCG文法および構文解析器の実現に時間がかかっているため。
|
今後の研究の推進方策 |
日本語CCG構文解析器の完成および精度向上のための研究を進めたのち、日英のCCG導出木をアノテートしたパラレルツリーバンクの構築を行い、翻訳ルール獲得を試みる。
|
次年度の研究費の使用計画 |
国内学会にのみ参加したため、旅費支出額が当初予定を下回った。 謝金作業を依頼できる作業者を見つけられなかったため人件費・謝金支出額が当初予定を下回った。 成果発表の機会を増やし、旅費に用いる。 謝金作業者を確保し、パラレルツリーバンクの作成に用いる。
|