研究課題/領域番号 |
24300052
|
研究機関 | 名古屋大学 |
研究代表者 |
佐藤 理史 名古屋大学, 工学(系)研究科(研究院), 教授 (30205918)
|
研究期間 (年度) |
2012-04-01 – 2016-03-31
|
キーワード | 自然言語処理 / 節境界 / 辞書定義文 / 大学入試問題 / 文の平均像 |
研究実績の概要 |
本年度は、主に、以下の項目で成果を得た。 1.文節・節境界検出プログラムの改良:節境界検出システムRainbowを改良した。Rainbowでは、節境界は必ず文節境界であるという点に着目し、文中の文節境界を認定したのち、それらが節末境界となるかどうかを判定するという2段階判定方式を採用した。このような方式を採用することにより、節末境界認定ルールが簡潔に記述することが可能となった。Rainbowは、節末境界認定と同時に、節タイプを57種類のいずれかに分類する。 2.日本語文の平均像の産出:現代日本語書き言葉均衡コーパスの一部を用いて、日本語文の平均像を産出した。具体的には、文に対して6 グループ17 種類の特徴量を定義し、約53.5万文に対して、それぞれの特徴量を求めた後、各特徴量の統計値(最頻値、平均値、中央値)を算出した。各特徴量の中央値を文の平均像として採用し、この平均像を最も良く体現した文を決定する方法を定め、実際にそのような文を同定した。 3.テキスト含意認識と大学入試問題への応用:大学入試問題の「国語」および「歴史」を対象に、現在のテキスト含意認識技術で、問題がどれくらい解けるかを試みた。「国語」評論の読解問題では、節境界解析を導入することにより、センター試験の過去問に対しては、これまでの結果を上回る結果を得た。「歴史」の問題の大半は、テキスト含意認識の枠組みで解答可能であり、約半分が正しく解けることがわかった。 4.辞書定義文型の試作と設計:日本語の語を定義するためのfull-sentence definitionの設計を進め、副詞、形容詞、動詞に対して、記述形式を定めた。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
予定していた基本語彙表の編纂が難航し、完了しなかった。意味区分の導入については、抜本的に見直す必要がある。 日本語の辞書定義文型の設計については、名詞に対する設計が完了しなかった。
|
今後の研究の推進方策 |
辞書定義文型の設計については、名詞に対する設計を行い、主要品詞(動詞、形容詞、副詞、名詞)に対する設計を完了し、マニュアル化する予定である。基本語彙表の編纂に関しては、次の科研でも研究を継続する予定である。
|
次年度使用額が生じた理由 |
日本語の辞書定義文型の試作と設計を進めてきたが、コーパスの調査等の作業量が予想していたよりも多く、ジャーナル論文執筆と定義文作成マニュアルの完成に至らなかった。このため、予定していた論文投稿費やマニュアル印刷費に未使用金額が生じた。
|
次年度使用額の使用計画 |
研究支援者を2か月雇用して、日本語の辞書定義文型の作成のためのコーパス調査を引き続き実施し、辞書定義文記述マニュアルの作成を目指す。未使用額は、そのための費用に充てる。
|