研究課題/領域番号 |
15H02748
|
研究機関 | 名古屋大学 |
研究代表者 |
佐藤 理史 名古屋大学, 工学(系)研究科(研究院), 教授 (30205918)
|
研究期間 (年度) |
2015-04-01 – 2018-03-31
|
キーワード | 自然言語処理 / 文章読解 / 文章生成 / 節境界付与 / 小説生成 |
研究実績の概要 |
本年度は、主に、以下の項目で成果を得た。 1.境界認定ツールRainbowを再実装するとともに、現代日本語書き言葉均衡コーパスのコアデータの一部(4つのレジスタ)に節境界を付与し、その結果を公開した。この過程において、日本語の節形式の整理がかなり進み、残された問題がどこにあるかが明確となった。なお、この研究は、国立国語研究所の丸山岳彦准教授と協力して行った。 2.文生成ツールHaoriに、述語文節の形式変換機能と節挿入機能を追加し、複文を合成できるように機能拡張した。これにより、複数の単文から複文を合成することが可能となった。Haoriを文章生成(ショートショート生成)に実際に使用し、所望のテキストを出力できることを確認した。その一方で、より抽象的な入力からの文生成能力を持つことが望ましいことも判明した。 3.ストーリー文法に基づく文章生成器GhostWriterを実装し、それを用いて2000字程度のショートショートを作成できることを実証した。作成した作品は第3回星新一賞に応募し、落選したが大きな話題となった(3月末までに、テレビ10番組12回、新聞9紙、ウェブ136媒体の計157媒体で取り上げられた)。ただし、現状では、ショートショートの骨格や部品となる言語表現等、多くの情報をあらかじめ用意する必要がある。これら事前準備の量を縮小することが課題である。 4.複数の特徴を利用したセンター試験『国語』評論読解問題用のソルバーを実現し、模試を含むセンター型の選択式問題の4割強が解けるレベルに到達した。進研模試を利用した公開性能評価(東ロボフォーマルラン)では、対象とする8問中5問に正解するという好成績を収めた。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
本年度は文章生成において、当初の目標である400字を大きく上回る2000字以上の文章(ショートショート)を生成することに成功した。この点では、研究は大きく進展した。 その一方で、当初計画していた文章解析に関する研究は、うまく進まなかった。文間関係や段落間関係の分析において、まず接続詞に着目するという戦略が適切でなかったためと考えられる。 それ以外の主要な項目である境界解析と文生成技術は、ほぼ予定通りの進捗状況である。これを総合すると、それぞれの項目では進捗に差があるが、全体としては、おおむね予定通りに進行していると判断する。
|
今後の研究の推進方策 |
ツールに関しては、境界解析ツールRainbow(解析系)と文生成ツールHaori(生成系)の文法体系を対応させることが大きな課題である。特に、節の名称と形式に関しては、この科研の期間内に、網羅的なリストを作成し、統一化したい。 遅れている文章解析技術に関しては、一般的な形で進めるのを当面あきらめ、対象を絞った形で突破口を見つけることとしたい。具体的には、研究対象をセンター試験『国語』評論問題の本文に限定し、読解問題を解くために必要な最小限の段落内構造解析と段落間関係解析に注力する。前者に対しては、典型的な段落構造を見つける方向で研究を進め、後者に関しては、語彙の連鎖と広い意味での指示表現を手掛かりに、直前の段落との結びつきがどれくらい強いかを判定する方向で考えたい。 文章生成については、より長い文章を作成する方法と、作成に必要な情報の記述をより省力化する方法を検討する。
|