2016 Fiscal Year Research-status Report
日本語語順の柔軟性を考慮した係り受け解析技術の開発
Project/Area Number |
16K00300
|
Research Institution | Nagoya University |
Principal Investigator |
大野 誠寛 名古屋大学, 情報基盤センター, 助教 (20402472)
|
Project Period (FY) |
2016-04-01 – 2019-03-31
|
Keywords | 依存構造解析 / 漸進的処理 / 構文解析 / 言語生成 |
Outline of Annual Research Achievements |
本研究では、話し言葉や、即興で生成された書き言葉を入力とする言語アプリケーションのための基盤技術として、読みにくい語順を持った文に対する高性能な係り受け解析器を開発する。平成28年度は、以下の4項目を実施した。 (1)読点と語順、係り受けの相互関連性を考慮し、読点挿入と語順整序、係り受け解析の3つの処理を同時実行する解析器の開発に着手した。その結果、計算量が膨大になることが判明したため、まずは問題を単純化することとし、読点挿入と係り受け解析の2つの処理を同時実行するアルゴリズムを考案した。その後、このアルゴリズムと、既に開発済みの語順整序・係り受け解析の同時実行アルゴリズムを基として、読点挿入・語順整序・係り受け解析の同時実行アルゴリズムの効率化を検討した。 (2)上述した解析器の評価用データを作成した。具体的には、新聞記事文は読みやすいことを前提として、係り受け構造付き新聞記事データの文から、読みにくい語順や読点位置をもった文を擬似的に作成し、評価用データとした。 (3)本研究では、人が漸進的に係り受け構造を把握する過程を分析し、その振舞に関する知見を得る予定である。その分析用データとして、これまでに作業者1名が漸進的係り受け解析を実行したデータを構築していたが、本年度は当該データの増築を実施した。具体的には、異なる別の作業者1名によるデータ構築を推進した。 (4)法令文は一般の人々にとって読みにくいとされている。その原因の一つは、階層的な並列構造が多用されることにある。読みにくい文に対する高精度な係り受け解析を実現するための関連研究として、法令文に対する並列構造解析手法を開発した。本手法は、文脈を考慮した並列句間の類似性や、並列句を互いに入れ替えたときの文の流暢性をニューラル言語モデルによって求め、それらに基づいて並列構造を決定的に同定する。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
研究実施計画の通り、読点挿入・語順整序・係り受け解析の3つの処理を同時実行するアルゴリズムの開発に着手したが、計算量が膨大になることが判明した。そのため、問題を単純化することとし、読点挿入と係り受け解析の2つの処理を同時実行するアルゴリズムを最初に開発した。そこで得た知見をもとに、読点挿入・語順整序・係り受け解析の同時実行アルゴリズムの効率化について検討したものの、当初の研究実施計画では、読点挿入・語順整序・係り受け解析の同時実行アルゴリズムの評価実験まで実施することになっていたため、「やや遅れている。」と自己評価した。 なお、解析器の評価データの作成や、人間の漸進的解析能力の分析は、研究実施計画通り、おおむね順調に進展している。さらに発展として、ニューラル言語モデルを用いた法令文の並列構造解析手法の開発に取り組んだ。
|
Strategy for Future Research Activity |
平成28年度の遅れを取り戻しつつ、平成29年度の研究実施計画に基づいて研究を進める。具体的には、読点挿入・語順整序・係り受け解析を同時実行可能な解析器を開発するともに、これら3つの処理の同時実行を節内部と節間の2段階に分けて行う解析器を開発する。さらに、開発した解析器に対して、平成28年度に構築した評価用データを用いた評価実験を実施する。ただし、読点挿入・語順整序・係り受け解析を同時実行可能な解析器の開発において効率的なアルゴリズムが開発できない場合は、開発済みである語順整序・係り受け解析の同時実行アルゴリズムを、節内部と節間の2段階に分けて適用する解析器の開発を優先的に実施することとする。また、スパコンの利用や、入力文の文長の制限などの対応についても検討する。 一方、人間の漸進的解析能力の分析に関する研究では、平成28年度に引き続き、分析用データを増築するとともに、人が漸進的に係り受け構造を把握する過程を分析する。なお、平成30年度に実施予定の漸進的係り受け解析器の開発に有益な知見を得ることを念頭に分析を実施する予定である。
|
Causes of Carryover |
本研究では、統計的手法を用いて、語順整序・読点挿入・係り受け解析を同時実行する技術の開発を予定しており、高速な処理が必要となるため、高性能な計算機の購入費を初年度に計上していた。しかし、その開発において、より効率的なアルゴリズムの開発が不可欠であることが判明し、開発が遅れたため、本年度での高性能計算機の購入を次年度に延期することとした。そのため、次年度使用額が生じた。
|
Expenditure Plan for Carryover Budget |
平成29年度中に、高性能計算機を購入する予定である。
|