2018 Fiscal Year Research-status Report
日本語語順の柔軟性を考慮した係り受け解析技術の開発
Project/Area Number |
16K00300
|
Research Institution | Tokyo Denki University |
Principal Investigator |
大野 誠寛 東京電機大学, 未来科学部, 准教授 (20402472)
|
Project Period (FY) |
2016-04-01 – 2020-03-31
|
Keywords | 依存構造解析 / 漸進的処理 / 構文解析 / 言語生成 / リアルタイム処理 / 残存文長 |
Outline of Annual Research Achievements |
本研究では、話し言葉や、即興で生成された書き言葉を入力とする言語アプリケーションのための基盤技術として、読みにくい語順を持った文に対する高性能な係り受け解析器を開発する。平成30年度は以下の5項目を実施した。 (1)これまでに開発済みの語順整序・係り受け解析の同時実行手法を、節内部と節間の2段階に分けて適用する解析器の開発を推進した。具体的には、昨年度に引き続き、読みにくい文に対する節の始境界検出手法の開発に取り組んだ。 (2)昨年度に引き続き、漸進的係り受け解析の関連研究として、文節が入力されるごとに残存文長を推定する機構の開発に取り組んだ。具体的には、ニューラル言語モデルに基づいて残存文長を推定する手法を新たに考案し開発した。新聞記事文を用いて評価実験を実施した結果、本手法の正解率は、chance rateや従来手法を上回っており、その有効性を確認した。 (3)読みにくい文に対する係り受け解析の関連研究として昨年度に開発した、法令文に対する並列構造解析手法が学術雑誌に採録された。 (4)読みにくい文に対する読点と語順の柔軟性を考慮した係り受け解析を実現するための関連研究として、読みにくい語順の文に対応した読点挿入手法の開発に取り組んだ。読みにくい語順の文データを用いて読点挿入実験を実施し、問題点を整理した。 (5)話し言葉に対する係り受け解析の関連研究として、漸進的係り受け解析における未入力文節との構文的関係を同定する手法の開発を推進した。
|
Current Status of Research Progress |
Current Status of Research Progress
4: Progress in research has been delayed.
Reason
研究実施計画に従って、節境界に基づく読点と語順の柔軟性を考慮した係り受け解析器の開発に着手したが、1)読点挿入・語順整序・係り受け解析を同時実行するアルゴリズムの計算量が膨大になる、2)読みにくい文においても話し言葉と同様に埋め込み節が頻出する、という2つの問題が生じた。問題1)については、読点挿入・語順整序・係り受け解析の3つの処理のうち、語順整序と係り受け解析の2つの処理を同時実行するアルゴリズムを節ごとに適用することとした。問題2)については、構築した読みにくい文のデータを分析し、その分析結果に基づいて節の始境界を検出する手法の開発を昨年度に引き続き実施した。また、補助事業期間中における研究代表者の所属研究機関の異動や、他の業務の多忙などが重なり、話し言葉の評価用データの作成に遅れが生じている。そのため、「遅れている。」と自己評価した。 一方、書き言葉の評価用データの作成や、人間の漸進的解析能力の分析は、おおむね順調に進展している。さらに発展・関連として、文節が入力されるごとに残存文長を推定する機構の開発、ニューラル言語モデルを用いた法令文の並列構造解析手法の開発、読みにくい文への読点挿入手法の開発を行っている。
|
Strategy for Future Research Activity |
読点挿入・語順整序・係り受け解析の3つの処理のうち、語順整序と係り受け解析の2つの処理を同時実行するアルゴリズムを節ごとに適用する手法を開発する。また、人が漸進的に係り受け構造を把握する過程の分析を実施し、その分析結果を活用しつつ、漸進的係り受け解析器を開発する。ただし、効率的なアルゴリズムが開発できない場合は、入力文の文長の制限などの対応についても検討する。さらに、残存文長の推定機構の開発を引き続き実施する。 開発した解析器に対して、平成28年度に構築した書き言葉の評価用データを用いた評価実験を実施する。また、話し言葉の評価用データを新たに構築し、このデータを用いた評価実験も実施する。ただし、話し言葉の評価用データの構築に際し、語順や読点位置を変更しただけでは読みやすくならない書き起こし文が頻出する場合は音声データを変更する。適切な音声データが見つからない場合や作成コストが膨大になる場合は、語順整序や読点挿入に関する話し言葉の評価用データの作成は断念し、話し言葉では係り受け解析のみを評価することとする。
|
Causes of Carryover |
理由:本研究で構築した書き言葉の評価用データ(読みにくい文)を分析した結果、埋め込み節の頻出という問題が生じ、その対応に時間がかかったため、話し言葉の評価用データの構築は延期することとした。また、各種手法の主観的評価等のための費用が未執行となっている。 使用計画:話し言葉の評価用データの構築を実施する予定である。また、開発した手法の主観的評価や成果発表等に使用する予定である。
|