2017 Fiscal Year Research-status Report
Automatic generation of the Outlines of Japanese Statutes
Project/Area Number |
17K00460
|
Research Institution | Nagoya University |
Principal Investigator |
小川 泰弘 名古屋大学, 情報基盤センター, 准教授 (70332707)
|
Project Period (FY) |
2017-04-01 – 2020-03-31
|
Keywords | 自動要約 / 自然言語処理 / 統計的機械翻訳 / 深層学習 / 法律 / 法制執務 / 法令のあらまし |
Outline of Annual Research Achievements |
本研究の目的は,分かりやすい日本法の情報発信のために,現行法令のあらましを自動的に生成することである. 本年度はまず,法律・あらまし文対コーパスの構築を実施した.あらましにはどの条文を要約したものか明記されているが,その記述の種類は多岐に渡るため,それぞれの記述に対応して処理する必要があった.また,あらまし文には,法律文1文を要約したものと,複数の条文をまとめて1文に要約したものがある.それらを分類し,それぞれの文対コーパスを構築した. さらに,法律文1文をあらまし文1文に要約したコーパスを統計的機械翻訳システムの学習データとして使用することにより,自動要約システムを構築し,その性能を評価した.その結果,要約文の長さが元の法律文と比較して,あまり短くならないことが判明した.これは,あらまし文の中には,元の法律文と一緒のものが比較的多いことが理由と考えられる.また,単語の対応を基本とする統計的機械翻訳では,対応語がなくなる出力を生成しにくいことも予想され,この仮説については引き続き検証したい. 統計的機械翻訳では望んだ精度が出なかったため,深層学習を用いた手法も実施した.現在,英語に関しては大量のコーパスを深層学習に適用した研究が始められており,そうした手法を参考にした.しかし,深層学習は大量のデータを用いてこそ従来手法を超える精度が期待できるものであり,本年度に構築したデータでは,学習量としてまだまだ不足することが分かった. そのため現在では,コーパスの量を拡充と,および,要約元となる文書の情報を利用する別の手法について検討している.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
研究の進捗としては,おおむね予定通りである. 統計的機械翻訳を利用した自動要約の精度が低いが,これは当初の予想の範囲内であり,こうした結果も含めて有効性を検討することが本研究の目的である.また,他の手法についても予定通りに検討を進めている.
|
Strategy for Future Research Activity |
当初の予定通り,研究を進める. まず,自動要約における従来手法である,グラフベースモデルや最適化問題を用いたアプローチによる要約手法を実装し,それよる法律文のあらましを生成する.このあらましと,これまでに実施した統計的機械翻訳を利用したあらましとを比較し,いずれが適しているかを検証する. 続いて,SVMを用いて,法律文のうち要約対象となる文とならない文を自動的に決定するシステムを構築する.また複数の法律文を1文に要約するシステムについても,構築を進める. それに加えて,深層学習を利用したあらまし生成に取り組む.現時点では学習コーパスが足りないため精度が出ないと考えられるが,入手可能なすべての法令文書を用いた教師なし学習などを適用し,その実現可能性を調査する.
|