2019 Fiscal Year Annual Research Report
Automatic generation of the Outlines of Japanese Statutes
Project/Area Number |
17K00460
|
Research Institution | Nagoya University |
Principal Investigator |
小川 泰弘 名古屋大学, 情報基盤センター, 准教授 (70332707)
|
Project Period (FY) |
2017-04-01 – 2020-03-31
|
Keywords | 自動要約 / 機械学習 / ランダムフォレスト / 法令のあらまし / 統計的機械翻訳 |
Outline of Annual Research Achievements |
日本の法令情報を海外に発信するために,我々はこれまで官報に掲載される「法令のあらまし」の翻訳を進めてきた.その際,あらましの生成は研究対象としてこなかったが,分かりやすい法情報発信のためには,法令の要約であるあらましの生成も求められる.そこで本研究では,国内外における法情報の広範な発信を目的に,法令の自動要約に取り組んだ. 当初は機械翻訳の手法を利用したが期待した成果が得られなかったため,ランダムフォレストを用いて重要文を抽出する手法に取り組んだ.その結果,1,111件の法律から正例8,793文,負例15,507文を含む学習データを構築し,それを学習させたランダムフォレスト分類器はF値81.0%,ROUGE値88.4%という従来手法よりも高い性能を示した. 研究の後半では,この成果を他の分野にも応用するため,評価型ワークショップNTCIR-14 QA Lab-PoliInfoに参加した.QA Lab-PoliInfoでは,地方議会会議録を対象としたタスクが3種類実施され,そのうちの一つである議会会議録要約タスクに参加した.その際,議会会議録の要約率は10%以下であり,「法令のあらまし」における要約率70%と異なったため,法令の自動要約のために開発した手法では良い成果が得られなかった. 抽出すべきデータを正例,そうでないデータを負例と呼ぶが,今回のように正例と負例の比率が極端に異なると,正しく学習できない問題が生じる.そこで我々は,正例・負例の比率が異なるデータから学習した複数のランダムフォレスト分類器を組み合わせる漸進的アンサンブルランダムフォレストを新たに提案した.その結果,参加7チーム14システム中,人手評価で2位,自動評価で1位の成績を収めた.これにより,提案手法の有効性を確認できた.
|