2019 Fiscal Year Annual Research Report
Text Personalization with Automatic Summarization and Text Simplification
Project/Area Number |
17K12738
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
西川 仁 東京工業大学, 情報理工学院, 助教 (00765026)
|
Project Period (FY) |
2017-04-01 – 2020-03-31
|
Keywords | 自動要約 / 文簡約 |
Outline of Annual Research Achievements |
自動要約および平易化といった,テキストの読解を支援する技術への需要が高まっている.長いテキストから重要箇所を抽出し短くまとめる「要約」は読み手の迅速な内容把握を可能にする一方,専門用語などの難解な表現に対し削除及び易しい表現への置換を行う「平易化」は外国人や子供など語彙知識が不足している読み手の読解を補助する.
かねてより進めていた簡約コーパスの構築が完了し,また入手した大規模な新聞記事自動要約データとあわせて要約および簡約を実行するモデルを構築した.具体的には,新聞記事に対し要約及び平易化の両方を行った.その過程を記事全体に対する処理と各文に対する処理に分けてモデルを実装し,それぞれのモデルの学習には,構築した簡約コーパスを用いた.生成された記事に対する定量評価の結果,記事処理及び文処理モデルの両方を適用することで,元記事や一方のモデルのみを適用する場合に比べ生成されたテキストの品質を測定する自動評価尺度であるBLEU,ROUGE,SARIの値が向上し,より正解テキストに近い,短く平易な記事を生成できることが示された.また,実際の生成例から,文処理モデルの学習の際に異なるコーパスを組み合わせること生成時の文法的な誤りを抑制できる可能性や,文処理モデルを先に適用することで,記事処理モデルを適用する際により多くの重要文を目標長内に収められる可能性が示唆された.
今後の課題としては,記事処理及び文処理モデルの学習の際に,単語の汎化や簡約コーパスに含まれる誤った対応づけの除去など改善の余地があり,これらに対する有効な処理方法について検証する必要がある.また,より質の高い簡約コーパスを構築するために,文単位でなく文節単位で自動対応づけを行う手法も検討する必要がある.
|