本研究では、機械的な手法により冗長な文章の改善に役立つ言語的特徴を明らかにするとともに、その知見により冗長な文章の改善に役立つ支援技術を構築することを目的としている。本課題では、文レベルの問題から長い文章レベルの問題まで含めて、冗長な文章の改善に役立つ支援技術を構築する。本課題は、日本語文章を対象として研究を行う。本課題はコミュニケーションの効率化に寄与する。 23年度は一文内の冗長な表現の検出に関する支援技術を研究した。冗長な文を検出する方法として、表現ごとに機械学習を用いる手法を提案した。冗長な表現を形成する理由となる表現ごとに機械学習で学習した場合、冗長な表現の検出はF値0.7~0.8程度で行うことができた。高い性能で冗長な表現を検出できるという重要な意義のある事実を確認できた。 24年度は一文内の冗長な表現の修正に関する支援技術を研究した。冗長な文を修正する方法として、パターンを用いた手法と機械学習を用いた手法を提案した。「可能」「という」「すること」が原因となって冗長となった文の修正の実験を行った。パターンを用いる手法と機械学習を用いる手法のいずれかで6 割以上の正解率で冗長な文を修正できた。 25年度は文章レベルでの冗長な表現の検出に関する研究を行った。機械学習を用いる手法と冗長度を用いる手法などを提案した。これらの手法で6割以上の正解率で冗長な文章を検出できた。 26年度は文章レベルの冗長な表現を冗長度などを用いて自動で収集し、収集したデータを人手で分析した。文章レベルの冗長な表現における種々の特徴を分析できた。表現の順序、文体、表現など、冗長な文章の改善に資する文章処理技術の検討も行った。
|