2013 Fiscal Year Research-status Report
冗長な文の改善に役立つ言語的特徴の機械的発見と作文支援
Project/Area Number |
23500178
|
Research Institution | Tottori University |
Principal Investigator |
村田 真樹 鳥取大学, 工学(系)研究科(研究院), 教授 (50358884)
|
Keywords | 文生成 / 冗長な表現 / 文の修正 / 機械学習 |
Research Abstract |
23年度および24年度に構築した文レベルの冗長性の検出・修正の研究の方法を段落・文書レベルのものに拡張し、文章レベルでの冗長な表現の検出に関する研究を行った。 まず、文章レベルで冗長な文章とそれを修正したデータベースを作成した。そのデータベースのデータを分析し、典型的な3種類の分類を明らかにした。その3種類は、分類1「文単位の修正で十分なもの」、分類2「補足または説明をする文を先頭文にまとめる形で短く簡潔な文章に修正されるもの」、分類3「長い文を箇条書きにまとめる形で修正するもの」である。 機械学習を用いる手法と、冗長度を用いる手法により冗長な文章を検出した。機械学習を用いた実験では機械学習の素性として「冗長度」を利用した際の正解率が最も高かった。機械学習を用いた手法の正解率(0.66) が、冗長度を用いる手法の正解率(0.65) と同程度の正解率であった。 文章での実験で冗長度が役立ったので、文レベルでも冗長度が役立つかの実験を行った。1 文における冗長な文において機械学習に冗長度を素性に追加したところ性能向上が見られた。冗長度を用いる手法が機械学習の手法より高い性能を出す場合があることが確認できた。これらのことにより冗長度が有用であるとわかった。 表現の順序、文体、表現など、冗長な文章の改善に資する文章処理技術の検討も行った。例えば、表現の差異の検出と考察を行った。異表記においてどの表記をどういう文脈で用いやすいかの分析を行った。また、文章の改善のため、文章における段落の順序を推定する研究を行った。二つの段落のうち、どちらの段落を先に記述すべきかの推定において、教師あり機械学習を利用した手法について実験を追加した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本研究では、機械的な手法により冗長な文章の改善に役立つ言語的特徴を明らかにするとともに、その知見により冗長な文章の改善に役立つ支援技術を構築することを目的としている。例えば、「まず初めに円高の解決に向けた解決策の検討を考えたい。」の文のように、文内で同じ単語や同義語が複数回出現する文は冗長でわかりにくい。この文は冗長な表現を削除することで「まず円高の解決策を検討したい。」と修正可能である。本課題では、文レベルの問題から長い文章レベルの問題まで含めて、冗長な文章の改善に役立つ支援技術を構築する。本課題は、日本語文章を対象として研究を行う。本課題はコミュニケーションの効率化に寄与する。 25年度は本研究のうちの文章レベルの冗長な表現の検出に関わる研究を行う予定であった。研究の推進し、文章レベルの冗長な文を検出する方法として、機械学習を用いた手法と冗長度を用いた手法を提案した。機械学習を用いる手法と、冗長度を用いる手法により冗長な文章を検出した。機械学習を用いた実験では機械学習の素性として「冗長度」を利用した際の正解率が最も高かった。機械学習を用いた手法の正解率(0.66) が、冗長度を用いる手法の正解率(0.65) と同程度の正解率であった。また、文章レベルで冗長な文章とそれを修正した文章のデータを分析し、典型的な3種類の分類を明らかにした。 表現の順序、文体、表現など、冗長な文章の改善に資する文章処理技術の検討も行った。文章の改善のため、文章における段落の順序を推定する研究を行った。二つの段落のうち、どちらの段落を先に記述すべきかの推定において、教師あり機械学習を利用した手法について実験を追加し、6割から8割の性能を得た。
|
Strategy for Future Research Activity |
25年度の研究において、冗長度を利用する冗長な表現の検出手法が有効であることが明らかになった。機械学習を用いる手法と同程度の性能であり、冗長度を素性に用いない場合の機械学習を用いる手法よりも性能が高いことがわかった。その他、データの分析と考察において、文内での文字数が多い文や、段落内での文数が多い文章が冗長な可能性が高そうであることを見出した。冗長度、段落内の文数、文内の文字数を利用する素朴な手法が有望である感触を得た。 26年度では、25年度で有望とみられた、冗長度、段落内の文数、文内の文字数を利用する素朴な手法を利用する研究を行う。冗長度、段落内の文数、文内の文字数を利用して、冗長な表現の検出を試みる。また、冗長度、段落内の文数、文内の文字数を利用して、冗長な表現が持つ特徴を分析する。 具体的な手法としては、冗長度が高い文章、段落内の文数が多い文章、文内の文字数が多い文を収集し、それらを簡便な文章に修正したデータを作り、そのデータを分析することで研究を遂行する。データの分析では、差分検出技術を用いて、冗長度が高いこと、段落内の文数が多いこと、文内の文字数が多いことが原因となって冗長である文章と、それを修正した文章の間にどういう差異があるかを取り出すことで行う。そこで得られた差異を人手で分析することで、冗長な文章を検出、修正することに役立つ知見を得ることを目指す。また、それらが原因となって冗長となった文章での高頻度表現を調査することも行い、冗長な文章の特徴の分析をする。 表現の順序・文体・表現など、冗長な文章の改善に資する文章生成技術の検討も行う。25年度まで遂行した研究の改良も行う。これらの技術の効果を確かめる被験者実験を遂行する。成果をまとめて学会発表も行う。
|
Expenditure Plans for the Next FY Research Funding |
冗長な文章の検出実験において、機械学習を用いる手法は良い結果を出さず、冗長度を利用する素朴な手法の方が性能が良かった。他の素朴な手法(段落内に文数が多い場合、文内文字数が多い場合に冗長であるとする)も有用そうである結果を得た。計画を変更し、機械学習よりもこれら素朴な手法に基づく研究を進めることにした。本年度に行う予定であった学会参加発表費用、実験データ作成費用等が未使用となり、未使用額が発生した。 次年度、機械学習を用いる手法よりも、むしろ有望となった素朴な手法(冗長度、段落内の文数、文内の文字数を利用)により、冗長な文・文章の検出・修正に関わる研究を推進する。本研究の推進は今後の冗長な文章に関わる研究に有益な結果をもたらすと思われる。本研究の推進に必要な実験データの作成費用(アルバイト又は外注によりデータ作成)および、推進した研究の成果発表のための学会参加発表費用等に、未使用額を充当する。
|