2012 Fiscal Year Research-status Report
冗長な文の改善に役立つ言語的特徴の機械的発見と作文支援
Project/Area Number |
23500178
|
Research Institution | Tottori University |
Principal Investigator |
村田 真樹 鳥取大学, 工学(系)研究科(研究院), 教授 (50358884)
|
Keywords | 文生成 / 冗長な表現 / 文の修正 / 機械学習 |
Research Abstract |
一文内の冗長な表現の修正に関する支援技術を研究した。 冗長な文を修正する方法として、パターンを用いた手法と機械学習を用いた手法を提案した。「可能」「という」「すること」が原因となって冗長となった文の修正の実験を行った。パターンを用いる手法と機械学習を用いる手法のいずれかが、最も頻度の高いものを出力とするベースライン手法よりも同等以上の正解率であった。パターンを用いる手法と機械学習を用いる手法のいずれかで6 割以上の正解率で冗長な文を修正できた。修正後の表現のみの推定(修正前の表現の範囲を特定できなくてよい) では、パターンを用いる手法と機械学習を用いる手法のいずれかで7 割以上の正解率を得た。以上により、「可能」「という」「すること」については、パターンを用いる手法と機械学習を用いる手法がある程度冗長な表現の修正に役立つことがわかった。 しかし、実際の文書の推敲での冗長な文の修正ではもっと確実な手法を用いる必要がある場合も考えられる。そのため修正をするのではなく、修正箇所の検出を自動で行い、さらに検出した冗長箇所の修正候補を頻度の高い順に並べ、ユーザーに提示するという方式を検討した。この方式では、冗長な個所とその修正候補が提示されるため、文書作成者の修正作業の負担が軽減されると思われる。この方式で必要となるデータの構築も試みた。 表現の順序、文体、表現など、冗長な文章の改善に資する文章処理技術の検討も行った。例えば、表現の変化の検出と考察を行った。また、文章の改善のため、文章における段落の順序を推定する研究を行った。二つの段落のうち、どちらの段落を先に記述すべきかの推定において、教師あり機械学習を利用した手法を提案し6割から8割の性能を得た。先に行った文の順序推定と、この段落の順序推定の比較も行い、順序推定において重要な事柄を分析できた。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本研究では、機械的な手法により冗長な文章の改善に役立つ言語的特徴を明らかにするとともに、その知見により冗長な文章の改善に役立つ支援技術を構築することを目的としている。例えば、「まず初めに円高の解決に向けた解決策の検討を考えたい。」の文のように、文内で同じ単語や同義語が複数回出現する文は冗長でわかりにくい。この文は冗長な表現を削除することで「まず円高の解決策を検討したい。」と修正可能である。本課題では、文レベルの問題から長い文章レベルの問題まで含めて、冗長な文章の改善に役立つ支援技術を構築する。本課題は、日本語文章を対象として研究を行う。本課題はコミュニケーションの効率化に寄与する。 23年度は本研究のうちの冗長な表現の修正に関わる研究を行う予定であった。研究の推進し、冗長な文を修正する方法として、パターンを用いた手法と機械学習を用いた手法を提案した。「可能」「という」「すること」が原因となって冗長となった文の修正の実験を行った。パターンを用いる手法と機械学習を用いる手法のいずれかが、最も頻度の高いものを出力とするベースライン手法よりも同等以上の正解率であった。パターンを用いる手法と機械学習を用いる手法のいずれかで6 割以上の正解率で冗長な文を修正できた。修正後の表現のみの推定(修正前の表現の範囲を特定できなくてよい) では、パターンを用いる手法と機械学習を用いる手法のいずれかで7 割以上の正解率を得た。ユーザに修正のヒントを出力する方式についても検討した。 表現の順序、文体、表現など、冗長な文章の改善に資する文章処理技術の検討も行った。二つの段落のうち、どちらの段落を先に記述すべきかの推定において、教師あり機械学習を利用した手法を提案し6割から8割の性能を得た。先に行った文の順序推定と、この段落の順序推定の比較も行い、順序推定において重要な事柄を分析できた。
|
Strategy for Future Research Activity |
一文を超える複数の文、段落にまたがる冗長な表現の修正支援の研究を行う。24年度にも、一文を超える複数の文、段落にまたがる冗長な表現に関わる、冗長性判定用データベースと冗長性修正文集合データベースを一部構築している。本年度はそのデータベースの拡充をはかる予定である。このデータベースを利用して、複数の文、段落にまたがる冗長な表現の検出と修正を行う。 段落、文書レベルになると自動修正はかなり困難と思われる。冗長性の検出に重点をおきながら可能な範囲で研究を進める。少なくとも検出については、冗長性判定用データベースを利用することで、機械学習を利用した冗長個所の検出が可能と想定している。これにより、段落、文書レベルにおける冗長性を生む言語的特徴を発見可能と想定する。類似箇所発見技術を文書レベルに拡張し、この技術を利用した段落、文書レベルの冗長性の検出も試みる。23年度に研究した冗長度の算出も、段落、文書レベルで行い、冗長度に基づく冗長な個所の検出も試みる。これらの冗長性の判定技術が作文支援に有効かどうかを確かめる被験者実験も遂行する。 23年度、24年度に構築したデータベースは小規模なものであった。データベースの拡大も行う。またデータベースの質の向上も図る。冗長な表現の修正に関わる言語学的考察と分析も行う。冗長な表現の検出と修正の関係についての考察も行う。表現の順序・文体・表現など、冗長な文章の改善に資する文章生成技術の検討も行う。これらの技術の効果を確かめる被験者実験を遂行する。24年度までに構築した冗長な表現の検出技術に関するさらなる研究や学会発表も行う。
|
Expenditure Plans for the Next FY Research Funding |
物品費を利用する。計算機、周辺機器、研究用データ・電子辞書、プリンターのトナー、書籍など、研究活動を推進するために必要なものを購入する。教師あり機械学習に基づく研究のため、計算機関係のものが必要となる。研究推進のため、関係分野の技術学習のため、書籍購入が必要となる。 旅費を利用する。23年度また24年度に行った研究の学会発表を行う。査読付き国際会議などに対して積極的に論文投稿を行う。23年度には、一文内の冗長な表現の検出に関する研究を行った。24年度には、一文内の冗長な表現の修正に関する研究を行った。これらの研究の学会発表を行う。さらに、25年度では、一文を超える複数の文からなる文章における、冗長な表現の検出と修正の研究を遂行する。25年度に遂行した研究についても学会発表を行う。 謝金、または、その他経費として、外注費を利用する。冗長な表現に関わるデータベースを作成する。すでに開発済みのデータベースの拡充、質の向上をこれにより行う。冗長な表現に関わるデータベースは冗長な表現の研究に必要である。データベースの作成作業は、謝金によるアルバイト、または、データ作成会社への外注により行う。 当初予定に比べて、25年度は学会発表、情報収集などの出張を多くする。研究をより推進しやすくできるように、データベースの拡充、質の向上を行う。このため、応募申請書提出時の予定より多くの研究費が必要となる予定である。23年度、24年度分の研究費の未使用分をこれに充当する。
|
Research Products
(6 results)