研究課題/領域番号 |
23500178
|
研究機関 | 鳥取大学 |
研究代表者 |
村田 真樹 鳥取大学, 工学(系)研究科(研究院), 教授 (50358884)
|
研究期間 (年度) |
2011-04-28 – 2014-03-31
|
キーワード | 文生成 / 冗長な表現 / 文の修正 / 機械学習 |
研究概要 |
一文内の冗長な表現の検出に関する支援技術を研究した。まず、大雑把に冗長な文を収集するために、文章の冗長度を定義した。簡単には、ある一定の語数における語の異なり数の逆数を、文章の冗長度(冗長性の度合い)と定義した。上記で定義した冗長度を計算し、冗長度の高いデータを収集した。収集したデータを人手で分析して、実際に冗長な文、冗長でない文を収集した。これを通じて、以下に示す、冗長性判定用データベースと冗長性修正文集合データベースを作成した。冗長性判定用データベースには、冗長な文と冗長でない文が格納される。冗長性修正文集合データベースには冗長な文とそれを修正した文の対が格納される。 次に、一文内の冗長な表現の検出に関する研究を行った。冗長性判定用データベースを教師データとして利用して、教師あり機械学習により、与えられた文が真に冗長であるか否かを自動判定する冗長性判定技術を構築した。その技術の性能評価を行った。種々の冗長な表現をまとめて教師あり機械学習で学習した場合は、冗長な表現の検出はF値0.5程度で行うことができた。冗長な表現を形成する理由となる表現ごとに機械学習で学習した場合は、冗長な表現の検出はF値0.7~0.8程度で行うことができた。高い性能で冗長な表現を検出できるという重要な意義のある事実を確認できた。機械学習にはSVMを用い、素性には文中に出現する単語や文字列を用いた。 表現の順序、文体、表現など、冗長な文章の改善に資する文章処理技術の検討も行った。例えば、表現の変化の検出と考察を行った。また、文章の改善のため、文章における文の順序を推定する研究を行った。二つの文のうち、どちらの文を先に記述すべきかの推定において、教師あり機械学習を利用した手法を提案し7割から8割の性能を得た。これについても、高い性能で文の順序を推定できるという重要な意義のある事実を確認できた。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
本研究では、機械的な手法により冗長な文章の改善に役立つ言語的特徴を明らかにするとともに、その知見により冗長な文章の改善に役立つ支援技術を構築することを目的としている。例えば、「まず初めに円高の解決に向けた解決策の検討を考えたい。」の文のように、文内で同じ単語や同義語が複数回出現する文は冗長でわかりにくい。この文は冗長な表現を削除することで「まず円高の解決策を検討したい。」と修正可能である。本課題では、文レベルの問題から長い文章レベルの問題まで含めて、冗長な文章の改善に役立つ支援技術を構築する。本課題は、日本語文章を対象として研究を行う。本課題はコミュニケーションの効率化に寄与する。 23年度は本研究のうちの冗長な表現の検出に関わる研究を行う予定であった。研究の推進により、冗長性判定用データベースと冗長性修正文集合データベースを作成した。一文内の冗長な表現の検出に関する研究を行った。冗長性判定用データベースを教師データとして利用して、教師あり機械学習により、与えられた文が真に冗長であるか否かを自動判定する冗長性判定技術を構築した。その技術の性能評価を行った。種々の冗長な表現をまとめて教師あり機械学習で学習した場合は、冗長な表現の検出はF値0.5程度で行うことができた。冗長な表現を形成する理由となる表現ごとに機械学習で学習した場合は、冗長な表現の検出はF値0.7~0.8程度で行うことができた。高い性能で冗長な表現を検出できるという重要な意義のある事実を確認できた。 表現の順序、文体、表現など、冗長な文章の改善に資する文章処理技術の検討も行った。二つの文のうち、どちらの文を先に記述すべきかの推定において、教師あり機械学習を利用した手法を提案し7割から8割の性能を得た。これについても、高い性能で文の順序を推定できるという重要な意義のある事実を確認できた。
|
今後の研究の推進方策 |
一文内の冗長な表現の修正支援の研究を行う。23年度に構築した冗長性修正文集合データベース中の冗長な文とその修正文の対を照合し、修正用の文パターンや語順変更の規則を取得する。これら文パターンや規則を利用して、冗長な文の修正案を提示する簡素な表現への言い換え技術を構築する。例えば、例1の冗長な文と修正後の文の対より、「まず初めに」を「まず」に変換する規則、「の検討を考えたい。」を「を検討する。」に変化する規則を獲得し修正に役立てる。このとき語順を変更した規則による修正も行う。冗長な文を修正する規則に関しては、それらがデータベースで利用される頻度も計数し、どのような冗長な文の修正の仕方が多いかの考察も行う。 また、冗長性修正文集合データベースを学習データとした教師あり機械学習による修正も試みる。上記で得られる文パターンや機械学習における素性分析により修正支援に役立つ言語的特徴を明らかにする。教師あり機械学習を利用した修正では、性能向上のため、冗長な表現の検出の際に用いた技術ある、冗長な表現を形成する理由となる表現ごとに機械学習する技術も用いる。教師あり機械学習としてはSVMを利用する。機械学習の際の素性には文中に出現する単語や文字列を用いる。 23年度に構築したデータベースは小規模なものであった。データベースの拡大も行う。またデータベースの質の向上も図る。冗長な表現の修正に関わる言語学的考察と分析も行う。冗長な表現の検出と修正の関係についての考察も行う。表現の順序・文体・表現など、冗長な文章の改善に資する文章生成技術の検討も行う。これらの技術の効果を確かめる被験者実験を遂行する。23年度に構築した冗長な表現の検出技術に関するさらなる研究や学会発表も行う。
|
次年度の研究費の使用計画 |
物品費を利用する。計算機、周辺機器、研究用データ・電子辞書、プリンターのトナー、書籍など、研究活動を推進するために必要なものを購入する。教師あり機械学習に基づく研究のため、計算機関係のものが必要となる。研究推進のため、関係分野の技術学習のため、書籍購入が必要となる。 旅費を利用する。23年度および24年度に実施したまたは実施する研究の学会発表を行う。査読付き国際会議などに対して積極的に論文投稿を行う。23年度には、一文内の冗長な表現の検出に関する研究を行った。冗長性判定用データベースを教師データとして利用して、冗長な表現を形成する理由となる表現ごとに機械学習で学習した場合は、冗長な表現の検出はF値0.7~0.8程度で行うことができた。表現の順序、文体、表現など、冗長な文章の改善に資する文章処理技術の検討も行った。二つの文のうち、どちらの文を先に記述すべきかの推定において、教師あり機械学習を利用した手法を提案し7割から8割の性能を得た。これらの研究成果の発表を行いたいと考えている。さらに24年度には、一文内の冗長な表現の修正に関する研究を行い、その研究成果の学会発表を行う。 謝金、または、その他経費として、外注費を利用する。冗長な表現に関わるデータベースを作成する。すでに開発済みのデータベースの拡充、質の向上をこれにより行う。冗長な表現に関わるデータベースは冗長な表現の研究に必要である。データベースの作成作業は、謝金によるアルバイト、または、データ作成会社への外注により行う。 当初予定に比べて、24年度は学会発表、情報収集などの出張を多くする。研究をより推進しやすくできるように、データベースの拡充、質の向上を行う。このため、応募申請書提出時の予定より多くの研究費が必要となる予定である。23年度分の研究費の未使用分をこれに充当する。
|