研究課題/領域番号 |
26330252
|
研究機関 | 鳥取大学 |
研究代表者 |
村田 真樹 鳥取大学, 工学研究科, 教授 (50358884)
|
研究期間 (年度) |
2014-04-01 – 2019-03-31
|
キーワード | 内容欠落文書の改善 / 文書推敲 / 記載必要項目 / 情報抽出 / 文生成 / 機械学習 |
研究実績の概要 |
本課題では、ある文書群において書くべき情報を情報抽出技術等を利用して特定し、その書くべき情報が記載されていない内容の欠落した文章を改善するのに必要となる技術を明らかにする。文章の種類ごとに書くべき項目(以降記載必要項目と呼ぶ)がある程度決まっている。新聞であれば5W1Hなどが、論文であれば研究対象・研究成果・必要性・有効性などが、面接用原稿であれば自分の能力とその根拠などが、記載必要項目となる。これらのことが書かれていなければ文章の説得力や可読性が低下する。本課題では、記載必要項目を好適に記述することを支援する技術を構築する。本課題の遂行には提案者の情報抽出と言い換えに関する成果と経験が役立つ。本課題はコミュニケーションの効率化に寄与する。 本年度は、技術の汎用化を行った。具体的には、修正したい対象の分野がどのようなものであっても処理できるようにした。修正したい文書の類似文書を入力して、その文書での高頻度出現事項を重要事項として、その重要事項の記載の有無を発見する技術を構築した。従来行っていた、ウィキペディアや論文での実験以外に、新聞や小説や製品情報の文書でも、記載の欠落を発見する実験を遂行できた。 機械学習に基づく言語解析・情報抽出・文章作成支援など、文章の修正と情報欠落文書の分析に資する文章処理技術の検討も行った。例えば、文章修正技術、言い換え技術、意味解析、情報抽出に関わる研究を行った。 情報抽出の研究では、従来単語に基づいて情報抽出をしていたが、新たに文に基づいて情報抽出する技術も新たに構築できた。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
本課題では、ある文書群において書くべき情報を情報抽出技術等を利用して特定し、その書くべき情報が記載されていない内容の欠落した文章を改善するのに必要となる技術を明らかにする。文章の種類ごとに書くべき項目(以降記載必要項目と呼ぶ)がある程度決まっている。新聞であれば5W1Hなどが、論文であれば研究対象・研究成果・必要性・有効性などが、面接用原稿であれば自分の能力とその根拠などが、記載必要項目となる。これらのことが書かれていなければ文章の説得力や可読性が低下する。本課題では、記載必要項目を好適に記述することを支援する技術を構築する。本課題の遂行には提案者の情報抽出と言い換えに関する成果と経験が役立つ。本課題はコミュニケーションの効率化に寄与する。 29年度は、技術の汎用化を行い、修正したい文書の種類がどのようなものであっても内容欠落文の記載を改善できる記載支援技術の研究を行う予定であり、実際にその研究を行った。修正したい対象の分野がどのようなものであっても処理できるようにした。修正したい文書の類似文書を入力して、その文書での高頻度出現事項を重要事項として、その重要事項の記載の有無を発見する技術を構築した。従来行っていた、ウィキペディアや論文での実験以外に、新聞や小説や製品情報の文書でも、記載の欠落を発見する実験を遂行できた。以上のように、当初予定していた、技術の汎用化の研究を遂行できた。 また、機械学習に基づく言語解析・情報抽出・文章作成支援など、文章の修正と情報欠落文書の分析に資する文章処理技術の検討も行った。例えば、文章修正技術、言い換え技術、意味解析、情報抽出に関わる研究を行った。
|
今後の研究の推進方策 |
本課題では、ある文書群において書くべき情報を情報抽出技術等を利用して特定し、その書くべき情報が記載されていない内容の欠落した文章を改善するのに必要となる技術を明らかにする。本課題の遂行には提案者の情報抽出と言い換えに関する成果と経験が役立つ。本課題はコミュニケーションの効率化に寄与する。 30年度には、文に基づく情報抽出を利用して、重要項目の記載の欠如があるかを判断する研究を遂行し、その内容の学会発表を行う。 本課題では、文章中に記載必要項目が記載されているかを確認する必要がある。これにはまず、情報抽出技術を利用して、情報を取り出し、記載必要項目に相当する情報が元文書にあるかを調べる必要がある。この情報抽出には、従来、単語に基づく情報抽出を利用していた。最近になって我々の研究において文に基づく情報抽出が可能な見通しを得た。文に基づく情報抽出は、より広範な情報を扱える。このため、補助事業をより精緻に達成するために、30年度には、文に基づく情報抽出を利用して、重要項目の記載の欠如があるかを判断する研究を遂行する。 また、29年度までに構築した、記載必要項目特定技術、記載必要項目確認技術、記載必要項目有無データベースの改良、拡充も行う。記載確認技術、記載支援技術の基礎的技術となる情報抽出、文生成、機械学習、文書作成支援に関わる研究を進める。 また、29年度まで行った研究の学会発表を行う。
|
次年度使用額が生じた理由 |
次年度使用額が生じた理由は以下のとおりである。29年度は、記載必要項目有無データベースと記載必要項目修正データベースを作成する予定であった。記載必要項目有無データベースには、記載必要項目が記載されているか否かを記した文章が格納される。記載必要項目無しの文章にはどういう記載必要項目の記載が欠けているかの 情報もつける。記載必要項目修正データベースには、記載必要項目を人手で書き足して修正した文章が格納される。試験的に小規模な記載必要項目有無データベースと記載必要項目修正データベースは作成したが、大規模なデータベースは研究をもう少し進めてからの方がよりよいデータベースが作成できると考え、一部データベースの作成を先延ばしにした。また学会発表も一部先延ばしにすることにした。これらにより、次年度使用額が発生した。 使用計画は以下のとおりである。物品費を利用する。計算機、周辺機器、書籍など、研究活動を推進するために必要なものを購入する。旅費を利用する。29年度までに行った研究の学会発表を行う。謝金、または、その他経費として、外注費を利用する。記載必要項目有無データベースと記載必要項目修正データベースを作成する。
|