2015 Fiscal Year Research-status Report
Project/Area Number |
26330252
|
Research Institution | Tottori University |
Principal Investigator |
村田 真樹 鳥取大学, 工学(系)研究科(研究院), 教授 (50358884)
|
Project Period (FY) |
2014-04-01 – 2018-03-31
|
Keywords | 内容欠落文書の改善 / 文書推敲 / 記載必要項目 / 情報抽出 / 文生成 / 機械学習 |
Outline of Annual Research Achievements |
本課題では、ある文書群において書くべき情報を情報抽出技術等を利用して特定し、その書くべき情報が記載されていない内容の欠落した文章を改善するのに必要となる技術を明らかにする。文章の種類ごとに書くべき項目(以降記載必要項目と呼ぶ)がある程度決まっている。新聞であれば5W1Hなどが、論文であれば研究対象・研究成果・必要性・有効性などが、面接用原稿であれば自分の能力とその根拠などが、記載必要項目となる。これらのことが書かれていなければ文章の説得力や可読性が低下する。本課題では、記載必要項目を好適に記述することを支援する技術を構築する。本課題の遂行には提案者の情報抽出と言い換えに関する成果と経験が役立つ。本課題はコミュニケーションの効率化に寄与する。 本年度は、機械学習に基づく記載必要項目の記載の欠如を検出する研究を行った。昨年度に行ったルールベースに基づく記載必要項目の記載の欠如を検出する手法よりも性能が低かった。ルールベース手法の有効性を確認できた。また、記載必要項目の記載が不十分な文書の人手による分析を行った。記載が不十分な文書を、その不十分さに基づき5レベルに分けて分析した。この分析は、今後、記載必要項目の記述不備の修正の研究を行うが、その際に役立つことになる。 機械学習に基づく言語解析・文章作成支援など、文章の修正と情報欠落文書の分析に資する文章処理技術の検討も行った。例えば、機械学習に基づいて文生成における段落の順序を推定する研究を行った。また、文章作成支援に役立つ単語連鎖、連想単語に関わる研究を行った。情報抽出技術を利用することによる記載必要項目の欠落の発見に関し初歩的な研究を行った。 28年度は、記載必要項目の記述不備の修正に関わる研究を行う。また、情報抽出技術により記載必要項目に相当する情報を対象の文書から取り出す技術について改良を試みる。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本課題では、ある文書群において書くべき情報を情報抽出技術等を利用して特定し、その書くべき情報が記載されていない内容の欠落した文章を改善するのに必要となる技術を明らかにする。文章の種類ごとに書くべき項目(以降記載必要項目と呼ぶ)がある程度決まっている。新聞であれば5W1Hなどが、論文であれば研究対象・研究成果・必要性・有効性などが、面接用原稿であれば自分の能力とその根拠などが、記載必要項目となる。これらのことが書かれていなければ文章の説得力や可読性が低下する。本課題では、記載必要項目を好適に記述することを支援する技術を構築する。本課題の遂行には提案者の情報抽出と言い換えに関する成果と経験が役立つ。本課題は、日本語文章を対象として研究を行う。本課題はコミュニケーションの効率化に寄与する。 本年度は、機械学習に基づく記載必要項目の記載の欠如を検出する研究を行った。昨年度に行ったルールベースに基づく記載必要項目の記載の欠如を検出する手法よりも性能が低かった。ルールベースに基づく手法の有効性がわかった。また、記載必要項目の記載が不十分な文書の人手による分析を行った。記載が不十分な文書を、その不十分さに基づき5レベルに分けて分析した。この分析は、今後、記載必要項目の記述不備の修正の研究を行うが、その際に役立つことになる。 機械学習に基づく言語解析・文章作成支援など、文章の修正と情報欠落文書の分析に資する文章処理技術の検討も行った。例えば、機械学習に基づいて文生成における段落の順序を推定する研究を行った。
|
Strategy for Future Research Activity |
28年度に、言い換えと可視化の技術を用いて内容欠落文の記載を改善する記載支援技術の研究を行う。記載必要項目修正データベースを作成する。記載必要項目修正データベースには、記載必要項目を人手で書き足して修正した文章が格納される。記載必要項目修正データベースに言い換え技術を利用することで、内容欠落文の改善のための文パターンや規則を獲得する。これらのパターンや規則を用いて内容欠落文をある程度自動で改善することを試みる。内容欠落文を含む改善対象の文書と同種の大量の文書群から、内容欠落文に役立つ例文を抽出しそれを執筆者に見せる支援技術の構築も行う。執筆している文書の記載必要項目に相当する情報を、文書と例文の両方から抜き出し、表の形に可視化して見せる支援も行う。内容欠落箇所に関わる情報をウェブなどから検索して執筆者に情報を提示し、執筆者が内容を考える参考とする。記載支援技術により文書Aの改善支援として、文書Aの内容欠落文をパターンや規則で改善文の提示、同種の文書群からの例文の提示、記載必要項目の情報可視化を行う。これらの支援が文書Aの作成に役立つかの被験者実験を行い、記載支援技術の有効性を確かめる。また、27年度までに構築した、記載必要項目特定技術、記載必要項目確認技術、記載必要項目有無データベースの改良、拡充も行う。記載確認技術、記載支援技術の基礎的技術となる情報抽出、文生成、機械学習に関わる研究を進める。
|
Causes of Carryover |
27年度は、記載必要項目有無データベースと記載必要項目修正データベースを作成する予定であった。記載必要項目有無データベースには、記載必要項目が記載されているか否かを記した文章が格納される。記載必要項目無しの文章にはどういう記載必要項目の記載が欠けているかの 情報もつける。記載必要項目修正データベースには、記載必要項目を人手で書き足して修正した文章が格納される。試験的に小規模な記載必要項目有無データベースと記載必要項目修正データベースは作成したが、大規模なデータベースは研究をもう少し進めてからの方がよりよいデータベースが作成できると考え、一部データベースの作成を先延ばしにした。また学会発表も一部先延ばしにすることにした。これらにより、次年度使用額が発生した。
|
Expenditure Plan for Carryover Budget |
物品費を利用する。計算機、周辺機器、書籍など、研究活動を推進するために必要なものを購入する。旅費を利用する。26年度から28年度において行った研究の学会発表を行う。謝金、または、その他経費として、外注費を利用する。記載必要項目有無データベースと記載必要項目修正データベースを作成する。このデータベースは記載必要項目の記載の有無を自動判定する研究に必要である。データベースの作成作業は、謝金によるアルバイト、または、データ作成会社への外注により行う。 当初予定に比べて、28年度は学会発表、情報収集などの出張を多くする。研究をより推進しやすくできるように、データベースの拡充、質の向上を行う。このため、応募申請書提出時の予定より多くの研究費が必要となる予定である。27年度までの研究費の未使用分をこれに充当する。
|