2014 Fiscal Year Research-status Report
Project/Area Number |
26330252
|
Research Institution | Tottori University |
Principal Investigator |
村田 真樹 鳥取大学, 工学(系)研究科(研究院), 教授 (50358884)
|
Project Period (FY) |
2014-04-01 – 2018-03-31
|
Keywords | 内容欠落文書の改善 / 文書推敲 / 記載必要項目 / 情報抽出 / 文生成 / 機械学習 |
Outline of Annual Research Achievements |
本課題では、ある文書群において書くべき情報を情報抽出技術等を利用して特定し、その書くべき情報が記載されていない内容の欠落した文章を改善するのに必要となる技術を明らかにする。文章の種類ごとに書くべき項目(以降記載必要項目と呼ぶ)がある程度決まっている。新聞であれば5W1Hなどが、論文であれば研究対象・研究成果・必要性・有効性などが、面接用原稿であれば自分の能力とその根拠などが、記載必要項目となる。これらのことが書かれていなければ文章の説得力や可読性が低下する。本課題では、記載必要項目を好適に記述することを支援する技術を構築する。本課題の遂行には提案者の情報抽出と言い換えに関する成果と経験が役立つ。本課題は、日本語文章を対象として研究を行う。本課題はコミュニケーションの効率化に寄与する。 本年度は、論文データにおける記載必要項目を検討した。自然言語処理分野の論文データにおいて頻出する単語をもとに記載必要項目を決定した。現状では、「必要性」「新規性」「比較」「問題点」「目的」「例」を記載必要項目とした。またこれらの記載必要項目の有効性を確かめるために、記載必要項目の記載の欠如を検出する研究も行った。「比較」「問題点」「目的」「例」では、0.6から0.8のF値で記載の欠如を検出できた。 機械学習に基づく言語解析・情報抽出など、文章の修正と情報欠落文書の分析に資する文章処理技術の検討も行った。例えば、機械学習に基づく格解析の研究を行った。また、機械学習に基づく情報抽出の研究を行った。 27年度は、機械学習も利用して、より高度に記載の欠如を検出することを試みる。情報抽出技術を利用することによる記載必要項目の欠落の発見も行う。情報抽出技術により記載必要項目に相当する情報を対象の文書から取り出す。情報抽出技術により取得できなかった記載必要項目が欠落した情報となる。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本課題では、ある文書群において書くべき情報を情報抽出技術等を利用して特定し、その書くべき情報が記載されていない内容の欠落した文章を改善するのに必要となる技術を明らかにする。文章の種類ごとに書くべき項目(以降記載必要項目と呼ぶ)がある程度決まっている。新聞であれば5W1Hなどが、論文であれば研究対象・研究成果・必要性・有効性などが、面接用原稿であれば自分の能力とその根拠などが、記載必要項目となる。これらのことが書かれていなければ文章の説得力や可読性が低下する。本課題では、記載必要項目を好適に記述することを支援する技術を構築する。本課題の遂行には提案者の情報抽出と言い換えに関する成果と経験が役立つ。本課題は、日本語文章を対象として研究を行う。本課題はコミュニケーションの効率化に寄与する。 26年度は本研究のうちの記載必要項目の決定に関わる研究を行う予定であった。研究の推進し、記載必要項目を決定する方法として、頻度を用いた手法を提案した。実際に論文データを用いた実験をして、論文データには、「必要性」「新規性」「比較」「問題点」「目的」「例」が記載必要項目としてあることがわかった。これらの記載必要項目の有効性を確かめるために、記載必要項目の記載の欠如を検出する研究も行った。「比較」「問題点」「目的」「例」では、0.6から0.8のF値で記載の欠如を検出できた。 機械学習に基づく言語解析・情報抽出など、文章の修正と情報欠落文書の分析に資する文章処理技術の検討も行った。例えば、機械学習に基づく格解析の研究を行った。また、機械学習に基づく情報抽出の研究を行った。
|
Strategy for Future Research Activity |
27年度には、教師あり機械学習を用いて文章中に記載必要項目が記載されているかを確認する記載確認技術に関する研究を行う。記載必要項目を記載しているかどうかを示すデータベースを作成する。記載必要項目有無データベースを機械学習することで、文章中に記載必要項目が記載されているか否かが判定可能となり、記載必要項目が記載されていない内容の欠落した文章を検出できる。文章中に出現する表現を機械学習で用いる素性とする。機械学習は内容欠落文の検出のみならず、検出の際の学習により内容欠落文の言語的特徴も出力できる。これは、内容欠落文の改善のための有益な知見となる。情報抽出技術を利用することによる記載必要項目の欠落の発見も行う。情報抽出技術により記載必要項目に相当する情報を対象の文書から取り出す。情報抽出技術により取得できなかった記載必要項目が欠落した情報となる。27年度に開発する記載確認技術は記載の有無を発見できるので記載必要項目有無データベース等の構築にも役立つ。記載確認技術の利用によるデータベースの拡充も行う。記載確認技術により文書Aにおける内容欠落文を検出しそれを被験者に見せて、それを見せられた方が文書Aの作成に役立つかの被験者実験を行い、記載確認技術の有効性を確かめる。記載確認技術、記載支援技術の基礎的技術となる情報抽出、文生成、機械学習に関わる研究を進める。
|
Causes of Carryover |
26年度は、記載必要項目有無データベースと記載必要項目修正データベースを作成する予定であった。記載必要項目有無データベースには、記載必要項目が記載されているか否かを記した文章が格納される。記載必要項目無しの文章にはどういう記載必要項目の記載が欠けているかの 情報もつける。記載必要項目修正データベースには、記載必要項目を人手で書き足して修正した文章が格納される。試験的に小規模な記載必要項目有無データベースは作成したが、大規模なデータベースは研究をもう少し進めてからの方がよりよいデータベースが作成できると考え、一部データベースの作成を先延ばしにした。また学会発表も一部先延ばしにすることにした。これらにより、次年度使用額が発生した。
|
Expenditure Plan for Carryover Budget |
物品費を利用する。計算機、周辺機器、書籍など、研究活動を推進するために必要なものを購入する。旅費を利用する。26年度また27年度に行った研究の学会発表を行う。謝金、または、その他経費として、外注費を利用する。記載必要項目有無データベースと記載必要項目修正データベースを作成する。このデータベースは記載必要項目の記載の有無を自動判定する研究に必要である。データベースの作成作業は、謝金によるアルバイト、または、データ作成会社への外注により行う。 当初予定に比べて、27年度は学会発表、情報収集などの出張を多くする。研究をより推進しやすくできるように、データベースの拡充、質の向上を行う。このため、応募申請書提出時の予定より多くの研究費が必要となる予定である。26年度分の研究費の未使用分をこれに充当する。
|