2014 Fiscal Year Research-status Report
ハッシュ法を統合した多様で大規模な言語データの解析技術に関する研究
Project/Area Number |
26730126
|
Research Institution | NTT Communication Science Laboratories |
Principal Investigator |
林 克彦 日本電信電話株式会社NTTコミュニケーション科学基礎研究所, 協創情報研究部, リサーチアソシエイト (50725794)
|
Project Period (FY) |
2014-04-01 – 2017-03-31
|
Keywords | 自然言語処理 / 談話解析 / 修辞構造解析 / ハッシュ法 |
Outline of Annual Research Achievements |
本申請では入力データ長が長く複雑な場合における高速な自然言語解析手法に関する研究を行う.特に,これまでの自然言語処理では1文を対象とした解析手法が研究されてきたが,近年では文間の関係を明らかにするため,文よりも複雑な文書の解析が重要性を増してきている.このような文書に対する解析は文書要約システムなどに応用される.
当該年度ではまず,英語文書に対して,その構文構造を自動解析するための仕組みを研究した.ここでは文書の構文構造として修辞構造木と呼ばれる表現を採用し,その自動解析装置を開発した.対象としている新聞記事では1文書が200文程度(単語数では5000単語程度)から成ることもあり,実時間で動作する文書要約システムなどへの応用を考えると,その解析効率の向上は必須となる.そこで,この構文解析装置では計画書で予定していた通り,素性ハッシュ法を導入することで解析効率の向上をはかった.開発した装置では200文程度から成る文書でも平均1cpu秒程度(従来のオープンソースシステムでは3cpu分程度)で解析できることがわかった.また,開発したシステムは世界最高精度の従来システムと遜色ない精度を達成することもわかっており,実時間で動作する文書要約システムへの応用が強く期待できる.この研究成果は現在,国際会議EMNLP2015(または,国際ジャーナルTACL)へ提出するため,原稿を執筆中である.
上記成果の一部として,文書要約への応用に最も有効な文書構造表現を調べるため,様々な文書構造コーパス(修辞構造木,談話依存構造木,談話接続項構造)について分析を行っている,この成果は2015年3月に行われた言語処理学会年次大会で発表を行っている.(このテーマから派生した談話接続項構造解析に関する研究成果は国内特許へ出願予定である.)
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
長く複雑な言語データを効率的に解析するため,ハッシュ法(特に素性ハッシュ法)の有効性を調べることについては,システムの開発も円滑に進み,一定の成果を達成できている. 一方で,当初予定していた助成金額よりも金額が少なくなったことで,研究対象として予定していたblogやtwitterなどの文へのアノテーションが行えなくなった.そのため,対象とするデータを既にアノテーションが存在する新聞文書へと変更している.これにより,文書解析に関する調査,及び,開発する解析装置も文から文書解析用に一部変更するなど,計画書には予定していなかった作業が発生している.当該年度中において,これらの作業にも概ね対応することはできたが,計画書で予定していた論文投稿の時期が遅れている.
|
Strategy for Future Research Activity |
ハッシュ法に基づき,長く複雑な文書データを効率的に解析する装置の開発,及び,実験は進んでいる.今後はこれらの成果を論文としてまとめることに尽力する予定である.現在,国際会議×1本,国内論文誌×1本を執筆中であり,これらの投稿が最重要課題であると考えている.
|
Causes of Carryover |
計画では主記憶64GBのCPU8コアの計算機を130万円程度,15年3月半ばに京都大学で行われる国内会議への参加旅費及びその他で10万円を確保していた. 前者については,実際の計画遂行中にデータストレージ,デスクトップ計算機,ノート計算機に分割して購入し,用途ごとに使い分ける方針に切り替えて計132万を使用した.一方,後者の10万円は国内会議の旅費として年度末まで確保していたが,学会側から本申請とは異なる研究成果により招待論文講演の依頼を受けたため,所属機関から旅費が支給され,残額8万円は未使用となった.
|
Expenditure Plan for Carryover Budget |
直接経費の請求額20万円と繰り越し残額8万円は旅費とその他経費で計上している. 本申請の研究に関連して,東京工業大学,北海道大学への出張旅費を合計10万円で考えている.また,前年度の残額は国内会議旅費として確保したが,実際の前年度の計画ではその他として計上しており,洋書書籍各2万円程度のものを5冊購入予定であった.よって,それらの書籍購入に10万円を考えている. 最後に,16年度3月頃に東北大学で開かれる国内会議言語処理学会への旅費として8万円を確保しておく予定である.
|
Research Products
(1 results)