2015 Fiscal Year Research-status Report
ハッシュ法を統合した多様で大規模な言語データの解析技術に関する研究
Project/Area Number |
26730126
|
Research Institution | NTT Communication Science Laboratories |
Principal Investigator |
林 克彦 日本電信電話株式会社NTTコミュニケーション科学基礎研究所, その他部局等, 研究員 (50725794)
|
Project Period (FY) |
2014-04-01 – 2017-03-31
|
Keywords | 線形時間言語解析 / 談話構造解析 / 音声言語データ解析 |
Outline of Annual Research Achievements |
文書における文間の関係を表す構造や音声言語データにおける主語等の省略が起きた崩れ文を高速に自動解析することは文書要約や音声翻訳などへの応用において重要な課題となっている。 当該年度では、文の省略表現を補完しながら文を線形時間で解析する技術を考案し、分野最難関の国際会議ACL16に採択された。この技術は音声翻訳などへの応用が期待される技術であり、さらに東北大学が行うKeyakiツリーバンクプロジェクトにその技術を導入することが今年度予定されている。 当該年度ではさらに、昨年度に開発した文書の関係構造を高速に解析する技術を文書要約へ応用することで、文書要約の精度や速度を改善することに成功した。この内容は国際会議SIGDIAL16に投稿を予定している。この技術は、東京工業大学の奥村、高村研究室に利用可能な形で提供している。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
開発した技術は全てオープンソース化して公開することを予定していたが、現在はバイナリ化したコードを東北大学や東京工業大学など研究への問い合わせがあった機関のみに利用可能にした状態で留まっている。 この原因はソフトウェア開発、実験、論文執筆に予想以上の時間がかかり、プログラムの整備に時間を割くことができていないためである。また、所属機関が私的な会社であるため、ソフトウェアの一般公開には多くの内部手続きを経る必要があることも予定が遅れる原因の1つとなっている。
|
Strategy for Future Research Activity |
これまでに開発したソフトウェアの整備を進め、オープンソースとして公開することを目指す。システム内部で他のソフトウェアを利用しているため、それらのライセンス問題や再開発を行うことで公開可能な形にソフトウェアを整備する。 研究としては、省略補完を行う文の高度な解析から談話構造の解析まで統一した解析の枠組みを検討し、そのための高速な解析アルゴリズムの開発を目指す。
|
Causes of Carryover |
国際会議や国内全国大会への参加旅費を計上していたが、論文投稿が遅れたことにより、前年度での使用が行われなかったため。
|
Expenditure Plan for Carryover Budget |
本年度は国際会議ACL16に採録された論文や国際会議SIGDIAL16への投稿済みの論文があるため、それらの内容を拡充して国内論文誌へ投稿することを予定している。それらが採録された場合の掲載料への使用を見込んでいる。
|