2014 Fiscal Year Research-status Report
Project/Area Number |
24650065
|
Research Institution | Kyushu University |
Principal Investigator |
石井 久美子(田中久美子) 九州大学, システム情報科学研究科(研究院, 教授 (10323528)
|
Project Period (FY) |
2012-04-01 – 2016-03-31
|
Keywords | 自然言語処理 / 形態素解析 |
Outline of Annual Research Achievements |
言語に汎用な、教師なし手法に基づく形態素解析の実現を目指している。ここでいう形態素解析とは、与えられた文書に対して、単語などの境界を得ることと、単位の範疇を求めることの二つを行うことをいう。去年まではそのプロトタイプとして言語学者Harrisの仮説に基づくアドホックな手法を吟味していた。単語の境界が大方抽出可能であることは事前研究により明らかであったが、範疇をどのように捉えるかが難しかった。 平成26年度は、Binary Decision Diagram(以下BDD)を用いて頻出部分に対して形態素解析を行う方法を模索し、プロトタイプを実装した。単語境界を得る際には、文章群からTrie構造などを構築し、複数のサンプルに共通する部分を抽出する。ところがTrie構造など既存のデータ構造では、共通するprefix部分のみを共有し、一旦分岐したのちはたとえ共通可能な部分があっても木を共有することはない。一方、BDDは、一旦共通部分がなくなり分岐したのちも、再び共通する部分については構造を共有する。たとえば、英語表現でregard A as Bという決まり文句があるが、Aの部分はさまざまな英単語が来うるため、共有単語のasを抽出するのが難しかった。この点、BDDを用いると、A,Bをワイルドカード部とし、そのあとにasが頻出するパターンを得ることができる。 大規模な実験を行うため、2014年度に高速マシンを研究室に導入し、性能の検証を行った。英語でBDD抽出モジュールを実装し、性能を調べた。例文数が十分にあれば、およそ9割の性能で適切なパターンを抽出することができた。また、範疇も、ワイルドカード部を埋める語群を範疇と捉えることができる。今後は、過去のアドホックな手法、ならびに平成27年度に実現する手法と比較し、実用ソフトウエアとして発信する。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
研究目標の中には、 1.解析手法の考案 2.汎用のソフトウエアの構築 3.論文発表 の3つが含まれている。このうち、1と2については、最終年度を前にして、順調である。1の解析手法については、アドホックな手法、BDDに基づく手法、ならびに今後の欄で述べるBayes推定に基づく手法の3つが考案され、また、2についても手法それぞれについてプロトタイプがあり、ソフトウエアとして構築する道すじが見えている段階である。このため、研究目標は順調に達成されつつある。特に、2014年度に、単位の境界と範疇を得ることは「パターンを得る」すなわち文法を獲得することの裏返しである、という考えにBDDを通して到達したことは、大きい。この考えは、昨今のcorpus言語学上の知見に沿うものでもある。 一方、3については、申請者のライフイベントの関係で、若干遅れている。代表者には2年前にライフイベントがあったが、以来出張をなるべく控えざるを得ない状況にある。本研究目標を遂行するにあたって、分担者はおらず、学生と共に研究を行っているため、国内外の学術会議ではなく、雑誌論文に結果を直接投稿せざるを得ない状況にあった。一般に学術会議よりも雑誌論文の方が、再録条件は多く、論文に高い完成度を要するため、準備が整うまで論文投稿を待たざるを得なかった。最終年度も、申請者の事態は改善するものではないが、これまでに得た内容を雑誌論文として投稿する。平成26年度の論文発表としては、パターン抽出に付帯する関連成果を挙げる。いずれも文に内在するパターンに関する内容であり、それらに関する成果を着想として、2014年度のBDDの成果が得られている。
|
Strategy for Future Research Activity |
最終年度に残されたこととして、1. Bayes推定法に基づくパターンの抽出を試す 2. これまでの知見を実装し、成果の社会的還元を行う ことの二つがある。 1については、2014年度より前は、範疇をどのように得るかに関する確率的な生成モデルが定まらず、計算アルゴリズムを構築できずにいた。2014年度のBDDのパターン抽出に基づく形態素解析手法を考案したことで、生成モデルにパターンの概念を組入れることで、Bayes手法に基づく形態素解析に光が見えている。夏にかけて実装を行う予定であり、成果を平成24年度に得たBDDによる方式と比較する。 2については、当初本研究課題の申請時には言語汎用の形態素解析器の構築を目標とした。しかしながら、教師なしの解析は、ある程度の量以上の例文の出現数に基づいて抽出するものである。このため、汎用の文章の形態素解析においては、例文数が満たない場合には難しく、頻出部分に限定する必要がある。限定する仕方の一方法としてパターン部分を考えるというのが今年度の成果であり、今後も引き続きこの方針で進める。そして、パターンの抽出は、語学学習など応用の観点からも有用である。そこで、パターンの抽出を言語汎用に行い、AやBを埋める語群と共に提示するようなソフトウエアを実現する。最終年度はできる限り実装を進め、プロトタイプまで完成させる。 前述のように、代表者のライフイベントを原因として、本申請課題に関しては論文発表などがやや遅れ気味である状況にある。最終年度は、少なくともBDDに基づくパターン抽出について発表し、また、可能であれば、年度末までにBayes推定や語学学習応用についても論文投稿を行う。
|
Causes of Carryover |
今年度の旅費を一部最終年度に繰越したため。また、購入した機械類について、当初の予定から差額が生じたため。
|
Expenditure Plan for Carryover Budget |
旅費の繰越分は予定どおり旅費として使用する。機械類の差額分は、最終年度に投稿予定の論文校正費ならびに、別刷り代として使用する。
|