研究課題/領域番号 |
24650065
|
研究機関 | 九州大学 |
研究代表者 |
石井 久美子 (田中 久美子) 九州大学, システム情報科学研究科(研究院, 教授 (10323528)
|
キーワード | 自然言語処理 / 形態素解析 / 教師なし機械学習 |
研究概要 |
研究代表者が平成25年1月に双生児を出産した関係で、萌芽研究の研究期間を1年間延長した。 4月に復帰後、2名の新生児の育児を行いながらの1年間となったが、予定どおり、基本とする手法の試作と検証を行った。具体的には、代表者が以前に行ったHarrisの手法に基づく文分割手法を拡張し、一部を汎化したパターン形式を抽出する事を行った。たとえば、日付けであれば、『X年X月X日X曜日』などのパターンがあるが、これは、汎化したXのスロットも含めるとまとまったひとまとまりの文字列として、同じように文書内に繰り返される。パターン中の汎化された部分に当てはまる語句は、同じ範疇の語群であるから、パターン抽出は、形態素解析を行っている事に相当し、また実は文の構造も同時に解析することにつながっている。この考え方には、昨今のコーパス言語学の知見が生かされており、たとえば、COLINS COBUILD英語辞書は、英語の構造をパターン文法にに基づいて記述するものである。 ツイッター上では、テンプレートを用いた構造的な文書が連続的に配信される事が多い。たとえば、イベントホールのツイッターは、いつどのようなイベントが行われるのかを配信するなどであり、これはパターンの形式をとる。これに着目し、作成したプロトタイプを用いて、ツイッターからパターンを自動抽出する事を試みた。さらに、研究期間初年度に最小記述長原理(Minimum discription length原理)を用いた文書の分割を行い、国際会議にて発表したが、同じ原理をパターンの精選にも適用し、効果を確認した。手法の性能を100程度のツイート文書群に適用して確かめ、問題点を洗い出した。論文などの具体的な成果としては、今後となる。まとめると、今年度は、パターン抽出の形で、教師なし形態素解析を捉え直し、本研究の基盤となるアイデアを得た。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
平成25年1月に出産後同年4月に復帰し、育児と平行して研究を進めるため、当初2年目に予定していた研究期間を1年延長し、目標とする事のおおよそ半分を平成25年度に、残りの部分に平成26年度に取り組む予定と変更した。当初予定は、プログラムのプロトタイプを年度前半に作り、後半に学会発表に行う予定で、予算も対応する形で前半は不足している機器類の購入のために少額だけ用い、大半は後半に学会参加の旅費として使う目的で計上されていた。研究期間の延長後、平成25年度に前半部分の研究を予定どおりに行い、必要な機器類を購入する事にとどめて予算を消化した。以上のとおり、研究は予定どおりに進んでいる。
|
今後の研究の推進方策 |
プロトタイプとして作成したパターン抽出手法は、もともと教師なし単語分割手法を拡張して作ったものであるため、既存の教師なし単語分割手法との親和性が高い。そして、昨今のコーパス言語学や認知言語学上の成果の近年の知見とよく整合するものとなっている。今後は、今年度到達したアイデアを基礎に、そのアイデアの実現と性能の評価を行う。 パターン抽出手法は、平成25年度に構築したプロトタイプの他に、オートマトン理論を応用して正規表現の自動抽出を行うもの、また、情報理論おける文法的圧縮技法の応用など、過去に複数の提案がある。今年度のプロトタイプと平行して、この既存手法の可能性も探る必要がある。とはいえ、いずれも自然言語文書の解析を主眼としたものではないため、手法を大幅な拡張が必要となる。平成26年度は現在構築したプロトタイプとこれら他手法を拡張したものを比較し、自然言語の解析として手法の長所短所を調査する。同時に、パターンの空きスロットを埋める単語群の範疇化の性能も吟味する。以上の知見をまとめて論文発表を行う。 平成27年度はパターン抽出ソフトウエアを具体的に構築する。ソフトウエアとしては二つのものを現在は考えている。第一は、ツイッターの文書が与えられた時に、そこからパターンを抽出するものである。第二は、KWICの形式で、個別の単語に対してパターンを得るものである。両システムに対して、パターンの性能だけではなく、スロットを埋める単語群の範疇化の性能も吟味し、たとえば、ツイッターからイベントを抜き出し情報抽出を行うといった応用も試みる。当初の予定どおり、二つのソフトウエアを最終的には公開することを最終目標とする。
|
次年度の研究費の使用計画 |
出産・育児を理由として、研究年度の延長を行ったため 当初予定の第二年度後半に予定していたとおりに使用する。必要機器類の購入の他、成果発表のために用いる。
|