研究課題/領域番号 |
24700138
|
研究種目 |
若手研究(B)
|
研究機関 | 東京農工大学 |
研究代表者 |
古宮 嘉那子 東京農工大学, 工学(系)研究科(研究院), 特任助教 (10592339)
|
研究期間 (年度) |
2012-04-01 – 2015-03-31
|
キーワード | 人工知能 / 自然言語処理 / 語義曖昧性解消 / 領域適応 / 最適化 |
研究概要 |
本研究の関連研究を、現在より深く調査し、訓練事例ベクトル集合の最適化に必要な一連の流れを実装した。 (1)語義曖昧性解消のための、コーパス収集本研究に使用するコーパスとしては、現在、申請者が利用している現代日本語書き言葉均衡コーパス(以降、BCCWJ コーパス)、RWC コーパスを使用した。 (2)コーパスからの事例ベクトル集合の作成入手したコーパスから訓練事例、テスト事例に用いる事例ベクトル集合を作成した。申請者は、これまで利用していた、語義曖昧性解消の対象単語の前後2 単語についての、形態素、品詞、品詞の細分類、分類語彙表における意味分類、また、語義曖昧性解消の対象単語の係り受け情報を素性に用いた。 (3) 基本的な類似度を基準に用いた訓練事例ベクトル集合の最適化を、整数線形計画法のツールCPLEX を利用して行うつもりであったが、実験を行ううちに線形計画法はテーマに即していないことが分かったため、以下の二通りの研究を進めた。ひとつめには、コサイン類似度を含む7種類の類似度とそのほかの指標を比較して、それぞれターゲットドメインの訓練事例ベクトル集合に近くなるように、ソースドメインの訓練事例ベクトル集合を最適化し、訓練事例ベクトルの最適化によって、語義曖昧性解消の正解率が上がるかどうかを調べた。これは、分類器としてMEMを使って行ったが、残念ながら一つの類似度ではうまくいかないことが分かり、複数の類似度を用いて機能学習をすることにより予測が可能かを調査中である。ふたつめは、分類器としてSVMを使い、確信度およびLOOという指標を用いてより適切な訓練事例集合を作成する研究である。これはテスト事例ごとに適切な集合を選択する手法と、テスト事例集合ごとに山登り法で適切な集合を選択する実験の予備実験を行ったところ、好感触を得ている。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
本研究は、語義曖昧性解消における領域適応の研究である。対象分野のラベルなしコーパスと、多数の入手可能な対象分野以外の分野のラベル付きコーパスを用いて、対象分野のコーパスによる事例ベクトル集合に最も近い訓練用の事例ベクトル集合を自動的に作成し、ラベル付きコーパスが手に入らない際の語義曖昧性解消の正解率をあげることを目指す。 1)多数の入手可能なコーパスから得られる用例を適切に選択することで、対象分野のコーパスによる事例ベクトル集合に最も近くなるように、訓練用の事例ベクトル集合を最適化すること 2)そのために、語義曖昧性解消において事例ベクトル集合の類似性を測るのに最適な類似度を定義すること 2)に関しては、確信度とLOOという指標が使用に向いていると考えているため、おおむね順調である。1)に関しては、線形計画法は利用しないことになったが、代わりに山登り法を用いて予備実験は行われており、やはりおおむね順調であると考えている。
|
今後の研究の推進方策 |
H24年度の実験結果を踏まえて、ふたつの道を検討している。 ひとつは、コサイン類似度などの複数の類似度を用いて機能学習をすることにより適切な訓練事例の選択が可能かを確かめることである。こちらに関しては、回帰分析を用いて機能学習することを考えているが、もしかしたらSVRを利用するかもしれない。ただしこの手法だと、unsupervisedの設定なのにもかかわらず、supervisedな手法となることがネックであると考えている。 もうひとつは、確信度とLOOという指標を用いてさらに詳細な実験を行い、山登り法を用いてより適切な訓練事例を作成することである。後者の実験では、確信度とLOOが指標として効く条件として、訓練事例数が関わることが実験により明らかになってきているため、まずはその指標に訓練事例数を組み込むことを考えている。さらに、新しい語義タグ付きコーパスが入手できるという話を聞いているので、これを使って再実験をする予定である。 また、さらに、文書分類を用いて訓練事例集合を選択することも考えており、余裕があれば行う予定である。
|
次年度の研究費の使用計画 |
H25年度の実験結果を踏まえて柔軟に進める予定である。 また、余裕があれば、素性や処理速度の面で語義曖昧性解消の性能を上げる。 例えば、素性の中にも、語義曖昧性解消に直接関係のある素性とそうでない素性があることが考えられる。このため、SVD やLDAなどの次元圧縮手法を利用して、素性の圧縮を行うことを考えている。また、類似度の式内において、素性に対する重みづけを行うことにより、最適化の改良を行うことも考えている。必要であれば、当初設定した素性に加えて、文脈の素性を増やすなど、素性そのものを検討することも考えている。 また、より実効速度を速くして、手軽に最適化・領域適応が行えるように工夫する。 未使用の研究費が9995円分発生したが、これは中国の合肥への出張が国際関係の悪化により中止になったことから当初の想定とのずれが生じ、その後いろいろと修正したものの残ってしまったものである。
|