2013 Fiscal Year Research-status Report
Project/Area Number |
24700138
|
Research Institution | Tokyo University of Agriculture and Technology |
Principal Investigator |
古宮 嘉那子 東京農工大学, 工学(系)研究科(研究院), 助教 (10592339)
|
Keywords | 人工知能 / 自然言語処理 / 語義曖昧性解消 / 領域適応 / 最適化 / 調整 |
Research Abstract |
日本語書き言葉均衡コーパス(以下BCCWJ)のうち、6ジャンルのコアデータ(人手で形態素解析を行ったデータ)について語義タグ付きデータが得られたため、これまで使っていた、BCCWJの非コアデータ(ツールで形態素解析を行ったデータ)と、RWCコーパスのデータと合わせて新たにより大きなベクトル集合を作成した。新たに得られたジャンルは、BCCWJのYahoo!知恵袋、白書、Yahoo!ブログ、書籍、雑誌、新聞であり、これまで利用していたのはBCCWJのYahoo!知恵袋、白書、またRWCの新聞のコーパスである。このとき、これまでは小分類による語義に分類していたが、より大きな意味の塊である、中分類に語義を分類する実験を行えるように改めた。 また、このとき、すべてのジャンルで使っている単語がひとつもなかったため、入手可能なコーパスのうち、3種類のデータを選択し、それらに共通している単語について実験を行う方式とした。また、この3種類のデータの選択は、9ジャンルから同ジャンルの重複を除いた全通り試した。 新しく作成したベクトルデータを使って、これまで提案していた確信度、LOOを利用したスコアの実験を行った。さらに確信度の調整の実験を行い、語義数によって確信度を割ることによって適切な調整ができることを示した。 また、SVRを利用した手法について試してみたが、思ったような結果は得られなかった。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
データが新たに追加されたことにより、新しく実験用にデータを作り直した。その時間を当初は全く想定していなかったため、遅れが発生している。また、前回のデータと変更した部分についての検証も行った。こちらも想定外であるため、遅れの要因となっている。
|
Strategy for Future Research Activity |
一番初めには、データを評価するのに最も良い尺度を利用して線形計画法を利用しようとしていたが、線形計画法は昨年度に不適切と判断して、山登り法を用いた手法に変更している。今回は、この際に利用するデータを評価するための尺度(確信度)を調整した。 来年度は調整した確信度を利用して、昨年の成果のひとつである、山登り法を用いた手法による応用を考えている。ただし、前よりは汎用的な尺度が得られたものの、山登り法に適している尺度かどうかは、実際に実験を行ってみないと分からないため、適宜確かめつつ実験を進めるつもりである。 この際、実験データ増加により、実行時間も増えることが予想されるため、ランダムにサンプリングして行えるような実験を行うことで対応する予定である。また、山登り法の際に、確信度を利用する方法だけでなく、サポートベクターマシーンの特色(サポートベクター数の変化)を生かした山登り法を用いた手法による応用を試すつもりである。こちらも同様にランダムサンプリングして行うことで、実行時間を抑えようと考えている。また、学生の卒業論文との関係を考えて進めるつもりであるため、何らかの結果を今年度中に得ることができると考えている。
|
Expenditure Plans for the Next FY Research Funding |
2013年度中に国際会議に行く予定であったが、選考に落ちてしまい、書き直して提出したところ、発表予定が2014年4月に延びたため。 2014年4月に出張することで使用する予定である。
|
Research Products
(10 results)