研究課題/領域番号 |
24700131
|
研究機関 | 茨城大学 |
研究代表者 |
佐々木 稔 茨城大学, 工学部, 講師 (60344834)
|
研究期間 (年度) |
2012-04-01 – 2014-03-31
|
キーワード | 国際情報交換 / イスタンブール / バルセロナ |
研究概要 |
平成24年度は、「訓練データからの語義別コロケーション抽出システム構築に向けた検討」および、「語義別コロケーションを考慮した語義識別モデル構築法の検討」についての研究を計画していた。 語義別コロケーションを抽出するために必要な点のひとつとして、頻度の少ない語義を含む用例を抽出することが挙げられる。このような用例文に対して、規則として表現可能なコロケーションを見つけることで、語義識別などの自然言語処理システムに有効な特徴を捉える事ができる。そのため、用例文集合から対象単語が特異な使用をしている用例を検索する手法の開発を行った。この手法は、国際会議 LREC2012 において発表し、低頻度語義を持つ用例の特徴を分析し、それを含む用例を効率的に抽出することを実証した。 また、訓練データからの語義別コロケーションを抽出するためには、あらかじめ正解の語義が割り振られた用例文集合を教師データとして、用例文間の類似性を測定することが重要な課題となる。そのため、訓練データに対して、用例間類似度を語義ラベルに応じて学習する手法の開発を行った。実験データについては、これまでの研究で利用した「Semeval2010日本語語義曖昧性タスク」で使われた、様々な分野を含んだコーパスを利用することで、低頻度語義を考慮しやすい実験を行うことも可能となった。この手法は、国際会議 SEMAPRO2012 において発表し、開発した用例間類似度を利用することで、従来の類似度尺度よりも高い語義識別精度が得られたことを実証した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
従来手法では考慮されていなかった、ラベル付きデータからコロケーション集合をどのように特定するのか検討するという課題については、ラベル付きデータからコロケーション集合を抽出するために、頻度の少ない語義から成る用例文を検索する手法を開発し、低頻度語義用例を抽出することができた。そこから、コロケーションを抽出することはこれからの課題となるが、これまで有効であった特徴に加えて、単語間の依存関係なども分析することで、効率良く抽出することが可能となると考えられる。 また、抽出したコロケーションが語義の特定に有効であるか、訓練データ内でどれほど影響力があるかを分析し、語義識別への利用方法を明らかにするという課題については、これまでの研究で利用した「Semeval2010日本語語義曖昧性タスク」で使われた、様々な分野を含んだコーパスを利用することで、訓練データ内での影響分析を行うことが可能である。上述したコロケーション抽出手法を開発した際には、語義の特定、語義識別への有効性が明らかになると考えられる。
|
今後の研究の推進方策 |
平成24年度に課題として残った、各対象単語からの語義別コロケーション抽出手法の開発、および、コロケーション集合が語義の特定に有効であるか、訓練データ内でどれほど影響力があるかを分析し、語義識別への利用方法を明らかにする点について、平成25年度前半を目処に開発を進める予定としている。 平成25年度後半では、語義別コロケーション集合を考慮した語義識別モデルの分析と効率化、高速化に向けた検討、および、語義別コロケーション集合を利用した新語義発見法の検討について研究を行う。このとき、「日本語コーパス」において作成が進められている「書き言葉均衡コーパス」を利用して評価用データを構築し、特定単語についての語義識別を行って、大規模なデータでの性能評価も行う予定である。また、上記プロジェクトにおいて、語義識別手法について議論をしている茨城大学工学部の新納浩幸准教授と北陸先端科学技術大学院大学情報科学研究科の白井清昭准教授に語義識別手法の妥当性について議論、支援をお願いしたいと考えている。
|
次年度の研究費の使用計画 |
本研究を実施するためには、申請者が使用するパソコン1台が必要となる。現在、パソコンを数台所有しているが、使用する計算プログラムはMATLABでプログラムが記述されているため、実験やデモを行うために能力不足である。そのため、実験用パソコン1台を備品として計上する。 また、使用するデータは、「Semeval2010日本語タスク」で利用された評価用データがあるが、より大規模な抽出を行うための準備として学生に評価用データの作成を依頼する。 さらに、研究成果が出た際には、PACLICなどの国際会議や「自然言語処理」などの論文誌を通して成果を発表を予定している。議論や資料収集を行うために、2回分の外国旅費を研究費の中に計上する。
|