研究課題/領域番号 |
15K12097
|
研究機関 | 豊橋技術科学大学 |
研究代表者 |
土屋 雅稔 豊橋技術科学大学, 情報メディア基盤センター, 准教授 (70378256)
|
研究期間 (年度) |
2015-04-01 – 2017-03-31
|
キーワード | 言語横断含意関係認識 |
研究実績の概要 |
最初に,単文間の含意関係コーパスを作成した.その方法は以下の通りである.第1に,Wikipedia日英京都関連文書対訳コーパスに含まれる単語列の内,一定の閾値以上の長さの単語列を,文である可能性が高い単語列として取り出した.第2に,得られた対訳文対を,含意関係の正例として収集した.第3に,ある日本語文と,同一のwikipedia記事中に現れる別の日本語文に対する対訳文を組み合わせて,含意関係の負例として収集した.当初の想定通り,対訳文対は含意関係にあることが確認され,含意関係の正例のコーパスは予定通りに収集することができた.それに対して,含意関係の負例については,一部に課題が残っている.含意関係の負例には,2文が矛盾している,2文が無関係である,などの種類がある.この内,2文が無関係である負例については,簡単かつ十分に収集することができた.しかし,2文が矛盾している負例については,十分に収集することができなかった.これは,収集対象としたコーパスが,歴史上または現在の事実に基づく記述文からなるコーパスであり,相互に矛盾するような記述がほとんど含まれていないことが原因である.そのため,作成されたコーパスは,負例の分布にやや難が残っている. 次に,単言語内の含意関係認識器を作成し,作成したコーパスの評価を試みた.この評価については,現在まだ進行中である.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
主たる理由は,単文間の含意関係認識コーパスの収集において,当初の想定よりも,負例の収集に偏りが生じたことである.単文間の含意関係の負例には,2文が矛盾している,2文が無関係である,などの幾つかの種類がある.この内,2文が無関係である負例については,当初計画通りに収集することができたが,2文が矛盾している負例については,当初計画よりもかなり少数に留まった.これは,収集元として用いたWikipedia日英京都関連文書対訳コーパスが,歴史上または現在の事実についての記述文からなるコーパスであり,相互に矛盾するような記述文が殆ど含まれていないことが原因である(一部,歴史上の異説に関する記述を除く).そのため,2文が矛盾している負例についての追加収集方法の検討が必要となり,当初の計画よりも遅れる要因となっている.
|
今後の研究の推進方策 |
当初のコーパスから単語置換などの手法により人工的に負例を作成する,または,別のコーパスを利用するなどの手法を,比較検討中である.
|
次年度使用額が生じた理由 |
主たる理由は,単文間の含意関係認識コーパスの収集において,当初の想定よりも,負例の収集に偏りが生じたことである.単文間の含意関係の負例には,2文が矛盾している,2文が無関係である,などの幾つかの種類がある.この内,2文が無関係である負例については,当初計画通りに収集することができたが,2文が矛盾している負例については,当初計画よりもかなり少数に留まった.これは,収集元として用いたWikipedia日英京都関連文書対訳コーパスが,歴史上または現在の事実についての記述文からなるコーパスであり,相互に矛盾するような記述文が殆ど含まれていないことが原因である(一部,歴史上の異説に関する記述を除く).そのため,2文が矛盾している負例についての追加収集方法の検討が必要となり,予算使用に遅れが生じている.
|
次年度使用額の使用計画 |
早急に追加収集方法の検討を行い,当初計画通りの執行に務める.
|