研究課題/領域番号 |
24650122
|
研究機関 | 東京大学 |
研究代表者 |
影浦 峡 東京大学, 教育学研究科(研究院), 教授 (00211152)
|
研究分担者 |
竹内 孔一 岡山大学, 自然科学研究科, 講師 (80311174)
|
キーワード | 専門語彙 / Webクローリング / 対訳抽出 / 語彙成長 / 語彙ネットワーク |
研究概要 |
第一年度に引き続き、以下の研究を進めた。 (1) 語彙の構造を反映した語彙成長モデルの構築:現在のところ、パラメトリックな分布モデルではなくノンパラメトリックな計算を使った基本的な外挿モデルにより語基レベルでの語彙成長を詳しく追うとともに、そうした分布が構成する用語ネットワークの属性を引き続き解析している。とりわけ、ネットワークにおいて定義された中心性を、新たに収拾された不適切な用語を含む用語対のフィルタフィングとシード集合の拡張に利用できることを示した。 (2) 用語対訳候補獲得のための Web クローラーの開発:(a) 検索エンジンapiを用いて英日のドメインコーパスをWebから収集するシステム、(b) 語彙集合に対してhead-modifier対を抽出して二部グラフを構成しKernighan-Linアルゴリズムにしたがってグラフを分割した上で直積を取って複合専門用語候補を生成するメカニズム、(c) 英日二言語対応で生成した複合専門用語候補の存在の有無を(a)で収集した英日のドメインコーパスでチェックし、同一文書内での共起も考慮して重み付け対訳候補を候補度の高い順に表示するシステムの改善と評価。 また、語彙集合に対して定義されるhead-modifierの二部グラフに対して、頂点を構成する誤構成要素の分布に対してより自然で有効な二部グラフの分割アルゴリズムを検討した。これらのクローラーシステムへの組込みと実験評価は、昨年度途中で利用していたYahoo! apiが利用できなくなり、検索のapiを変更することに伴い、多少遅れている。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
当初予定していた第二年度の課題は、(a) 語彙成長モデルの精緻化及び(b) クローラーとの接続であった。このうち、最後の「接続」の部分は、昨年度途中で利用していたYahoo! apiが利用できなくなり、検索のapiを変更することに伴い、多少遅れているが、年度の変わり目にほぼ完成している。また、収集された用語も含めた語彙ネットワークにおいて中心性を定義し、コアとなる領域における新たな用語をシードとしてクローリングに最利用する部分の基本的な設計は(a)及び二部グラフの分割手法との関係で確立することができた。
|
今後の研究の推進方策 |
応用としての多言語用語クローリングの観点からは、探索候補対の爆発を抑えるために有効な二部グラフ分割アルゴリズムの設計に対して特別に精緻な語彙成長モデルの知見を用いる必要がないことが明らかになってきた。これは、いずれにせよ、語基が低頻度であるようなものからなる専門用語候補の領域は、用語クローリングに影響を及ぼさないためである。むしろ応用の観点からは、収集された用語候補のフィルタリングとシードとしての再利用、そして妥当性の検証のためのオーソドックスな「用語抽出」システムの利用が有効であることが示唆されている。今後は、当初予定の研究の大枠に沿いながら、応用の観点から外的なモジュールを定義し活用することも積極的に考慮していく方針である。
|
次年度の研究費の使用計画 |
データのチェックと検証を電子的に行う方式に切り替えることができたため、予定よりも少ない消費量であったため、予定していたプリンタトナーの購入を抑えることができた。 今後もトナーの消費は予定より少なく抑えられることが見込めるため、この分については、データのチェックとアルゴリズムの実装に対する謝金として利用することを見込んでいる。それ以外は、全体として当初計画通りに遂行する予定である。
|