研究課題/領域番号 |
15650015
|
研究種目 |
萌芽研究
|
配分区分 | 補助金 |
研究分野 |
メディア情報学・データベース
|
研究機関 | 北陸先端科学技術大学院大学 |
研究代表者 |
鳥澤 健太郎 北陸先端科学技術大学院大学, 情報科学研究科, 助教授 (70282712)
|
研究分担者 |
白井 清昭 北陸先端科学技術大学院大学, 情報科学研究科, 助教授 (30302970)
|
研究期間 (年度) |
2003 – 2005
|
研究課題ステータス |
完了 (2005年度)
|
配分額 *注記 |
3,100千円 (直接経費: 3,100千円)
2005年度: 600千円 (直接経費: 600千円)
2004年度: 1,200千円 (直接経費: 1,200千円)
2003年度: 1,300千円 (直接経費: 1,300千円)
|
キーワード | WWW / 情報追跡 / 情報検索 / クロウラー / 自然言語処理 / 統計的自然言語処理 / 言い換え |
研究概要 |
今年度は、まず、イベントの自動追跡で必要とされる同一の出来事を異なる表現で表すいわゆる言い換えの関係の自動学習の研究、ならびにページタイプの同定に関する研究を行った。 まず、言い換えの自動学習に関しては、日本語のいわゆる並列動詞句ならびに、動詞と名詞の共起頻度をもとに、言い換えの関係にあり、なおかつ論理的な含意関係を持つ二つの記述間の関係を大量のコーパスから自動的に学習する手法について研究した。特に、論理的含意を持ちやすい記述間の関係を高精度で学習するため、形式論理における意味理論にインスパイアされた手法を開発した。これは、形式論理における含意の概念を突き詰めていくと、これはある言語表現で現され得るイベントのインスタンス間での写像に関する条件に対応し、その写像をランダムに構成するときの「構成の容易さ」を確率で表すことにより、含意の成立のしやすさを表すパラメータとして単なる動詞の出現頻度を考えることができるという発想によっている。これにより、実際に含意関係の獲得精度が10%近く向上し、実際にアルゴリズムが出力したイベント間の関係の約70%が実際に論理的含意関係を持っていることが実験により確認された。 ページタイプの同定に関しては、具体的にはリンク集を主たるコンテンツとするページ(リンク集ページ)か否かの判別を行った。判別はHTMLタグのパターンマッチによってリンク集を検出することにより行う。リンク集ページは更新頻度が少ないページと考えられるので、これらを定期観察するページから除外することによりイベントの自動追跡の効率化が可能となる。
|