Project/Area Number |
15650015
|
Research Category |
Grant-in-Aid for Exploratory Research
|
Allocation Type | Single-year Grants |
Research Field |
Media informatics/Database
|
Research Institution | Japan Advanced Institute of Science and Technology |
Principal Investigator |
鳥澤 健太郎 北陸先端科学技術大学院大学, 情報科学研究科, 助教授 (70282712)
|
Co-Investigator(Kenkyū-buntansha) |
白井 清昭 北陸先端科学技術大学院大学, 情報科学研究科, 助教授 (30302970)
|
Project Period (FY) |
2003 – 2005
|
Project Status |
Completed (Fiscal Year 2005)
|
Budget Amount *help |
¥3,100,000 (Direct Cost: ¥3,100,000)
Fiscal Year 2005: ¥600,000 (Direct Cost: ¥600,000)
Fiscal Year 2004: ¥1,200,000 (Direct Cost: ¥1,200,000)
Fiscal Year 2003: ¥1,300,000 (Direct Cost: ¥1,300,000)
|
Keywords | WWW / 情報追跡 / 情報検索 / クロウラー / 自然言語処理 / 統計的自然言語処理 / 言い換え |
Research Abstract |
今年度は、まず、イベントの自動追跡で必要とされる同一の出来事を異なる表現で表すいわゆる言い換えの関係の自動学習の研究、ならびにページタイプの同定に関する研究を行った。 まず、言い換えの自動学習に関しては、日本語のいわゆる並列動詞句ならびに、動詞と名詞の共起頻度をもとに、言い換えの関係にあり、なおかつ論理的な含意関係を持つ二つの記述間の関係を大量のコーパスから自動的に学習する手法について研究した。特に、論理的含意を持ちやすい記述間の関係を高精度で学習するため、形式論理における意味理論にインスパイアされた手法を開発した。これは、形式論理における含意の概念を突き詰めていくと、これはある言語表現で現され得るイベントのインスタンス間での写像に関する条件に対応し、その写像をランダムに構成するときの「構成の容易さ」を確率で表すことにより、含意の成立のしやすさを表すパラメータとして単なる動詞の出現頻度を考えることができるという発想によっている。これにより、実際に含意関係の獲得精度が10%近く向上し、実際にアルゴリズムが出力したイベント間の関係の約70%が実際に論理的含意関係を持っていることが実験により確認された。 ページタイプの同定に関しては、具体的にはリンク集を主たるコンテンツとするページ(リンク集ページ)か否かの判別を行った。判別はHTMLタグのパターンマッチによってリンク集を検出することにより行う。リンク集ページは更新頻度が少ないページと考えられるので、これらを定期観察するページから除外することによりイベントの自動追跡の効率化が可能となる。
|
Report
(3 results)
Research Products
(15 results)