2003 Fiscal Year Annual Research Report
Project/Area Number |
15650015
|
Research Institution | Japan Advanced Institute of Science and Technology |
Principal Investigator |
鳥澤 健太郎 北陸先端科学技術大学院大学, 情報科学研究科, 助教授 (70282712)
|
Co-Investigator(Kenkyū-buntansha) |
白井 清昭 北陸先端科学技術大学院大学, 情報科学研究科, 助教授 (30302970)
|
Keywords | WWW / 自然言語処理 / 統計的自然言語処理 / 言い換え |
Research Abstract |
本研究では、WWW上のドキュメントを元に、そのドキュメントに書かれている対象(たとえば、「カローラ」のような特定の車種の自動車)がどのような時間的変遷を辿るかを、WWW上で自動的に追跡し、その対象に関する新規で重要なイベントをユーザーに通知するシステムを開発する。 このような自動追跡のタスクを実行するには、まず、ドキュメントが記述する対象、イベントの同一性を認識する必要がある。より具体的には、「トヨタのカローラ」と「トヨタ自動車の大衆車」が同一対象を指しえることを認識したり、自動車に関するドキュメントでは、「モデルチェンジ」と「改良」、さらには「発売」といったイベントを表す語が往々にして同じ意味を持つということを認識する必要がある。本年度は、以上のような問題を解く最初のステップとして、「上位語・下位語の自動学習」ならびに「イベント語り抽出と同義のイベント語の学習」といった研究を行った。まず、「上位語・下位語の自動学習」では、「カローラ」が「車種」であり、「トヨタ」や「トヨタ自動車」が「会社」であるといった単語の比較的細粒度の分類がWWW上の文書から自動的にある程度の精度で学習できるようになった。また、「イベント語の抽出と同義のイベント語の学習」においては、自動車に関するWWW上の文書では、「発売」「モデルチェンジ」といった語が重要な意味を表し、さらには、「発売」と「モデルチェンジ」が往々にして同義であるということを認識することを目的として研究をおこなった。 また、自動追跡タスクを効率的に実行するには、イベントの変化が定期的に更新されるようなウェブページを同定する必要がある。この際、ウェブページ間に貼られたリンクが有用な手がかりとなる。例えば、あるページから,「このページでは自動車の最新モデルの一覧がある」という記述とともに別のウェブページにリンクが貼られていれば、リンク先ページは自動追跡を行うページとして有望である。今年度は、その最初のステップとして、リンク周辺に存在するウェブページに関する記述の自動抽出を行った。
|
Research Products
(6 results)
-
[Publications] Keiji Shinzato, Kentaro Torisawa: "Acquiring Hyponymy Relations from Web Documents"Proceedings of Human Language Technology/North American Chapter of Association of Computational Linguistics 2004. (in print). (2004)
-
[Publications] Naoki Yoshinaga, Yusuke Miyao, Kentaro Torisawa, Jun'ichi Tsujii: "Parsing Comparison across Grammar Formalisms using Strongly Equivalent Grammar"Traitement Automatique des Langue, Special Issue on Evolutions in Parsing. 44・3(in print). (2003)
-
[Publications] Kentaro Torisawa: "An Unsupervised Learning Method for Commonsensical Inference Rules on Events"in Proceedings of the Second CoLogNet-ElsNET Symposium. 146-153 (2003)
-
[Publications] Naoki Yoshinaga, Kentaro Torisawa, Jun'ichi Tsujii: "Comparison between CFG filtering techniques for LTAG and HPSG"In the Proceedings of the 41st ACL companion volume. 185-188 (2003)
-
[Publications] Kiyoaki Shirai, Takayuki Tamagaki: "Word Sense Disambiguation using Heterogeneous Language Resources"In the Proceedings of the first International Joint Conference of Natural Language Processing (IJCNLP-2004). 614-619 (2004)
-
[Publications] Minoru Yoshida, Kentaro Torisawa, Jun'ichi Tsujii: "Extracting attributes and their values from Web pages, chapter in Web Document Analysis - Challenges and Opportunities"World Scientific - Series in Machine Perception and Artificial Intelligence. (2003)