本研究は、非常に短いテキストである見出しが、どうして情報の取捨選択ツールとして効果的に働くのか、その仕組みを情報学的観点から解明することを目的としている。本年度は、次のことを行った。 1.オンラインニュースの見出しの収集 これまで収集してきたサンケイウェブの見出しの収集を継続するとともに、新たに、日経(メールにより配信)、朝日新聞、Goo(いずれもRSSにより配信)の見出しを収集するプログラムを作成し、これらのニュース記事の見出しを収集した。これまでに収集した見出し数は、サンケイ4万件、日経1万8千件、朝日新聞2万8千件、Goo1万件で、総計9万6千件である。 2.言語構造のパターン化と縮退構造の整理 サンケイウェブから収集した見出しから約500件を選び、その言語構造等を詳細に調査した。テキストを短くするための機構(縮退機構)に関しては、助詞の省略、述語の名詞化、接辞化による複合名詞への取り込み、略称・名詞の縮退など、予想していたものが観察された。その一方で、言語構造のパターンは予想に反してバリエーションが多彩で、パターン化が進まなかった。 3.情報構造の整理とイベントフレームの設定 地震、台風、気象、交通情報に対して、見出しの情報構造を整理し、イベントフレームを定義することを試みた。たとえば、台風に対しては、発生、存在、移動、接近、上陸など、それぞれの局面で異なる情報構造を持つことがわかった。これは、新しい発見であり、我々人間が持つイベントに関する知識の豊かさを示唆するものである。しかしながら、このことは、一方で、見出しの機械処理の実現には大きな障害となりうることが判明した。
|