2009 Fiscal Year Annual Research Report
Project/Area Number |
19500087
|
Research Institution | Iwate Prefectural University |
Principal Investigator |
槫松 理樹 Iwate Prefectural University, ソフトウェア情報学部, 准教授 (00305286)
|
Keywords | 情報抽出 / 文書解析 / 法情報処理 |
Research Abstract |
新聞記事の文書構造について元新聞記者が著書である文献を参考にその構造を洗い出した。その結果、見出し、リード、本文・1段落目、本文・後半部の4つの構造に着目した。これらのうち、見出し、本文・1段落目、リードにポイントとなる語句が頻出すること、リードは存在しない場合があることから、(1)前半部、(2)リード、(3)見出し、(4)後半部の重要度を与えた。また同一事項に関する記事であっても、同一新聞内の掲載面や異なる新聞間において意見の部分に差があることに着目し、検索の上での一つの指標として捉えた。これらの部分を利用し、記事の関連付けを行うアルゴリズムを設計した。アルゴリズムとしては、(1)特定の記事を種の記事する、(2)種の記事のブロック毎の語句を抽出、(3)これらの語句に対し、時系列を遡る形で検索を進める。この時、記事のブロック間での語彙の一致率と占有率に着目し、閾値以上の場合、同一記事とみなし、一つの情報にまとめる。これを、記事クラスタと呼ぶ。この記事クラスタに対し、キーワード検索を行い関連する文を表示することで、訴訟相談支援を試みる。処理の流れとしては、(1)キーワードにより記事クラスタを選択。(2)記事クラスタの中から、記事クラスタを絞り込むのに有用と思われるキーワードをユーザに提示する。(3)ユーザの回答に基づき、記事クラスタを絞り込む。(4)記事クラスタ数が一定値以上であれば、(2)に戻る。それ以外の場合は、絞り込んだ記事クラスタ内にある回答(判決など)部分を表示する。本アルゴリズムに対し、交通事故事案に対象に机上評価を行った。その結果、まだ検索能力に課題があることが明確になった。
|