1997 Fiscal Year Annual Research Report
マニュアル文書の内容検索システムの自動構築に関する研究
Project/Area Number |
09480063
|
Research Institution | Yokohama National University |
Principal Investigator |
中川 裕志 横浜国立大学, 工学部, 教授 (20134893)
|
Co-Investigator(Kenkyū-buntansha) |
森 辰則 横浜国立大学, 工学部, 助教授 (70212264)
|
Keywords | 情報検索 / 索引語抽出 / タ-ム抽出 / マニュアル / 自然言語処理 |
Research Abstract |
計算機可読可能なマニュアルのテキストから自動的に索引抽出するシステムを試作した。この索引抽出システムは、まず入力テキストを形態素解析し、単語に分解する。次に、全ての名詞の連続を複合語として抽出する。このように抽出した複合語を順位つけし、選択して索引語を選ぶ。順位つけは次のように行なう。(1)ある単名詞がどれだけ多くの名詞と連接して複合語を作るかによって単名詞の重要度を測る。(2)複合語の重要度はその複合語を構成する各単名詞の重要度を相乗して求める。このようにしてつけた重要度によって各複合語を順位付けする。順位付けられた複合語リスト上を適当な幅の窓を動かし、窓内の複合語がある割合を越えれば、窓中央の複合語を索引として選択する。このような方法による索引語抽出システムを試作した。5本のソフトウェアマニュアルから索引語抽出したところ、適合率70%、再現率57%を得た。この方法は、影浦のいうtermhoodを基礎としているが、もうひとつのunithoodを基礎とする方法としてAnaniadouの提案するNested Collocationによる順位付け方法も若干の改良をしてインプリメントし比較評価した。なお、選択法には窓による方法を用いた。その結果、抽出した語の正しさについてはほぼ同等だが、抽出語の質は、我々の方法が単名詞をかなり含むのに対し、Nested Collocationでは複合語が大部分となることが分かった。 検索エンジンについては複合語を検索キ-とするエンジンについて検討し、部分マッチングという基本アイデアに到達した。来年度により深い検討と実装を行なう予定である。
|
-
[Publications] 木村啓一,西沢信一郎,中川裕志: "用言の意味情報を利用した日本語複文の共参照関係の推定" 情報処理学会論文誌. 38・4. 472-481 (1997)
-
[Publications] 森辰則,龍野弘幸,松尾衛,中川裕志: "条件表現による日本語マニュアル文のゼロ代名詞照応" 情報処理学会論文誌. 38・4. 737-745 (1997)
-
[Publications] 中川裕志,森辰則,松崎知美: "日本語マニュアル文における名詞間の連接情報を用いたハイパーテキスト化のための索引語の抽出" 情報処理学会論文誌. 38・10. 1986-1994 (1997)
-
[Publications] Hiroshi Nakagawa: "Extraction of Index Words from Manuals" Proceedings of RIAO'97. 4. 598-611 (1997)
-
[Publications] Koichi Yamada, T.Mori, Hiroshi Nakagawa: "Japanese Compound Nouns Matching For Information Retrieval" Proceedings of IRAL. 2. 158-164 (1997)
-
[Publications] 武藤伸明,中川裕志: "並立助詞「と,や,に」の意味の形式的分析" 電子情報通信学会論文誌. J80-D-II・10. 281-291 (1997)
-
[Publications] 中川裕志: "視点と言語行動,田窪行則 編" くろしお出版, 162(内40) (1997)
-
[Publications] Hiroshi Nakagawa: "Topics in Constraint-Based Grammar of Japanese,Gunji & Hasida eds" Kluwer Academic Publishers, 264(内14) (1998)