研究課題/領域番号 |
08558027
|
研究種目 |
基盤研究(A)
|
応募区分 | 試験 |
研究機関 | 東京大学 |
研究代表者 |
辻井 潤一 東京大学, 大学院・理学系研究科, 教授 (20026313)
|
研究分担者 |
清野 正樹 松下電器, 東京研究所, 研究員
池原 悟 鳥取大学, 工学部, 教授 (70283968)
影浦 峡 学術情報センター, 助教授 (00211152)
小山 照夫 学術情報センター, 教授 (80124410)
|
キーワード | 知識獲得 / 言語の統計的処理 / タ-ミノロジー / 知識表現 / 情報検索 |
研究概要 |
初年度の研究として、専門分野の知識獲得の基礎となる専門用語に関する研究を進め、当初の計画にしたがった成果を得た。具体的には、専門用語の語構成、および、その統計的な挙動に関する研究(小山、影浦)、専門用語のための知織表現形式(小山)、テキスト・クラスタリングと専門用語の自動認定の研究(辻井)、n-gram手法による専門用語候補の認定(池原)である。 専門用語の統計的な挙動に関しては、従来から提案されている種々の統計的速度(Mutual-Information,t-score,X-Square、など)を実際に学術情報センタのデータ・ベース中の文献情報に現れる専門用語に適用し、複合的な専門用語を構成する語基がこの種の測度に関して、どうのような挙動を示すかを調査した。また、テキスト・クラスタリングによる専門分野の自動認識の手法を、専門用語の自動認識と同時並行的に行なう手法の基礎的な実験を終えた。この研究では、当初予想していたよりも、悪い結果を得たが、次年度移行、より構造的な情報を導入することで改良する予定である。この手法は、用語間の意味的類似性を認識するもの(Clustering)で、語基の組合せで複合表現を構成する手法(Compounding)と相補的に機能する。また、n-gramによる手法では、非連続的なn-gramをも自動認識する手法を開発し、これによって、専門分野に頻出する文型パターンを自動抽出する可能性を明らかにした。この手法は、専門用語の自動抽出手法と相補的なものであり、このように抽出されたパターンと意味的関係とを対にすることで、用語間のより分節化した意味的な関係を認識するのに仕様される。本年度、その有効性が確認されたこれらの手法は、来年度以降の統合的なシステムを構成する要素技術として使われる。 また、知識獲得のための中央データベース系の設計は、日本電子化辞書との共同研究により、その仕様の詳細を決定した。この仕様は、獲得知識の表現形式を定めるだけでなく、知識獲得のもととなる構造つきコーパスの表現形式も含んでおり、来年度、この仕様に基づいたソフトウェアの開発を行なう。この中央データ・ベースは、本年度開発したデータベース管理ソフトウェアの機能を使って実現される予定である。
|