1996 年度実績報告書

コーパスからの専門用語の自動抽出と知識獲得のための統合的なツールシステムの開発

研究課題

研究課題/領域番号	08558027
研究種目	基盤研究(A)
応募区分	試験
研究機関	東京大学
研究代表者	辻井潤一東京大学, 大学院・理学系研究科, 教授 (20026313)
研究分担者	清野正樹松下電器, 東京研究所, 研究員池原悟鳥取大学, 工学部, 教授 (70283968) 影浦峡学術情報センター, 助教授 (00211152) 小山照夫学術情報センター, 教授 (80124410)
キーワード	知識獲得 / 言語の統計的処理 / タ-ミノロジー / 知識表現 / 情報検索
研究概要	初年度の研究として、専門分野の知識獲得の基礎となる専門用語に関する研究を進め、当初の計画にしたがった成果を得た。具体的には、専門用語の語構成、および、その統計的な挙動に関する研究(小山、影浦)、専門用語のための知織表現形式(小山)、テキスト・クラスタリングと専門用語の自動認定の研究(辻井)、n-gram手法による専門用語候補の認定(池原)である。専門用語の統計的な挙動に関しては、従来から提案されている種々の統計的速度(Mutual-Information,t-score,X-Square、など)を実際に学術情報センタのデータ・ベース中の文献情報に現れる専門用語に適用し、複合的な専門用語を構成する語基がこの種の測度に関して、どうのような挙動を示すかを調査した。また、テキスト・クラスタリングによる専門分野の自動認識の手法を、専門用語の自動認識と同時並行的に行なう手法の基礎的な実験を終えた。この研究では、当初予想していたよりも、悪い結果を得たが、次年度移行、より構造的な情報を導入することで改良する予定である。この手法は、用語間の意味的類似性を認識するもの(Clustering)で、語基の組合せで複合表現を構成する手法(Compounding)と相補的に機能する。また、n-gramによる手法では、非連続的なn-gramをも自動認識する手法を開発し、これによって、専門分野に頻出する文型パターンを自動抽出する可能性を明らかにした。この手法は、専門用語の自動抽出手法と相補的なものであり、このように抽出されたパターンと意味的関係とを対にすることで、用語間のより分節化した意味的な関係を認識するのに仕様される。本年度、その有効性が確認されたこれらの手法は、来年度以降の統合的なシステムを構成する要素技術として使われる。また、知識獲得のための中央データベース系の設計は、日本電子化辞書との共同研究により、その仕様の詳細を決定した。この仕様は、獲得知識の表現形式を定めるだけでなく、知識獲得のもととなる構造つきコーパスの表現形式も含んでおり、来年度、この仕様に基づいたソフトウェアの開発を行なう。この中央データ・ベースは、本年度開発したデータベース管理ソフトウェアの機能を使って実現される予定である。

研究成果
(7件)

すべてその他

すべて文献書誌 (7件)

[文献書誌] 辻井潤一: "視点の変換-言語の理論から設計の理論へ" 人工知能学会誌. 11・4. 530-541 (1996)
[文献書誌] 小山照夫: "複数論文比較によるキーワード推定の試み" 情報知能学会第4回研究報告会講演論文集. 43-46 (1996)
[文献書誌] T.Koyama: "Research on Natural Law Database" Proc.JCKBSE'96. 242-245 (1996)
[文献書誌] K.Kageura: "Some Statistical Characterizations of Terminological and Non-Terminological Elements:Evaluation and Examination in Japanese Technical Abstracts" TKE'96. 131-138 (1996)
[文献書誌] K.Tsuji: "Analysis of Word Structure of Medical Synonyms" TKE'96. 190-196 (1996)
[文献書誌] K.Kageura: "Methods of Automatic Term Recognition-A Review" Terminology. 3・2(to appear).
[文献書誌] 影浦峡: "文字単位のbigram尺度に基づく複合漢字列の単位切り手法" 言語処理学会第3回年次大会. (発表予定).

1996 年度 実績報告書

コーパスからの専門用語の自動抽出と知識獲得のための統合的なツールシステムの開発

研究代表者

辻井 潤一 東京大学, 大学院・理学系研究科, 教授 (20026313)

研究成果

[文献書誌] 辻井 潤一: "視点の変換-言語の理論から設計の理論へ" 人工知能学会誌. 11・4. 530-541 (1996)

[文献書誌] 小山 照夫: "複数論文比較によるキーワード推定の試み" 情報知能学会第4回研究報告会講演論文集. 43-46 (1996)

[文献書誌] T.Koyama: "Research on Natural Law Database" Proc.JCKBSE'96. 242-245 (1996)

[文献書誌] K.Kageura: "Some Statistical Characterizations of Terminological and Non-Terminological Elements:Evaluation and Examination in Japanese Technical Abstracts" TKE'96. 131-138 (1996)

[文献書誌] K.Tsuji: "Analysis of Word Structure of Medical Synonyms" TKE'96. 190-196 (1996)

[文献書誌] K.Kageura: "Methods of Automatic Term Recognition-A Review" Terminology. 3・2(to appear).

[文献書誌] 影浦 峡: "文字単位のbigram尺度に基づく複合漢字列の単位切り手法" 言語処理学会第3回年次大会. (発表予定).

1996 年度実績報告書

辻井潤一東京大学, 大学院・理学系研究科, 教授 (20026313)

[文献書誌] 辻井潤一: "視点の変換-言語の理論から設計の理論へ" 人工知能学会誌. 11・4. 530-541 (1996)

[文献書誌] 小山照夫: "複数論文比較によるキーワード推定の試み" 情報知能学会第4回研究報告会講演論文集. 43-46 (1996)

[文献書誌] 影浦峡: "文字単位のbigram尺度に基づく複合漢字列の単位切り手法" 言語処理学会第3回年次大会. (発表予定).