2004 Fiscal Year Annual Research Report
「ソフトウェア=プログラム+ドキュメント」の視点に基づく多言語対応大規模コーパス
Project/Area Number |
16200001
|
Research Category |
Grant-in-Aid for Scientific Research (A)
|
Research Institution | Aichi Prefectural University |
Principal Investigator |
稲垣 康善 愛知県立大学, 情報科学部, 教授 (10023079)
|
Co-Investigator(Kenkyū-buntansha) |
山本 晋一郎 愛知県立大学, 情報科学部, 助教授 (40240098)
山村 毅 愛知県立大学, 情報科学部, 助教授 (00242826)
松原 茂樹 名古屋大学, 情報連携基盤センター, 助教授 (20303589)
手嶋 茂晴 豊田中央研究所, システム・エレクトロニクス分野総括室, 主任研究員 (50394599)
|
Keywords | ソフトウェアリポジトリ / CASEツール・プラットフォーム / 識別子の対応付け / 翻訳文の対応付け / 文字列出現頻度に基づく単語分割 / オントロジー |
Research Abstract |
(1)ソースプログラム動作部-コメント対応コーパスの設計 ソースプログラムを解析し、動作部・コメント部を対応づけて取り出すシステムを設計した。「宣言的なプログラム解析が可能なRDFに基づく細粒度ソフトウェアリポジトリ」および「XMLを用いたCASEツール・プラットフォーム作成支援環境」にてこれらの成果を発表した。 (2)ソースプログラム-マニュアル対応コーパスの設計 ソースプログラムとドキュメントの間を、識別子の出現によって対応づけるシステムを設計・試作した。また、本システムによって得られる対応づけ情報を応用した支援型CASEツールの試作を行い、その有用性を確認した。「文脈に基づいたソースプログラムとドキュメント間の識別子の対応付け手法」にてこれらの成果を発表した。 (3)日-英マニュアル対応コーパスの設計 Linuxのマニュアル文書を題材として、同一内容の和文・英文のテキストの対応づけ実験を行った。マニュアル文の対応が多く1:N対応である、文の出現順序は交差しない、などの性質が見いだされた。自動対応づけの実験において、91.6%という正解率を得た。 文書の対応箇所の同定、文書の分類を行う方法に関する研究成果として、「依存構造を用いたテキスト間の対応箇所の同定」「単語間の依存性を考慮したナイーブベイズ法によるテキスト分類」を発表した。 (4)コーパス作成支援環境の設計 技術文書に頻出する新語が未知語であることによる形態素解析・構文解析の誤動作を防ぐため、辞書を使わず文字列出現頻度に基づき単語分割を行う手法を開発した。定評のある日本語形態素解析器であるchasenによる解析結果と併用することで、従来よりも高精度の形態素解析を実現した。 自然言語の意味解析には、語や概念の間の関係を構造的に定義するオントロジーが必要である。計算機科学分野の専門用語に関するオントロジーを構築する方法について研究を行った。文書からの専門用語の自動抽出、自然言語による辞書テキストから概念の包含関係を自動抽出する方法についての知見を得た。実験はFreeBSDのドキュメントを対象として行った。
|
Research Products
(6 results)