2005 Fiscal Year Annual Research Report
「ソフトウェア=プログラム+ドキュメント」の視点に基づく多言語対応大規模コーパス
Project/Area Number |
16200001
|
Research Institution | Aichi Prefectural University |
Principal Investigator |
稲垣 康善 愛知県立大学, 情報科学部, 教授 (10023079)
|
Co-Investigator(Kenkyū-buntansha) |
山本 晋一郎 愛知県立大学, 情報科学部, 助教授 (40240098)
山村 毅 愛知県立大学, 情報科学部, 助教授 (00242826)
松原 茂樹 名古屋大学, 情報連携基盤センター, 助教授 (20303589)
手嶋 茂晴 豊田中央研究所, デジタルエンジニアリング研究室, 主任研究員 (50394599)
|
Keywords | Support Vector Machine / 情報抽出 / 差分抽出 / 依存構造 / 用例検索 / クエリ自動生成 |
Research Abstract |
本年度は,プログラム-ドキュメント間対応コーパスの作成支援システムの構築を目標に自然言語処理分野およびプログラムの分析に関して必要な要素技術の開発を行った.また,試験的に作成した対応コーパスを用いて,対応コーパスの応用技術である用例検索についても研究を行った. 1.Support Vector Machineを用いたコンピュータウィルス情報の抽出 ニュース記事から,文節をまたがった名詞句や文を抽出することでコンピュータウィルスに関する事典を作成する手法を提案する.情報の抽出を,アドホックな知識である手掛かり語を利用したテンプレートを用いる方法ではなく,前後の形態素や文に含まれる単語などといった情報を素性として使用し,Support Vector Machineを用いて抽出を行う点が特徴である.実験の結果,平均で適合率86.2%,再現率77.5%という結果を得た. 2.構文木に着目してXMLマークアップされたソースプログラム間の差分抽出 CASEツールで利用される情報がマークアップされたソースプログラムのXML表現であるXSDMLを対象として,プログラムのバージョン間の精密な差分を抽出するアルゴリズムを提案する.差分を構成する編集操作がプログラムに対する編集の操作に対応していること,CASEツール応用に適した差分表現の出力形式を持つことが特徴である. 3.依存構造に基づく英語用例検索システム キーワードの系列から構造的なクエリを自動生成するコーパス検索システムを提案する.依存構造に基づくコーパス検索を実現する.まず,ユーザからのクエリとしてキーワードの系列を受け取り,受け取ったクエリに対して,クエリ中のキーワードを含むような依存構造パターンを,依存構造付きコーパスを参照しながら自動生成し,それにマッチする依存構造を持つ文を検出する.依存構造を活用したコーパス検索が実現できる一方で,ユーザは事前に文法を設計する必要もなければ,LSEのように構造的なクエリを編集する必要もなく,キーワードに基づくシステムと同じように簡単にシステムを利用できる.
|
Research Products
(7 results)