2013 Fiscal Year Annual Research Report
意味の対応付けによる辞書資源群の多言語セマンティックWeb化
Project/Area Number |
25280117
|
Research Category |
Grant-in-Aid for Scientific Research (B)
|
Research Institution | Osaka University |
Principal Investigator |
林 良彦 大阪大学, 言語文化研究科(研究院), 教授 (80379156)
|
Co-Investigator(Kenkyū-buntansha) |
加藤 恒昭 東京大学, 総合文化研究科, 教授 (60334299)
|
Project Period (FY) |
2013-04-01 – 2017-03-31
|
Keywords | 情報資源の構築・管理 / 多言語処理 / 意味的類似度 / セマンティックWeb / リンクデータ / 心理学的意味特徴 |
Research Abstract |
本研究を構成する3つの研究課題のうち,H25年度は主に,以下の研究課題Aを実施した. 研究課題A: 語義説明文に存在・潜在する意味属性情報を利用することにより,辞書の情報項目間の言語横断的な対応付けを高度化(高精度化,対応関係のタイプ分類)する方法論を明らかにする.また,Linked Dataによる構造化において有用な言語的な属性情報の体系を示す.実施内容は以下の2点にまとめられる. (1) 辞書の語義説明文を利用する語義概念の言語横断的対応付けの検討: 語義概念を構成する単語集合の言語横断的類似度に加え,語義説明文の言語横断的類似度を加味する手法について検討を進め,特に,機械翻訳の適用においては,複数のエンジンによる冗長性が有用であることを実験的に示した (査読付き国際会議1件).一方で,異言語の語義説明文の間の意味的類似度に直接アプローチすべきことも明らかとなった.このため,文の英語の類似度に関するコンテストであるにおける評価データの日本語,中国語への翻訳を進め,機械学習に基づく言語横断的な意味的類似度の研究に必要な学習データ・評価データの準備を進めた.現在,このデータに基づく言語横断的な文の類似度に関する評価をとりまとめており,H26年前期に国内学会発表を予定している. (2) 心理言語学的な意味特徴の体系化とLinked Data化の検討: 本研究では人間の認知・心理的な側面を導入することにより,異言語の意味・概念の対応付けにアプローチすることに特徴がある.このような検討を進めるベースとして,McRaeらによる意味特徴規範データベースをベースとして利用する.今期は,本データベースに収録されている,人間により付与された意味特徴をオントロジーの観点から分析し,さらに,Linked Dataとして構造化する検討を進め,その中心的な部分を提案した (査読付き国際会議1件).
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
計画以上に進んでいる部分と計画より遅れている部分があるが,全体的にはほ計画通りであると評価する. (1) 計画以上に進んでいる部分: 異言語の文の間の意味的類似度の高度化については,新たな課題であることが分かり,このための学習・評価データの構築を進めた.さらに,それを用いた一次的な評価を実施できた. (2) 計画より遅れている部分: 計画においては,異言語間の語義概念の対応関係の分類を機械学習アプローチによって進めるための学習・評価データを構築することとなっていたが,対応関係のインベントリの整理に予想以上に手間取ったため,実際のデータ構築には至っていない.
|
Strategy for Future Research Activity |
H26年度は,以下のように研究を推進する. (研究課題A-1) 語義概念の対応付け方式の高度化: H25年度までの結果に,現在,検討・評価中の異言語間の意味的類似度を加味することにより,異言語の語彙概念の対応付け方式の高度化を進める.また,WordNet(英語),EDR(日本語),HowNet(中国語)などの辞書資源に対して走行実験を行う.この結果を(2)の課題のデータとして利用する. (研究課題A-2) 学習・評価データベースの構築: 上記の走行結果に対し,人手により,関連度,対応関係,心理的意味特徴の注釈付けを行うことにより,学習・評価データベースを構築する.本項目は,当初,H25年度中の実施を予定したが,上記(1)による走行結果に基づくことにより,効率的な構築が可能になると考えている.なお,クラウドソーシングなどの手段を利用することにより,注釈付けの効率化を達成する. (研究課題A-3) 機械学習に基づく対応付け・対応関係分類方式の明確化:上記(2)のデータを用いて,総合的な対応付け・対応関係分類処理を実現し,評価を行う. (研究課題B) H25年度の心理言語的意味特徴の構造化の結果を受け,さらに,上記の異言語の概念の対応関係の分類体系を考慮することにより,異言語の概念の対応付けをLinked Dataとして実現する方式を明確化する.より具体的には,RDFにより構造化するためのオントロジクラス・プロパティを提示する.さらに,漸進的に得られる対応関係を逐次Linked Data化していくプロトタイプを実装し,次年度へ向けた課題を洗い出す.
|
Expenditure Plans for the Next FY Research Funding |
H25年度に,異言語間の語義概念の対応関係の分類を機械学習アプローチによって進めるための学習・評価データを構築することとなっていたが,対応関係のインベントリの整理に予想以上に手間取ったため,実際のデータ構築には至らなかったため. H25年度に実施予定だった学習・評価データベースの構築を行う.ベースライン手法の走行結果に対し,人手により注釈付けを行うこととし,さらに,クラウドソーシングのを手段を利用するなどにより,効率化を達成する.
|