2015 Fiscal Year Research-status Report
類似文字列検索と分類型検索を活用した調理用語の体系化に関する研究
Project/Area Number |
26330363
|
Research Institution | Gunma University |
Principal Investigator |
安川 美智子 群馬大学, 大学院理工学府, 助教 (70361384)
|
Project Period (FY) |
2014-04-01 – 2017-03-31
|
Keywords | ディレクトリ・情報検索 / 情報図書館学 / 情報システム / 多言語処理 / 栄養学 |
Outline of Annual Research Achievements |
2015年度の研究では、日本語の形態素(morpheme; 意味を持つ最小の言語単位) と文字n-gram(長さnの文字列)を組み合わせた検索手法の検索有効性を評価する実験を行い、得られた知見を2015年12月8日から12月9日の期間にシドニー(オーストラリア)で開催された「20th Australasian Document Computing Symposium(ADCS2015)」において口頭発表およびポスター発表を行ない、「Best Paper Award」を受賞した。実施した評価実験では、日本語の検索システム評価用のテストコレクションを使用し、検索対象となるコーパスに日本語の形態素解析器ChaSen、MeCab、KaKaSi、Juman、KyTeaを適用して、5種類の単語の索引を作成した。また、コーパスに含まれるテキストデータを入力として、文字列の長さを1~3に変化させたn-gramの索引を作成した。単語の索引を用いた検索は、n-gramの索引を用いた検索に対して、ほとんどの検索トピックにおいて検索有効性が高いが、形態素解析が困難な未知語(辞書に登録されていない長い文字列)や複合語(二つ以上の形態素が結合し新たに一つの語としての意味をもつもの)の検索では、n-gramの索引に劣る検索トピックが存在し、その数は無視できない程度存在することを確認した。異なる索引からの検索結果を組み合わせるデータ融合により、単語の索引を用いた検索が失敗する検索トピックにおいて、n-gramの索引を用いた検索が有効に機能し、これにより、適合文書の検索漏れを防ぐことができる。実験の結果、提案手法はベースライン(単語の索引を用いた検索)よりも検索有効性が高いことを確認できた。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本研究は、調理や食材に関する単語を分類・体系化した電子化辞書の構築を目的としており、分析対象となる文書群(料理レシピコーパス)には、形態素解析が困難な未知語や複合語が多数含まれる。現在までの研究で、異なる単語分割の手法を組み合わせたデータ融合が日本語の文書群において有効であることが確認できていることから、本研究は当初計画に基づき、順調に進展していると言える。
|
Strategy for Future Research Activity |
今後の研究では、英語の文書群を対象とした評価実験を行い、検索索引語の文字列長や意味的類似性、類義語・多義語の相互の関連性を確認していく予定である。現在のところ、研究計画の変更や研究を遂行する上での課題は特に生じていない。今後の研究において、構築した辞書を活用した情報アクセス技術についての検討を行うため、国内・海外の研究者との情報交換を行うとともに、研究成果を社会で広く活用できるようにするため、「情報解析のための複製等」を規定した著作権法についての理解を深め、技術面と法律面の両方から最新の情報収集を行い、効率よく検討を進めていく予定である。
|
Research Products
(3 results)