研究課題/領域番号 |
25540150
|
研究種目 |
挑戦的萌芽研究
|
研究機関 | 同志社大学 |
研究代表者 |
波多野 賢治 同志社大学, 文化情報学部, 准教授 (80314532)
|
研究期間 (年度) |
2013-04-01 – 2015-03-31
|
キーワード | 検索行動補助 / ルールマイニング / 係り受け関係 / 自動抽出 |
研究概要 |
本研究では,これまで多くの研究者が取り組んできた検索システムのアクセスログを解析する形式にとらわれず,既に記録として存在している文書の中から専門家,ここでは図書館司書の蔵書検索の過程を活用した利用者の検索行動の補助機構の提案を行う.ここでいう記録とは図書館において作成された,日々の業務である日々行われているレファレンスサービスの記録や情報の調べ方をまとめたものであり,一般にはレファレンスデータと呼ばれている.この中には図書館利用者から需要の多い質問に対して,図書館司書の方々があらかじめ必要な資料を準備し,回答として用意したものも含まれている.すなわち,この中から図書館利用者にとって必要となる図書館司書の検索行動を抽出,それらを提示することで,利用者が抱えている情報要求に対し「何をしてよいのかわからない」といった状況を回避することができると考えている. 平成 25 年度の研究成果としては,レファレンスデータからの検索行動抽出のために,1) レファレンスデータからの検索行動抽出のために,接続詞を用いたルール発見のためのアルゴリズムの開発を行ったり,そのルールの発見に限界がある可能性があることも考慮し,2) 係り受け解析器を用いた検索行動抽出のための自動ルール発見法の提案を行った.また後者に関しては,研究開始当初はルールの抽出精度が非常に悪かったため,通常は一文中に含まれる係り受け関係を独立した事象とみなして構造解析を行うプロセスを,複数の係り受け関係の独立した事象とみなさず一つの関係を一つとみなしその出現確率を計算することで構造解析を行うプロセスに改善を図ったところ,係り受け関係の抽出精度が特に一文が長いものに関して改善がみられた.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
平成 25 年度の研究成果は,研究実績の概要にも書いたように,1) レファレンスデータからの検索行動抽出のために,接続詞を用いたルール発見のためのアルゴリズムの開発,と,そのルールの発見に限界がある可能性があることを考慮し,2) 係り受け解析器を用いた検索行動抽出のための自動ルール発見法の提案,である. 前者に関しては,本研究を開始する以前に提案した検索行動抽出のためのルール発見法を体系化し,より多くのルール抽出を行えるように発展させたが,その研究内容が評価され,国際会議 IIAI-AAI 2013 に accept されている.また後者に関しては,ルール発見に係り受け解析を利用する方法を考案し,従来から行われてきた係り受け解析の問題であった複数文に跨がって出現する語間の共起関係を利用した,新しい係り受け解析法を提案した.この研究内容が評価され情報処理学会関西支部大会では関西支部大会学生奨励賞を受賞するばかりか,国際会議 ICDS 2014 に accept された.この研究成果を用いることで抽出すべき検索行動のルール発見が自動化できるようになった. 以上のことから,本研究の達成度を「おおむね順調に進展している」と判断している.
|
今後の研究の推進方策 |
現在までの達成度で述べたように,平成 25 年度の研究進捗はおおむね順調に進展していると言える.しかしながら,それぞれの研究実績に問題がないわけではない.例えば現在までのルール抽出アルゴリズムで,図書館司書がリファレンスサービス利用者の要望に対して行った検索行動を抽出することは可能となったが,どのレベルまで抽出できているのかといえば,単に図書館司書が情報検索に利用したリソースの抽出にとどまっている. 確かにリソースの抽出が可能となれば,利用者がアクセスすべき対象を提示することは可能となるが,その対象に対して利用者がどういう行動をとればよいのかまでは指示することができていない.また,抽出されたルールが適切かどうかの評価も抽出アルゴリズムに合致したルールの中でどれほどが正しいルールかの評価はできているが,抽出アルゴリズムとして確立していないものに対しては依然対応できていない.そのために機械学習を用いた自動ルール発見法の精度を更に高める必要がある.特に機械学習で重要となるのは,適切に整形されたデータを適切な方法で学習させることにある.現段階では単なるテキストデータに過ぎないリファレンスデータであるため,このデータの二次利用は非常に難しい状態である. したがって,残りの研究期間で最も時間をかける内容として挙げられる研究項目は,リファレンスデータ内に記述されている,リファレンスサービス利用者に対する図書館司書の回答とそのプロセス,参考資料のフォーマッティングを行うことである.この問題は,リファレンス共同データベース事業のフォーラムでも議論されている点であるため,図書館関係者からの情報提供を受けリファレンスデータの記入方法の統一化による情報抽出の高精度化を計画している.
|