2016 Fiscal Year Research-status Report
オンラインを介して 「前読書家」の読書を触発する方式・環境の開発
Project/Area Number |
16K12542
|
Research Institution | The University of Tokyo |
Principal Investigator |
影浦 峡 東京大学, 大学院情報学環・学際情報学府, 教授 (00211152)
|
Project Period (FY) |
2016-04-01 – 2019-03-31
|
Keywords | Twitter / 固有表現抽出 / 文書分類 / 書名 / 教師付き学習 / 図書に言及するツイート |
Outline of Annual Research Achievements |
申請時の計画における第一年度の(B)図書に言及する触発的なツイートの処理機構の開発のうち、主に図書に言及するツイート(Tweet that Mention Books; TMB)の識別及び言及された図書の同定モジュール(TMB識別器)の開発に従事し、当該モジュールを完成させたのが主な実績である。このモジュールは、一般のツイートから、特定の図書について何らかの言及を行っているツイートを識別し、さらにそこで言及された図書も同定するタスクを解くものである。具体的には、書名を明示して図書に言及するツイートに対し言及特有の文脈を機械学習の手法を用いて特徴化し、分類するという機構であり、いかにその文脈を機械学習手法に適用できるような量的指標(素性)に落とし込むかが重要な研究目標となる。予備的に本タスクにおける学習データ量の大きさやアルゴリズムの種類と性能との関係も調査した上で、人間が実際に図書に言及するツイートを判別する際に利用する情報の内省により、ツイートに含まれる語のほかにツイートしたユーザのプロフィール情報、ツイートに含まれるリンクが指すページの語、言及されている書名の「書名らしさ」、書名以外にツイートに含まれる書誌的事項の4素性を提案し、それぞれを導入することによる性能の変化を分類実験で確かめた。その結果、リンク先ページ情報以外の指標で統計的に有意な性能向上があり、有効な素性全てを組み合わせることで分類における精度と再現率の調和平均(F1値)が0.9を超え、十分実用的な性能となった。また、この実験で導入した指標の1つである「書名らしさ」については上記実験では予想より寄与が小さかったため、より適切な表現形式を探ることを目的に、日本語書籍の書名の形式的構造について分析を行い、書名によく見られる形式を抽出した。この分析の成果はTMB識別器の特徴量として組み込まれる予定である。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
申請時、第一年度においては次の2点を実施する計画であった。すなわち(A)図書に言及するツイートのコーパス作成と(B)図書に言及する触発的なツイートの処理機構の開発である。実際の第一年度はこのうち(B)に注力した。これにより、(B)で開発する機構を構成する2つのモジュールのうちのTMB識別器が申請時の想定を上回る性能となった(精度・再現率の調和平均であるF1値で0.9を超える)。これはTMB識別器が実用的な水準であることを示す。したがって(A)について、ツイートの収集とタグ付けに作業が分かれているところ、タグ付けの方針にさらなる検討が必要ではないかという判断に至り、第一年度ではTMBに関する予備的な調査・分析をするにとどめていたが、ツイートの収集に(B)の成果であるTMB識別器を適用することでタグ付け作業の負担を減らすことができると見込んでいる。実際、申請時の計画ではTMBとそうでないものの識別もタグ付け作業の内容に含まれていたので、結果的に作業期間を短縮できると考えている。(B)で開発するもう一方のモジュールであるiTMBスコアリングエンジンの開発もTMB識別器の性能向上を優先して保留していたが、TMB識別器が一般の教師付き分類としてはドメイン固有性の高いタスクであったために開発研究に時間がかかったのに対し、iTMBスコアリングエンジンの各要素技術は既存研究の比較的素朴な適用で済むことから、(A)のツイートコーパス作成作業と並行して開発できる予定である。特に、TMB識別器開発の過程で積極的に言語処理及び機械学習領域の学会参加と研究者交流を行ったことで、iTMBスコアリングエンジンの開発に活かすことができる先端的な知見を得られたことは重要である。第一年度の予定の一部を繰り越す形にはなったがその遅れを取り戻すのに十分な成果を得ていることから、概ね順調に計画を推進している。
|
Strategy for Future Research Activity |
申請時の計画で第一年度に実施予定だった図書に言及する触発的なツイートのコーパス作成とiTMBスコアリングエンジンの開発を第二年度前半に遂行し、後半は計画通り通知インタフェースの開発を行う予定である。まずコーパス作成では、当初の計画通り検索アプローチと探索アプローチの2方策を実施してツイートを収集し、タグ付けの対象としないノイズツイートをすでに実用水準にあるTMB識別器を用いて除去することで、人手を介さず直接に図書に言及するツイートを取得する。この収集作業と並行して、コーパスタグ付けの方針を再検討するとともに、謝金で雇用する作業者を募る。ツイート収集後、小規模のツイートデータで作業者とともに予備的にタグ付けを行った上で最終的なタグ付けガイドラインを確定し、全ツイートのタグ付けを実施してもらう。このタグ付け期間に並行してiTMBスコアリングエンジンの開発を開始する。このエンジンはTMBの触発性として日常性・近接性・非強迫性・誘引性をスコア化するもので、既存の評判分析やコミュニティ検出アルゴリズムを適用する予定である。以上を6月までに遂行する計画である。その後、タグ付け済みのツイートコーパスを用いてiTMBスコアリングエンジンの性能評価を実施し、課題点を修正して当該モジュールの完成とする。この結果を7月中に国際会議に投稿するとともに、通知インタフェースの開発へと移行する。通知インタフェースは計画通り、通知の経路・表示する情報量・タイミングの3観点をユーザの情報環境のハード面とソフト面それぞれを考慮して通知の戦略を策定し、実装する。早ければ8月から通知インタフェースの開発を開始する予定で、最終的には協力者を募って通知の満足度を評価する実験を年度末までに実施する。通知インタフェース開発が早期に終了すれば、第三年度に予定していた図書推薦システムの試験運用と評価を開始する。
|
Causes of Carryover |
触発的ツイートのデータ構築を次年度に回したため。
|
Expenditure Plan for Carryover Budget |
触発的ツイートのデータ構築を次年度前半に行う。
|
Research Products
(3 results)