2016 年度実施状況報告書

情報抽出技術とLODを用いた地域研究論文の構造化と分析

研究課題

研究課題/領域番号	16K21124
研究機関	京都大学
研究代表者	亀田尭宙京都大学, 東南アジア地域研究研究所, 助教 (10751993)
研究期間 (年度)	2016-04-01 – 2018-03-31
キーワード	情報抽出 / 情報組織化
研究実績の概要	まず、雑誌『東南アジア研究』52 年間分の研究論文のコーパス化を進めた。ただし、一部の論文は、OCRの精度が非常に悪い、特殊文字が多く含まれているなど、コーパス化への障壁があったため一旦対象外とした。対象の論文に対して、地名と専門概念の用語抽出に取り組んだ。地名は国名や頻出する大都市は抽出できた一方、小規模な村などは人手でも文脈を考慮した推定が必要であるなど自動での抽出は困難と思われた。また、専門概念として、他プロジェクトとの連携を考えて、食品と動植物名を対象とし、これも自動での抽出が困難であるため、まず人手で事例セットを構築した。よって、自動化ではなく人手でのスキーマ抽出の支援に主眼を置いたシステムの構築をすることにした。スキーマパターンこの際に、スキーマパターンの正解例を人手で構築できるように、スキーマを JSON Scheme で記述し、各データを JSON で記述するようなエディタを開発した。これにより、人手による知識構造の抽出が容易になった。このエディタで Linked Open Data として構築された外部知識ベースのＵＲＬを推薦し入力できるようにすることにより外部知識との知識統合も支援できるようになった。また、以上のように、雑誌『東南アジア研究』コーパスの整備とスキーマの構造化に時間を要したため、並行して、別のプロジェクトで構築しているマレーの雑誌のデータに対して文脈解析のタスクを行った。結果、含まれるスキームの種類を判別が可能になった。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由雑誌『東南アジア研究』内の論文の部分的なデータ化、地名や専門概念の抽出、および文脈解析については前述の通り予定通りの進捗が得られた。抽出の自動化については、２つの要因、（１）一部の論文がデジタル化困難（２）表現が複雑であること、によって遅れた一方で、２９年度予定だった外部知識との知識統合についての支援が先に進んだため、全体としてはおおむね順調に進展している。今回デジタル化を見送った部分については、謝金によって人手でのデータ化を行うことにする。複雑な表現に対する抽出については、そもそも論文にある情報では人間でも追加情報なしには地名や概念を同定できないものもあることから、問題設定を自動抽出から効率的な知識構造化の支援へと置き換えた。一方で、元々の問題設定である自動抽出を可能にするために、作ったスキーマに対応するデータを抽出する対象として雑誌『東南アジア研究』以外のデータにも対象範囲を広げて行うことにした。
今後の研究の推進方策	今後はデータのさらなる整備と、知識統合、評価が必要であると考えている。データの整備については、論文の追加的なデジタル化に加え、開発した JSON Editor を通して構造化された知識を人件費を使って人手で構築する。知識統合に際して、文献については国立国会図書館のデータベースやCiNii Books、地名についてはgeonames 、専門概念については時間の表現を体系化した時間表現基盤や生物名を体系化した LODAC Species に接続する。評価については、専門家とのディスカッションを通しての質的評価が中心になると考えている。一方で、データやツールの公開を通した社会貢献を考えているため、早めに公開を行うことで、周りからのフィードバックや評価を得たいと考えている。
次年度使用額が生じた理由	データ化の前にデータ化支援の追加開発が必要だったため、データ化の人件費が次年度に繰り越された。
次年度使用額の使用計画	データ化の人件費として使用する。

研究成果
(3件)

すべて 2017

すべて学会発表 (3件) (うち国際学会 2件)

[学会発表] Interactive Knowledge Extraction Tools for Area Studies2017
- 著者名/発表者名
  Akihiro Kameda
- 学会等名
  The International Workshop on Knowledge Extraction and Semantic Annotation (KESA 2017)
- 発表場所
  Novotel Venezia Mestre Castellana, Venice, Italy
- 年月日
  2017-04-23 – 2017-04-27
- 国際学会
[学会発表] Platform for Humanities Open Data2017
- 著者名/発表者名
  Shoichiro Hara and Akihiro Kameda
- 学会等名
  International Symposium on Grids & Clouds 2017 (ISGC 2017)
- 発表場所
  Academia Sinica, Taipei, Taiwan
- 年月日
  2017-03-08 – 2017-03-08
- 国際学会
[学会発表] 地域研究における論文と史料からの用語文脈の抽出2017
- 著者名/発表者名
  亀田尭宙
- 学会等名
  第113回CH研究発表会
- 発表場所
  愛知工業大学本山キャンパス
- 年月日
  2017-02-04 – 2017-02-04

2016 年度 実施状況報告書

情報抽出技術とLODを用いた地域研究論文の構造化と分析

研究代表者

亀田 尭宙 京都大学, 東南アジア地域研究研究所, 助教 (10751993)

現在までの達成度 (区分)

理由

研究成果

[学会発表] Interactive Knowledge Extraction Tools for Area Studies2017

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] Platform for Humanities Open Data2017

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 地域研究における論文と史料からの用語文脈の抽出2017

著者名/発表者名

学会等名

発表場所

年月日

2016 年度実施状況報告書

亀田尭宙京都大学, 東南アジア地域研究研究所, 助教 (10751993)