研究課題/領域番号 |
16K21124
|
研究機関 | 京都大学 |
研究代表者 |
亀田 尭宙 京都大学, 東南アジア地域研究研究所, 助教 (10751993)
|
研究期間 (年度) |
2016-04-01 – 2018-03-31
|
キーワード | 情報抽出 / 情報組織化 |
研究実績の概要 |
まず、雑誌『東南アジア研究』52 年間分の研究論文のコーパス化を進めた。ただし、一部の論文は、OCRの精度が非常に悪い、特殊文字が多く含まれているなど、コーパス化への障壁があったため一旦対象外とした。 対象の論文に対して、地名と専門概念の用語抽出に取り組んだ。地名は国名や頻出する大都市は抽出できた一方、小規模な村などは人手でも文脈を考慮した推定が必要であるなど自動での抽出は困難と思われた。また、専門概念として、他プロジェクトとの連携を考えて、食品と動植物名を対象とし、これも自動での抽出が困難であるため、まず人手で事例セットを構築した。よって、自動化ではなく人手でのスキーマ抽出の支援に主眼を置いたシステムの構築をすることにした。スキーマパターンこの際に、スキーマパターンの正解例を人手で構築できるように、スキーマを JSON Scheme で記述し、各データを JSON で記述するようなエディタを開発した。これにより、人手による知識構造の抽出が容易になった。このエディタで Linked Open Data として構築された外部知識ベースのURLを推薦し入力できるようにすることにより外部知識との知識統合も支援できるようになった。 また、以上のように、雑誌『東南アジア研究』コーパスの整備とスキーマの構造化に時間を要したため、並行して、別のプロジェクトで構築しているマレーの雑誌のデータに対して文脈解析のタスクを行った。結果、含まれるスキームの種類を判別が可能になった。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
雑誌『東南アジア研究』内の論文の部分的なデータ化、地名や専門概念の抽出、および文脈解析については前述の通り予定通りの進捗が得られた。 抽出の自動化については、2つの要因、(1)一部の論文がデジタル化困難(2)表現が複雑であること、によって遅れた一方で、29年度予定だった外部知識との知識統合についての支援が先に進んだため、全体としてはおおむね順調に進展している。今回デジタル化を見送った部分については、謝金によって人手でのデータ化を行うことにする。複雑な表現に対する抽出については、そもそも論文にある情報では人間でも追加情報なしには地名や概念を同定できないものもあることから、問題設定を自動抽出から効率的な知識構造化の支援へと置き換えた。一方で、元々の問題設定である自動抽出を可能にするために、作ったスキーマに対応するデータを抽出する対象として雑誌『東南アジア研究』以外のデータにも対象範囲を広げて行うことにした。
|
今後の研究の推進方策 |
今後はデータのさらなる整備と、知識統合、評価が必要であると考えている。 データの整備については、論文の追加的なデジタル化に加え、開発した JSON Editor を通して構造化された知識を人件費を使って人手で構築する。 知識統合に際して、文献については国立国会図書館のデータベースやCiNii Books、地名についてはgeonames 、専門概念については時間の表現を体系化した時間表現基盤や生物名を体系化した LODAC Species に接続する。 評価については、専門家とのディスカッションを通しての質的評価が中心になると考えている。一方で、データやツールの公開を通した社会貢献を考えているため、早めに公開を行うことで、周りからのフィードバックや評価を得たいと考えている。
|
次年度使用額が生じた理由 |
データ化の前にデータ化支援の追加開発が必要だったため、データ化の人件費が次年度に繰り越された。
|
次年度使用額の使用計画 |
データ化の人件費として使用する。
|