研究課題/領域番号 |
19J12466
|
研究機関 | 東京大学 |
研究代表者 |
岩月 憲一 東京大学, 情報理工学系研究科, 特別研究員(DC2)
|
研究期間 (年度) |
2019-04-25 – 2021-03-31
|
キーワード | 定型表現 / 伝達機能 / formulaic expressions / formulaic sequences |
研究実績の概要 |
本年度は,定型表現の抽出および分類の評価手法の開発ならびに定型表現の抽出手法の開発に取り組んだ。 定型表現の抽出の評価は,本年度当初は,抽出された定型表現そのものに対してその質を評価するべく,統計的手法による指標の開発に取り組んだ。しかしながら,定型表現は完全に固定された表現ではなく,特に定型表現の範囲を確定させることが本質的に不可能であることが判明し,定型表現そのものに対し何らかの質的な指標を付与することは良い手法ではないと結論づけられた。そこで,定型表現が文の伝達機能を実質的に担っているという仮説に基づき,その程度を測定することで評価する手法を開発することに成功した。具体的には,後述の定型表現機能分類評価用データセットを利用し,定型表現部分と非定型部分に異なる重みをかけた文分散表現を用いて文検索タスクを解くことにより,そのパフォーマンスで定型表現抽出の評価をするというものである。定型表現および非定型表現を用いて,本評価手法が定型表現抽出手法を評価可能か検証し,評価手法として機能していることを確認した。 定型表現の分類の評価については,評価用に少量のデータセットを構築することで対応した。計算言語学論文レポジトリであるACL Anthologyから,定型表現を含む英文を抽出し,人手により伝達機能に基づいて分類を行った。その後,4~5名の評価者によって伝達機能が判定可能かどうかの検証を行い,十分な質を有するデータセットであることが示された。また,既存の文分散表現がどの程度伝達機能の情報を埋め込めているかを確認した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
定型表現の定義および評価指標として,文の伝達機能を表現しているかどうかを用いることを提案し,これによって定型表現が抱える曖昧さとそれ故に計算機で扱いづらかった問題がある程度解決された。 また,データセットを構築したことによって,これを使って抽出及び分類手法の検討を行うことができるようになった。
|
今後の研究の推進方策 |
定型表現あるいは定型表現を含む文について伝達機能に基づいて分類する方法と,定型表現を分類された文から抽出する手法について研究する。
|