研究実績の概要 |
平成27年度は、学術文・技術文の長単位による形態素解析を行い、用いられている一般動詞と普通名詞の頻度情報を得た。学術文の代表として大阪大学に提出された博士学位論文の要旨文を、技術文の代表として大阪府立産業技術総合研究所の技術報告概要文を、解析の対象として選定した。 これまで言語資源の形態素解析には小さな言語単位である短単位による解析が可能であった。平成26年度中に、合成語の多い学術専門用語を抽出することができる、長単位解析可能なソフトウェアComainuが公開された。平成27年度中に解析精度や活用方法の改良がなされ、今年度中の研究において使用を試みた。 学術文として、大阪大学リポジトリOUKA上で公表されている博士学位論文概要を対象とした。分野は、言語学・医学・法学・生物学・教育学のものを一件ずつえらび、概要文の箇所のみをテキストデータとして集約した。総字数は約6,000字である。技術文として、 大阪府立産業技術総合研究所の技術報告および技術論文概要の平成24年度~平成27年度分をテキストデータとして集約した。総字数は約15,000字である。解析の対象規模は小さく、試行を始めた段階に過ぎないが、長単位による形態素解析をすることで、学術文・技術文の表現特徴をよりよくマイニングすることができるであろうとの予測に至った。 上記の成果を、平成28年3月に東北大学で開かれた言語処理学会第22回年次大会で発表した。またアカデミック・ライティング指導冊子と教員用マニュアルを改訂し、大阪大学リポジトリOUKA上で公開した。今後は、成果データを大学学部初年次生向け日本語アカデミック・ライティング指導教材を作成する際の基礎データとしていく。加えて、得られた研究手法を主に科学技術学術文書の解析に集中して適用し、科学技術教育の進展に貢献すべく研究を進める予定である。
|