2017 Fiscal Year Research-status Report
書き言葉コーパスと話し言葉コーパスとを活用した外来語表記のゆれの研究
Project/Area Number |
17K02794
|
Research Institution | Ritsumeikan University |
Principal Investigator |
小椋 秀樹 立命館大学, 文学部, 教授 (00321547)
|
Project Period (FY) |
2017-04-01 – 2020-03-31
|
Keywords | コーパス / 外来語 / 表記 / 発音 |
Outline of Annual Research Achievements |
1.外来語表記のゆれの実態と外来語の発音のゆれの実態とを大規模コーパスを用いて明らかにするため,『現代日本語書き言葉均衡コーパス』と『日本語話し言葉コーパス』とから用例の抽出を行い,用例データベースの構築を進めた。 『現代日本語書き言葉均衡コーパス』については,収録されているレジスターのうち,2001年から2005年発行の新聞・雑誌・書籍,2008年4月26日から2009年4月25日に投稿されたブログを調査対象とした。『日本語話し言葉コーパス』については学会講演・模擬講演の2種類を調査対象とした。 用例収集の対象とする外来語は,『外来語の表記』(1991年,内閣告示・内閣訓令)で複数の表記が許容されている外来音を含む外来語である。具体的には,語中長音,語末長音,連母音[ei],連母音[ou]のほか「ティ・ディ」「ファ・フィ・フェ・フォ」「ウィ・ウェ・ウォ」「ヴァ・ヴィ・ヴ・ヴェ・ヴォ」などを含む外来語である。これら外来音を含む外来語には一般語と固有名詞とがある。用例収集は一般語から行った。 2.外来語表記のゆれと外来語の発音のゆれとの関係について,外来語語末長音を対象とした予備的分析を行った。調査の結果,長音符号を省略した表記の割合(符号無表記率)は17.0%,短音で発音した割合(短音率)は7.7%で,表記と発音との間にずれが見られた。この表記と発音とのずれの要因としては,(1)《エアー》《ソファー》《ボディー》等の特定の語において符号無表記や短音化が高い度数(比率)で生じていること,(2)語末音「ティ」を持つ語において符号無表記が広範囲かつ高い度数(比率)で生じていることの2点を指摘した。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
1.コーパスからの用例抽出に当たって,(1)見出し等の情報の付与基準の確認,(2)外来音(ファ・フィ・フェ・フォ等)と日本語化した外来音(ファ・フィ・フェ・フォに対するハ・ヒ・ヘ・ホ)とを網羅的に検索するための検索条件の検討を行った。検索条件の検討を行う過程で,大量の不要なデータが検索結果に混ざるという問題が確認され,その問題の解決方法の検討に想定以上の時間を要した。 2.用例確認作業の中で誤解析が多く発見され,その修正作業に時間を要した。
|
Strategy for Future Research Activity |
1.応募の段階において,本研究が当初計画どおりに進まないときの対応策として,固有名詞を調査対象外にすることを挙げていた。現在の進捗状況に鑑み,固有名詞を調査対象から除外する。 2.用例データベースの構築を以下のように進める。 (1)誤解析修正は高頻度語から優先して行う。 (2)研究用アノテーションは機械的に処理できる語構成,なじみ度の付与を優先させる。語義情報については,多義か単義かの簡単な情報の付与にとどめる。平成30年度中に用例データベースの構築を完了する。
|
Causes of Carryover |
用例データベースの構築作業に入る前の段階で生じた問題の解決に時間を要したため,平成29年度研究計画の主たる作業であった用例データベース構築の作業開始が遅れ,作業を軌道に乗せることができなかった。 研究の進捗状況に鑑み,調査対象から固有名詞を除外する,研究用アノテーションの自動付与や簡略化を図るなどの対策を取った上で,用例データベース構築完了に向けて作業を継続する。この作業においては,誤解析修正も実施する必要があることから,作業補助者を複数名雇用することも検討し,そのために作業用パソコン等,必要な備品の購入も行う。
|
Research Products
(1 results)