カテゴリー別アーカイブ: 言語処理

珍しい単語

最近は、合成音声を良くするために、音素長生成・韻律生成・波形処理を、それぞれ改善しようとしていますが、どれも手間がかかり、あっという間に時間が過ぎていきます。それとは並行して、NHKニュースを音声合成させて、読み上げのアクセントが変だったり、言語解析が変だったりする箇所は、随時修正しています。こちらの単語辞書の整備についても、延々と時間が掛かります。

さて、「維新分党」のニュースで、橋下代表の「長くおつきあいさせてもらっているので」という発言中で、「おつきあい(お付き合い)」という単語が、多少厄介でした。

「付き合い」だけだとサ変名詞ではありませんが、「近所付き合い」「親戚付き合い」や「お付き合い」はサ変名詞になり「〜する」と使われます。
単独での読みは「ツキア’イ」(3モーラ目)ですが、他の単語に付いて複合名詞になると、「キンジョズ’キアイ」(1モーラ目)となり、接頭語「お」が付くと「オツキ’アイ」(2モーラ目)となります。アクセント核の位置が、これだけ移動する単語も、珍しいと思いました。

そういえば先日、「チェーン店」という単語の発音が気になって、NHK日本語発音アクセント辞典で引いたところ、「チェ’ーンテン」もありましたが、「チェー’ンテン」と長音にアクセント核が付いているのを発見しました。長音、促音、撥音の特殊モーラには、アクセント核は絶対に付かないと思い込んでいたので、これには驚きました。日本語はなかなか奥が深いということでしょうか。

「大舞台」の読み方

TSNewsで、「NHK主要ニュース」を聞きながら、地道に言語辞書の整備を行なっています。ソチオリンピック関連のニュースで、「大舞台」を「おおぶたい」と読んでいて違和感を感じたので、調べてみたところ、「おおぶたい」と「だいぶたい」のどちらでも、間違いとまでは言えないようです。(古典芸能では、必ず「おおぶたい」と読むようですが。)

自分が作った読み規則を見てみると、「大」の接頭語が、「地震」や「舞台」などの単語に付く場合に、「だい」→「おお」と読むようにしていました。本当は、「大地震」も「だいじしん」と読ませたいところですが、「大地震」に関しては、放送では「おおじしん」が多数派のようですから。同じような感じで、違和感はあるものの、「大舞台」は「おおぶたい」の読みのままで良いかと、今のところ考えています。(もちろん、「歌舞伎」などのコンテキストに依存させて、読みを変えることも可能ではあるのですが…)

ちなみに、人名に関しても、気付いた都度、読み分け規則を入れています。例えば、ソチオリンピックに参加されている方だと、次のようなところです。「平野」さんの場合は、名前の読み分けではないけれど、間違って「へいや」(普通名詞)と読まないようにしています。

  • 「羽生」 … 「はにゅう」(スケート、結弦)、「はぶ」(将棋、善治)
  • 「渡部」 … 「わたべ」(暁斗、猛、篤郎、建、…)、「わたなべ」
  • 「平野」 … 「ひらの」(スノーボード、スノボ、歩夢)

単語の読み分け

ラノベの文章を試聴しながら、正しい読みで読むように、言語辞書を改善しています。新聞記事よりも、くだけた文章が多いです。読み分けが必要なものを、次に紹介してみます。単語の前後環境に応じた規則を記述することにより、単語を選択しています。

  • 弾けろ … 「弾け+る」(ひけ+る) → 「弾け+る」(はじけ+る) 命令形
  • 司義の命により … 「命」(いのち) →「命」(めい)
  • 少年少女たちが歪んだ友情の中で …「歪+む」(ひず+む) → 「歪+む」(ゆが+む)
  • 折原臨也の許に … 「許」(ゆるし) → 「許」(もと)
  • 古王国 … 「古」(ふる) 女房、新聞、井戸 → 「古」(こ) 美術、民家、王国
  • 心と身体に … 「身体」(しんたい) →「身体」(からだ)、お身体
  • ガード下 … 環境、管理、炎天「下」(か) → 高架、ひざ、座席「下」(した)

結構地道な作業です。しかしこのような読み分けは、音声合成で実用化を目指す上では、避けては通れないものじゃないかと思います。

辞書とは違うアクセント型

音声合成の音声を聞いていて、単語のアクセント型が変だと感じた場合、迷った場合などは、アクセント型の載った辞書を参考にして、修正しています。現在参考にしているのは、NHKアクセント辞典、三省堂の新明解日本語アクセント辞典、三省堂の大辞林の3冊です。でもごくたまに、アクセント辞典とは別のアクセント型を、あえて設定したいと感じる場合があることに気付きました。

例えば、「暴風」(ボーフー)というのは微妙で、アクセント辞典等、正式には3型ですが、多くの一般人は0型の方が自然らしいです。「支援」はもともと0型で、大辞林には0型で、NHKアクセント辞典では0、1型の両方あり(最初の方が主)ですが、あえて1型に変更しました。

自分は福岡県大牟田市出身ですが、NHKアクセント辞典の裏表紙には、紫色で、無アクセント、アクセント崩壊とか、ひどい書かれ方をしています。でも、全国放送のNHKニュースを普通に聞いているんだし、そんなに違いは無いと主張したいです。

漢字の読み分け

漢字の読み分け処理を行わないと、まずい例を示します。

例えば「金星」(キンセー)。「金星の太陽面通過」のニュースが報道されていたのは、2012年6月6日でした。一方相撲では「キンボシ」と読みますし、相撲でなくても、「キンボシ」と言うこともあります。そこでどうするかというと、「天体、惑星、太陽、地球、観測、軌道、明星」あるいは「相撲、横綱、力士」という単語が近くにあるかどうかで読み分けるようにしています。「金」も、「キン」と読むか「カネ」と読むか、結構悩ましいものがあります。去年のオリンピックの、2012年7、8月頃には、「金メダル」を「カネメダル」と読んでいた時期もありますが、最近は多少改善されてきたと思います。

動詞の活用形に関して、野田首相退陣ニュースの関連記事で、「退路断った首相」「一般論だと断ったうえで」というのがありました。「断った」を「タッタ」(タ行五段「タツ」の連用形)と読むか、「コトワッタ」(ラ行五段「コトワル」の連用形)とどちらで読むかです。読み分け方法としては、動詞「断った」の左側に、「鎖、糸、 はらわた、悪、根、退路、路、補給、命、生命、筆、食、甘い」という単語が、近傍の3単語以内に存在すれば、「タッタ」と読み、それ以外は「コトワッタ」と読むようにしています。あと有名なところで、「行った」を「イッタ」(カ行五段「イク」の連用形)と読むか「オコナッタ」(ワ行五段「オコナウ」の連用形)がありますが、もう少し複雑な読み分け条件を使っています。

「無人島」が読めない

単語辞書に含まれていないため、「無人島」が読めていない。現在は、「ムジンジマ」と読みます。すごく変です。

どうも現状では、三文字単語で含まれていない単語が多い。「無人+島」と分けて管理するポリシーっぽいが、「島」を読み分ける必要がある音声合成の分野では、ちょっとどうかなと思う。そういえば、「自動車」の単語も含まれていなかったと思う。

例えば、ipadic-2.7.0 には、「無人島」という単語が含まれているので、根本的にちょっと見直すことにしようと思います。

そういえば、「島」の「シマ」「ジマ」「トー」の読み分けは、NHKアクセント辞典の付録に載っていた分は、登録しています。例えば、淡路島、能古島、屋久島は濁らず「シマ」と読み、グアム島、ハワイ島、利尻島などの外国や北海道の島の名前は「トー」と読み、その他は「ジマ」と読みます。

そういえば、カタカナ未知語に付く場合は、「トー」と読む処理は、必要だろうと思ってはいましたが、まだ対応できていません。「町」の「マチ」と「チョー」の読み分けも、まだ対応出来ていません。分かってはいますが、まだまだ先は長いです。