音声合成エンジン Open JTalk について

投稿日: 2013年6月1日2017年3月27日投稿者: dyama

動画の生放送サイトを見ていると、リアルタイムに視聴者から来るコメントを合成音声によって読み上げている人が増えているようで、合成音声のジャンルも賑わってきたようです。ボーカロイドの初音ミクが登場するよりも前、AquesTalk をいじってみて調整次第ではかなり「聞ける」音声になるんだなあ、と実感した覚えがあります。自分は合成音声を入れた動画を作成したり、配信したりするわけではないのですが、IRCのログやTwitterのタイムラインの読み上げ程度には使ってみたくなりました。ということで、今更感が拭えませんが、Open JTalkを使ってみた時のメモを書いておきます。

Open JTalk とは

オープンソースの日本語音声合成エンジンです。音声合成エンジンには、入力文章の処理部と発音部に機能が分かれるんですが、文章処理にはオープンソースの形態素解析エンジン MeCab を利用しているようです。ChaSen や Kakasi に並んで有名なエンジンですね。発音部には、HMM-based Speech Synthesis System (HTS)というエンジンを利用しているようです。 Open JTalk のデモページでは、WWWブラウザ経由で音声合成を試すことができます。試しに作ってみた音声を置いておきます。能登っぽい声ですね。こちらのデモページでは、更新履歴を見る限り、Open JTalk のバージョン 1.06 を利用しているようです。

インストール

インストールした時点での私の環境は Ubuntu 13.04 x64 版です。2013年6月現在、Ubuntu のリポジトリに入っているのはバージョン 1.05 で、公式サイトにて公開されている最新版は 1.06 です。詳しい事は後述しますが、これらのバージョンによって利用できる音声データファイルの形式が違ってきます。

コメントを残すコメントをキャンセル

このサイトはスパムを低減するために Akismet を使っています。コメントデータの処理方法の詳細はこちらをご覧ください。