HeyGenとElevenLabs:日本語テキスト読み上げ精度を比較してみた

動画関係

AIを使った動画作成が流行る昨今。HeyGen(ヘイジェン)ElevenLabs(イレブンラブズ)で日本語のテキストを読み上げてもらい、精度を比較してみました。

読み上げたテキストは日本を代表する名作!桃太郎の出だし部分です。
漢字入りで句読点も入っています。どんなふうに読み上げてくれるでしょうか。

昔々あるところに、おじいさんとおばあさんがいました。
おじいさんは芝刈りに、おばあさんは川へ洗濯に行きました。
おばあさんが川で洗濯をしていると、川の上流から大きな桃が、どんぶらこどんぶらこと流れてきました。

HeyGen

日本人顔のアバターで、音声は日本語で選べる「Himari-Natural」を選んでみました。アバターが暗いところで撮影したようなので、背景も黒くすれば良かったんですが・・・。
まあ、今回は読み上げの比較なのでお許しを。

ElevenLabs

有料

日本語対応の音声がなかったので、「スザンヌ」という若いアメリカ人女性の声を使いました。

まとめ

聞いていただいた通りなのですが、HeyGenが漢字が混ざっていても適切に読み上げてくれているのが分かります。

じゃあHeyGen一択なのかと言うと、自分が使いたい機能とそれぞれのサブスク料金を考えるとこの2つを組み合わせて使った方がお安かったりします。(2023年1月現在の話ですが)

コメント