ある日X(旧Twitter)で、HeyGen(ヘイジェン)というアプリケーションを通じて言語変換された動画が流れてきた。日本語で話した内容をHeyGen(ヘイジェン)というアプリケーションにアップロードすると、数分もしないうちに指定の言語に変換された動画が出力される。
地声とそっくりの音声で異なる言語の変換ができるということだけで優れた技術であると感動を覚えたが、このツールは動画で出力された口元も変換後の言語に合わせて動くようだ。
私たちが夢にまでみた、多言語同時翻訳の未来はすぐそばに来ているかもしれない。今回の「編集長Focus」は今話題の「HeyGen(ヘイジェン)」を深掘りしてみたい。
◉「編集長Focus」
次世代テクノロジーや金融・経済のトピックを題材とするビジネス誌、「Iolite(アイオライト)」の編集長が、今話題のトピックと最前線を追います。
—AI搭載の動画生成プラットフォーム「HeyGen(ヘイジェン)」
2022年7月にベータ版から正式リリースされた「HeyGen(ヘイジェン)」は、AIでアバターを生成して、動画を作成できるAIを搭載した動画生成プラットフォームだ。
ブラウザで利用可能なWebベースのアプリケーションであり、HeyGen(ヘイジェン)はローンチ以来、ひと月あたり50%の成長率で成長を遂げている。AI関連のサービスに注目が集まるなかでも注目度の高いサービスといえるだろう。
主に、Talking Photoという、話し手の口元を再描写する機能(リップシンク)や、テキストで入力した音声を自動翻訳して選んだアバターにしゃべらせることができるサービスを提供している。ユーザー数は日を追うごとに伸びており、2023年8月時点では、月間380万人のユーザーが同サイトにアクセスした。
法人向けにも動画制作サービスも提供しており、アクセンチュア、アマゾン、エヌベディアなど世界的にも有名な企業のほか、コロンビア大学などの教育機関もHeyGen(ヘイジェン)のサービスを活用している。
—開発メンバー
しかしなぜ、2022年にリリースされたアプリケーションが、このような短期間で爆発的にユーザー数を伸ばすことができたのだろうか。実はCEO Jashua Xu(ジョシュア・シュー)氏は、米国の10代が選ぶSNSで1位に選ばれたこともある「Snapchat」において、AI開発に従事していた経歴を持っている。
また、「Tekpon」というソフトウェアレビュープラットフォームにおいて、2023年のベスト人工知能ソフトウェアの一つに選ばれたことからも、AIに関する確かな技術力と豊富な知識を持っていたことがわかる。
Tekponの選出に関してジョシュア・シュー氏は、「チームの絶え間ない努力を反映する結果は本当に光栄なことであり、Tekponにリストされることで、これからも革新を続けて顧客に対して常に優れた価値を提供するというモチベーションがさらに高まった。」と述べた。
—HeyGen(ヘイジェン)の特徴
それでは、急速にユーザー数が増加しているHeyGen(ヘイジェン)には、どのような特徴があるのかみていきたい。
【特徴】
・100以上のアバターから選択が可能
・動画のテンプレートも豊富
・40種類以上の言語で動画の作成ができる
・ChatGPTやCanvaを活用して効率的にクリエイティブを制作できる
100種類以上のアバターから選択が可能
さまざまな国籍や性別、衣装の選択が可能で、なかにはシャイクスピアやモナリザのイラストを選択して、入力したテキストを読ませることもできる。また、追加料金の支払いでアップロードした写真の顔をアバターとして合成することも可能で、自分だけのカスタムアバターを制作することができる。
動画のテンプレートも豊富
動画のテンプレートは広告、SNS、ニュース、教育など用途ごとに分けられており、こちらも100種類以上のなかから好きなデザインを選ぶことができる。テンプレートのなかには、縦型の動画用に用意されたものもある。SNSにおける需要も高い縦型動画を選ぶことができるのも良い点だ。制作した動画のダウンロード期限は無期限で、ほかのユーザーと動画の共有機能もある。
40種類以上の言語で動画の作成ができる
40種類以上の言語が選択可能なほか、性別、年齢、声色を絞り込めるフィルターも搭載しているため、動画のコンセプトにあった音声を選択することができる。また、カスタムアバターと同様に自身の声を録音して、音声クローンを作ることもできる。
自分の声を自身が選んだアバターと組み合わせることもできれば、自分の顔写真を合成したアバターに自分の声を組み合わせて、デジタル上でクローンを作ることもできる。
ほかにも、5分ほどの動画であればワンクリックで多言語翻訳することができるサービスも存在する。現時点では動画の出力に数分間を要するものの、将来的には同時多言語翻訳が可能になるかもしれない。
ChatGPTやCanvaを活用して効率的にコンテンツを制作できる
既存のAI関連のサービスを活用して、効率的にコンテンツを制作することも可能だろう。ChatGPTを活用して、読み上げを行うテキストを出力し、HeyGen(ヘイジェン)に読ませることも出来たり、無料で簡単にデザインを制作できる「Canva(キャンバ)」というサービスでは、HeyGen(ヘイジェン)のAIアバターを使用してデザインを制作できるようだ。既存のAIツールと組み合わせ次第で、非常に効率的にクリエイティブを制作することができる。
—副業のアイデア 商用利用の可否について
結論から先に述べると、HeyGen(ヘイジェン)の商用利用は可能だ。しかし、フリープランで制作しダウンロードした動画には、HeyGen(ヘイジェン)のロゴマークが表示される。後述するが、クリエイタープラン以上の利用登録で、ロゴマークは表示されなくなるようだ。
執筆時点(2023年10月)の機能を活用して、ビジネスに利用する方法として考えられるのは以下。
【活用アイデア】
・教育コンテンツでの使用
・自身又は自社IPを活用してコンテンツを作成
・パーソナライズされた動画配信
教育コンテンツでの使用
米国の調査会社、Forrester Researchのレポートによると、1分間の動画から伝わる情報量は、文字に換算すると180万語、一般的なWebページの約3,600ページ分になるとされている。ここでいう180万語というのは、英単語数での計算である。つまり、日本語だと300万字以上に相当する情報量があると想定できる。
このレポートは2014年に発表されたものであるため、現代のWebページに集約される情報量は増加している可能性は高いが、どちらにせよ、文字から得られる情報量と映像から得られる情報量とでは、大きな差があるということだ。
自身又は自社IPを活用してコンテンツを作成
前述の通りHeyGen(ヘイジェン)では、自身が話をしている動画をアップロードしたり、画像をアップロードしてアバターに合成したりすることができる。シェイクスピアやモラリザに多言語で話をしてもらうことも可能であるということは、自身で持っているIPを活用してVTuberのように動画を量産することもできれば、遠隔から自身のデジタルクローンを使って講演会などもできるかもしれない。
パーソナライズされた動画配信
制作した動画の配信先、想定される視聴者層に合わせてアバターを変更し、パーソナライズされたコンテンツの配信が可能。たとえば、栄養ドリンクなどの広告用動画にはハツラツとした雰囲気のアバターを起用し、メガネの広告用動画には、視力が低下し始める年代に合ったアバターを起用することで、視聴者は自分が利用するイメージが湧くだろう。
将来的な話にはなるが、ニュースなど毎日決まった時間にみる動画コンテンツの話し手を自分の好みに変えられるサービスも現れそうだ。
—料金プラン
Talking Photo機能はクリエイタープランから利用可能になるほか、ビジネスプランでは、APIアクセスが可能になったり、優先的な動画の処理がついているようだ。
—競合のサービス(HeyGen vs D-ID)
画像やアバターにしゃべらせるアプリケーションはほかにもいくつか存在し、なかでも競合といわれているのが「D-ID」だ。実際にHeyGen(ヘイジェン)とD-IDで生成された動画を比較した動画が上がっていたので参照元とともに掲載する。
GSaab Graphics
AI avator
HeyGen vs D - ID | Talkative AI vs. DID: Talking Photos
【動画はこちら】
個人的にはD-IDを使用して生成された動画は、アバターの中心部分に若干の歪みがあるようにみえて、HeyGen(ヘイジェン)で生成された動画の方がより自然にみることができた。