対話型AI「ChatGPT」を開発する米オープンAI(OpenAI)は13日、新型AI「GPT-4o(フォーオー)」を開発したと発表した。
GPT-4oは従来に比べて処理スピードを2倍に高速化し、運用コストも半減。また、人間同士と変わらない反応速度で会話することも可能だという。また、音声のみならず、視覚、テキストのリアルタイム処理を可能とし、従来のAIモデルを大きく上回る性能になる。
GPT-4oの「o」は、omni(オムニ)を示しており、オムニバス、オムニチャンネルなど、全体、全方位の意味であるという。
オープンAIのサム・アルトマン(Sam Altman)CEOは「あたらしい音声(及びビデオ)モードは、私がこれまで使用したなかで最高のコンピューターインターフェイスだ。映画のAIのように感じる。それが本物だということに今でも少し驚いている。人間レベルの応答時間と表現力に達することは、大きな変化であることがわかる」と述べた。
また、ミラ・ムラティ(Mira Murati)CTOは、「GPT-4oは、人間とマシンのインタラクションの未来を大きく変える一歩だ。このモデルにより、コラボレーションがはるかに自然で簡単になる」と語った。
GPT-4oは、オープンAIの従来モデルである「GPT-4 Turbo」や、競合会社アンソロピック(Anthropic)が開発する「Claude3Opus」、グーグル(Google)の「Gemini1.5 Pro」などの大規模言語モデルを上回る性能を有する。アルトマン氏は先月、Chatbot Arenaにおいて「gpt2」というコードネームでテストされていたチャットボットがGPT-4oであったことを認めた。
GPT-4oの特徴
GPT-4oの特徴は、音声認識、知性、テキスト読み上げが一体化されている点だ。これにより反応速度が大幅に改善され、会話の割り込み、背景ノイズ、複数の声、声のトーンなど、複雑な対話の要素を完全に理解できるようになった。テキスト、音声、画像の任意の組み合わせの出力を生成するマルチモーダルなAIになっている。
ただし、動画認識や音声認識などの機能は段階的に提供される予定で、現時点ではテキストと画像認識に限定されたサービスを提供するとのことだ。
GPT-4o発表のライブストリームデモでは、ムラティ氏らがiPhoneに搭載されたGPT-4oと会話する形式で機能を紹介した。
イタリア語で話した内容をGPT-4oがリアルタイムで英語に翻訳したり、紙に手書きで書いた数式をGPT-4oが読み取り、解法のヒントを自然な対話で提供するデモが行われた。
参考:発表、アルトマン氏ブログ
画像:Shutterstock
関連記事
ワールドコイン開発会社、OpenAI及びペイパルとの提携を模索
ワールドコイン(WLD)が独自レイヤー2「ワールドチェーン」を発表