Web3.0

【NEWS】OpenAIが新型AI「GPT-4o」を発表　処理速度2倍に

里見晃

2024/05/13

新型AI「GPT-4o」を発表

対話型AI「ChatGPT」を開発する米オープンAI（OpenAI）は13日、新型AI「GPT-4o（フォーオー）」を開発したと発表した。

GPT-4oは従来に比べて処理スピードを2倍に高速化し、運用コストも半減。また、人間同士と変わらない反応速度で会話することも可能だという。また、音声のみならず、視覚、テキストのリアルタイム処理を可能とし、従来のAIモデルを大きく上回る性能になる。

GPT-4oの「o」は、omni（オムニ）を示しており、オムニバス、オムニチャンネルなど、全体、全方位の意味であるという。

オープンAIのサム・アルトマン（Sam Altman）CEOは「あたらしい音声（及びビデオ）モードは、私がこれまで使用したなかで最高のコンピューターインターフェイスだ。映画のAIのように感じる。それが本物だということに今でも少し驚いている。人間レベルの応答時間と表現力に達することは、大きな変化であることがわかる」と述べた。

また、ミラ・ムラティ（Mira Murati）CTOは、「GPT-4oは、人間とマシンのインタラクションの未来を大きく変える一歩だ。このモデルにより、コラボレーションがはるかに自然で簡単になる」と語った。

GPT-4oは、オープンAIの従来モデルである「GPT-4 Turbo」や、競合会社アンソロピック（Anthropic）が開発する「Claude3Opus」、グーグル（Google）の「Gemini1.5 Pro」などの大規模言語モデルを上回る性能を有する。アルトマン氏は先月、Chatbot Arenaにおいて「gpt2」というコードネームでテストされていたチャットボットがGPT-4oであったことを認めた。

GPT-4oの特徴

GPT-4oの特徴は、音声認識、知性、テキスト読み上げが一体化されている点だ。これにより反応速度が大幅に改善され、会話の割り込み、背景ノイズ、複数の声、声のトーンなど、複雑な対話の要素を完全に理解できるようになった。テキスト、音声、画像の任意の組み合わせの出力を生成するマルチモーダルなAIになっている。

ただし、動画認識や音声認識などの機能は段階的に提供される予定で、現時点ではテキストと画像認識に限定されたサービスを提供するとのことだ。

GPT-4o発表のライブストリームデモでは、ムラティ氏らがiPhoneに搭載されたGPT-4oと会話する形式で機能を紹介した。

イタリア語で話した内容をGPT-4oがリアルタイムで英語に翻訳したり、紙に手書きで書いた数式をGPT-4oが読み取り、解法のヒントを自然な対話で提供するデモが行われた。

参考：発表、アルトマン氏ブログ
画像：Shutterstock

ワールドコイン開発会社、OpenAI及びペイパルとの提携を模索

ワールドコイン（WLD）が独自レイヤー2「ワールドチェーン」を発表

里見晃

【NEWS】OpenAIが新型AI「GPT-4o」を発表 処理速度2倍に

新型AI「GPT-4o」を発表

GPT-4oの特徴

関連記事

【NEWS】OpenAIが新型AI「GPT-4o」を発表　処理速度2倍に