logo
ログイン会員登録
記事詳細 Topバナー Iolite 5月号Amazon
記事詳細 Topバナー Iolite 5月号Amazon
OpenAI image
AI
Web3.0

【NEWS】OpenAIが新型AI「GPT-4o」を発表 処理速度2倍に

里見 晃
2024/05/13

新型AI「GPT-4o」を発表

対話型AI「ChatGPT」を開発する米オープンAI(OpenAI)は13日、新型AI「GPT-4o(フォーオー)」を開発したと発表した。

GPT-4oは従来に比べて処理スピードを2倍に高速化し、運用コストも半減。また、人間同士と変わらない反応速度で会話することも可能だという。また、音声のみならず、視覚、テキストのリアルタイム処理を可能とし、従来のAIモデルを大きく上回る性能になる。

GPT-4oの「o」は、omni(オムニ)を示しており、オムニバス、オムニチャンネルなど、全体、全方位の意味であるという。

オープンAIのサム・アルトマン(Sam Altman)CEOは「あたらしい音声(及びビデオ)モードは、私がこれまで使用したなかで最高のコンピューターインターフェイスだ。映画のAIのように感じる。それが本物だということに今でも少し驚いている。人間レベルの応答時間と表現力に達することは、大きな変化であることがわかる」と述べた。

また、ミラ・ムラティ(Mira Murati)CTOは、「GPT-4oは、人間とマシンのインタラクションの未来を大きく変える一歩だ。このモデルにより、コラボレーションがはるかに自然で簡単になる」と語った。

GPT-4oは、オープンAIの従来モデルである「GPT-4 Turbo」や、競合会社アンソロピック(Anthropic)が開発する「Claude3Opus」、グーグル(Google)の「Gemini1.5 Pro」などの大規模言語モデルを上回る性能を有する。アルトマン氏は先月、Chatbot Arenaにおいて「gpt2」というコードネームでテストされていたチャットボットがGPT-4oであったことを認めた。


GPT-4oの特徴

GPT-4oの特徴は、音声認識、知性、テキスト読み上げが一体化されている点だ。これにより反応速度が大幅に改善され、会話の割り込み、背景ノイズ、複数の声、声のトーンなど、複雑な対話の要素を完全に理解できるようになった。テキスト、音声、画像の任意の組み合わせの出力を生成するマルチモーダルなAIになっている。

ただし、動画認識や音声認識などの機能は段階的に提供される予定で、現時点ではテキストと画像認識に限定されたサービスを提供するとのことだ。

GPT-4o発表のライブストリームデモでは、ムラティ氏らがiPhoneに搭載されたGPT-4oと会話する形式で機能を紹介した。

イタリア語で話した内容をGPT-4oがリアルタイムで英語に翻訳したり、紙に手書きで書いた数式をGPT-4oが読み取り、解法のヒントを自然な対話で提供するデモが行われた。

参考:発表アルトマン氏ブログ
画像:Shutterstock


関連記事

ワールドコイン開発会社、OpenAI及びペイパルとの提携を模索

ワールドコイン(WLD)が独自レイヤー2「ワールドチェーン」を発表

里見 晃