ChatGPT-4o
2024年5月14日、Open-AIより、新たななAIモデル『ChatGPT-4o』が紹介、何ができるのかを示した多数の動画が公開されました。
その中ではカメラに何が写っているかをAIが解説。さらに気になるのは、AIとの会話では、まるで相手が喋っているかのようなイントネーション、笑い声などが適宜挟まっているあたり。そこからは何やら、従来の単に文章を読み上げるAIよりも一歩先に進んでいる様子が伺えます。
文章・音声・映像を一つにした新たなモデル
これまでは、音声をテキストに変換、そのテキストを変換し、再度音声に変換するという3つの手順をとっていたため音声の中に含まれる情報がテキストに変換される際に取りこぼされていました。しかし、今回のChatGPT-4oでは、テキスト、映像、音声などの情報をまとめて学習しているため、音声から直接、音声に変換するという事が可能となったようです。スマートフォンの持つ、カメラ、マイクの音声をまとめて処理することでより新しいモデルとなっているようです。
動画中では、非常に自然に会話をしていたり、適宜途中で笑い声を挟んでいたりと、単に文章を変換するだけではありえない話ぶりを見せているのもこのモデルの変更による影響のようです。
こちらを活用したらしき、音声の翻訳の仲立ちを行っている動画も投稿されています。
歌を歌ってもらえる
こちらの映像では、使用者がララバイ(子守歌)で読み上げてとお願い、それを聞いたAIはきちんと歌うように読み上げていることがわかります。その歌の対象は、マジェスティックポテトについてという、ちょっとした無理難題でもあるにもかかわらず、きっちりと対応しているのもすごいですね。更に、ささやくようにという次のお願いにもきちんと対応しており、柔軟な対応力もあることがわかります。
盲目の人に周囲を解説
こちらの活用例では、目の見えない方が、カメラを向け周囲に何があるか読み上げてもらっている様子が公開。様々な活用方法が考えられます。
ほかにも様々なことができる
ここで紹介した動画は『GPT-4o』の一部にすぎず、他にも様々な動画が公開されています。一緒にじゃんけんをプレイしたり、数学の問題を解いたり、親父ギャグを聞いて笑ってもらったり、犬の紹介をしていたりと多数の動画があり。そちらについてはこちらの再生リストて確認できます。
テキストと画像昨日は今日からChatGPTにて
そんな、GPT-4o のテキストおよび画像機能については、ChatGPT で今日から開始とのこと。 『GPT-4o』は。無料枠で利用できるとのことです。更に、今後数週間以内に、ChatGPT Plus 内のα版の『GPT-4o』を使用した音声モードにアクセスできるものが公開されるようです。
参考:Hello GPT-4p https://openai.com/index/hello-gpt-4o
コメント