OpenAI Realtime API の音声会話アプリを WebRTC を使って実装する
2024年10月に登場したOpenAIのRealtime APIは、任意のアプリでAIとリアルタイム音声会話を実現する画期的なAPIです。 これまでWebSocketのみをサポートしていたRealtime APIですが、先日WebRTCへの対応が発表されました。 さらに、価格の大幅な引き下げや、音声品質の向上といったアップデートも加わり、より手軽に使えるAPIとなっています...
記事を読むOpenAI の Realtime API を使ってAIと音声会話するWebアプリを実装してみる
今までOpenAIのRealtime APIを使ってCLIベースの音声会話スクリプトを作成しました。 新登場の OpenAI の Realtime API でAIと音声会話する OpenAI の Realtime API で音声を使って任意の関数を実行する(Function calling編) このスクリプトは音声変換ツールのSoX(Sound eXchange)のおかげで簡単に実装できましたが、やっぱりWebアプリも作ってみたいですね...
記事を読むOpenAI の Realtime API で音声を使って任意の関数を実行する(Function calling編)
つい先日OpenAIのRealtime APIを利用した以下の記事を書きました。 新登場の OpenAI の Realtime API でAIと音声会話する ここではCLIベースの超簡単会話ツールを作成しました。 Realtime APIはChat Completion API同様にFunction callingにも対応しています。これを利用すると音声でも任意のAPIを実行できるようになります。 今回はこれを試してみます...
記事を読む新登場の OpenAI の Realtime API でAIと音声会話する
先日OpenAI から Realtime API という注目機能がリリースされました。 OpenAI Blog - Introducing the Realtime API Realtime APIは今秋から段階的にロールアウトしたChatGPTのアドバンスドボイスモードに相当するAPIです。 以前も類似のことはできましたが、音声をテキストに変換、プロンプトとしてLLMにインプット、レスポンスのテキストを音声に変換という長いステップを踏む必要がありました...
記事を読むOpenAIのStructured Outputsを使ってAIの出力スキーマを定義する
先日OpenAIからStructured Outputsという機能がリリースされました。 OpenAI Blog - Introducing Structured Outputs in the API Structured Outputsは、その名前の通り構造化された出力を強制する機能です。 とはいえ、今までもAIからのレスポンスをJSON形式で返却するパラメータはありました(response_formatにjson_objectを指定)...
記事を読むLangChainのJava用ライブラリLangChain4jを使ってみる
はじめに # こんにちは。デジタル戦略支援事業部の三浦です。 今回はLangChainのJava用ライブラリである LangChain4j を触ってみたので紹介したいと思います。 LangChainとはLLM(大規模言語モデル)を利用したアプリケーション開発において便利な機能をまとめたフレームワークです。 多種の言語モデルを統一的なインターフェースで利用できることや、プロンプトテンプレート、会話履歴の保存、エンベディング、ベクトルDBとの接続など多くの機能に対応しています...
記事を読むOpenAI Assistants API(v2)で新しくなったFile Search(Vector Stores)を使う
最近はOpenAI APIのアップデートが活発ですね(そろそろGPT-5が発表されるのでしょうか...)。 少し前にもAssistants APIの大きなアップデートがありました...
記事を読む新しく導入されたOpenAIのバッチAPIを使ってみる
2024-04-16にOpenAIから複数APIを一括実行するバッチAPIが発表されました...
記事を読むOpenAI Assistants APIのストリームレスポンスでUXを改善する
OpenAIのAssistants APIはスレッドによる会話コンテキストの維持やFunction calling、Retrieval等のツールが使えて便利ですね。 ただ、ユーザーとインタラクティブに対話するためには、アシスタント(とその先のGPT)がレスポンスを完全に生成するまでポーリングする必要がありました。 これだとユーザーが体感する待ち時間は長くなり、UX的に今ひとつになってしまいます。 これを打開すべく、先月(2024-03-14)OpenAIから以下の発表がありました...
記事を読む開発者体験(DX)を進化させるJetBrainsのAIアシスタント機能の紹介
先日JetBrains社からAIアシスタント機能の一般公開が発表されました。 Introducing JetBrains AI and the In-IDE AI Assistant JetBrains AI と IDE 内での AI Assistant のご紹介 今回はこれを試してみましたので、その使いどころをご紹介したいと思います。 なお、本記事ではIDEとしてIntelliJ IDEA 2023.3 (Ultimate Edition)を使用しています...
記事を読む