xAI、Grokプラットフォーム向けにSTTおよびTTS APIを発表

xAIは最近、Grokプラットフォームの音声からテキスト(STT)およびテキストから音声(TTS)APIを正式に発表し、開発者に向けて公開しました。この更新は、AIモデルを通じて高忠実度で低遅延の音声インタラクション機能を提供し、アプリケーションがより自然な音声対話体験を統合できるようにすることを目的としています。 xAIは、新たに追加されたSTTおよびTTSインターフェースが音声入力をテキストに変換したり、テキストコンテンツを音声出力に合成したりすることで、音声インタラクションの重要な部分をカバーすることができると述べています。API形式で提供されることで、開発者は自社製品に関連サービスを呼び出し、音声アシスタント、音声カスタマーサービス、会議記録、またはアクセシビリティの朗読などのシーンで機能を構築し、既存のテキスト対話機能と組み合わせてエンドツーエンドの音声対話プロセスを形成することができます。

音対話プロセス。

Grokプラットフォームのマルチモーダル拡張

xAIは以前に開発者にGrok関連のAPIを提供し、Grokモデルをサードパーティアプリケーションに統合できるようにしました。公開された開発者資料によると、関連する適合と呼び出しは一部の開発ツールエコシステム内でサンプルが提供されています。今回の音声機能の追加は、Grokプラットフォームがマルチモーダルインタラクションの方向にさらに拡張し、開発者にテキストから音声へのインターフェースオプションを提供することを示しています。xAIは、STTおよびTTS APIの具体的な料金、利用可能な言語、およびモデルバージョンの範囲についてはまだ公開していません。

stone
stone