OpenAI:s nya röstmodeller kan lyssna, översätta och agera i realtid

OpenAI lanserade igår tre nya röstmodeller som alla har sina unika specialiteter för olika områden. Varje modell låter utvecklare bygga in dem i sina appar och de tre modellerna hanterar resonemang, översättning och transkribering. De nya röstmodellerna är mer naturliga, svarar mer intelligent och kan agera i realtid. OpenAI beskriver de tre nya modellerna så här:

GPT-Realtime-2 är vår första röstmodell med resonemang på GPT-5-nivå som kan hantera svårare förfrågningar och driva konversationen framåt på ett naturligt sätt.
GPT-Realtime-Translate är en ny modell för liveöversättning som översätter tal från över 70 inmatningsspråk till 13 olika utmatningsspråk samtidigt som den håller jämna steg med talaren.
GPT-Realtime-Whisper är en ny strömmande tal-till-text-modell som transkriberar tal live medan personen pratar.

Med dessa modeller ger OpenAI tillverkare av allt från telefoner till bilar möjligheten att bygga användbara lösningar där rösten är gränssnittet mellan användaren och produkten. De nya röstmodellerna finns tillgängliga via Realtime API och nedan har ni priserna:

GPT-Realtime-2 kostar 32 dollar per miljon ljudinmatningstokens och 64 dollar per miljon ljudutmatningstokens. Cachade inmatningstokens kostar 0,40 dollar.
GPT-Realtime-Translate kostar 0,034 dollar per minut.
GPT-Realtime-Whisper kostar 0,017 dollar per minut.

OpenAI

OpenAI:s nya röstmodeller kan lyssna, översätta och agera i realtid

Populärt i bubblan idag