OpenAI发布革命性语音模型gpt-realtime 实现语音交互质的飞跃
发布时间:2025-09-02 17:08:44点击量:
OpenAI最新发布的gpt-realtime语音模型在音质、智能和指令遵循等方面实现全面提升。该模型能准确复述字母数字序列,无缝切换语言,声音效果几乎与真人无异。
gpt-realtime采用端到端架构,直接处理并生成音频,显著降低延迟。模型新增Marin和Cedar两款语音,并对现有八款语音进行升级,在自然度上取得突破。
该模型展现出更高智能水平,能捕捉非语言线索,精准理解多语言内容。在Big Bench Audio评测中准确率达82.8%,较旧版提升17.2个百分点。
gpt-realtime改进了函数调用能力,支持图像输入,使对话内容可与视觉信息结合。新增多项功能使API更易集成,为开发者提供更大灵活性。
据悉,此次发布由95后华人研究员Beichen Li和Liyu Chen参与。Beichen Li毕业于MIT,研究方向为计算机图形学与机器学习交叉领域。
iPhone 17 Pro系列透明保护壳曝光 摄像头开口增大并支持磁吸挂绳
尊界S800“高速失速”引热议 有车主成功复刻:博主怒斥太无聊 故意抹黑华为
是报复H20没人买吗!美国撤销英特尔、三星等在华生产芯片豁免 120天后生效
苹果iPhone 17系列或将全球推广eSIM技术 物理SIM卡槽或将逐步淘汰
Philips Evnia 27M2N5800P显示器图赏:双模式游戏利器
飞利浦 ENVIA 27M2N6801M图赏:纯白优雅外观下的性能猛兽