OpenAI发布更新，实现实时跨音频、视觉和文本推理

PA一线｜2024-10-02 19:39

PANews 10月2日消息，据Cointelegraph报道，OpenAI在10月进行了四项重要更新，提升了AI模型的对话能力和图像识别性能。首项重大更新是实时API，允许开发者通过单个提示创建人工智能生成的语音应用，实现类似ChatGPT高级语音模式的自然对话。此前，开发者需要拼接多个模型来实现此类体验，语音应用程序也通常存在较高延迟。借助实时API的流媒体功能，开发者现在可以实现即时、自然的交互，类似语音助手的体验。

此外，OpenAI还推出了图像微调工具，增强AI对图像的理解能力，提升视觉搜索和物体检测功能。开发者可以通过人类反馈优化AI生成的响应。其他更新还包括“模型蒸馏”和“提示缓存”，帮助小型模型向大型模型学习，并减少开发成本和时间。预计OpenAI的收入将在2025年增至116亿美元，高于2024年的37亿美元。

第五届PANews年度评选暨 PARTY AWARD 2025 开启投票！

创历届纪录！近300个项目及个人通过数据筛选、公开报名和社区推荐，进入本次评选投票阶段。谁是推动Web3和Crypto走向主流的先锋？点击图片参与投票，为你心目中的年度最佳助力！

点击下方图片立即投票！

PARTY AWARD 2025

作者：PA一线
本文为PANews入驻专栏作者的观点，不代表PANews立场，不承担法律责任。文章及观点也不构成投资意见。
图片来源： PA一线如有侵权，请联系作者删除。

收入 OpenAI AI

评论

推荐阅读

精选专题更多

牛市狂想：2024年度总结与2025新年展望

牛市狂想：2024年度总结与2025新年展望

四年等一回，牛市生存指南奉上

四年等一回，牛市生存指南奉上

PAData：数据中的Web3

PAData：数据中的Web3

数据解析、可视化报道行业热点

Memecoin超级周期：注意力代币化引发的炒作狂潮

Memecoin超级周期：注意力代币化引发的炒作狂潮