第A06版:世界

会倾听,能唠嗑,还善于察言观色

新版ChatGPT“更像人”了

  美国开放人工智能研究中心(OpenAI)13日展示最新版本ChatGPT:与使用者展开语音对话、识别图像并展开讨论、翻译……相比先前版本,它与使用者对话基本无延迟,会倾听,能唠嗑,还善于察言观色,让人惊呼新版本ChatGPT“更像人”了。

  开放人工智能研究中心13日发布的人工智能模型名为GPT-4o,编号中的字母“o”代表“omni”(全能),既能接受文本、音频和图像的任意组合输入,还能生成文本、音频和图像的相关回应。

  该中心不仅围绕GPT-4o做了直播演示,还在社交媒体发布更多视频“炫技”。在一段视频中,GPT-4o听起来明显“更会聊天了”,还时不时抛出几个笑话。它的音调有些许变化,言语间带着笑意,与它聊天更像与真人交谈。

  实时聊天是ChatGPT的关键技能。相比先前版本,GPT-4o的不同主要表现在:一是使用者可以随时打断聊天机器人,无需像从前那样等它把话说完;二是它会实时对问题作出回应,不再有两到三秒的时滞;三是它能感知人的情绪,比如演示者呼吸急促,它会询问对方是否需要稍稍稳定下情绪。另外,GPT-4o可以生成不同风格的声音。

  演示中,GPT-4o利用其视觉和语音能力,指导演示者在纸上逐步解出一道方程题,而不是直接给出答案。它还展示了英语与意大利语互译、用自拍照片识别情绪等能力。当一名演示者告诉它,自己正展示它是“多么有用和不可思议”时,它回答道:“哦,快别说了,怪害臊的。”

  北京邮电大学人机交互与认知工程实验室主任刘伟说,无论是在文本生成、做题、问答系统还是情感分析等任务中,GPT-4o都表现出很好的能力。这种技术的突破,无疑将对国内外的相关企业产生重大影响,它不仅推动了自然语言处理技术的发展,也让人工智能在多个领域的应用变得更加广泛和深入。

  近年来,开发更人性化、功能更强大的生成式人工智能工具竞争激烈。就在开放人工智能研究中心发布GPT-4o的第二天,谷歌开发者年度会议召开,人工智能是重头戏。硅谷企业家埃隆·马斯克、技术企业“深层思维”创始人之一穆斯塔法·苏莱曼也分别投资开发了聊天机器人Grok和Pi,将拟人化特点作为产品主攻方向。

  英国广播公司的评论说,GPT-4o能够结合文本、音频和图像内容瞬间做出反应,目前在竞争中处于领先地位。

  (据新华社北京5月15日电)