【2025年电冰箱行业发展大会】天津大学王博教授分享AI时代智能设备的人机交互

关键字：

冰箱发展大会

2025-07-15 10:16:50

作者:

来源: 环球家电网

7月10日，在AI浪潮奔涌与全球绿色转型交织的关键节点，由中国家用电器研究院指导，全国家用电器工业信息中心主办，中家院（北京）检测认证有限公司、国家电子元器件质量检验检测中心、佳合(浙江)检验检测有限公司协办，中家智锐科技有限公司承办，环球家电网媒体支持的 “2025年电冰箱行业发展大会”于温州盛大启幕。会上，天津大学王博教授以智能冰箱为例，分享AI时代智能设备的人机交互思考。以下为文字实录：

尊敬刘院长，各位嘉宾，我是天津大学王博。非常溶鞋油这个机会和大家汇报关于智能技术，尤其是智能体在我们家电和冰箱行业的应用。我的分享主题是AI时代智能设备人机交互的思考，以冰箱行业为例，其中最关键的关健词就是人机交互。我们之所以选择这样主题是因为近两年，我们团队在跟我们中家院合作研发面向用户体验的新型的冰箱评测技术，尤其是评测机器人，所谓评测机器人的目的就是在低成本的方式下模拟人类用户与冰箱的交互。因为我们知道如果聘请真实的的人类用户交互测试。成本比较高昂的。而且很难覆盖不同的人群。如果用实体机器人配合大模型技术，能够比较好模拟，按照我们设定意愿设定用户，从而使对用户对冰箱评测更加的真实。

接下来在这样背景下和大家分享最新的技术。

为什么我们要开发面向用户体验的新型评测技术。这跟主持人讲的AI技术发展密切相关，大家认为最先进的AI技术就是ChatGPT，Deepseek这样的应用。大家生活中工作中肯定广泛使用了。事实上这还不是最先进智能技术，尤其不是我们当前智能技术的发展方向，为什么这样讲？我们以大家熟悉的传统IT技术作为类比，这就是搜索引擎。大家心目中搜索引擎可能仍然是我们获取信息主要手段。但是事实上大家可以尝试回顾大家过去24小时获得的信息。过去24小时大家肯定获得了很多非常有用和有趣的信息。在这些信息当中有多少是大家通过搜索引擎或者类似的平台进行主动搜索的呢？可能占的比例非常小，可能为0。这些信息到底哪来的呢？实际上都是由类似智能体技术，尤其是个性化推荐为代表的抖音、头条、淘宝、京东这样的为我们主动推送的。

以此类比，大家对ChatGPT和Deepseek使用方式属于哪一种，属于传统搜索引擎使用方法，就是需要用户主动提出诉求，而且我们对大模型提出的问题需要有一定质量，有人专门跟大家提供这样经验，你问题问得不好，可能结果都不好，这很显然给大家使用带来了一定不方便。目前发展方向就是所谓的智能体，智能体就是要像推荐系统一样能够为用户主动提供服务，比如现在很热门的发展方向就是养老机器人，老人而言不能很清楚的表述，甚至不能清楚知道自己需要有什么样的需求，这都需要智能体以一个非常宏观的原指令，就是出厂时候告诉他这个老人的身份样子的。唯一的指令是你把他照顾好，基于怎么照顾好完全由机器人自己设计和判断。这个就是我们对智能体最朴素的一个概念。

具体而言，智能体是基于我们所熟悉的Deepseek这样大模型，这样像Deepseek这样大模型，我们可以把特点该末尾这样几个方面，首先面向特定人类指定任务了，这性任务孤立的，静态的。根据特定输入给出特定输出，与时空类其他要素，比如其他的设备，环境变化，其实依赖不大。比如用户问食材保质期多少，它准确回答就可以了。作为智能体并的话，不是面向任务，是面向复杂环境的，这个环境下甚至没有用户提出指令，所以交互是多元的，动态的环境，实时的决策与动作，有点像《荒野求生》的游戏一样，他可以主动发现你牛奶过期了，主动在京东上下单进行采购。

这样的智能体是以大模型为核心，但是在核心基础上，通过增加其他模块实现与环境的交互。那么，我们之所以用这样婴儿图片来代表这个智能体，是因为面向我们这样的期待，目前的智能体实际上具有这样潜力，但还不具有这样的能力。就像我们这样一个婴儿一样！对于智能体的定义，其实由来已久，甚至可以追溯到2000年之前，是本身用来定义人类特征的哲学概念，这个概念当中的核心包括了这样几个方面，就是BDIA，B就是信念，对于人类讲，信念可以简单理解为三观。对于一个智能设备来说，比如电冰箱来讲的，它的信念是健康是第一最重要的，第二用户就是主人。这就是信念！那么基于信念的话，我们就可以形成欲望，对于人类来讲，有的人欲望是牺牲，为了其他人做出贡献，有的人追求自身的利益。那么这就是欲望！对于这个设备而言，它在健康和为用户服务的信念下，它的欲望可能就是保证食材新鲜等等。接下来在欲望下有意图，为了保持食材新鲜就可以实时监测牛奶保质期，并且决定下单。做出决定以后就是真正做出行动完成这个工作。

对于AI来讲，也可以在这个框架下理解基于AI智能体体现为：自主行、反应性、积极性和社交能力，这个社交能力不仅与用户交互，还有与环境的交互，与刚才BDIA是对应的，爱实现这个智能体，大模型，Deepseek这样大模型只是核心大脑，还需要其他三个重要模块：

第一个就是记忆。如果一个人没有记忆，他每天早上起来是一个全新人，跟昨天的他没有关系，只有有了记忆，一个智能体，包括人类才能形成稳定的行为模式，才能更好的为用户服务。比如刚才的ChatGPT实际上引入了长期的记忆，你一个月之前询问他一个月之后我某一天我母亲要过生日，你能给我设计一下生日礼物。过了一周之后，在母亲生日那天你规划一个出差行程，而ChatGPT提醒你一周之前告诉你那天是你母亲生日，你要不要调整你的行程。这是长期记忆。目前大模型只有会话级记忆，就是你跟它聊十几轮对话，它会记住你前面几轮说了什么，这个实际上没有技术障碍，只是不同的大模型出于商业考虑，有节奏推出不同统的功能，ChatGPT推出比较早而已。像我们冰箱及以其他智能设备一样需要有这样的记忆维持长期个性化的用户服务。接下来要有规划。事实上，像Deepseek这样模型有这样的规划能力，比如我要出差你给我规划一下行程。但是这种规划比较具体，我们追求面向远指令宏观的规划，比如刚才举养老机器人的举例。未来几十面，用户只下一个指令，所有事情由智能体完成，这是最理想的状态，我们会逐渐扩展规划的尺度。

最后的话，工具的使用经常说人类与动物重要区别就是会使用工具，当前大模型不能很好使用外部工具，未来我们会实现这一点，尤其不同的智能设备之间要互相实现调用，完成整体的功能。

这样背景下，我们经常认为这个智能体所做的一切都是模拟人类，在初级阶段确实这样，但是真正我们追求的是能够让智能体跟人类做各自擅长的事情。在这样的基础上，实现人机协作，我们是人机协作有三个典型方式，我们现在从第一种向第二种演化。第一种方式就是智能体仍然像其他工具一样，在特定环节被人类调用。第二种方式就是并行方式，就像我们跟同事之间关系一样，我们会让智能体完成它擅长的任务，我们做我们擅长的任务，二者协作，我们最理想方式像刚才养老机器人一样，人类下一个指令，所有工作由智能体完成。

为了实现这一点，一个智能体会包含感知端、控制端和行动端。由于时间关系，我这里就不详细阐述了。大家看这个名字大概也能理解。

我们下面举一个例子，智能冰箱摄象头，识别放入鸡蛋，这是感知端决策层结合用户健康数据推荐菜谱，这是控制端功能，行动层自动调节冷藏区湿度，这是行动端的工作。

大家对智能体有这样了解之后，我们可以温故而知新，将这样智能体放在更宏观发展历程上看待，从而使得我们对未来发展有一个更好的估计。我们可以从信息源、存在形式和能力、代表应用四个维度了解我们智能体目前所处的阶段。

大概20年前的人工智能获取知识和能力的基础是一个非常有限的数据库，由人类采集的。基于这个数据库，因为这个数据库往往面向特定应用的，训练出来模型是专用模型，而它的能力是实现特定专业功能，比如搜索引擎、机器翻译、人脸识别等等。接下来我们将数据从特定领域扩展到开放领域，尤其是以互联网文本为代表的大数据，于是我们就有了2022年底走进得到生的以ChatGPT为代表通用语言大模型，第二个大模型我们用缸中之脑来描述，就是有一个大脑泡在营养液里，我们通过很多电极接在上面模拟这个外部的信号，让它误以为自己生活在真是的世界当中，其实他感受到一切都是虚拟的。从哲学上来讲我们没有办法判断自己是不是缸中之脑。因为现在在座每一位都只是缸中之脑。之所以做这个比喻就是对于通用大模型语言讲，人类的语言就是营养液，它误以为了解这个世界。其实他关于这个世界一切都是通过人类语言获得的并不是真实的世界。所以现在人工智能下一个重要发展就是开发我们所谓世界模型，而不是语言模型，而是对真正物理世界有所了解，也就是需要来自物理世界信号，我们最基础的就是从互联网变成物联网。事实上随着智能家电的发展，自动驾驶汽车这样的具生智能体设备发展，都可以成为大模型获取物理世界的途径。

接下来的话，虽然世界模型数据来源互联网，但是仍然在人类的控制之下，就是人类接入什么数据它就有什么数据。再接下来一步智能体走出学校进入社会，它要根据用户的远指令集比如照顾好老人，他自主的选择我完成这个任务需要什么样的数据。这个就是我们所谓具生智能体。这个具生智能体就从理解世界向改造世界发展，事实上我们处于这样阶段初期及包括智能家电，自动驾驶，人形机器人都是这样。未来我们向什么方向发展，就是具生智能体是与用户一对一的，一个设备服务一个用户，随着这样智能体的增加，智能体之间，比如一个家庭不同设备之间也要形成这样交互，而且事实上这样的交互将代替人机交互成为人机共生社会中主要交互，比如说当下在我们此时此刻，世界上的智能体数量已经远远超过了人类了，同这个角度讲我们认为人类已经成为人机共生社会当中的少数民族。无论是俄乌站场无人机还是街上跑了自动及时汽车，包括抖音个性化推荐系统都是这样的智能体，包括网上骂人发帖的水军机器人都是！我们人类就像一个单位领导一下，主要工作是你们员工互相交互完成，我坐在这下指令就可以了。

未来的话，更长远的话，整个智能体可能自己构建成一个社会，涌现出自己的文化，这个时候我们也会担心人类在这里存在一些伦理上的风险。

这个图片比较直观的描述了一个人机共生社会的架构，首先最左边就是我们说的一个智能体通过记忆、规划、工具调用，形成一个具有独立人格的，独立行为方式的个体。那么，只有当它成为这样个体的时候，我们说一个人首先要有独立人格才能正常交往，然后在智能体中形成智能体社会，智能体社会要与环境交互的，用户事实上可以作为环境一部分，而不仅仅是主人。因为用户多数情况下波下指令的，由主人描述可能不准确，可能是被服务和被交付的对象。基于前面的分享的话，我们可以将这些理念聚焦到我们冰箱的行业举一些例子，因为我是外行，所以只是就我个人粗浅举例，不一定合适。

首先，从技术运用上，大语言模型是核心，完成这样的决策，比如个性化营养管理，饮食决策支持。有了这样大脑决策之后就要有行动端和控端完成与环境的交互和对用户的服务，包括服务角度来讲，从决策来讲是跨模态推理做出高级的决策。

这样的智能替载与用户交互的时候优势可以从四大维度概括。值得一提是左边这个图片是Deepseek生成的，我告诉他我要做这么一个主题，让他生成一个图片，第一个实现无感化交互，第二实现个性化深度适配，第三是跨场景的连续性。像刚才说的ChatGPT通过记忆将横跨一个月决策联系起来，第三就是预防性干预。

同时，我们可以从“非技术”，就是比如人文和伦理角度考量这种技术带来的挑战。首先是数据隐私挑战，比如像自动驾驶汽车存在这样的风险，因为一个人出行线路可以暴露他很多生活习惯。第二就是自主权剥夺，可能使用户慢慢退出决策的领域。如果智能体决策有问题可能会带来很大的风险，再有就是伦理困境等等。

最后我们从全能AI体到人机共生，这里有多个人类用户又有多个智能体，形成渐进式，人类慢慢过渡这样的主动权，同时通过人类交互对智能体进行能力的调用，最后建立一个合适的伦理框架。从未来展望，我们希望这样的一个智能体家电设备能够成为我们健康管理的中枢，并且具有成长化交互能力，最终实现与人类用户的生态协同，以上就是我分享的内容，希望对大家有所启发。谢谢大家。

网友评论