人机协作新一代技术在路上

未来世界,将是人机协作的世界。所有创新都需要从人的角度出发,而人机交互与协作技术也必须迎合和满足用户的需求,让人更方便快捷地完成任务。如今,我们正处于从人机交互向人机协作迈进的阶段——人机交互是人与计算机通过输入与输出设备进行沟通对话;人机协作则是建立在人机交互基础之上,让人和计算机通过优势互补,去共同完成任务。

不知道是巧合还是有意设计,人机交互方式的演变与升级,完美复现了人类从婴幼儿到少年,再到的交互方式。这一发展过程可以大致分为四个阶段。

第一阶段是手眼协同交互。在人类婴幼儿阶段,还未学会开口说话之时,总习惯用眼睛来观察,然后用手指指戳戳,来表达自己的意图,或者与其他人进行沟通。类似地,计算机交互的首次大规模应用,也得益于图形界面与鼠标、键盘的问世,人们可以通过手指操控这样一套输入输出设备,与计算机进行沟通。这一阶段,人机交互基本是无声的。

第二阶段是基于语言和对话的交互。人类学会说话之后,会不断地学习,然后慢慢掌握一门甚至多门语言,不断提高自己的听说读写能力,而与更多的人进行更流畅的沟通。同理,语音识别技术以及自然语言处理技术的快速发展,使得计算机也可以听懂,并在一定程度上理解人类的语言,从而帮助人类完成某些操作。例如,手机语音助理软件、智能汽车的车载语音助理、家用智能音箱等产品的广泛使用,已经证明了这一技术的成功。

第三阶段是引入、融合眼神等生物信号的交互技术。成年人之间的默契往往不需要语言,“察言观色”便可领会彼此的意图。此类人机交互技术的标志性产品已于2024年上市——一种增强现实AR头盔,结合虚拟现实VR技术,通过组合多个摄像头和传感器,进行眼球追踪,然后提取眼球的特征信息来监测眼动的变化,从而控制头盔内虚拟屏幕上的光标定位,最后结合手势、语音等,完成在屏幕上的相关操作。假设人类目光所及的位置通常与思考的事物有关,那么,该技术就有可能通过眼动,让机器推断出人正在关注和思考的部分内容。

第四阶段则是一种基于意念感知的交互方式——“心领神会”,即通过非言语的方式传达信息和理解对方的意图。这也将成为未来人机交互技术发展的必经阶段。一种可能的实现方式是脑机接互技术,目前该技术还处于科学研究阶段。国外某公司于2024年向公众展示了首个产品“心灵感应”(Telepathy),即通过手术等方式,直接将电极植入到受试者的大脑皮层,以获得高质量的神经信号。展示中,首位接受脑机接口设备植入的患者,可以借助该设备移动计算机光标。同时,国内也有研究团队成功将无线微创半侵入式脑机接口,植入了两名瘫痪患者的颅内,成功采集到感觉运动脑区神经信号,使两位患者实现了自主脑控喝水,并成功用脑电信号控制电脑光标移动。但是,脑机接口的植入物需要替换一块头骨,因此,采用该技术仍然存在一定的伦理和社会问题。

人机协作是建立在成熟的人机交互手段之上的智能技术,以达到人机协同完成任务的目的,一般可以分为人类单向指挥机器和人机双向合作两种模式。

单向指挥的人机协作模式,往往依赖于人通过传统的交互方式指挥机器完成一些重复性操作。例如,人类通过简单的指令或者多轮对话,基于鼠标键盘等传统交互手段,使用大模型让机器完成一些简单的创作(生成文本、图片、视频)。但是,普通用户并不精通如何对机器发号施令,会浪费大量时间去配合机器。如对大模型输入提示词进行设置,然后浏览机器返回的内容,这些内容很可能无法达到人类的要求。此外,通过声音、眼神、表情等信号,基于更先进的人机交互技术,人类可以远程控制手机或者智能家居设备完成操作。

人机双向合作往往采用语音等多模态信号,但普遍存在指令不清晰、机器无法完成预计指令效果等问题。如智能音箱有时听不懂或者发生识别错误,导致人类需要不断重复指令却没有提升效果。在这种模式下,机器收到人类的指令信号后,试图完成相关任务,并将结果展现给人类;如果人类不满意,就需要多次重复前述的交互过程,直到任务完成,或者因不满意而放弃,不再继续。

笔者认为,虽然还面临诸多难题,但双向合作的人机协作模式将会是未来的发展方向,而如何实现人机协作优势互补,而不是单向指挥,是新一代人机协作技术需要解决的难题。

双向合作的人机协作模式主要依赖于两种能力,一种是机器能否真正理解人类指令的能力,另一种是机器适当地与人类配合,帮助我们完成任务。后一种模式需要借助更高级的人机交互技术。

人机协作共同创作的场景,可以帮助我们理解这种模式。人类有天马行空的巧思,机器则善于快速完成重复性工作。当人和机器共创一篇文章、一幅画作时,人类可以在关键段落、关键局部进行创造性构思,而机器可以瞬间领会人类的意图,帮其完成其他部分。进一步地,当人和机器共同执行多个复杂的、包含一定随机性的决策任务时,人类可以在关键时间节点对关键信息进行判断,而机器可以在领会人类意图的基础上,在短时间内完成其他操作,同时检查决策中的一些漏洞和错误,还可以总结和梳理决策后的反馈信息,以供后续决策参考。在这一过程中,是人类的思路和在关键节点的操作,带着机器协同推进完成任务,而不是像单向指挥模式那样,将所有任务一股脑丢给机器去自主完成。

人机交互技术只是人机协作的底层沟通手段,还需要定义与设计在特定或通用任务中,人与机器的动作空间(即人和机器分别可以做哪些动作),人与机器操作对象空间(即人和机器所做动作的对象有哪些),以及学习算法(即机器正确理解人的操作的算法)。

打个比方,人在一个特定环境中(如厨房),其动作空间、操作对象空间,都是相对固定的,所能完成的任务也是有限的。在这个环境中,无论是特定的任务,还是通用的开放式任务,人机协作应是有章可循的——我们不允许机器脱离人类可控的范畴,进行超出权限或违规的操作。因此,机器人需要学习算法,才能够真正看懂、听懂、理解人类的操作,去实现真正的双向合作模式的人机协作。

进一步,更加复杂的任务需要多人、多机协作技术,这将涉及任务的分工、管理与执行,考验人类对人机交互与协作系统的设计与理解,毕竟大多数任务是由人类发起的。

例如,在复杂系统监测任务中,面临海量的样本数据,机器可以帮助人类快速筛选出可能的预警样本,而人类需要对筛选出的预警样本做最后的决策,人类甚至可以将一部分简单的决策工作交给机器去执行。但是,如何定义预警样本的筛选标准,以及如何在多人和多个机器之间划分决策工作的比例,将关系到整个任务执行的准确率和人工成本。试想,如果一个任务,多人协作都无法妥善完成,那么多人、多机协作是否可以胜任?所以,新一代人机协作技术除了定义上述动作空间、操作对象空间、学习算法之外,还需要有一套标准化的流程,以便自动对复杂任务进行理解与分工,在保证任务执行准确率的前提下减少对人工的依赖。

最后,即使完成了人机协作分工,仍面临其他诸多挑战。第一,机器不会懈怠,但人不一定一直是合格的协作者。那么,机器是否还需要反过来监测人类的协作质量,并在需要的时候,做出适当的补充?第二,当机器一旦可以部分或者完全替代人类工作的时候,人类是否具备足够的能力控制机器,以防机器拥有自主智能之后犯错,甚至作恶?第三,人机协作还会涉及数据隐私泄露的问题,特别是在复杂任务中,机器会存在被动泄露数据的风险。已有的研究证明,使用大模型过程中,会出现因为数据“投喂”不当,造成敏感数据泄露等问题。

这些问题还没有答案,但我们不能裹足不前,而是要在发展中解决问题。我们坚信,未来的人机交互会更流畅更便捷!

人民日报社概况关于人民网报社招聘招聘英才广告服务合作加盟供稿服务数据服务网站声明网站律师信息保护联系我们

人 民 网 股 份 有 限 公 司 版 权 所 有 ,未 经 书 面 授 权 禁 止 使 用