感知媒体——机器感知与人机交互外文翻译资料

 2022-11-12 19:38:47

英语原文共 10 页,剩余内容已隐藏,支付完成后下载完整资料


感知媒体——机器感知与人机交互

TURK Matthew

摘 要:计算机硬件总是在迅速发生变化,但输入/输出设备,交互技术和人机交互软件并没有经历过类似的成长和改进。基于GUI的交互方式使计算机变得更简单,更容易,特别是对于将计算机像工具一样用来完成特定任务的办公生产力应用程序。然而,随着我们使用计算机的方式变化和计算变得更加普遍和无处不在,主要是由于宽带和移动性的进步,GUI将支持满足用户需求所需的各种交互。为了适应更广泛的场景,任务,用户和偏好,我们需要转向自然,直观,适应性和不引人注目的界面。“感知媒体”是一种将多媒体显示和机器感知结合起来的跨学科启发。在人与技术之间创建有用的,适应性的,响应性的界面。本文介绍和研究了感知媒体的各个方面,并提供了一个特定子领域的工作示例,即基于视觉的界面。

关键词:感知媒体,人机交互,基于视觉的交互

1 绪论

多年来,从交换机和LED的早期阶段到穿孔卡,交互式命令行界面以及图形用户界面的直接操作风格,人与计算机之间的接口已经取得了进展。图形用户界面的“桌面隐喻”,也被称为WIMP界面(用于Windows,图标,菜单和指向设备),已经成为人们和计算机之间多年的标准接口。当然,用于人机交互(HCI)的软件和技术并不与计算的其他方面隔离。计算机在其短暂的历史中发生了巨大的变化,增加了它们的速度和容量,并且以惊人的速度减小了组件的大小。计算机的尺寸正在缩小,现在有各种各样尺寸和功能的计算机设备。此外,现在有许多非GUI(或“后WIMP”)技术,如虚拟现实,语音识别,计算机视觉,触觉和空间声音,这些技术有望改变计算机与人类交互的现状。但是,一般而言,硬件的变化远远大于软件,尤其是HCI的软件。

可以将人机交互视为目标,任务,语义和语法的层次结构,如图1所示。目标级别描述了一个人想要做什么,独立于技术 ,例如与朋友交谈。任务是实现目标所需的特定操作。 例如,找到一部电话,拨打一个号码,对着耳机说话。语义级别将任务映射到与技术可实现的交互,而语法级别指定完成子任务的特定操作(如双击图标)。

图一 人机交互的层次结构

人们可能认为用户界面是必要的,因为它们意味着人们希望计算机做什么和它的行为之间的分离,即目标层与任务,语义和语法层之间的分离。这种分离对用户施加了认知负担,其与用户经历的难度和笨拙程度成正比。糟糕的设计肯定会加剧问题,在使用计算机时会产生令人沮丧的常见体验。

这种令人沮丧的用户体验可以通过多种方式明显改进,并且有许多旨在提供帮助的想法,计划和技术,例如以用户为中心的设计,3D用户界面,会话界面,智能代理,虚拟环境等等。

一种观点认为,直接操纵界面——例如GUI/ WIMP模型,其中用户操纵对象和动作的视觉表示 - 以及“信息设备”,为完成一项特定任务而构建的设备,将代表许多当前计算机接口的问题和局限性。虽然这非常真实,并且这样的设备可能是商业上的成功。但是这种界面风格将随着形式因素的变化和未来计算机的使用而扩展尚不清楚。

更复杂的是,“计算机”是什么不再明显; 基本上独立的台式PC不再是单独的主导设备。 外形,连接性和移动性的快速变化以及摩尔定律的持续影响正在显著改变计算环境。 越来越多的计算机嵌入在人们已经知道如何与之交互的对象和系统中(例如,电话或儿童玩具),而不是他们使用独立计算机的经验。

关于如何与计算机(无论是否嵌入)进行交互的方法有以下几种,包括:

  1. 简化。使界面变得明显和简单,为用户提供直接控制和与手头任务相关的相关反馈。转向单任务设备和中央控制,以确保一致性和可靠性。
  2. 消失。使界面消失在设备中,如同嵌入式计算(例如,汽车中的计算机控制系统),使得用户甚至不知道或不关心他们正在与基于计算机的设备交互。 更精细的版本是普适计算的概念,其中计算机,传感器和显示器的网络紧密地集成到日常生活中。
  3. 容纳。使界面以智能方式预测,适应和响应用户,允许用户以自然的方式进行交互,同时系统消除歧义并阐明用户的意图。

这些替代方案中的每一种都有其优点,每种方案都应该(并且正在)用于未来的技术。 第一个选项是信息设备和直接操作接口的域。显然,当适合于手头的任务时,第二种选择是合乎需要的,例如在汽车制动系统中,让嵌入式计算机在用户踩下制动器的同时完成工作。 这似乎在计算设备的传统用途中最有用,例如文本编辑和信息查询,以及计算机在用户看来作为特定用途的工具的其他情况,例如计算数字,控制进程或绘图。

第三种选择,以近似智能或敏感的方式适应用户的界面。近年来在用户界面社区中形成了重要的追随者。然而,它仍然存在争议,并且前提尚未得到广泛接受,并且尚未在普通商业系统的实践中得到证实。例如,拟人化(将无生命的计算机描绘成具有类似人类的个性或身份)可能会让用户感到尴尬甚至困惑,尽管它也可能具有某些优势。语音识别是与这种界面风格最相关的个人技术,尚未成为广泛使用的角落,而不是在有限的领域中有用。

然而,人们应该期望这些技术成熟,特别是在将它们整合在一起以改善和推进人与机器之间的界面的共同目标。每年都有进步和有希望的迹象,不久它们将开始深刻影响人机交互。 除了希望这些技术改善用户体验之外,计算机行业还有其他动力:硬件的持续进步需要越来越多的软件来驱动它并消耗所有这些额外的周期。

人机交互发展的这三个可能方向决不是相互排斥的; 事实上,第二个和第三个有很多共同之处。

随着人们越来越少地使用计算机进行纯文本处理,越来越多地用于通信和各种基于媒体的应用程序,人机交互的未来变得与多媒体系统的未来完全交织在一起。两者齐头并进。

2 人与多媒体

很少有人比Vannevar Buch和J.C.R Licklider更能影响人们使用计算机的方式。通过他们的著作和工作实现普遍的连通性和互动性。他们阐述了计算机如何用新颖的方式支持人类活动和创造力的愿景。例如,布什的Memex设备在多媒体和网络浏览方面具有许多共同特征,但在这些技术被广泛使用之前已有五十年的历史。多媒体一词广泛用于描述媒体的任何组合,更具体地说在个人计算机的上下文中,描述文本,声音,图像和视频的同时或交替使用以向用户呈现信息。当我们设计接口在未来的移动,异构环境中完成各种任务时,人和计算机之间的所有接口将是多媒体的,并且可用的媒体将扩展到包括沉浸式显示器,空间声音,触觉显示器和其他。由于信息的呈现不能与信息的接收者分开考虑,因此必须在更大的人机交互环境中研究和开发多媒体系统,并且必须考虑和集成信息流(输入和输出)的两个方向。

在桌面计算的传统世界中,存在“普通用户”,其占绝大多数用户群,他们是“一个适合所有人”; 但是也有“残疾用户”,少数人必须为其开发特殊的解决方案。实际上,不同的人有不同的需求和喜好,甚至个人在不同时间和不同情况下的需求和偏好也各不相同。 例如,在一种情况下运行良好的交互风格(例如,在桌面监视器上阅读文本)不适合其他情况(例如,在驾驶时)。个人在生活的不同阶段有不同的要求(作为一个孩子,一个年轻人,成年人和老年人)以及偶尔的特殊情况(例如,当手或背部受伤时)。

我们希望构建能够动态适应人们需求的系统,而不是设计需要人们适应技术的系统。 这可以通过使用多模式系统来实现,这些系统了解人们,他们做了什么,他们如何看待,他们如何互动,并以灵活的方式呈现信息,而不是单一的“接受或离开”风格。最自然的人类交互技术是我们与其他人和我们周围世界一起使用的技术。也就是利用那些我们的自然感知和感知能力,以及我们在早期获得的社交技能和惯例的技术。 Turk和Robertson 描述了描述这种系统的术语分类,如图2所示:

感知用户界面为计算机增加了类似人类的感知功能; 例如,使计算机知道用户正在说什么或者用户的面部,身体和手正在做什么。这些界面为计算机提供输入,同时充分利用人际交流和运动技能。多模式用户界面密切相关,强调人际交流技巧。当我们进行面对面交流时,我们使用多种方式,从而实现更有效的沟通。关于多模式UI的大部分工作都集中在计算机输入上(例如,使用语音和基于笔的手势)。多模式输出使用不同的模态,如视觉显示,音频和触觉反馈,以吸引人类感知,认知和沟通技巧,以了解所呈现的内容。

在多模式UI中,有时会独立使用有时各种模态同时或紧密耦合。

多媒体用户界面在过去二十年中进行了大量研究,使用感知和认知技能来解释呈现给用户的信息。 文本,图形,音频和视频是使用的典型媒体。 多媒体研究侧重于媒体,而多模式研究则侧重于人类感知渠道。 从这个角度来看,多媒体研究是多模式输出研究的一个子集。

感知用户界面集成了感知的,多模式的和多媒体的界面,使我们的自然人类能力能够创造更自然,更直观的界面。

图二 感知用户界面中的信息流

(由Turk和Robertson提出)

因此,感知媒体指的是具有增加的感知用户界面能力的多媒体设备。这些设备集成了对环境的人类感知感知,尤其是用户或用户的感知能力,能够适当地响应,以适应环境。这不仅需要机器感知,还需要对社会习俗的深刻理解,例如对话和非语言交流中的转变。实现这一目标的进展需要在若干领域进行研究和整合,包括语音/声音识别,自然语言,计算机视觉,触觉,学习和推理以及话语建模。它基本上是一个跨学科的努力,需要计算机科学家和典型计算领域之外的其他人之间的合作,如认知科学,语言学,社会心理学和通信。此外,设计/代码/测试的通用软件工程程序是不够的,人类必须接受以中心设计,并且必须在现实环境中对原位进行实验和评估做出认真的承诺。这条路很难,但是感知媒体的好处,包括自然互动和“一个人”的解放大小适合所有交互技术,如键盘和鼠标,将是重要的。这将有助于实现所有人和所有情况下的信息普遍访问,并提供更有意义的用户体验。

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[18720],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。