WWDC 2021 的主题演讲更加清晰地表明,苹果公司正在开放式地构建元宇宙底层的组件。他们不是今天才开始做这件事的,在 WWDC 2019 他们就首次为此拉开了帷幕。很明显,从那时起他们就已经具备了设备硬件和软件的相关技术。但他们是否能够让人们为这个生态系统贡献内容并不确定,“构建好生态系统,他们自然就会来”的方式,可能不会奏效。
终端用户将通过默认的设备来体验元宇宙。客户不能只是带上头戴式设备,然后被扔进类似《黑客帝国》中的“世界架构”中,然后再安装一些应用程序。它必须提供一些开箱即用的东西。
AR 体验的是一些短暂性的经历,而不是沉浸式的专注交互。无论何时何地,这些体验应根据需要提供上下文信息——无论是在周游世界的时候,还是作为一个策划在“告诉我更多”的交互环节。
组件(Widgets)是可以将你与这些偶尔使用的场景连接起来的视觉效果,这些场景普遍存在于元宇宙中。这些组件将提供由远程设备驱动的实时信息,这样头戴式设备就可以展现丰富的信息,而不必本身执行大量相关性计算。在这里,SwiftUI 配合提供了更重要的关键作用,而不仅仅是组件平台本身。
“Shared with you"做筛选,然后将你需要的内容展示出来。它从许多来源获取不同类型的内容(今天的消息,未来的元宇宙背包),并在适当的时间展现适当的内容,这样才会避免使人不知所措。
当你想要获取元宇宙的信息,Spotlight 将利用对内容、上下文和输入的统一理解为这些场景提供定制化支持。
意图框架支持这些智能,使得开发人员能够将结构化操作暴露给系统体验,而无需系统为任何可能的情况定制路径。
设备本地语音识别对于 AR 来说是基本功能——远程调用云端造成的延迟等待是我们无法忍受的糟糕体验。语音——快速语音——将是一个关键,尤其对于 AR,因为你不一定总是能够用手的。将语音识别服务内置到设备上,表明苹果公司对于“语音转文本”模型已经增加了足够的理解,相信它足够稳定,可以以某种形式编码在固件中。由于你可以离线执行许多操作,因此理解能力也提高了。
在 AR 中,用肢体操纵东西的能力非常重要,对于更复杂的任务更常见的是用语音交互。实事上,我们是在头上绑台计算机来增强我们的能力。不要只是让我通过身体动作(移动物品、触摸东西等)来进行交互,要通过数字化方式交互。如果是通过身体动作交互的话,我们还不如在现实世界做这些事。
快捷方式是解决这个问题的粘合剂——跨应用程序的交互和连接使你可以通过其它输入机制来将复杂的自动化组合到一起。应用程序将提供许多需要执行的操作,我们可以将这些操作组合在一起,使其产生额外的效果。
备忘录(Notes)似乎是移动设备和台式机的体验。但是随着我们在元宇宙中看到和体验到的信息逐渐丰富,我们需要一些东西来帮助我们对所有这些信息进行登记分类、管理和组织。随着标记、提及等方面的改进,Quick Notes(由您当前使用的应用程序驱动)将为构建你的数字笔记本塞入更广阔的上下文,它将在 AR 世界中一直伴随着您。
如今 Quick Notes 从应用程序中获取的上下文、快照等信息,会带来对元宇宙和你身边世界的隐藏系统理解。你不想在网页或文档中记笔记——你需要把物理世界带入元宇宙。
备忘录提供了一种方式,来检查和理解在元宇宙伴你左右的‘背包’。
你不能凭空将元宇宙用魔术变出来。你必须建立它,并且这些组件需要独立于设备。当然,它们是通过体验的底层基础而展现在设备上的,但它们所涉及的内容不局限于你的本地设备,而是扩展到共享、接收和获取有关世界的上下文。
除非我们有超高保真的人体模型,可以很容易地生成和共享,否则我们需要某种代理(又称,阿凡达)。Memoji 似乎很适合用于在数字世界中代表自己。苹果公司将在未来持续改进用 Memoji 表示身份的方式。我们必须能够在正确的时间、正确的地点展示正确的身份,由我们自己控制,而不是由生态系统控制。
地图(Maps)——或者更具体地说是支撑地图的数据——是 AR 元宇宙的能量之源。没有它,就无法支撑任何其它体验。理解你在星球上的什么地方,可以让你快速定位周围的其它体验。
当你运动时,利用 ARKit 的场景理解和位置定位功能来确定你的物理现实世界的方位。这就是利用底层基础——地图来构建的一个很好的例子。
随着新的增强细节建筑,以及物理基础设施模型从矩形斑点扩展到桥梁、建筑、广场、甚至是地图数据中的树木放置的复杂表示,显示出他们对数据的前所未有的信心。
这是针对音乐的吧?非也。它是音频的 GPS。自从他们几年前被苹果公司收购以来,我就认为’这和音乐无关’。
现在 ShazamKit API 能够让你识别任何音频,并使用匹配的音频来驱动你的体验。这只是“识别所有事物”以支撑 AR 的另一个方面。
ShazamKit API(由会话和输入流驱动以生成所需的匹配特征)与基于音频之外的不同信号源来生成其它匹配只差一步之遥。点云的匹配特征(用于匹配的视频输入)似乎非常接近。想象一下,它不是输出媒体项目(如歌曲),而是输出地点、地标、人、建筑、商店、体验中心和中转站等。这将定制由应用程序(或 AppClips 👀)驱动的体验,无论你在哪里,无论你正在经历什么。
当你觉得现在可以创建自定义画像(一组带有你自己元数据的特征)时,这拉开了“增强”发现的令人信服的底层的帷幕。这些特征可以在以后共享的设备上生成,或者预置在一个更大的服务目录中,从而允许用户开始为他们自己或他人绘制他们自己的世界。
WWDC 演讲中提供的示例利用恒定的匹配流来创建屏幕体验,例如使用匹配实现自动内容及时推进。想想将这推广到世界范围。
当你开始将 ShazamKit 视为对来自 ARKit & CoreML 的预生成模型和内容的比较高级别的抽象时,你可以看到如何利用底层基础功能一步步实现高级功能。
位置感知是由本地信息驱动的,以提升 GPS 的权重,其中由摄像机来了解你在一个空间中的位置,它是关键。一般情况下,知道你在一个星球或一个局部空间中的位置就足够了,除非你需要了解事物在空间内部的语义意义。作为向相对于你的空间方面(又称设备)的额外输入,“查找(Find My)”风格的设备将有助于加强物理世界的映射来实现增强——实际上这是平台底层的一部分,但同样的技术支撑了物理世界和元宇宙之间的关键桥梁。
通过超宽带硬件和“查找”网络,增加了物理锚点的丰富度——为你与物理项目交互创建了一种具体的方式,并将它代入数字世界。这些设备可以参与在一个本地化的空间中创造定制体验。
Nearby Interaction Framework是支持这个功能的底层技术栈。
这不是关于元宇宙的访问,而是关于元宇宙体验的生成。你不能把元宇宙当成一个空荡荡的大房间,对戴着 AR 眼镜的人说“来吧”。Reality Composer 让我们引导这个元宇宙。促进场景组合的经验,这些场景基于专业创建的来自其它地方的模型,WWDC21 为这些模型的创建开辟了一种新的方法,而且这种方法看起来很时髦。
“对象捕获(Object Capture)” API 可以通过相机生成物理世界的数字孪生体。这不是点对点的相机级别,因为它需要一个桌面来完成它的工作(一个 mac,以及一个 M1...例如一个 iPad Pro 🤔)。它也不需要 iPhone 或 iPad 来捕获输入的图片:任何单反相机(SLR)都可以工作——尽管一款带有(激光雷达)LIDAR 的苹果设备可以提供深度地图信息,所以我只能猜这能使它更好。它看起来非常棒。
在没有专业帮助的情况下生成这些足够胜任政府工作的模型,并能够将它们集成到你的场景中——无论是通过 Reality Composer 还是 RealityKit——将解锁一系列内容生成来帮助在元宇宙中创建事物。如果没有这一点,我们只能付钱给艺术家们来让他们做这件伟大的工作,而我们还不确定这工作是不是正确,这取决于是否有具备适当技能的艺术家。
你已经获得了基本的设备体验,以及元宇宙提供的底层基础。但是在构建应用程序和交付内容方面怎么样呢?我们需要那些面向开发者的工具和 API 来创建这些体验。事实证明,苹果公司在这方面已经做了很长时间的工作了。
SwiftUI 的每一个版本都越来越强大,正成为苹果公司的长期 UI 平台。它不仅仅是关于“玻璃下”的体验。
由“diffing”理念驱动而提出的是“在正确的时间让平台分担正确的工作”范式——状态管理、声明式绑定和函数式视图。
这是一个缓慢地爆发,它感觉不像是一个 AR 平台组件(第三维在哪里?)。但 AR 并不是“每分每刻都是 3D”——有些背景体验最终是 2D(2.5D)。RealityKit 涵盖了 3D 体验的所有深度——而且会有融合两者的地方。将参与生态系统的基础成本降到最低是关键:3D 沉浸式体验在技术和设计方面的成本要高出几个数量级。SwiftUI 模式在这方面很有价值,但它也可以作为一座桥梁,使用户入手 2D(2.5D)体验而无需增加成本。
但这不仅仅是关乎开发者体验,这也关乎减少基线计算成本。我们还不能直接在头戴式设备上运行具有复杂逻辑的复杂应用,物理上不支持。谣传苹果眼镜将会是(无线)连接,你配套设备上计算出来的东西投影到苹果眼镜。SwiftUI 的声明性“diffing”模型将使这成为可能,将渲染功能让头戴式设备分担,但是将状态和逻辑从一个配套设备上驱动。
RealityKit 是 SwiftUI 的沉浸式兄弟篇。它是一个完整的 3D 引擎,用来构建丰富的动态体验。对于 WWDC 21,RealityKit 专注于提高生活质量(一个更好的 ECS 系统,以及更好的渲染)所有这些都有助于让更多的人采用它。
这是一个为 AR 提供真正沉浸式体验的桌面平台。我不认为这个平台已经完成,也不打算“按原样”交付 AR,但它也代表了最明显的需求:构建一个可行的 3D 应用程序平台,而不要求每个人都深入到 METAL 水平并购买一个游戏引擎。
AppClips 很可能是支撑在现实世界中发现应用程序的基础设施。当然,我们将拥有复杂的富应用程序,比如 Facebook 或 LinkedIn(😬) ,每个人都安装,但也会经历其它体验。类似于 AppClips 的原始意图(餐厅的菜单,或者滑板车租赁),它们将在你需要的时候出现。
最终,AppClips 是一个用于一些“小型二进制”的自动二进制部署工具。人们已经在 AppClips 中构建 AR 体验,所以这看起来似乎很棒。
今年这方面没有什么新东西,但是他们正在优化一些关键部分——特别是 HTML 元数据标签,当你导航到它时,它直接带你到一个应用程序。无论锚定位上下文所梦想的是什么,都将基于你的位置驱动无缝安装。
今年,苹果增加了PHASE (Physical Audio Spatialisation Engine,物理音频空间化引擎),主要聚焦于改善游戏体验。但音频是 AR 的基础,你不能只播放一些简单的立体声音频,而期望得到一个自然的引人入胜的体验。你必须在混合 AR 世界中为用户建模,并使用它来定位来源和计算影响。
PHASE 提供了一种描述你的世界的方法,并让它在计算上影响基于那个世界的音频,使之成为了可能。它抽象了所有的头部定位、原始设备的位置,以及在现实世界中分层的听觉体验。想想看,启用该音频并不像“播放音频文件”那样简单。你必须描述音频的属性以及环境——形状、声音行为,等等。在应用程序或游戏体验中,这似乎正是你想要的。如果这些能自动从现实世界的网格生成中提取出来,并用 RealityKit 构建场景,那么我们真的就像在用煤气煮饭一样方便。
考虑一下这个系统使用这个范例和模型的方式,你已经有了一个非常引人注目的跨多个应用程序的音频世界系统。如果你稍微换一下视角,就可以看到他们正在构建一种能力,可以在不同的物理空间放置一个苹果音乐音频源,在没有物理音频源的情况下创建完美的多方面音频。他们正在公开地做这件事并告诉每一个人。
围绕数字内容驱动的同步体验显然将成为 AR 的关键。人们将需要在多个参与者之间实时交换和同步数据——预放静态信息的体验方式并不怎么吸引人。
SharePlay 使人们能够通过 FaceTime 建立相互会话。但是 FaceTime 只是比较基础的一种方式,还可以增加其它方式。
SharePlay 的核心是基于加密传输的实时消息交换系统。这些消息是由开发人员定义的并且可以包含任何东西——媒体驱动的体验实际上只是对这些消息的包装,并针为特定的范式进行了定制。
虽然它们没有合在一起,SharePlay 和 ARKit 的协作体验为创建多人互动的体验提供了一个明确的付费模式。
真正困难的问题是在设备上,在平台上。有一些交互和能力只能由本地设备提供,它们的解决方案与众不同并受到电源和延迟要求的限制。总之,很难。
在全球无障碍意识日,苹果公司发布了一系列功能,其中之一是“苹果手表辅助触摸(AssiistiveTouch for Apple Watch)”。这项功能,旨在方便使用具有马达控制挑战的手表,这具有一些面向未来的前瞻性。它只使用一只手(即戴手表的那只手臂)来驱动与手表的交互。只需一些手势(握紧、双握紧、捏和双捏)或手腕运动(通过倾斜有效地控制指针),就可以控制手表。对我们这些有需要的人来说,这简直是太酷了。
但是当我们谈论元宇宙和 AR 交互时,手势将是一种重要的交互方法。声音有助于近距离的周边场景,但是当你处于需要专注的场景时,你会希望直接交互。这些手势在本质上是初级的,它们只是开始。其它体验(Hololens、Oculus)是由视频跟踪驱动的,但是苹果公司已经在你的手腕上安装了一个设备——手表!它可以做手势!利用这一点作为神圣的手机/手表/AR 眼镜的三位一体的一部分,为你的 AR 眼镜体验创造一个战神金刚(Voltron)似乎很不错。
以前 Create ML 增加了手感和手势检测,但是不能真正告诉你它在做什么。当然,你可以得到零碎的信息,但如果你想要知道它在做什么,你只能靠你自己。今年,他们正在缩小这一差距。
这里的体验并不是聚焦于以任何方式驱动手势,而是集中于关键手势和位置运动的分类。
需要注意的是,这些都是由视频和图像驱动的。现在还不清楚这在一个 AR 眼镜模型上是如何工作的(绑在你脸上的相机?)
我们真的在 v5 版本之上了吗?呵呵!不管怎么说...ARKit 看起来像是你要找的所有时髦炫酷的功能。问题是,它实际上是 RealWorldPositioningAndUnderstandingKit(真实世界定位和理解工具)。这是体验中非常重要的一部分,但并不完整(嗯,看看这篇文章的其余章节)。
你已经可以获得行星上的位置跟踪(GPS)和本地(你的相机指向哪里/什么角度)的位置跟踪,这样你就可以发现某人可以用什么来增强他们的现实。这仍然局限于手机,但是最终暴露世界相对位置的 API 将是相同的。
ARKit 的一些更微妙的部分包括运动和面部跟踪——这些感觉它们好像是由面部混搭体验和运动方向跟踪驱动的。但是,了解人的运动将是对现实世界中人的增强的关键部分——你想要将那个小小的“这是某某”的浮标放到他们身上并精确跟踪他们,对吗?
值得一提的是,在此,一些多点会话可以与 SharePlay 很好地协作,可以在促使有兴趣的人们汇合后交换信息。
这只是关于 IP 上的鼠标和键盘的,对吗?也许对,但它可以不止如此。比如,给来自设备以外的输入控制提供低延迟体验。如果设备“组合”/手机、手表和 AR 眼镜可信,则处理将被分配给最能完成特定任务的设备。已经在源设备上处理好的输入需要被传递到更高级别的抽象,例如轻触、拖拉。
通用控制,Sidecar的一个镜像,让你用你的 mac 上的输入设备来控制 iPad,提供真正的鼠标/键盘输入。来自一个设备的输入自动配对到目标设备,并像本地那样控制它。这并不新颖,也不激进,但他们正大规模推广,使他们可以公开验证挑战。
原文链接:
WWDC 2021: Apple is building the metaverse substrate in plain sight
领取专属 10元无门槛券
私享最新 技术干货