想象一下,下一代浏览器将不存在html,下一代浏览器将是一种视频的格式:像素图片,操作方式还是可以像现在一样,通过点击、输入等操作,实现浏览信息和交流。
基于谷歌nano banana的浏览器,为我们展示了这种全新可能,由于具备gemini的世界知识,banana可以基于当前的点击,预测下一个页面的画面(信息)。
点击的坐标信息是作为text和当前页面的图像一起传入banana这个多模态模型的,system prompt的设定是“扮演浏览器软件,根据用户的点击来创建下一个页面的图像”。
(具体原理见文章:详解原理:Gemini 2.5 Flash Image)
X上有一个类似的实现DEMO,只不过没有实现点击页面里的信息直接跳转生成新的页面,而是采用输入栏改变url或者是底部导航栏点击按钮,生成新的页面图片,视频 ⬇️

x.com/skirano/status/1964771048966197368
(来自推特skirano的分享)
按照这个原理,你也可以通过 Vibe Coding 制作这个DEMO,体验下来自未来的浏览器。
我把这个“未来浏览器”的实现原理制作成了一个PPT版本 ⬇️ :








没错,PPT我也是多模态模型生成的图片,通过提示工程,制作了一套用于创建ppt的Prompt,可以修改风格/Logo/页码等信息。

有一种类似的技术:
像素流送
Pixel Streaming
虚幻引擎有一个技术称为:像素流送,原理是:
# 云端渲染:所有复杂的3D图形计算均在远程高性能服务器上完成,不需要在本地设备渲染。
# 视频流传输:服务器将实时渲染出的每一帧画面和音频,高效压缩成视频流,通过网络(基于WebRTC协议)低延迟地推送到客户端(如网页浏览器)。
# 双向交互:用户在网页上的所有操作指令(如键鼠输入)会即时回传至云端服务器,驱动应用程序变化,形成交互闭环。
# 通过像素流送的技术,让用户无需下载庞大应用或拥有顶级硬件,即可在浏览器中直接体验和操作高清、沉浸式的3D实时交互内容。
——
如果把云端的渲染交由nano banana来渲染,那就是本文提到的“未来的浏览器”。