来自未来的浏览器：像素流送+Gemini世界知识#基于谷歌nano banana的浏览器

mixlab

发布于 2026-03-24 21:44:29

280

文章被收录于专栏：MixLab科技+设计实验室MixLab科技+设计实验室

想象一下，下一代浏览器将不存在html，下一代浏览器将是一种视频的格式：像素图片，操作方式还是可以像现在一样，通过点击、输入等操作，实现浏览信息和交流。

基于谷歌nano banana的浏览器，为我们展示了这种全新可能，由于具备gemini的世界知识，banana可以基于当前的点击，预测下一个页面的画面（信息）。

点击的坐标信息是作为text和当前页面的图像一起传入banana这个多模态模型的，system prompt的设定是“扮演浏览器软件，根据用户的点击来创建下一个页面的图像”。

（具体原理见文章：详解原理：Gemini 2.5 Flash Image）

X上有一个类似的实现DEMO，只不过没有实现点击页面里的信息直接跳转生成新的页面，而是采用输入栏改变url或者是底部导航栏点击按钮，生成新的页面图片，视频 ⬇️

x.com/skirano/status/1964771048966197368

（来自推特skirano的分享）

按照这个原理，你也可以通过 Vibe Coding 制作这个DEMO，体验下来自未来的浏览器。

我把这个“未来浏览器”的实现原理制作成了一个PPT版本 ⬇️ ：

没错，PPT我也是多模态模型生成的图片，通过提示工程，制作了一套用于创建ppt的Prompt，可以修改风格/Logo/页码等信息。

有一种类似的技术：

像素流送

Pixel Streaming

虚幻引擎有一个技术称为：像素流送，原理是：

# 云端渲染：所有复杂的3D图形计算均在远程高性能服务器上完成，不需要在本地设备渲染。

# 视频流传输：服务器将实时渲染出的每一帧画面和音频，高效压缩成视频流，通过网络（基于WebRTC协议）低延迟地推送到客户端（如网页浏览器）。

# 双向交互：用户在网页上的所有操作指令（如键鼠输入）会即时回传至云端服务器，驱动应用程序变化，形成交互闭环。

# 通过像素流送的技术，让用户无需下载庞大应用或拥有顶级硬件，即可在浏览器中直接体验和操作高清、沉浸式的3D实时交互内容。

——

如果把云端的渲染交由nano banana来渲染，那就是本文提到的“未来的浏览器”。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2025-09-16，如有侵权请联系 cloudcommunity@tencent.com 删除

渲染

本文分享自无界社区mixlab 微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度

来自未来的浏览器：像素流送+Gemini世界知识#基于谷歌nano banana的浏览器

来自未来的浏览器：像素流送+Gemini世界知识#基于谷歌nano banana的浏览器

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐