首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >来自未来的浏览器:像素流送+Gemini世界知识#基于谷歌nano banana的浏览器

来自未来的浏览器:像素流送+Gemini世界知识#基于谷歌nano banana的浏览器

作者头像
mixlab
发布2026-03-24 21:44:29
发布2026-03-24 21:44:29
280
举报

想象一下,下一代浏览器将不存在html,下一代浏览器将是一种视频的格式:像素图片,操作方式还是可以像现在一样,通过点击、输入等操作,实现浏览信息和交流。

基于谷歌nano banana的浏览器,为我们展示了这种全新可能,由于具备gemini的世界知识,banana可以基于当前的点击,预测下一个页面的画面(信息)。

点击的坐标信息是作为text和当前页面的图像一起传入banana这个多模态模型的,system prompt的设定是“扮演浏览器软件,根据用户的点击来创建下一个页面的图像”。

(具体原理见文章:详解原理:Gemini 2.5 Flash Image

X上有一个类似的实现DEMO,只不过没有实现点击页面里的信息直接跳转生成新的页面,而是采用输入栏改变url或者是底部导航栏点击按钮,生成新的页面图片,视频 ⬇️

x.com/skirano/status/1964771048966197368

(来自推特skirano的分享)

按照这个原理,你也可以通过 Vibe Coding 制作这个DEMO,体验下来自未来的浏览器。

我把这个“未来浏览器”的实现原理制作成了一个PPT版本 ⬇️ :

没错,PPT我也是多模态模型生成的图片,通过提示工程,制作了一套用于创建ppt的Prompt,可以修改风格/Logo/页码等信息。

有一种类似的技术:

像素流送

Pixel Streaming

虚幻引擎有一个技术称为:像素流送,原理是:

# 云端渲染:所有复杂的3D图形计算均在远程高性能服务器上完成,不需要在本地设备渲染。

# 视频流传输:服务器将实时渲染出的每一帧画面和音频,高效压缩成视频流,通过网络(基于WebRTC协议)低延迟地推送到客户端(如网页浏览器)。

# 双向交互:用户在网页上的所有操作指令(如键鼠输入)会即时回传至云端服务器,驱动应用程序变化,形成交互闭环。

# 通过像素流送的技术,让用户无需下载庞大应用或拥有顶级硬件,即可在浏览器中直接体验和操作高清、沉浸式的3D实时交互内容。

——

如果把云端的渲染交由nano banana来渲染,那就是本文提到的“未来的浏览器”。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-09-16,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 无界社区mixlab 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档