Welcome, AI enthusiasts.
欢迎来到XiaoHu.AI日报
11月11日小互AI日报更新:
《Hello 算法》:动画图解、一键运行的数据结构与算法教程
Meta AI 发布一个升级模型 MusicGen Stereo 立体声模型
ZeroNVS:从单张照片合成 360 度视角视频
Runway 即将推出 Motion Brush 运动笔刷功能
Public APIs:全球公共免费API集合
Pika 1.0 版本更新
AI pin 发布会
一个专门用于 OpenAI 视觉 API 的实验和项目集合。
NASA 推出流媒体服务:NASA+ 无需订阅,完全免费、没有广告
仅用手势就能打开和控制一系列 3D 建模工具。
阅读时长: 15 minutes
01
《Hello 算法》:动画图解、一键运行的数据结构与算法教程
一个开源的数据结构与算法教程,它通过动画图解的方式,使内容更加清晰易懂,非常适合初学者学习。
更厉害的是,还可以一键运行源代码,在实践中提升编程技能,同时深入理解算法的工作原理和数据结构的底层实现。
支持 Java, C++, Python, Go, JS, TS, C#, Swift, Rust, Dart, Zig 等语言。
GitHub:https://github.com/krahets/hello-algo
在线学习:https://hello-algo.com
02
—
Meta AI 发布了 MusicGen 的一个升级模型 MusicGen Stereo 立体声模型。
通过一个简单的微调程序和代码本交错,能让音乐从单调的单声道转变为沉浸式的立体声。
MusicGen:https://huggingface.co/spaces/facebook/MusicGen
MusicGen Stereo:https://huggingface.co/collections/facebook/musicgen-stereo-654bcd4509dd7ef5247f3bdf
03
—
ZeroNVS:从单张照片合成360度视角视频
ZeroNVS 通过结合先进的 3D 建模技术和智能图像处理算法,能够从一张普通的照片出发,创造出这个场景的 360 度全方位视角。
比如你只有一张房间的照片,通过这个技术,你可以“看到”这个房间的每一个角落,就好像你真的在房间一样。
它不仅仅适用于简单的场景,比如一个单独的物体或者一个空旷的房间。它还可以处理非常复杂的环境,比如户外的风景或者杂乱的室内。这是以前的技术做不到的。
为了达到这个效果,ZeroNVS 使用了一些非常先进的算法和技术。比如,它会用一种特别的方法来理解照片中的深度和空间,还有一种叫做SDS 锚定的技术,用来确保合成的新视角看起来既真实又自然。
ZeroNVS 的应用非常广泛。比如在电影制作中,可以用一张照片来创造一个完整的三维场景,这样导演就可以在电脑里“走进”这个场景,选择最佳的拍摄角度。或者在游戏设计中,可以用这种技术来创造更加真实和丰富的虚拟世界。
04
—
Runway 即将推出 Motion Brush 运动笔刷功能
在画面上随便划一下就能让画面中的物体、人物或任意对象动起来
05
—
Public APIs:全球公共免费API集合
Public APIs 是一个收集全球免费 API 集合列表的 GitHub,可用于软件和 Web 开发的免费 API 的集合,API涉及到动画、软件、设计、加密货币、游戏、健康、金融、机器学习、音乐、开放数据、开源项目等等领域的API。
感觉可以用一个 LLMs 来连接这个库!
GitHub:https://github.com/public-apis/public-apis
06
—
完全由文本转视频 AI 制作的 3D 动画预告片。
pika_labs 发布预告称 1.0 版本即将发布
Text to Video 大升级,看来也可以生成高清视频了
AI视频竞争也到了白热化阶段
07
—
AI pin 发布会
Humane Ai Pin 由前苹果设计和工程团队开发,AI pin 为全球首个可穿戴 AI 智能硬件产品。
公司获得了 OpenAI CEO Sam Altman 和微软等知名企业投资。
AI pin 不需要任何唤醒词,但时刻在线,无屏幕设计,完全通过语音控制,可进行投影显示完全由 AI 驱动。
它能实现绝大多数智能手机的功能,通过内置投影仪和深度传感器在近处表面(如手掌或桌面)投影交互界面。
08
一个专门用于 OpenAI 视觉 API 的实验和项目集合。
它包含了一系列利用 GPT4V API 进行图像识别和分析的实际案例和示例代码,比如通过摄像头实时交流的聊天应用,或者能够识别图片中是否有热狗的简单应用。
WebcamGPT:带视频流的聊天界面。
HotDogGPT:一个简单的图像分类应用。
使用 GPT-4V 的零样本图像分类器。
使用 GroundingDINO + GPT-4V 的零样本对象检测。
GPT-4V 与 CLIP 的比较。
结合 Set-of-Mark (SoM) 的GPT-4V。
GitHub:https://github.com/roboflow/awesome-openai-vision-api-experimentsme-openai-vision-api-experiments
09
NASA+提供大量纪录片和太空实验相关科学科普视频,用户可通过浏览器或通过包括 Apple TV、Roku和 NASA 应用程序访问观看!
NASA+ 流媒体服务提供了大量纪录片,包括《Other Worlds》、《Space Out》、《First Light》、《Artemis I: The Documentary》、《Down to Earth: The Astronaut’s Perspective》等等。
该网站除了英文内容之外,还提供西班牙语内容、动画儿童内容以及即将到来的美国宇航局任务直播,介绍一些太空实验和宇航员相关内容。
网址:https://plus.nasa.gov
HotGestures:手势打开和控制一系列 3D 建模工具。
在隔空在空间直接拆解一个机器,划一下手势就能展开所有机器零部件的场景。
研究人员表示,这是第一次将这种“超人”能力变为可能。这项名为 “HotGestures” 的技术类似于许多桌面应用中使用的热键。
HotGestures 允许用户在虚拟现实中构建图形和形状,而无需与菜单交互,帮助他们专注于任务,不会打断他们的思路。这项研究的结果发表在《IEEE 交互式视觉和计算机图形学》期刊上。
研究人员已经公开了源代码和数据集,以便 VR 应用程序的设计者可以将其整合到他们的产品中。
论文:https://ieeexplore.ieee.org/document/10269004
历史项目记录:xiaohu.ai
感 阅
谢 读
领取专属 10元无门槛券
私享最新 技术干货