AI-Compass 致力于构建最全面、最实用、最前沿的AI技术学习和实践生态,通过六大核心模块的系统化组织,为不同层次的学习者和开发者提供从完整学习路径。
🌟 如果本项目对您有所帮助,请为我们点亮一颗星!🌟
可灵AI有新动态,一是在世界人工智能大会期间发布全新创意工作台功能“灵动画布”,二是推出可灵2.1模型。
运动质量更高、视频更美更灵动、指令响应更好,给出了相关图片及图生视频示例。
SeedEdit 3.0 是字节跳动Seed团队推出的图像编辑模型,支持用自然语言指令实现对图像的快速、高质量编辑。模型依托强大的文生图模型 Seedream 3.0,能精准理解用户指令,完成包括风格转换、细节调整、文字修改、光影变化等多种复杂编辑任务。模型在保留图像主体和细节方面表现出色,支持高清图像处理,适用专业设计师、内容创作者和普通用户,极大地简化图像编辑流程,提升创作效率,目前模型已上线火山方舟正式开放。
SeedEdit 3.0的主要功能
项目官网:https://volcenginecn.com/ arXiv技术论文:https://arxiv.org/pdf/2506.05083
SkyRouter 是面向 AI 模型的高性能平台,借助硬件和软件端到端优化,实现更快生成速度和更高吞吐量。通过全球分布式网络,提供低延迟用户体验。采用简单易用 API,无需管理复杂设施,有透明定价模式,适合各类用户。
具备高性能优化、全球分布式网络、简单易用 API、透明定价、快速扩展、高稳定性等特点,还有 Playground 环境供用户测试探索模型。
可用于 AI Agent 协作平台、垂直 AI Agents、物联网智能中心。
能解锁 150 + 模型,平均月处理 2.2T 令牌,有 100 + 全球供应商,令牌处理速度达 600 每秒。
商汤科技推出全球首个创编一体的AI短视频创作Agent——Seko。
可根据用户创意完成视频全流程创作,包括策划与剧本创作、自然语言编辑、角色一致性控制、多模态内容生成等,还提供推荐主体与灵感广场。
访问官网注册登录,输入创意描述,点击生成,可编辑调整,最后导出成片。
适用于短视频创作、短剧制作、产品宣传、角色二创、知识科普等场景,降低创作门槛。
AnyVoice是全球首创的AI声音克隆平台,仅需3秒音频就能克隆出高度逼真声音,支持英、中、日、韩多语言。操作简单,无需技术专长,重视用户隐私。
3秒快速克隆声音,能捕捉说话者细微差别与情感,生成与真人难区分的音频;支持实时音频生成,克隆后可立即生成音频;生成的音频支持MP3或WAV格式下载。
访问官网https://anyvoice.net ,上传或录制3 - 10秒音频样本,点击“生成”,AI几秒内生成声音克隆,最后下载音频。
免费版适合个人非商业用途,每次最多200字符,每月1200秒音频生成,最多创建10个声音克隆模型;专业版适合商业用途,每次最多1000字符,无限生成,优先生成,可创建无限声音克隆模型。
涵盖内容创作、广告营销、教育与培训、游戏开发、虚拟助手等领域。
谷歌推出实验性AI工作流生成工具Opal,支持用自然语言和可视化编辑创建、分享AI小应用,无需代码构建多步骤AI应用。
可创建工作流,支持自然语言编辑和可视化编辑,能快速分享应用,还有预建模板库。
目前仅在美国公开测试,需访问官网注册登录,可选择模板或新建应用,描述逻辑生成工作流,再调整、测试和分享。
涵盖内容创作、数据分析、客户服务、教育学习、项目管理等领域。
蚂蚁数科推出面向金融领域的大型语言模型 Agentar - Fin - R1,基于 Qwen3 基础模型,有 8B 和 32B 参数版本,通过相关体系和框架优化,在金融及通用推理测试中表现出色。
具备复杂推理、决策支持、意图识别等功能,能保障金融系统安全和符合合规要求。
采用精细化金融任务标签体系、多维度可信度保障框架、加权训练框架、两阶段训练策略、归因循环机制等,提出创新评估基准 Finova。
arXiv 技术论文:https://arxiv.org/pdf/2507.16802
可用于金融智能客服、风险评估与管理、市场趋势分析、财务报表分析、个性化推荐等。
Qwen - MT是阿里通义千问团队基于Qwen3架构推出的机器翻译模型,支持92种语言互译,覆盖全球超95%人口。
基于Qwen3架构,用万亿级多语言和翻译数据训练,结合强化学习优化,采用轻量级MoE架构,支持定制化功能。
自动评估中,在多领域翻译基准测试中显著优于可比规模模型;人工评估中,在十种主要语言翻译数据上表现优异。
涵盖跨语言内容创作、企业国际化、教育、法律政务、技术开发等领域。
Runway Aleph 是 Runway 推出的强大的 AI 视频编辑模型。能通过简单的文字指令,快速实现视频内容的增删、风格转换、环境变换和镜头运动调整等功能。用户可以轻松移除视频中的多余元素,或者将白天场景变为夜晚,将视频风格从现实变为卡通。Aleph 的核心优势在于其基于上下文的编辑能力,能理解视频的叙事逻辑和时空关系,避免常见的编辑错误。
Coze Studio(扣子空间)是一个由字节跳动开发并开源的一站式AI Agent开发平台。它提供可视化的工具,旨在简化AI Agent的创建、调试和部署过程,让用户无需编写代码即可快速构建和发布智能体,并支持将其部署到多种平台。
Coze Studio的核心技术原理在于其可视化编程范式与模块化Agent架构。它通过提供图形化的界面和可拖拽的节点,将复杂的AI逻辑和数据流抽象化,使得用户能够以非代码的方式构建AI Agent的工作流程。平台底层支持对插件、知识库、数据库和变量等多种资源的灵活管理和调用,实现Agent能力的扩展。此外,Coze Studio还提供了多种语言的SDKs,便于开发者通过API接口与平台进行交互和集成,将AI能力嵌入到现有应用中。其Agent设计理念强调任务的自动化分析与执行,通过内部逻辑编排和外部工具调用,实现复杂任务的自主完成。
Github仓库:https://github.com/coze-dev/coze-studio
CozeLoop 是一个旨在简化与 Coze 平台交互的开发工具,通过提供多语言 SDK (如 Python、Go 和 JavaScript) 来帮助开发者构建、管理和监控基于 Coze 平台的 AI 应用。它专注于提升开发者在处理 AI 交互流程中的效率和可观测性。
CozeLoop 的技术原理主要基于客户端-服务端的交互模式。
StartSpan
和 SetInput/SetOutput/Finish
等方法,实现对 AI 交互流程中各个环节的追踪数据采集和上报,类似于 OpenTelemetry 等分布式追踪系统,用于监控和诊断。GetPrompt
和 PromptFormat
方法根据业务逻辑获取并填充变量,生成最终的提示词。它旨在提供一个完整的、覆盖多种场景的设计解决方案,特别是针对招聘页、活动页和个人简历等具体应用。
鉴于可用信息有限,无法深入解析具体技术原理。但推测其可能依赖于前端设计框架、UI/UX组件库,以及后端数据处理和内容生成技术,以实现高效且标准化的设计方案输出。
通义万相(Tongyi Wanxiang)是阿里云通义旗下的人工智能创意创作平台。其中,通义万相2.2(Wan2.2)是阿里巴巴开源的先进AI视频生成模型,旨在降低创意工作的门槛。该平台集成了多种AI生成能力,包括视频和图像内容的创作。
通义万相2.2基于先进的AI视频生成模型,采用大规模模型(Large-Scale Video Generative Models)和混合专家架构(MoE-Architecture)来提升视频生成质量和控制力。其核心技术可能包括深度学习、扩散模型(如Hugging Face上提及的Diffusers)以及复杂的神经网络结构,以实现从文本或图像到高质量视频的转换。
GLM-4.5是智谱AI(Z.ai)推出的一款新一代旗舰级开源大模型,旨在原生融合推理、代码和智能体(Agent)能力,是业界首款专注于智能体应用的SOTA模型。它在多个评测基准中表现卓越,综合性能达到开源模型的顶尖水平,尤其在代码智能体场景中表现优异。
GLM-4.5采用先进的混合专家(MoE)架构,通过激活部分专家模型来高效处理任务。例如,GLM-4.5拥有3550亿总参数和320亿激活参数,而GLM-4.5-Air则更为紧凑,拥有1060亿总参数和120亿激活参数。模型在参数效率上实现了显著优化,在保持高性能的同时,参数量远低于同级别模型。其技术栈支持深度思考(Deep Thinking)、流式输出(Streaming Output)、函数调用(Function Call)、上下文缓存(Context Caching)和结构化输出(Structured Output)等高级功能,提升了模型的实用性和集成能力。
Hunyuan3D是腾讯研发的大规模三维生成模型,基于先进的扩散(Diffusion)技术。它能够通过文本描述或图像输入,快速、高效地生成高质量、逼真的3D资产。HunyuanWorld-1.0作为其重要组成部分,更是首个开源的三维世界生成模型,旨在革新3D内容创作流程。
Hunyuan3D的核心技术是扩散模型 (Diffusion Models),这是一种生成式AI模型,通过逐步去噪过程从随机噪声中学习数据分布并生成新样本。其架构包含:
腾讯混元 3D 世界模型 1.0:
Intern-S1 是上海人工智能实验室 (Shanghai AI Laboratory) 开发的 InternLM 系列大型语言模型 (LLM) 中的一员。它旨在提供高质量的语言模型和全栈工具链,尤其强调其强大的推理能力和与外部工具的交互能力。
Intern-S1 基于 InternLM 的基础架构,并在此基础上进行了优化:
Step 3 是阶跃星辰(StepFun AI)发布的新一代基础大模型,专为推理时代设计。它集高性能与极致成本效益于一体,具备强大的视觉感知和复杂推理能力,旨在成为SOTA(State-of-the-Art)水平的开放生态基础模型。
Step 3 采用了先进的MoE(Mixture-of-Experts)架构,这使得模型能够在大参数量下实现高效的激活参数量,从而平衡性能与计算资源消耗。总参数量达到321B,激活参数量为38B。这种架构有助于模型在不同任务上动态激活最相关的专家网络,优化资源利用和推理效率。其技术报告进一步详细阐述了Attention-FFN解耦等优化技术,以实现高吞吐量解码。
Higgs Audio V2是由李沐及其团队Boson AI开发并开源的语音大模型。它是一个强大的音频基础模型,经过超过1000万小时的音频数据和多样化文本数据的预训练,旨在模拟自然流畅的多人互动场景,并具备生成高质量音频的能力。
Higgs Audio V2采用统一的音频语言建模方法(unified audio language modeling at scale)。它是一个基于超过1000万小时的音频数据和多样化文本数据进行预训练的音频基础模型。这种大规模的预训练使其能够捕捉复杂的语音特征、韵律变化以及多语言和多说话人的交互模式,从而实现自然度高、表现力强的语音生成。模型在多个基准测试中展现出高性能,包括Seed-TTS Eval、Emotional Speech Dataset (ESD)、EmergentTTS-Eval和Multi-speaker Eval。
OceanBase PowerRAG 是一款由 OceanBase 推出的开箱即用、一站式检索增强生成(RAG)应用开发工具。它旨在简化并加速智能应用的开发与上线,打通了RAG应用从数据层、模型层到应用层的全流程,无需复杂的部署和配置,支持将RAG能力无缝集成到各类现有系统中。
OceanBase PowerRAG 的核心技术原理是检索增强生成 (RAG)。它首先通过智能文本切分技术对上传的文档进行预处理,将非结构化或半结构化的文本数据转换为可管理的片段。接着,这些文本片段被向量化嵌入,即转换为高维向量空间中的数值表示,使得语义相似的文本片段在向量空间中距离更近。当用户提出查询时,系统会执行向量检索,在预先嵌入的知识库中快速找到与查询语义最相关的文档片段。最后,这些检索到的相关信息会被作为上下文输入给大型语言模型(LLM),从而生成精准且有依据的答案。整个过程实现了知识库的动态更新和高效利用,确保了生成内容的准确性和时效性。
SuperDesign是一款开源AI设计Agent,旨在帮助设计师和开发者在集成开发环境(IDE)中直接生成UI原型、组件和线框图。它通过自然语言输入驱动设计过程,并能够并行生成多个设计选项,大幅提升设计迭代效率。
SuperDesign的核心技术基于大型语言模型(LLM)和多Agent系统。它可能采用了Qwen3等基础模型进行开发,通过自然语言处理(NLP)技术解析用户输入的设计需求。其“并行生成多个设计选项”的功能,暗示了内部可能运行着多个独立的AI Agent,每个Agent负责探索不同的设计空间或基于不同的参数生成方案。这种多Agent协作模式结合无限画布(infinite canva UX)的交互方式,使得设计过程更具探索性和灵活性。项目开源,允许用户自定义Agent和迭代设计流程。
MonkeyCode 是长亭科技推出的一款企业级智能编程辅助平台。它专为研发管理设计,支持私有化部署、离线使用,并兼容第三方及本地化大语言模型。MonkeyCode 旨在通过 AI 能力提升研发效率,同时保障代码质量和数据安全,为企业提供远超普通AI编程助手的综合解决方案。
MonkeyCode 的客户端插件部分基于 Roo Code 开发,并在此基础上进行了功能增强与用户体验优化。其核心技术原理在于利用先进的 AI 大语言模型(LLM)进行代码的智能生成、补全、分析与安全检测。通过私有化部署,确保了企业敏感代码和数据在本地环境中处理,避免数据外泄风险。平台通过集成AI模型,能够实时对编程行为进行分析、辅助和审计,实现高效且安全的软件开发生命周期管理。
KAT-V1(Kwaipilot-AutoThink)是快手开源的大型语言模型,旨在解决大型模型推理过程中“过度思考”的问题。该模型拥有40B和200B两种版本,创新性地融合了思考与非思考能力,使其能够根据问题的难度自适应地切换推理模式,从而在保持高性能的同时提升效率。其中,40B版本已展现出接近顶尖模型的优异性能。
KAT-V1的核心技术原理在于其独特的“Kwaipilot-AutoThink”架构和两阶段推理范式。
Agent Lightning 是微软研究团队推出的灵活可扩展的智能Agent优化框架。框架能无缝集成到任何现有的Agent框架中(如 OpenAI Agents SDK、LangChain 等),基于强化学习等数据驱动技术对代理进行优化,提升其性能和适应性。Agent Lightning 支持多轮交互、多Agent协调和动态上下文管理等复杂场景,提供错误监控功能,确保优化过程的稳定性。Agent Lightning 通过解耦Agent开发逻辑与优化逻辑,实现无需修改代理代码进行模型训练的目标,为开发者提供强大的工具构建动态、学习型智能Agent
Agent Lightning的技术原理
Eigent 是CAMEL-AI 团队推出的全球首个桌面端多智能体 Workforce 平台(Multi-agent Workforce)。平台基于开源项目 CAMEL 和 OWL 构建,支持用户自定义专属的 AI 团队,实现复杂任务的自动化。Eigent 具备多智能体并行执行、人类能随时介入(Human-in-the-loop)、灵活接入多种工具、100% 开源和本地部署等特点。Eigent 能将复杂的工作流程转化为自动化的任务,提升工作效率,同时保障数据隐私和可控性。
AI-Compass 致力于构建最全面、最实用、最前沿的AI技术学习和实践生态,通过六大核心模块的系统化组织,为不同层次的学习者和开发者提供从完整学习路径。
🌟 如果本项目对您有所帮助,请为我们点亮一颗星!🌟