首页
学习
活动
专区
圈层
工具
发布
首页标签深度学习

#深度学习

机器学习的分支,试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法

数字化转型利器:基于人工智能的多格式发票识别技术全解析

中科逸视OCR专家

在数字化转型的浪潮中,企业财务部门正面临着前所未有的挑战与机遇。海量的纸质发票、复杂的票据格式以及繁琐的人工录入流程,长期以来被视为制约财务效率提升的“最后一公...

700

实时语音AI:看似简单,实则艰难

用户11764306

实时语音识别已变得非常普遍,以至于我们很多人现在都将其视为理所当然。但这种便捷性是多年深度学习研究和产品迭代的产物,期间经历的挫折远比成功的结果多得多。

600

181小时视频丢给GPT-5,准确率只有15%——南大联合NVIDIA等五校发布多模态终身理解数据集

CoovallyAIHub

南京大学联合NVIDIA、浙江大学、上海交通大学、东京大学发布MM-Lifelong数据集,定义"多模态终身理解"新任务。181.1小时视频横跨三个时间尺度,G...

1500

CVPR 2026 | GS-CLIP:3D几何先验+双流视觉融合,零样本工业缺陷检测新SOTA,四大3D工业数据集全面领先!

CoovallyAIHub

现有零样本3D异常检测方法将点云投影为2D图像后借助CLIP进行检测,但投影丢失了关键的几何细节,且仅依赖单一视觉模态,检测能力受限。GS-CLIP 提出"几何...

2900

数据库也能“自助点餐”?聊聊自服务式数据库平台的全流程落地

Echo_Wish

Self-Service Database Platform(自服务式数据库平台)

7510

别再让开发等审批了:聊聊自动化权限申请与凭证发放,怎么真正提升 DX

Echo_Wish

5610

别再手搓环境了:聊聊我们是怎么用 Terraform + Helm 做内部服务模板化的

Echo_Wish

6810

炫彩活体检测:通过“屏幕发光 - 人脸反射 - 摄像头捕捉”的闭环交互,实现了对真实活体的高精度判断

中科逸视OCR专家

为了应对这些风险,炫彩活体检测技术应运而生。作为一种基于计算机视觉与深度学习的创新解决方案,它不再依赖昂贵的专用硬件(如红外摄像头或结构光模块),而是巧妙利用智...

7010

手把手部署 Vision Agents:从本地跑通到 K8s 生产上线,完整实操指南

CoovallyAIHub

上一篇《实时视觉AI智能体框架来了!Vision Agents 狂揽7K Star》的关注度很高,说明大家对实时视频 AI Agent 这个方向确实感兴趣。了解...

15010

语音AI Agent编排框架!Pipecat斩获10K+ Star,60+集成开箱即用,亚秒级对话延迟接近真人反应速度!

CoovallyAIHub

一个开源框架,用几行Python代码就能搭出能"听"、能"说"、还能"看"的实时对话AI智能体——这就是 Daily.co 团队开源的 Pipecat。

18410

【农作物谷物识别】系统实现~Python+深度学习+人工智能+算法模型+图像识别+TensorFlow

子午Python

本项目设计并实现了一套基于深度学习的农作物谷物智能识别系统。系统主要涵盖大米、小米、燕麦、玉米渣、红豆、绿豆、花生仁、荞麦、黄豆、黑米和黑豆共11类常见农作物谷...

9610

构建安全高效的数字国门:基于深度学习的服务器端私有化护照OCR识别系统

中科逸视OCR专家

在全球化浪潮的推动下,国际旅行、跨境商贸以及涉外政务服务的频率呈指数级增长。护照作为国际通行的身份凭证,其信息的快速、准确录入与核验,成为了机场、酒店、银行及公...

8610

深度学习之注意力机制中的"线性变换"、"归一化"与"加权求和"

阳光宅猿

它的灵感正来源于我们自身的视觉和认知系统。注意力机制让模型不再一视同仁地对待所有数据,而是学会动态地分配“关注度”——对重要的信息投入更多权重,对次要的信息则适...

10610

深度学习之MHA|MQA|GQA|MLA注意力机制对比分析

阳光宅猿

前面已经比较系统的总结了多头注意力(Multi-Head Attention, MHA)机制的实现原理深度学习之MHA多头注意力机制剖析。

19610

深度学习之一篇文章彻底搞懂【缩放点积注意力】

阳光宅猿

无论是MHA、MQA还是GQA,它们都使用相同的缩放点积注意力核心计算,区别只在于如何生成Q、K、V矩阵以及如何组织计算。这种统一性使得注意力机制既强大又灵活,...

11710

别再重复造轮子了:聊聊内部组件市场(Component Registry)是怎么把开发效率拉满的

Echo_Wish

A团队写了一个 用户认证模块。B团队也要做认证,于是又写了一套。C团队做后台系统,又写了一套。

9210

Moonshine:比 Whisper 快 100 倍的端侧语音识别神器,Star 6.6K!

CoovallyAIHub

还在为语音识别的高延迟、隐私泄露、API 调用费用发愁吗?来自 Moonshine AI 的开源项目 Moonshine Voice 给出了一个令人惊艳的答案 ...

19410

AI Agent 自动复现 CV 论文|Stanford 多 Agent 工作流让大规模复现成为可能

CoovallyAIHub

换个随机种子就掉点、mAP 计算方式对不上、CUDA 版本一换代码全炸——CV 论文复现的痛,每个算法工程师都懂。读完斯坦福这篇论文后,我在想:这套方法搬到 C...

11410

速度暴涨10倍、成本暴降6倍!Mercury 2用扩散取代自回归,重新定义LLM推理速度

CoovallyAIHub

等AI回消息的间隙,你是切出去刷了个短视频,还是盯着屏幕数它蹦出来的字?现在的GPT、Claude、Gemini,看着聪明,骨子里其实都是老式打字员——一个字接...

19510

OpenClaw一脚踩碎传统CV?机器终于不再只是看世界

CoovallyAIHub

如果你是一名计算机视觉的研究者,过去几年大概已经习惯了这样一种节奏:ImageNet分类准确率又涨了0.1%,某个新Backbone在COCO上刷了新高,某个T...

11810
领券