服务概述
TWeSee AI 视觉引擎是腾讯云物联网面向消费电子与泛安防行业推出的端到端智能视觉解决方案。产品基于腾讯自研的消费电子行业模型,通过深度场景化微调,为智能摄像头、智能门锁、宠物看护等终端设备提供从“看见”到“看懂”的深度内容理解能力。
服务对象:TWeSee 主要面向消费电子品牌商、物联网设备制造商、智能硬件开发者,帮助客户快速集成 AI 视觉能力,实现产品智能化升级与 C 端增值服务变现。
核心价值:开箱即用地提供目标检测、事件识别、视频摘要、智能搜索等核心能力,相比通用大模型在垂直场景的准确率更高,开发集成周期缩短为1-3天。

产品功能
TWeSee 提供两类生产级别的智能视觉功能:视频理解、图片理解。
分类 | 功能 | 介绍 |
视频理解 | 视频摘要 | 对视频进行 AI 分析,生成自然语言描述(如“快递员在门口放下包裹”)。支持同时检测关键目标(人、车、猫、狗、包裹、火焰等)及标签事件(有人吸烟、老人跌倒、明火燃烧等),并把检测结果融入描述。 |
| 视频事件检测 | 支持单独对视频进行关键目标和事件检测,并输出检测结果。 |
| 视频搜索 | 支持用户用自然语言直接搜索海量云存视频(如“昨天穿红衣服的女人”、“猫咪捣乱”),快速定位相关视频片段。 |
| 视频浓缩 | 把每天海量视频信息进行 AI 处理,自动剪辑和倍速处理,浓缩成1-2分钟的精彩短视频。 |
图片理解 | 图片摘要 | 对图片进行 AI 分析,生成自然语言描述。支持同时检测关键目标及标签事件,并把检测结果融入描述。 |
| 图片事件检测 | 支持单独对图片进行关键目标和事件检测,并输出检测结果。 |
视频增强、人脸识别、图片增强等更多 AI 功能正在规划中。
事件标签列表
事件分类 | 标签列表 |
通用事件 | person_enter:有人进入 vehicle_entering:车辆进入 vehicle_parking:车辆停靠 pet:有宠物 no_signal:视频画面异常(无信号等) camera_angle_abnormal:相机画面视角异常 using_mobile_phone:看手机 vehicle_exiting:车辆驶出 |
婴儿看护 | baby:有婴儿 baby_dropping:婴儿跌落床铺 person_holding_baby:有人抱起婴儿 baby_rolling:婴儿翻滚 baby_crying:婴儿哭闹 |
儿童看护 | child:有小孩 child_falling:小孩摔倒 child_entering_kitchen:小孩进入厨房 child_climbing_window:小孩攀爬室内窗户 child_near_water:小孩靠近水域 child_playing_danger_item:小孩玩火、玩刀 child_writing:小孩写作业 |
老人看护 | elderly:有老人 elderly_falling:老人摔倒 elderly_eating:老人用餐 elderly_using_stove:老人使用灶具 |
宠物看护 | pet_eating:宠物进食 pet_damaging:宠物损坏家具 pet_barking:宠物吠叫 pet_scratching_door:宠物挠门 person_playing_with_pet:人宠互动玩耍 pet_close_to_camera:宠物靠近摄像头 |
看家护院 | person_climbing_fence:有人翻围墙 door_window_open:门窗被开启 person_carrying_object:有人搬运物品 |
商铺看管 | person_at_cashier:有人在收银台 person_taking_goods:有人拿商品 person_night_moving:夜间有人移动 person_entering_store:有人进入商铺 staff_absent:人员离岗 uniform_abnormal:工服异常 |
公共安全 | person_stealing:有人偷盗 crowd:多人聚集 smoking:有人吸烟 safety_fire:明火 safety_smoke:浓烟 fireworks:有人燃放烟花爆竹 knife:有人持刀具 gun:有人持枪 fight:有人打架 hurt:有人受伤流血 person_falling:人员跌倒 |
养殖看护 | person_feeding_animal:有人投喂牲畜 animal_lying:有动物躺地上 animal_wild_intrusion:野生动物入侵 |
果园农田 | person_picking_fruit:有人采摘果实 person_carrying_bag:有人携带包裹 person_entering_farm:有人进入田地 |
鱼塘看管 | fishing:有人钓鱼 net_fishing:有人撒网 person_carrying_fishing_gear:有人携带渔具 loitering_near_water:有人岸边逗留 throwing_into_water:有人投掷物品 |
产品优势
开箱即用
提供端到端场景化解决方案,从视频接入到结果交付的完整闭环,客户无需进行复杂二次开发,典型功能集成周期仅需1-3天,开发周期相比传统方案大幅缩短。
垂直场景深度优化
TWeSee 针对消费物联网场景进行海量数据微调,相比通用大模型在垂直场景的准确率更高,误报率更低。
多模态语义理解
支持图像、视频、文本多模态融合分析,实现从“看见”到“看懂”的跨越,用户可通过自然语言进行视频搜索与内容理解,交互体验显著优于传统视觉引擎。
MoE 大模型架构
采用混合专家模型架构,支持持续迭代更新,可灵活扩展新场景、新事件类别,在保证推理速度的同时实现更高的识别准确率。
应用场景
场景 | 描述 |
宠物看护 | 宠物主人外出时,通过摄像头远程查看宠物状态,关注宠物是否进食、吠叫、拆家等行为。 |
婴幼儿/老人看护 | 父母通过婴儿监护器远程查看宝宝状态,关注婴儿哭泣、坠床、翻滚等安全事件。 |
商铺安防 | 便利店、餐饮店等小微商户通过摄像头监控店内情况,关注收银结账、拿商品、人员打架等事件。 |
区域安全监测 | 景区、水库、果园、鱼塘等场所需要监测非法捕鱼、可疑人员靠近、儿童近水等安全风险。 |
厨房安全 | 家庭、餐饮场所需要监测明火燃烧、浓烟冒出、厨房有小孩等安全隐患。 |
使用智能视觉服务(TWeSee)的特别说明
1. 本服务不得用于未经授权的大规模人群监控、侵犯个人隐私等违规用途。
2. 使用智能视觉服务(TWeSee)时,您应:
2.1 遵守《互联网信息服务深度合成管理规定》、《生成式人工智能服务管理暂行办法》等相关法律法规。
2.2 对 AI 生成的内容(如视频摘要、图片描述等)进行显著标识。
2.3 确保使用本服务处理的数据已获得相关主体的合法授权。
2.4 不得利用本服务生成违反法律法规或侵犯第三方合法权益的内容。
2.5 智能视觉服务(TWeSee)提供的视频理解、图片理解等功能,基于人工智能技术实现。我们致力于提供安全、稳定、持续的服务,以保障您的正常使用,但由于大模型技术发展的局限性,我们无法完全保证:
2.5.1 本服务或算法模型将符合您的实际或特定需求或目的;
2.5.2 本服务或算法模型百分百准确可靠、功能可用、持续稳定、不存在故障;
3. AI 生成的内容(包括但不限于视频摘要、图片描述、事件检测结果等)仅供参考,实际结果可能因场景复杂性、数据质量、环境因素等原因而存在偏差。您不应将 AI 识别结果作为唯一决策依据,尤其是在涉及人身安全、财产保护等重要场景时,请结合其他方式进行验证。
相关文档