最近跟一个同事聊天时,他提到一个有趣的观点。
神策以往的工作都是帮企业在合规合法的前提下采集用户的行为,然后更好地理解用户。那么,我们是否可以帮助某个个人自己采集自己的行为,并且把这些采集到的行为给 AI,从而让 AI 更好地理解他,变成他的更好的个人助理呢?例如,在用户的授权之下,对用户使用的各种 App 进行数据采集,采集他的聊天记录,采集他的外卖和网购记录,采集他的笔记记录,采集他的每一项支出,从而更好地理解他,服务他。
再延伸一下,这些数据脱敏之后,在用户允许的情况下,也可以反向售卖给提供服务的企业,让企业更理解用户,在更好地服务用户的同时也获得更多的商业价值。
这个想法我觉得挺值得讨论的,所以有了今天这篇文章。
01. 为什么现在谈论这个话题
在神策做了十多年企业级数据采集,我见证了数据如何帮助企业理解用户、优化产品、提升转化率。我们的 SDK 每天在数亿设备上运行,采集用户在各种 App 中的行为:点击了什么按钮、浏览了哪些页面、停留多长时间、何时下单。这些数据对企业价值巨大,但对数据的真正主人——用户自己,却几乎毫无价值。用户产生的数据分散在各个平台,用户无法获取,更谈不上利用这些数据为自己服务。
而在 2025 年,随着大模型能力的进步,有两个趋势的交汇,让个人数据采集这件事变得值得讨论:
第一,个人 AI 助手市场可能将要爆发。根据市场研究数据,全球个人 AI 助手市场规模预计将从 2024 年的 22 亿美元增长到 2034 年的 563 亿美元,年复合增长率达到 38.1%。到 2025 年,配备 AI 助手的设备数量将有数十亿台,97% 的智能手机用户都在使用某种形式的 AI 助手。
第二,AI 助手的核心瓶颈不再是模型能力,而是对“你”的理解。现在的 AI 助手——无论是 Siri、Google Assistant 还是 ChatGPT,都不满足只基于通用知识回答问题。它们试图知道你昨天和朋友聊了什么,你最近在关注什么,你有什么消费习惯和偏好。
用户不想请了一个失忆症助理,每次都要从零开始介绍背景。
02. 当前 AI 助手的局限:它们并不真正了解你
虽然市场规模在快速增长,但很多时候我会觉得,当前的 AI 助手更像是“工具”而非“助理”。
我自己每天都在用 Codex 和 Claude Code 进行写作和编程。每次开始一个新的对话,我都需要重新描述背景:我是谁,我的背景是什么,我的写作偏好是什么,我的编程习惯是什么。虽然这些 AI 的对话能力已经接近人类,但它们对“我”的记忆,基本为零。
当然,Claude Code 和 Codex 都提供了一些解决方案,例如 Claude Code 可以通过用户级和项目级的 CLAUDE.md 文件,来显式地把这些告诉 AI。但是,我更希望 AI 能够根据和我的日常交互协作来深入细致地地理解我,而不是我每次都要告诉它我是谁。
这不是模型能力的问题,它们只是缺少关于“我”的数据。

一份市场调研数据也印证了这一点:54% 的用户愿意分享匿名化的个人数据来改善 AI 产品,但现实是,现有的 AI 助手并没有给用户一个安全、可控的方式来提供这些数据。
真正的个人助理,应该知道:
只有基于这些数据,AI 才能从“通用工具”变成“个人助理”,这也就是我觉得在用户允许的前提下,采集用户个人数据成为一个很有意义的事情。
03. 全方位行为采集的价值
如果把企业级数据采集的思路搬到个人场景,能采集哪些数据?价值又是什么?
参考神策在企业端的经验,我认为个人数据采集可以分为以下几个维度:
通讯数据:聊天记录、邮件往来、通话记录(文字版)。这是理解你社交关系和当前关注点的核心数据。
这些数据如果能被 AI 系统性地理解和记忆,价值会远超我们的想象。
看几个具体场景:
当你说“帮我约张总下周见面”,AI 不仅知道张总是谁、你们上次聊了什么,还能根据你的日程习惯、你们过往见面的时间和地点,自动推荐最优时间和地点。
当你问“最近有什么好看的”,AI 不是推荐热门榜单,而是基于你的观影历史、朋友的评价、你最近的情绪状态,推荐真正适合你的内容。
AI 会发现“你这个月在外卖上的支出比平时高 30%”,结合你的聊天记录发现你最近在加班,主动提醒你注意饮食健康,甚至推荐附近评价好的健康餐厅。
当你在写文章时,AI 能调取你之前写的相关内容、读过的资料、甚至几个月前某次聊天中提到的观点,帮你建立知识关联。
你一边写代码,一边用语音问自己的 AI 助手,刚刚开会时候,那个 PM 提了一个什么需求?

这些场景的核心,都是“AI 真正理解你”,每时每刻陪伴着你,成为专属于你的个人助手。
实际上,已经有创业公司在尝试这个方向。Rewind AI (现更名为 Limitless) 就是一个典型案例。它的产品逻辑很简单:记录你在电脑上看到、说过、听到的一切,然后让你可以随时搜索和回顾。Limitless 不仅有软件产品,还推出了可穿戴硬件设备,可以全天候记录对话和想法。产品设计的核心是隐私保护:数据存储在用户本地或加密云端,承诺符合 HIPAA 级别的隐私标准。这家公司获得了包括 a16z 和 Sam Altman 在内的投资者超过 3300 万美元的融资。
国内也有类似探索。比如 Plaud 推出的 AI 录音笔,已经卖出过百万台。
这些产品的价值不仅是录音转写,市场真正认可的是"个人记忆助手"这个方向。
04.怎么采集和存储个人数据?
从技术实现角度,个人数据采集某些方面可以借鉴企业级埋点的成熟方案。在神策,我们在 Android、iOS、Web、小程序等各个平台都有成熟的 SDK。数据采集后会先存储在客户端中,满足上报策略后再发送到服务端。
这套方法论完全可以移植到个人场景:
当然,这个跟企业采集还是会有所区别,浏览器插件还好,但是一个 App 厂商是不会允许个人在 App 中通过插入 SDK 的方式采集个人的使用行为的,所以在采集方案方面,可能需要结合网络抓包、录屏让 AI 识别等能力来进一步完善。
数据采集后,可以采用边缘计算 + 云端存储的混合架构:
这样既能保证隐私安全,又能让 AI 充分利用这些数据。
05.挑战:隐私、合规与用户信任
说到这里,最大的问题来了:隐私和合规。
采集个人全方位数据,本质上是一件非常敏感的事情。用户会担心:
用户的这些隐私方面的担忧,都必须在技术、商业模式上得到妥善的处理。
而除了用户的隐私担忧之外,合规也是一个必须面对的问题,全球范围内,个人信息保护的法律越来越严格:
这些法律的核心都是一个原则:**数据主权属于用户**。
个人数据采集产品必须做到:
1. 明确告知:采集哪些数据、用于什么目的
2. 用户授权:每项数据采集都需要明确同意
3. 数据可控:用户可以随时查看、导出、删除自己的数据
4. 安全存储:采用加密、访问控制等技术保护数据安全
5. 最小化原则:只采集必要的数据,不过度采集
只有做到这些,才能真正赢得用户信任。
从产品设计角度,我认为可以借鉴 Apple 的“隐私标签”模式:
这种透明化的设计,是建立信任的关键。
06. 延伸思考:数据反向销售的双赢模式
同事当时的想法中,还提到了一个有意思的延伸:这些数据脱敏之后,在用户允许的情况下,是否可以反向售卖给企业?
这个想法乍一听有点激进,但仔细想想,其实有其合理性。
现在一种典型的商业模式就是:企业免费提供服务,采集用户数据,然后用这些数据变现(广告、推荐算法等)。用户虽然是数据的生产者,但在数据变现的过程中,几乎分不到任何收益。
如果换一种模式:用户主动脱敏并授权自己的数据,卖给需要的企业,然后获得收益分成,会怎么样?
这种 C2B(消费者对企业)的数据交易模式,在国
外已经有一些尝试。
例如,**Ocean Protocol:**一个基于区块链的数据交易市场,数据提供者可以将数据代币化,卖给需要的企业或研究机构。Ocean Protocol 支持“计算到数据”(Compute-to-Data)技术,允许在不暴露原始数据的情况下进行计算。
用户可以把自己的健康数据、消费数据等脱敏后放到 Ocean 市场上出售,同时保持数据所有权。
这些案例说明,**数据反向销售不是天方夜谭,而是一个正在发生的趋势**。
对用户来说,好处显而易见:
对企业来说,也有价值:
当然,这个模式也面临挑战:
合规风险:中国《网络安全法》规定,买卖个人信息属于侵权,甚至是违法犯罪行为。因此,数据反向销售必须严格做到匿名化、脱敏处理,并且确保用户明确授权。
尽管有这些挑战,我依然认为“用户拥有并控制自己的数据,并从中获益”,是一个值得探索的方向。这不仅是技术问题,更是一个关于数字时代“数据所有权”的哲学问题。
07. 如果要做,怎么做?
假设要做这样一个产品,从 0 到 1 的路径可能是这样:
**第一步:从单一场景切入**
不要一上来就想做“全方位采集”,而是从一个高价值、低敏感的场景开始。
比如:
这些场景用户痛点明确,数据敏感度相对较低,容易建立初期用户信任。
**第二步:极致的隐私保护**
产品设计的核心必须是“隐私优先”:
只有做到极致透明,才能赢得早期用户。
**第三步:打造 Aha Moment**
让用户第一次使用就感受到“这个东西真的懂我”。
比如:
这种“魔法时刻”是产品留存的关键。
**第四步:逐步扩展数据维度**
在单一场景验证后,逐步扩展:
每扩展一个维度,都需要重新获得用户授权,并清晰说明价值。
**第五步:探索商业模式**
初期可以采用面向个人消费者的订阅制收费模式。
中期可以探索数据变现:
但这一步必须慎之又慎,任何操之过急都可能毁掉用户信任。
**第六步:建立数据飞轮**
最终目标是在单个用户和多个用户上,分别形成正向循环,并且互相促进。

这个飞轮一旦转起来,就会形成强大的壁垒。
08. 个人数据主权时代正在到来
回到开头同事的那个问题:能否让用户自己采集自己的数据,让 AI 更好地服务自己?
我的答案是:不仅可以,而且正在发生。
过去二十年,是“企业掌握数据”的时代。互联网公司通过免费服务换取用户数据,然后用数据变现。这个模式创造了 Google、Facebook、腾讯、字节跳动等巨头。
但这个模式的弊端也越来越明显:
下一个十年,我相信会是“个人数据主权”的时代:
这不是乌托邦式的幻想。技术已经准备好了:AI 模型足够强大使得多模态数据的采集和理解能力大幅度提升;隐私保护技术足够成熟;本地和云端的存储和计算成本足够低。法律也在推动这个方向:GDPR、CCPA、个人信息保护法都在强化用户的数据权利。
市场也在呼唤这样的产品。Limitless 的快速融资、Brave 的用户增长、54% 用户愿意分享数据的调查结果,都说明用户已经准备好了。
剩下的,就是有人去做这件事。
对于创业者来说,这可能是一个巨大的机会。不是去做下一个微信、下一个抖音,而是去做真正属于用户的“个人数据基础设施”。
当然,对于类似于 Apple 这样的消费设备巨头来说,一个能够全面了解用户,给用户提供更个性化服务的 Agent 本身就是他们的主线业务。
这篇文章更多是一些不成熟的思考,欢迎你留言分享你的看法:
你会愿意让 AI 采集你的个人数据吗?在什么前提下?
如果有这样一个产品,你最希望它首先解决什么问题?
你觉得“数据反向销售给企业”这个想法可行吗?
期待你的想法。