首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >AI辅助研究和工具实践05-AI编程和辅助工作

AI辅助研究和工具实践05-AI编程和辅助工作

作者头像
人月聊IT
发布2026-05-22 20:11:04
发布2026-05-22 20:11:04
1460
举报

大家好,我是人月聊IT。

今天继续整理和分享AI工具使用方面的话题,本期的重心将放在AI编程方面,包括围绕AI编程展开的一系列配合工作。

在今年2月份左右,我当时使用的核心核心编程工具是Google Antigravity,当时的规则是只要注册成了Google Gemini Pro的会员就可以使用Google Antigravity。这个IDE工具当时基本没有大的流量额度限制,而且还可以免费使用Claude大模型。同时当时启了两个账号,辅助Kiro编程工具,每个月有免费的50积分额度。但是到了后期,特别是到了3月中后,Antigravity的使用额度骤降,已经基本很难支撑我日常编程POC小应用的需求。

到了3月中,后面自己又注册和充值了GPT Plus账号,这个可以挂接Codex CLI使用,所以当时很多涉及到本体论的POC小应用基本全部都是Codex+GPT5.5输出。同样用了还不到1个月被封号了。(注意当前实际我最建议的方式还是个人账号土区礼品卡的方式进行充值GPT Plus账号)。

因此后面又转到了DeepSeek V4模型。实际差不多半个月的时间,我DeepSeek已经花费了30多元。主要就是ClaudeCode+DeepSeek使用。用量比较大的是一次参考Karpathy个人知识库思想对我800多篇文章进行知识萃取构建Wiki库,一次是我输出基于本体驱动的电商数据分析报告。而DeepSeek用于写文章辅助相当便宜,一次差不多2毛钱左右。但是DeepSeek的编程能力确实只能说一般,即使给出完整的需求和架构设计约束,输出的应用实际个人还返回迭代了多次修改问题和Bug最终才基本可用。

要么是GPT Plus,要么是Claude Pro。

最后在5月初我还是重新充值了Claude Pro会员。冲完后用了几天最大的感觉就是终于又吃上海鲜大餐了的感觉。虽然Pro会员额度一般,同时有5h额度限制,但是我一般也是做场景POC验证程序,在触发额度限制后,我完全可以挂起,等到下个时间区间再继续认为。而且前面文章谈到的基于本体驱动的电商数据分析报告输出,基本也只花费了3个5h时间额度周期。其中编程用了2个周期,最终输出文档总结,ppt,架构图等用了一个时间周期。所以在这里我要先讲下围绕ClaudeCode+Sonnet或Opus来讲下日常工作的关键配合。

我在前面专门讲过,当我有任何一个关键构想的时候,基本要完成需求探索到定义-》设计方案-》AI编程实现-》内容总结归档几个关键步骤。实现完整的端到端流程闭环,形成学习实践复盘的完整流程。

所以使用Claude的时候一开始不是从构想马上进入到AI编程阶段,而是从构想开始通过多轮AI对话,进行需求探索,最终形成完整的一份需求文档。主要这份文档不是传统的需求文档,而是需求+架构方案的融合文档,因为我后面在ClaudeCode使用中并没有引入类似SuperPower这种Skill,也没有去使用类似Kiro的SDD编程的思路。因为ClaudeCode的Harness工程已经足够强大,只要需求方案足够清楚,那么后续完全可以开启ClaudeCode的静默编程模式,我们不需要有任何人工介入和干预。

所以这里第一步实际是需求探索输出完整的需求设计方案,MarkDown格式。但是大家注意当前Claude是可以一些性输出Word文档,因为Word文档中方便嵌入类似架构图,集成图等,而对于这些图我们完全可以让AI先输出SVG图,再转成图片内嵌进来。这个我个人已经验证通过。

在这里我们先让AI输出完整的需求设计方案。markdown转pdf工具:

https://markdown-converter.net/zh/

接着基于完整的需求方案,展开静默编程,输出完整程序。

在程序输出完整后,让AI输出整体过程总结文档,详细设计和实现的Markdown文档,但是这类文档没有配图。

因此在这里我们安装architecure-diagram这个skills技能包。让后让AI帮我们输出功能架构,技术架构,数据架构,集成架构等各种架构图。也就是我们输出架构图基本不需要其它工具,直接ClaudeCode+Skills足够。具体架构图参考如下:

https://github.com/Cocoon-AI/architecture-diagram-generator

在有了完整的架构设计文档和方案后,我们接着输出一个完整的PPT方案汇报文档。在这里我们安装html-ppt技能来处理该任务。注意这里我没有使用该技能默认提供的模板风格,而是自己做了如下定义,大家可以参考:

https://github.com/lewislulu/html-ppt-skill

这个项目我提供了完整的原始需求,需求文档,设计方案,包括整个项目的完整实现。我当前希望是基于这个项目,帮我做一个标题为《本体驱动的电商数据分析-从需求到实现》的完整ppt。

整个ppt我希望分如下三个章节

1. 业务场景和需求概述(包括背景问题,业务场景流程,业务目标等)

2. 整体架构设计方案(包括总体架构,技术架构,开发框架和语言,数据模型,本体模型,AI推理方案,报表输出方案等)

3. 具体实现和关键算法点(包括需求探索,本体建模,数据映射,AI核心推理算法流程,报告输出等)

4. 项目总结和应用收益分析

整个ppt我希望在30页左右。ppt采用16:9宽屏模式。整个ppt采用国际咨询公司方案汇报风格配图,纯白色底色,文字+可视化图表结合,体现里面的核心内容,体现结构化和逻辑,MECE原则,体现核心静态结构和动态流程,适当留白,特别注意构图不要有立体效果,我需要平面风格的构图。具体配色方案要求如下:

主色调采用棕红色(#CC0000)与灰色(#A3A3A3),营造专业、稳重的商务感。辅以深蓝(#006393)和深青(#333333)增添层次与理性气息,局部使用浅灰(#CCCCCC)作为背景或分隔。整体色彩饱和适中,对比清晰,适合数据图表、标题强调及逻辑框架展示,传递出严谨、可信赖的咨询调性。

注意整个ppt既不像类似苹果公司的宣讲风格大字报风格,因为这种ppt缺失关键逻辑说明。也不要像咨询公司技术方案ppt风格,因为这类ppt字太多,内容太细,不适合用于技术论坛演讲使用。

我需要的ppt是一种技术方案宣讲的ppt,能够体现核心技术方案逻辑即可。整个ppt我希望是先输出整体大纲逻辑,然后再输出每页的html+svg内容构图,然后再最终将其转化为一个完整的ppt。

注意整个ppt里面可能涉及到流程图,架构图,集成图等,我希望都是采用SVG图方式进行绘制。注意SVG图绘制不要太细,而是应该体现核心的组件和逻辑关系即可。

我们可以看下最终输出的ppt完整效果。

好了,前面做完的工作,我们还可以将我们的需求设计方案转化为一个动态的Remoting视频。

https://github.com/remotion-dev/remotion

也就是我们只需要使用ClaudeCode+Skills,不仅仅可以实现AI编程,包括在这个过程中涉及到的需求设计文档,架构图,PPT,Remoting动态讲解视频我们全部都可以通过安装技能包来解决。

而且我们前面也讲过Claude网页版也支持直接输出word,ppt文档,同时支持在回答问题的时候直接输出svg架构图。

也就是基本用Claude大模型+ClaudeCode解决日常AI编程和工作协助的大部分问题。

包括上面输出的完整系统,大家可以参考我前面公众号文章。

整个系统比我上一个用DeepSeek V4做的版本整体效果还是要好很多。关键点还是在换用Claude大模型后,基于我提供的需求设计方案,AI基本可以在长周期静默编程3小时左右情况下,一次输出完整可用的系统。这个往往才是采用能力更强模型带来的最大生产力提升。

接着讲下配图。特别是文生图。

在前期我重点是用Google NotebookLM,将我写好的文章导入到知识库,然后通过制作ppt的方式输出图片。当然你也可以输出具体的信息图。这个在前面我已经有大量的关于这方面内容的分享。

在订购了GPT Plus会员后,又充分感受到了GPT Image2的出图能力。因此在4月份我有不少文章的配图都采用GPT Image进行配图。

即使现在没有Plus会员了,GPT用户每天还是有10张只有的免费生图可以使用。大家可以试验下。

好了,在主力工具变成ClaudeCode后,配合工具当前主要就是DeepSeek。在Claude Pro额度用完有些事情需要马上处理的时候,我可以切换到DeepSeek V4模型上,虽然质量和输出会稍微弱点,但是基本也能够满足需求。

其次就是腾讯的WorkBuddy和百度的Dumate,这两个类Claw小龙虾的工具由于邀请注册送了不少的积分。所以这两个工具基本都还有不少的积分可以免费使用。用来处理一些日常的桌面自动化工作基本足够使用。

在这里还是重点说下WorkBuddy,Auto默认模型。

对于前面说的Remoting动态视频的制作,只要提供完整的文档,WorkBuddy基本可以一次成功完成MP4视频的输出。而且效果相当不错,我在前面也专门分享过视频。

其次,我当时用WorkBuddy还可以将我B站的视频内容转为逐字的文字稿,这个完成效果也相当不错。OpenAI 的 Whisper 本身就是一个免费、可本地运行、离线使用的语音转文字(Speech-to-Text)模型。它开源、支持多语言(包括中文),而且效果目前仍然非常强。在这里我们最好让其下载large-v3模型,其转换后准确性已经相当高。

接着,常用的就是基于我前面已经输出的个人思维LLM-Wiki知识库,让AI参考知识库的内容帮我进一步基于问题输出新文章。整个提示词参考如下:

当前项目已经形成了一个完整的知识库。

我希望你基于知识库来回答问题,具体的回答思路如下

1. 首先查找wiki目录下的method,看是否有合同问题匹配的场景,如果有优先选择method里面的方法来组装知识块形成文章。

2. 如果没有合适的method,那么需要你自己思考如何基于场景问题分解来组装wiki目录下的concepts概念来组装知识。

3. 任何新文章都涉及到wiki目录下concepts概念知识块的组装,因此需要先构建一个完整的写作知识框架目录结构

4. 在构建了写作文章框架结构后,对于涉及到的concepts知识块wiki,你可以查找到里面的sources下面有原始文章索引,你可以继续深入探索原始文章找到文章的文章段落片段

5. 将这些完整段落片段进一步组装形成一篇完整的文章

6. 再进一步检查文章,让其逻辑清晰,结构完整,承上启下。在观点原创性,说服力案例,逻辑严谨性,可读性各方面都达到一篇优秀文章的水平。如果历史文章有缺失,可以增补不超过20%新内容进来。

7. 注意整个文章2500到3500字左右,分6个小标题段落进行文章组装

8. 最终输出一篇独立的markdown格式的文章到当前工作区的newdoc目录下面。

具体需要你回答的问题是:如何系统提升自己思维逻辑水平?

当然还有一个特别推荐,就是B站提供的花生AI视频制作工具。我前段时间感冒后,有几期都是花生AI输出的视频。这个视频本身是一种Remoting+动态视频画面结合的模式,更加更好的结构化+形象化的表达你文章内容和思想。因此对于文转视频个人还是相当推荐。但是费用也不便宜,基本做一个5分钟所有的视频花费在10元左右。整体效果我个人是相当满意。

大家可以参考下我B站的相关视频。

所以简单总结下可以看到。

我当前工具基本是Claude+DeepSeek+WorkBuddy来完成相关工作任务。我个人核心思想就是尽量少引入太多的工具,而是尽量以一个工具挖出你大部分的工作任务。类似我前期有一段时间完全是Google全家桶为主,包括Gemini,NotebookLM,NanoBanana,Veo视频等。

而当前整体来看,低频用户我个人认为最佳的一个付费选择还是Claude Pro的会员。对于AI编程最佳的一个选择GPT Plus会员。当然太高频你还可以选择Pro会员,或Claude的Max会员。但是个人认为最佳性价比方案还是我前面谈到的高低搭配模式。

最后我们再提供一个Codex下输出完整图文并茂文章的参考提示词:

代码语言:javascript
复制
我现在需要你基于我提供的主题来帮我输出文章。
具体主题是《认知和思维的关系是什么?哪个更加重要?》。
具体分以下几个关键步骤来实现。

第1步
输出markdown格式文章:
当前工作区目录的markdown子目录是我的个人历史原创文章,我需要你严格参考这些文章,帮我回答问题。具体要求为:
字数2500到3500字,分6到8小标题。每个小标题400到600字,每个段落50到150字,分多个段落。除非必须使用Bullets,否则不要使用,全部用文本化段落。
注意文章每个标题里面的内容尽量逻辑清晰,体现结构化,类似流程,方法,结构,集成关系,依赖,约束,组件关系,分类分解等,方便我后面配图。
注意文章的写作内容和风格可以我markdown历史文章的风格,能够完全引用我原文的可以成段引用我原文。
注意全文100%来源于我历史文章,可以大锻炼的引用我历史文章内容。也可以适当对我历史文章内容总结归纳后输出。严禁幻觉。
注意生成的新文章单独生成一个独立的markdown格式文件存储到newdoc目录下。
注意我需要你结合我个人成长案例来辅助说明观点。如果没有就不添加,不要胡编乱造。
一定要各个小标题之间的自然过渡和上下文承接,不要让人感觉完全是知识点的拼凑,要符合金字塔原理,MECE法则,方法论的逐层展开说明。
注意要用我作为第一人称进行叙述。
注意不需要配图,我后面会自己配图。
注意写作完成后自己再做一遍检查,让文章逻辑更加清晰,结构更加完整。包括配图也要进一步检查确认。

第2步:
对文章中的每个小标题进行配图。
我需要对上面输出的markdown文章进行配图
我需要你调用gpt image2对每个小标题进行配图。配图大小为1280*720,高清。
注意采用gpt codex内置的image-gen相关技能来生成,而不是需要我再提供api key
配图要求采用手绘插画风格,白色底色,体现结构化,类似流程,方法,结构,集成关系,依赖,约束,组件关系,分类分解,设计到具体事物可以形象化表达的更好。图内容尽量丰富但是不要太拥挤。
具体图片按顺序输出到image目录下面。

第3步
拼装输出一遍图文并茂的word文件。
基于前面的markdown根据和配图帮我拼装整合为一篇完整的word文章。
注意在每个小标题后面先插入第2步生成的对应图片,然后再放具体的解释文字。
注意文章名称在word中用一级标题。对于每个小标题在word中用二级标题。正文宋体,10.5px即可。

今天分享就到这里,希望对你有所启发。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-05-21,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 人月聊IT 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档