作者:HOS(安全风信子) 日期:2025-12-30 来源:GitHub 摘要: 本文深入探讨了2025年大语言模型(LLM)提示工程的最新进展,从基础概念到进阶技巧。通过分析GitHub上最新的开源项目和研究成果,本文系统梳理了提示工程的各种技术路径,包括基础提示、 few-shot提示、思维链提示、自我一致性等,并提供了完整的实践指南和性能评估。
随着大语言模型技术的快速发展,LLM已经从实验室研究阶段逐步走向实际应用。然而,LLM的性能很大程度上依赖于用户提供的提示(Prompt)质量。一个好的提示能够引导LLM生成准确、有用、符合预期的内容,而一个差的提示可能导致LLM生成不准确、无关或无用的内容。
提示工程(Prompt Engineering)是指设计和优化提示,以引导LLM生成符合预期的内容的过程。提示工程是LLM应用开发的重要环节,能够显著提高LLM应用的性能和实用性。
在过去的一年中,GitHub上涌现出了许多优秀的提示工程项目和工具,如PromptBench、PromptHub、LangChain等,这些项目和工具为LLM提示工程提供了有力的支持。
通过对GitHub上最新提示工程项目的深入分析,我们发现了以下几个关键趋势和更新点:





基础提示是提示工程的起点,包括指令提示、零样本提示和提示格式优化等。
指令提示是最基本的提示类型,直接向LLM发出指令,要求其执行特定任务。指令提示的质量直接影响LLM的响应质量,需要清晰、具体、明确。
例如:
请总结以下文章的主要内容:
[文章内容]GitHub上的最新项目如PromptHub提供了丰富的指令提示模板,适用于各种任务类型。
零样本提示是指在没有提供示例的情况下,直接向LLM发出指令,要求其执行特定任务。零样本提示依赖于LLM的预训练知识和推理能力。
例如:
请将以下句子翻译成法语:
Hello, how are you?提示格式优化是指优化提示的结构和格式,提高LLM对提示的理解和响应质量。提示格式优化包括:
Few-Shot提示是指在提示中提供少量示例,引导LLM执行特定任务。Few-Shot提示能够显著提高LLM在复杂任务上的性能。
示例设计是Few-Shot提示的关键,包括:
示例数量是Few-Shot提示的重要参数,一般来说,示例数量越多,LLM的性能越好,但也存在边际效应。研究表明,对于大多数任务,3-5个示例就能够达到较好的效果。
示例顺序也会影响LLM的性能,一般来说,将简单示例放在前面,复杂示例放在后面,能够帮助LLM更好地理解任务的渐进性。
Chain-of-Thought提示是指在提示中引导LLM生成中间推理步骤,而不仅仅是最终答案。CoT提示能够显著提高LLM在复杂推理任务上的性能,如数学问题、逻辑推理等。
例如:
请解决以下数学问题,并展示你的推理过程:
问题:一辆汽车以每小时60公里的速度行驶,行驶3小时后,距离目的地还有120公里。请问总路程是多少公里?
示例:
问题:一辆汽车以每小时50公里的速度行驶,行驶2小时后,距离目的地还有100公里。请问总路程是多少公里?
推理过程:
1. 汽车行驶的距离 = 速度 × 时间 = 50公里/小时 × 2小时 = 100公里
2. 总路程 = 已行驶距离 + 剩余距离 = 100公里 + 100公里 = 200公里
答案:200公里
现在请解决原问题:GitHub上的最新项目如google-research/chain-of-thought-prompting提供了丰富的CoT提示示例和研究成果。
Self-Consistency提示是CoT提示的扩展,通过生成多个推理路径,并对多个结果进行投票或加权平均,提高LLM的推理准确性和可靠性。
Self-Consistency提示的基本步骤包括:
例如:
请解决以下数学问题,并展示你的推理过程。请生成3个不同的推理路径,然后给出最终答案:
问题:如果一个书架有5层,每层可以放20本书,现在已经放了60本书,请问还可以放多少本书?Tree-of-Thought提示是一种更高级的提示技术,将推理过程建模为树状结构,每个节点代表一个中间推理步骤,每个分支代表一种可能的推理路径。ToT提示能够处理更复杂的推理任务,如规划、决策制定等。
ToT提示的基本步骤包括:
GitHub上的最新项目如princeton-nlp/tree-of-thought-llm提供了ToT提示的实现和研究成果。
RAG提示是将外部知识检索与LLM生成相结合的提示技术,通过将检索到的相关知识作为上下文提供给LLM,提高生成内容的准确性和完整性。
RAG提示的基本步骤包括:
GitHub上的最新项目如langchain-ai/langchain和run-llama/llama_index提供了完整的RAG提示实现框架。
提示设计工具是帮助用户设计和优化提示的工具,包括:
提示评估工具是评估提示性能的工具,包括:
提示优化工具是自动优化提示的工具,包括:
文本生成任务包括内容创作、故事生成、邮件撰写等,提示策略包括:
知识问答任务包括事实问答、百科问答、专业领域问答等,提示策略包括:
代码生成任务包括代码补全、函数生成、整个程序生成等,提示策略包括:
推理任务包括数学推理、逻辑推理、常识推理等,提示策略包括:
提示技术 | 优势 | 劣势 | 适用场景 |
|---|---|---|---|
基础提示 | 简单易用,无需复杂设计 | 性能有限,难以处理复杂任务 | 简单任务,零样本或少量样本场景 |
Few-Shot提示 | 性能较好,适用范围广 | 需要手动设计示例,工作量大 | 中等复杂任务,有少量高质量示例的场景 |
CoT提示 | 显著提高复杂推理任务性能 | 需要手动设计推理示例,对示例质量要求高 | 复杂推理任务,如数学问题、逻辑推理等 |
Self-Consistency提示 | 进一步提高推理准确性和可靠性 | 计算成本高,需要生成多个推理路径 | 对准确性要求高的复杂推理任务 |
ToT提示 | 能够处理更复杂的推理任务,如规划、决策 | 实现复杂,计算成本高 | 高度复杂的推理任务,如多步规划、创意生成等 |
RAG提示 | 结合外部知识,提高内容准确性和完整性 | 需要维护知识库,增加系统复杂度 | 需要外部知识支持的任务,如知识问答、内容生成等 |
通过对比可以看出,不同的提示技术在易用性、性能、适用场景等方面各有优缺点,需要根据具体的任务需求和资源条件选择合适的提示技术。
本文深入探讨了2025年大语言模型提示工程的最新进展,从基础提示到进阶技巧,系统梳理了提示工程的关键组成部分,并提供了完整的实践指南和性能评估。
2025年,提示工程已经成为LLM应用开发的核心技能,从简单的指令提示发展到复杂的思维链、自我一致性、树状思考等高级技巧,能够处理更复杂的任务。同时,提示工程工具链不断完善,从提示设计、评估到优化的完整工具链已经形成,降低了提示工程的门槛。
同时,我们也需要关注提示工程面临的挑战,如提示设计依赖人工经验、提示敏感性、提示注入风险等。未来,随着自动化提示工程、自适应提示、多模态提示等趋势的出现,提示工程将进一步发展,推动LLM技术在更多领域的广泛应用。
参考链接:
关键词: 大语言模型, 提示工程, Chain-of-Thought, Self-Consistency, Tree-of-Thought, RAG, GitHub