关注腾讯云开发者,一手技术干货提前解锁👇
首先你需要打开:Gemini 3.0 Pro(其他能识别图片视频、联网搜索的AI模型也行,但是可能效果没那么好)。跟它对话, 把我写好的这一整段话全部复制进去给它就行:
你是一位精通视觉美学与AI绘图逻辑(Midjourney, Stable Diffusion, FLUX)的创意总监。你的任务是接收用户简短、口语化、模糊的描述(例如:“帮我生成一张20岁中国女生坐在教室里的照片”),通过自主分析、逻辑推导与艺术加工,将其转化为一份极度详细、画面感强、参数专业的英文提示词(Prompt)。
核心能力要求:视觉推理与扩充
由于用户输入的信息量极少,你需要基于“合理性”和“美学性”进行联想与补全:
1.1 分析与扩充维度
一、 艺术风格与媒介 (Art Style & Medium)
二、 画面主体深度刻画 (Subject & Characterization)
三、 环境构建与氛围 (Environment & Atmosphere)
四、 专业摄影语言 (Camera & Composition)
1.2 输出格式要求
请严格按照以下步骤进行回复:
1. 构思与推导 (Visual Reasoning)
简要说明你是如何根据用户的一句话进行扩充的(中文)。
[风格定位]:...
[主体脑补]:...
[场景搭建]:...
[光影氛围]:...
2. 最终提示词 (Final Prompt)
输出一段英文提示词。
结构:主体描述 + 环境描述 + 风格修饰词 + 摄影/渲染参数 + 光影色彩。
格式:使用逗号分隔的关键词组(Midjourney风格)或长句描述(DALL-E 3风格)。
必备词汇:包含提升质量的“魔咒”(如:Masterpiece, Best quality, Photorealistic, 8k, Ultra-detailed)。
用户输入: “帮我生成一张20岁中国女生坐在教室里的照片。”
AI 回复示例:
1. 构思与推导
2. Final Prompt A photorealistic portrait of a beautiful 20-year-old Chinese girl sitting in a high school classroom, wearing a clean white school uniform shirt, black straight long hair, delicate skin texture, resting her chin on her hand, looking out the window with a daydreaming expression, soft smile. Background features blurred wooden desks piled with books and a chalkboard, white curtains gently blowing in the wind. Natural lighting, golden hour sunlight streaming through the window, volumetric lighting, dust particles, Tyndall effect. Shot on Fujifilm Pro 400H, 85mm lens, f/1.8 aperture, depth of field, bokeh, soft pastel colors, high exposure, masterpiece, best quality, ultra-detailed, 8k resolution.
它就会这样回复,这个对话窗口,就变成了你的提示词助手:

然后,你随便想到什么画面,想要生成的图片,无论什么。就是简单写一下就好,剩下的就交给它了:


最后,复制它给你的最终提示词,直接丢到BANANA(或MJ还是别的什么)出图就好了:
案例原始提示词:“帮我生成一张20岁中国女生坐在教室里的照片”

案例原始提示词:“摄影,2个在田野里奔跑的中国南方乡村小男孩”

案例原始提示词:“动漫风格,晚上,便利店门口,空无一人,下着小雨”

2.1 “文生视频”
使用场景:把一些简短、碎片、含糊的想法,用文字简单描述给AI。自动转化为一份包含视觉细节、动态轨迹、运镜语言的视频提示词。(主要是针对单个镜头或单个场景)
比如,我对AI说的是:“夜里,漫天风雪之中,有一个人打着手电筒远远走了过来…”
AI返回给我的是:“Cinematic static long shot, telephoto lens. In the pitch-black darkness of night, a heavy blizzard is raging. A mysterious silhouette of a person is trudging towards the camera from the far distance, fighting against strong wind and deep snow. The person is holding a bright flashlight, and the beam cuts sharply through the darkness, creating a distinct cone of volumetric light that illuminates the dense, swirling snowflakes in the air. The flashlight beam sways rhythmically with the person's heavy steps, occasionally flaring into the lens. The wind is blowing violently, causing the person's heavy winter coat to flap wildly. High contrast lighting, atmospheric fog, Tyndall effect, cold blue ambient tones contrasted with the harsh white flashlight beam. 8k resolution, photorealistic, moody atmosphere, slow approach, highly detailed snow texture, cinematic grain.”
然后我复制提示词(也可以根据自己需要进行适当修改)再丢给 “可灵AI” (别的模型也行)文生视频,出来的结果:
2.2 “文生文”
使用场景:把一些碎片化的、模糊的、脑洞大开的创意或故事,用文字简单描述给AI。自动分析并转化为一份具体的、调度精密、包含台词、可落地执行的(剧本)分镜头脚本。(主要是针对多个镜头或一整段剧情)
比如,我对AI说的是:“2D动漫风格,一个中国古代剑客,穿着夜行衣,飞檐走壁,就像跑酷,经过各种复杂的地形。最后她跳了下来,摆了一个很酷的pose。25秒时长”
AI返回给我的是:“导演阐述 (Director's Treatment) [剧情梗概]:月黑风高夜,女刺客“影(Ying)”潜入皇城。面对错综复杂的阁楼与城墙,她施展轻功(跑酷),如黑猫般在瓦片与飞檐间极速穿梭。最终她从高塔一跃而下,平稳落地,蓄势待发。
[视觉风格]:2D 赛璐璐动漫风格 (Cel-shaded Anime)。参考《雾山五行》或《鬼灭之刃》的动态张力。色调:深蓝夜色背景,辅以暖黄色的灯笼光晕,高对比度。特效:强调速度线 (Speed lines) 和 气流扰动 (Wind effects)。[角色锚点]:20岁女剑客,黑色紧身夜行衣(改良汉服),高马尾,面戴黑纱…”(此处省略500字…)
然后我可以根据它给的内容去做每一个镜头的修改,再去分别生成画面镜头。也可以直接把整个剧本都丢给像“sora2”这样的支持25秒长视频生成的模型,出来的结果:
2.3 “图生文&图生图”
使用场景:有一张喜欢的图,或者是影视片段截取的图。想要借鉴它,生成类似的内容。直接上传图片让AI识别并反推提示词。生成一份专业且详细的提示词文字描述。(不是直接给你一张图,而是给你文字描述)
比如,我把脚本整段复制+上传1张自己喜欢的图片:

AI返回给我的是:“POV shot from driver's seat, driving an old vintage car on a muddy forest road, heavy fog, thick mist, low visibility, dirty windshield with mud splatters, windshield wipers, driver's hands gripping the steering wheel, old analog dashboard, circular gauges, leafless trees, late autumn, gloomy atmosphere, desaturated cold tones, cinematic realism, 35mm film grain, rough texture, melancholic aesthetic, high quality, photorealistic. --ar 3:2 --style raw --v 6.0”
然后,我复制提示词丢给 “BANANA”(或者是MJ、即梦等等)生成图片,出来的结果:

理论上来说,由一张图直接生成另一张类似的图,也是可以的。但我还是建议先用图片反推提示词,因为这样你才能学到更多知识,以及更加可控的去修改提示词,在保留参考图的画风与调性质感基础上,重新按照你的内容要求去生图;
2.4 “图生视频”
使用场景:上传一张图片,让AI识别并分析图的视觉信息与潜在的动态逻辑。然后生成一份详细、专业的、可供你选择偏向于叙事还是偏向于动态的视频提示词。(主要是针对单个镜头或单个场景)
比如,我把脚本整段复制+上传1张自己的图片:

AI返回给我的是:

然后我复制提示词(也可以根据自己需要进行适当修改)再丢给 “可灵AI” (别的模型也行)图生视频,出来的结果:
这个我特别强调需要生成“双版本”提示词,一个更注重叙事与氛围,另一个更注重动态与摄像机运动。因为视频与图片不同,它与整体的叙事与节奏有关。有时候需要慢一点,有时候需要快一点。这样才方便我们的实际使用;
文中提示词具体脚本可到公众号后台回复“提示词”获取。
-End-
原创作者|唐彪