AI 测验提示词完全指南：让输出真正可用的提示词写法

TL;DR

写好 ai quiz prompts 的关键不是措辞巧妙，而是足够具体。一条可靠的提示词必须交代主题、受众、题型结构和约束条件。本文会带你掌握一个可以反复复用的四段式结构，针对每种技巧都配有前后对比示例，以及一份覆盖选择题、判断题、填空题和简答题的速查表。读完之后，你就能摆脱泛泛而谈和重复输出，开始产出像由学科专家亲手写就的题目。

封面插图：一段结构化提示词在 AI 测验生成器界面里被转化为一份精致的测验 — 结构良好的提示词，是决定测验质量的最大杠杆。

如果你曾经在 AI 工具里输入"来一份历史测验"然后收到一堆平淡无奇的年份和人名，你就已经体会过这个问题。模型确实照做了，只不过你给的信息近乎于零。本文会把提示词写作当作一门有可复用模块的手艺来拆解，而不是什么神秘咒语。下文每个技巧都附带前后对比示例，你可以直接把格式复制进自己的工作流。如果你还不了解底层工具的原理，建议先看看 AI 测验生成器到底是什么，再回到这里研究提示词机制。

基础：一条测验提示词需要什么

每条高质量的测验提示词都包含四块内容。少了任何一块，输出质量都会以可预测的方式退化。

主题：确切的话题、子话题和范围边界。
受众：学习者画像、年级水平或已有知识背景。
格式：题型、题数、答案结构和解析策略。
约束：难度、语气、干扰项规则、禁用模式和输出结构。

你可以把这四块想象成提示词的骨架。如果你只告诉模型主题，它就只能自己猜测其余部分，而它的猜测往往是泛化的。当四块齐备时，模型就没有漂移的空间了。

图解把一条测验提示词拆成四块：主题、受众、格式、约束 — 这四块结构，把模糊请求变成可以用于生产的提示词。

下面是一套值得背下来的最小可用模板：

Create [N] [question type] questions on [specific topic] for [audience].
Difficulty: [level]. Focus on: [sub-topics]. Avoid: [banned patterns].
Output: [format schema].

后面所有技巧，都只是针对这四块中的某一块做进一步打磨。

技巧 1：主题精度，从泛到准

ai quiz prompts 最常见的失败模式，就是主题太宽。"历史"是一整个图书馆，不是一个话题。模型会在 10 道题里覆盖三千年，结果读起来像旅游手册。请把主题行当作一个漏斗来处理：大话题、子话题、切入角度、范围边界。

Too broad:
"Make a quiz about history."

Better:
"Create 10 MCQ for 8th graders on the causes of World War I.
Focus on: militarism, alliances, imperialism, nationalism (MAIN).
Scope: 1890 to 1914 only. Avoid questions about specific battle dates.
Include one distractor per question that tests a common misconception."

注意"Better"版本做了什么。它点名了时代、分析框架（MAIN）、年份范围，甚至排除了一类容易产生"冷知识噪音"的题型。模型由此获得清晰的目标和清晰的边界。

主题精度光谱图：从宽泛大类一路收窄到具体切入角度和范围边界 — 把主题一路向右推，直到切入角度不再有歧义。

一个实用的自检：如果你能想象出两份完全不同的测验都能满足你的主题行，那就说明主题仍然太宽，继续收窄。对于内容密集型话题，可以把提示词和源文档搭配使用，这一点在用 AI 创建测验的分步教程里讲得更细。

技巧 2：受众校准，年龄、水平与情境

同一个主题，面向不同受众可以变成幼儿园测验，也可以变成研究生考试。受众校准告诉模型要用什么词汇、可以默认多少背景知识、题干和选项应该多长。受众行写得随便，输出就会"刚好错一个年级"，往高或往低漂移。

Weak:
"10 questions on photosynthesis."

Calibrated:
"10 MCQ on photosynthesis for 7th grade biology students
who have just finished the cell-structure unit.
Use vocabulary from the Glencoe Life Science textbook.
Average stem length: 20 to 30 words.
Explanations should be 2 sentences, written to the student in second person."

校准时最关键的三个旋钮：

阅读水平：指定年级、CEFR 等级（A2、B1、B2），或引用某本参考教材。
已有知识：说明学习者已经掌握了什么，避免模型在题干里重新讲解基础。
语气与人称：面向学生用第二人称，专业考试用第三人称，面向培训师用祈使句。

三个滑块分别对应阅读水平、已有知识、语气，映射到不同学习者画像 — 三个校准旋钮，覆盖你日常会遇到的绝大多数受众画像。

对语言学习来说，受众行尤为关键，你需要在这里固定词汇等级和词频范围。像词汇测验生成器这类工具，依赖的正是这种校准，才能把生成的单词锁在学习者的水平范围内。

技巧 3：题型引导，选择题、判断题、填空题、简答题

不同题型需要不同的提示词脚手架。把它们笼统塞进"questions"里，是 AI 测验显得敷衍的第二大原因。每种题型都有自己的典型失误，只要多加一两行约束，就能提前规避。

选择题

Generic:
"Make 5 multiple choice questions about the French Revolution."

Steered:
"Create 5 MCQ on the French Revolution for high school students.
Each question: 1 stem, 4 options, exactly 1 correct answer.
Distractors must be plausible: 1 common misconception, 1 partially true,
1 wrong time period. No 'all of the above' or 'none of the above'.
Shuffle the position of the correct answer across the set.
Include a 1-sentence explanation for the correct answer only."

这是大多数测验都应当沿用的格式。想看界面直接承接这类结构化提示词，可以参考选择题测验生成器使用说明。

判断题

Generic:
"Make 10 true or false questions on nutrition."

Steered:
"Create 10 true or false statements on macronutrients for adult fitness clients.
Ratio: 5 true, 5 false, shuffled.
False statements must flip a specific fact, not just negate it.
Avoid double negatives and absolute words like 'always' or 'never'
unless the fact itself is absolute."

填空题

Generic:
"Fill in the blank questions on Spanish verbs."

Steered:
"Create 8 fill-in-the-blank sentences for A2 Spanish learners
practicing present tense regular -ar verbs.
One blank per sentence. Provide the infinitive in parentheses after each sentence.
Context: daily routines (eat, study, work, listen, buy).
No irregular verbs. No reflexive verbs."

简答题

Generic:
"Short answer questions on climate change."

Steered:
"Create 5 short-answer questions for a college environmental science course.
Expected answer length: 40 to 80 words.
Each question must target one concept (not 'compare and contrast').
Provide a rubric for each: 3 required key points + 1 optional bonus point.
Avoid yes/no phrasing."

进阶：多阶段提示词，让质量可复现

当你已经能稳定产出单轮高质量测验之后，下一个进阶就是多阶段提示词。不再要求模型一次性给出 20 道成品，而是把任务拆成三个目标更窄的阶段。

阶段 1：大纲。 先问概念清单，而不是题目。这强制模型先规划知识覆盖面。

Stage 1:
"List 20 discrete concepts a 10th grader should know about cellular respiration.
Group them into: inputs/outputs, glycolysis, Krebs cycle, ETC, regulation.
Output: numbered list, 1 concept per line, no questions yet."

阶段 2：草稿。 把概念清单喂回去，要求每个概念出一道题。因为概念已经明确，模型就无法偏离到无关话题上。

Stage 2:
"Using the concept list above, write 1 MCQ per concept.
Follow the MCQ rules from my earlier prompt.
Do not invent new concepts. If a concept cannot become a fair MCQ, mark it 'skip'
and explain why in one line."

阶段 3：审校。 在第三次调用里，让模型对照一张清单自查输出。你会惊讶于它自己发现的问题有多少。

Stage 3:
"Review the 20 MCQ above. For each, check:
1. Is the correct answer actually correct?
2. Are all distractors plausible?
3. Does the stem give away the answer?
4. Is there vocabulary above the target grade level?
Return a table: question number, issues found, suggested fix."

多阶段提示词会多花大约三倍时间，但质量通常会提升一个数量级。对任何需要反复使用的测验，比如标准化练习集或入职测试，这笔额外成本第一次就能收回。AI 测试生成器和考试制卷工具这类工作流受益最明显，因为每道题的成本更高。

常见错误与修正方法

即便提示词结构稳固，下面这五个反复出现的错误仍会悄悄拉低质量。每个都有一行解决方案。

含糊的难度描述。 "难"本身没有意义。请换成具体锚点，比如"相当于 AP Biology 论述题水平"或"B2 读者 30 秒内应能作答"。
没有干扰项规则。 没规则，选择题的干扰项就会退化成随机答案。务必指明所需干扰项类型（常见误解、部分正确、错误范围、错误单位）。
允许"以上都是"。 这个选项奖励瞎猜，几乎永远是偷懒的干扰项，必须明确禁用。
题干句式重复。 模型特别喜欢用"Which of the following..."开头，加一条约束："Vary question stems, no more than 2 questions may share an opening phrase."
没有输出结构。 如果你打算把测验粘贴进工具，就要求 JSON 或严格编号格式。自由散文式输出解析起来非常痛苦。

如果你正在批量生成测验，建议把这些规则写进 AI 测验生成器的模板里保存下来，以后就不必每次重打。

提示词速查表

把这张表抄进你的笔记里。每一行都是经过生产验证的模式，一分钟之内就能改造成你自己的版本。

本指南涵盖的所有提示词模式的浓缩速查表 — 一张可打印的速查表，汇总本指南中的全部提示词模式。

场景	模板	关键约束
K-12 课堂选择题	"Create [N] MCQ on [topic] for [grade] students. 4 options, 1 correct. 1-sentence explanation."	禁用 all of the above；打乱正确答案位置；明确干扰项类型
企业培训	"Create [N] scenario-based MCQ for [role] on [policy/skill]. Each stem is a 2 to 3 sentence mini-case."	第二人称语气；真实职场情境；包含一项"棘手的两难"干扰项
语言学习	"Create [N] fill-in-the-blank sentences for [CEFR level] learners of [language] practicing [grammar point]."	严守 CEFR 等级；无不规则变形；给出允许使用的词汇
考试备考	"Create [N] MCQ modelled on [exam name] for [subject, year]. Match the exam's stem length and difficulty distribution."	引用该考试风格指南；含 20% 的"陷阱题"；不放送分题
入职测试	"Create [N] true/false + [N] short-answer on [company process]. Base exclusively on the attached SOP."	禁止外部知识；答案可追溯到 SOP；标记歧义章节
自学闪卡	"Create [N] short-answer questions on [topic] at [level]. One concept per card, answer under 40 words."	不出复合问题；解析用学习者友好的第二人称

关键要点

一条强力的提示词一定包含四块：主题、受众、格式、约束。少任何一块，质量退化都有迹可循。
主题精度是杠杆最大的一个环节。不断收窄，直到"两份完全不同的测验都能满足"不再成立。
受众校准关注阅读水平、已有知识和语气。年级和 CEFR 等级是你最好的盟友。
每种题型都需要专属脚手架：选择题要干扰项规则，判断题要"翻转事实"规则，填空题要词汇范围，简答题要评分标准。
多阶段提示词（大纲、草稿、审校）多花时间，但输出的质量可复现、可复核。
把你的规则沉淀为可复用的模板，别每次从零重写。

如果你已经准备好从阅读切换到实操，现在就打开生成器，把速查表里任意一行当作起点贴进去。照着迭代下去，质量会立刻上一个台阶。

Put these prompts to work →

AI 测验提示词完全指南：让输出真正可用的提示词写法

目录