TL;DR
写好 ai quiz prompts 的关键不是措辞巧妙,而是足够具体。一条可靠的提示词必须交代主题、受众、题型结构和约束条件。本文会带你掌握一个可以反复复用的四段式结构,针对每种技巧都配有前后对比示例,以及一份覆盖选择题、判断题、填空题和简答题的速查表。读完之后,你就能摆脱泛泛而谈和重复输出,开始产出像由学科专家亲手写就的题目。

如果你曾经在 AI 工具里输入"来一份历史测验"然后收到一堆平淡无奇的年份和人名,你就已经体会过这个问题。模型确实照做了,只不过你给的信息近乎于零。本文会把提示词写作当作一门有可复用模块的手艺来拆解,而不是什么神秘咒语。下文每个技巧都附带前后对比示例,你可以直接把格式复制进自己的工作流。如果你还不了解底层工具的原理,建议先看看 AI 测验生成器到底是什么,再回到这里研究提示词机制。
基础:一条测验提示词需要什么
每条高质量的测验提示词都包含四块内容。少了任何一块,输出质量都会以可预测的方式退化。
- 主题:确切的话题、子话题和范围边界。
- 受众:学习者画像、年级水平或已有知识背景。
- 格式:题型、题数、答案结构和解析策略。
- 约束:难度、语气、干扰项规则、禁用模式和输出结构。
你可以把这四块想象成提示词的骨架。如果你只告诉模型主题,它就只能自己猜测其余部分,而它的猜测往往是泛化的。当四块齐备时,模型就没有漂移的空间了。

下面是一套值得背下来的最小可用模板:
Create [N] [question type] questions on [specific topic] for [audience].
Difficulty: [level]. Focus on: [sub-topics]. Avoid: [banned patterns].
Output: [format schema].后面所有技巧,都只是针对这四块中的某一块做进一步打磨。
技巧 1:主题精度,从泛到准
ai quiz prompts 最常见的失败模式,就是主题太宽。"历史"是一整个图书馆,不是一个话题。模型会在 10 道题里覆盖三千年,结果读起来像旅游手册。请把主题行当作一个漏斗来处理:大话题、子话题、切入角度、范围边界。
Too broad:
"Make a quiz about history."
Better:
"Create 10 MCQ for 8th graders on the causes of World War I.
Focus on: militarism, alliances, imperialism, nationalism (MAIN).
Scope: 1890 to 1914 only. Avoid questions about specific battle dates.
Include one distractor per question that tests a common misconception."注意"Better"版本做了什么。它点名了时代、分析框架(MAIN)、年份范围,甚至排除了一类容易产生"冷知识噪音"的题型。模型由此获得清晰的目标和清晰的边界。

一个实用的自检:如果你能想象出两份完全不同的测验都能满足你的主题行,那就说明主题仍然太宽,继续收窄。对于内容密集型话题,可以把提示词和源文档搭配使用,这一点在 用 AI 创建测验的分步教程 里讲得更细。
技巧 2:受众校准,年龄、水平与情境
同一个主题,面向不同受众可以变成幼儿园测验,也可以变成研究生考试。受众校准告诉模型要用什么词汇、可以默认多少背景知识、题干和选项应该多长。受众行写得随便,输出就会"刚好错一个年级",往高或往低漂移。
Weak:
"10 questions on photosynthesis."
Calibrated:
"10 MCQ on photosynthesis for 7th grade biology students
who have just finished the cell-structure unit.
Use vocabulary from the Glencoe Life Science textbook.
Average stem length: 20 to 30 words.
Explanations should be 2 sentences, written to the student in second person."校准时最关键的三个旋钮:
- 阅读水平:指定年级、CEFR 等级(A2、B1、B2),或引用某本参考教材。
- 已有知识:说明学习者已经掌握了什么,避免模型在题干里重新讲解基础。
- 语气与人称:面向学生用第二人称,专业考试用第三人称,面向培训师用祈使句。

对语言学习来说,受众行尤为关键,你需要在这里固定词汇等级和词频范围。像 词汇测验生成器 这类工具,依赖的正是这种校准,才能把生成的单词锁在学习者的水平范围内。
技巧 3:题型引导,选择题、判断题、填空题、简答题
不同题型需要不同的提示词脚手架。把它们笼统塞进"questions"里,是 AI 测验显得敷衍的第二大原因。每种题型都有自己的典型失误,只要多加一两行约束,就能提前规避。
选择题
Generic:
"Make 5 multiple choice questions about the French Revolution."
Steered:
"Create 5 MCQ on the French Revolution for high school students.
Each question: 1 stem, 4 options, exactly 1 correct answer.
Distractors must be plausible: 1 common misconception, 1 partially true,
1 wrong time period. No 'all of the above' or 'none of the above'.
Shuffle the position of the correct answer across the set.
Include a 1-sentence explanation for the correct answer only."这是大多数测验都应当沿用的格式。想看界面直接承接这类结构化提示词,可以参考 选择题测验生成器使用说明。
判断题
Generic:
"Make 10 true or false questions on nutrition."
Steered:
"Create 10 true or false statements on macronutrients for adult fitness clients.
Ratio: 5 true, 5 false, shuffled.
False statements must flip a specific fact, not just negate it.
Avoid double negatives and absolute words like 'always' or 'never'
unless the fact itself is absolute."填空题
Generic:
"Fill in the blank questions on Spanish verbs."
Steered:
"Create 8 fill-in-the-blank sentences for A2 Spanish learners
practicing present tense regular -ar verbs.
One blank per sentence. Provide the infinitive in parentheses after each sentence.
Context: daily routines (eat, study, work, listen, buy).
No irregular verbs. No reflexive verbs."简答题
Generic:
"Short answer questions on climate change."
Steered:
"Create 5 short-answer questions for a college environmental science course.
Expected answer length: 40 to 80 words.
Each question must target one concept (not 'compare and contrast').
Provide a rubric for each: 3 required key points + 1 optional bonus point.
Avoid yes/no phrasing."
进阶:多阶段提示词,让质量可复现
当你已经能稳定产出单轮高质量测验之后,下一个进阶就是多阶段提示词。不再要求模型一次性给出 20 道成品,而是把任务拆成三个目标更窄的阶段。
阶段 1:大纲。 先问概念清单,而不是题目。这强制模型先规划知识覆盖面。
Stage 1:
"List 20 discrete concepts a 10th grader should know about cellular respiration.
Group them into: inputs/outputs, glycolysis, Krebs cycle, ETC, regulation.
Output: numbered list, 1 concept per line, no questions yet."阶段 2:草稿。 把概念清单喂回去,要求每个概念出一道题。因为概念已经明确,模型就无法偏离到无关话题上。
Stage 2:
"Using the concept list above, write 1 MCQ per concept.
Follow the MCQ rules from my earlier prompt.
Do not invent new concepts. If a concept cannot become a fair MCQ, mark it 'skip'
and explain why in one line."阶段 3:审校。 在第三次调用里,让模型对照一张清单自查输出。你会惊讶于它自己发现的问题有多少。
Stage 3:
"Review the 20 MCQ above. For each, check:
1. Is the correct answer actually correct?
2. Are all distractors plausible?
3. Does the stem give away the answer?
4. Is there vocabulary above the target grade level?
Return a table: question number, issues found, suggested fix."多阶段提示词会多花大约三倍时间,但质量通常会提升一个数量级。对任何需要反复使用的测验,比如标准化练习集或入职测试,这笔额外成本第一次就能收回。AI 测试生成器 和 考试制卷工具 这类工作流受益最明显,因为每道题的成本更高。
常见错误与修正方法
即便提示词结构稳固,下面这五个反复出现的错误仍会悄悄拉低质量。每个都有一行解决方案。
- 含糊的难度描述。 "难"本身没有意义。请换成具体锚点,比如"相当于 AP Biology 论述题水平"或"B2 读者 30 秒内应能作答"。
- 没有干扰项规则。 没规则,选择题的干扰项就会退化成随机答案。务必指明所需干扰项类型(常见误解、部分正确、错误范围、错误单位)。
- 允许"以上都是"。 这个选项奖励瞎猜,几乎永远是偷懒的干扰项,必须明确禁用。
- 题干句式重复。 模型特别喜欢用"Which of the following..."开头,加一条约束:"Vary question stems, no more than 2 questions may share an opening phrase."
- 没有输出结构。 如果你打算把测验粘贴进工具,就要求 JSON 或严格编号格式。自由散文式输出解析起来非常痛苦。
如果你正在批量生成测验,建议把这些规则写进 AI 测验生成器 的模板里保存下来,以后就不必每次重打。
提示词速查表
把这张表抄进你的笔记里。每一行都是经过生产验证的模式,一分钟之内就能改造成你自己的版本。

| 场景 | 模板 | 关键约束 |
|---|---|---|
| K-12 课堂选择题 | "Create [N] MCQ on [topic] for [grade] students. 4 options, 1 correct. 1-sentence explanation." | 禁用 all of the above;打乱正确答案位置;明确干扰项类型 |
| 企业培训 | "Create [N] scenario-based MCQ for [role] on [policy/skill]. Each stem is a 2 to 3 sentence mini-case." | 第二人称语气;真实职场情境;包含一项"棘手的两难"干扰项 |
| 语言学习 | "Create [N] fill-in-the-blank sentences for [CEFR level] learners of [language] practicing [grammar point]." | 严守 CEFR 等级;无不规则变形;给出允许使用的词汇 |
| 考试备考 | "Create [N] MCQ modelled on [exam name] for [subject, year]. Match the exam's stem length and difficulty distribution." | 引用该考试风格指南;含 20% 的"陷阱题";不放送分题 |
| 入职测试 | "Create [N] true/false + [N] short-answer on [company process]. Base exclusively on the attached SOP." | 禁止外部知识;答案可追溯到 SOP;标记歧义章节 |
| 自学闪卡 | "Create [N] short-answer questions on [topic] at [level]. One concept per card, answer under 40 words." | 不出复合问题;解析用学习者友好的第二人称 |
关键要点
- 一条强力的提示词一定包含四块:主题、受众、格式、约束。少任何一块,质量退化都有迹可循。
- 主题精度是杠杆最大的一个环节。不断收窄,直到"两份完全不同的测验都能满足"不再成立。
- 受众校准关注阅读水平、已有知识和语气。年级和 CEFR 等级是你最好的盟友。
- 每种题型都需要专属脚手架:选择题要干扰项规则,判断题要"翻转事实"规则,填空题要词汇范围,简答题要评分标准。
- 多阶段提示词(大纲、草稿、审校)多花时间,但输出的质量可复现、可复核。
- 把你的规则沉淀为可复用的模板,别每次从零重写。
如果你已经准备好从阅读切换到实操,现在就打开生成器,把速查表里任意一行当作起点贴进去。照着迭代下去,质量会立刻上一个台阶。

