以下文章来源于全球社会学精选,作者Sociology精选
撰文:王再越
责编:钟雨奇
文章出处
今天我们来推送 2025年7月发表在 《Annual Review of Sociology》的文章 《Survey Experiments in Sociology》。
这篇综述文章由Ariel Schachter(华盛顿大学)和Katherine Weisshaar(北卡罗来纳大学教堂山分校)联合撰写。
引言
Introduction
以若干具体社会学问题开篇(例如:白人如何进行种族分类、育儿暂时离职者重返劳动市场的困难、举报性骚扰的惩罚、对跨性别者医疗拒绝的态度等),指出这些研究都使用了survey experiments(调查实验)作为方法。
调查实验是社会学家研究因果研究问题的一种强大但未被充分利用的工具。
定义:survey experiments = 在调查问卷中嵌入实验操纵,其核心是利用随机分配以实现因果推断。
对比:观测研究寻求控制混杂因子但难以完全排除偏倚;实验(通过随机分配)能在内部实现因果识别。
文章目标:将探讨调查实验独特的适用条件、挑战和局限性,并提供一份实践指南,最后对调查实验在社会学研究中的未来进行反思
何时调查实验“独具用武之地”
When are survey experiments uniquely useful?
作者给出四类情形,并逐一展开说明与举例:
情形 1:结果(outcome)最好或只能通过问卷项目表示
典型结果:态度、信念、认知判断、未实现的计划或意向(例如生育意愿、偏好)。
对抗社会期望偏差:通过同时操纵多个处理因素(例如,使用联合实验),调查实验可以分散研究焦点,从而帮助减轻社会期望偏差,允许受访者表达可能具有社会负面性的真实观点(例如,关于非法性或阿片类药物滥用者的刻板印象)。
测量本身的影响:调查实验可用于证明对结果的测量方式本身如何影响研究发现,例如不同民族/种族分类方式对身份认同的影响,或评分量表属性对性别偏见的影响。
优点:将代表性样本/子群比较的优势与实验因果识别结合。
举例:有关父母假政策如何影响性别分工态度、对跨性别拒绝医疗的态度、信息纠正如何影响学区整合支持等研究。
情形 2:实验操控在现实中不可能或不伦理
有些处理在真实环境操控会造成伤害或不当(例如故意煽动偏见、分配医疗资源等),在问卷中以假设情境模拟可解决伦理问题。
举例:测试同性或异性性接触对个体性取向分类的影响;或者操纵儿童出生时指定的性别和其表现出的男性/女性化行为来研究性别分类;或操纵常见疾病的基因风险评分来测量人们的反应。
情形 3:反事实包含不常见的组合,或需要“其他条件均相同”的比较(all-else-equal)
当要分离同时共同出现的多个特征(例如肤色、祖源、文化线索)时,实验能独立操控每一特征,提供清晰比较。
举例:conjoint 或 factorial 设计用于拆解多个共现信号的独立或交互效应(如种族分类、雇用歧视的不同来源)。
情形 4:假设需要在多个子群之间比较或需要大样本以保证统计功效
survey experiments 可以嵌入大型或代表性样本,便于检验异质性效应(heterogeneous treatment effects)。
举例:通过大样本检验不同政治子群、族群或性别如何对同一操控产生不同反应(例如移民权利话语在不同意识形态群体中的效应异质性)。
总结:多数成功的调查实验同时满足上述两项或以上条件,因此适配性强。
何时要谨慎
When to be cautious about using survey experiments?
并非所有问题都适合调查实验:
需要先判断是否为清晰的因果问题并有明确理论预测;实验适合检验假设而不适合太过探索性的问题。
问题是否能在问卷中被恰当测量?
行为性结果的测量需要谨慎设计(例如是否能嵌入真实的行为结果或合适的替代行为指标)。
当问题更聚焦于社会情境或互动过程:
可能现场(field)或实验室(lab)实验更合适。不能仅仅因为问卷易得就选择survey experiment。
对常见批评的简短反思
Brief reflections on common critiques
作者回应了若干常见批评,并给出对应说明或证据:
“调查实验不现实”—— 有研究(如 Hainmueller et al. 2015)表明调查实验可与现实行为估计接近;且目标常是内部效度与理论检验。
“不适合研究行为”—— 需要考量被试对任务的理解、调查情境与现实利害不同,以及能否设计行为性指标(如订阅、捐赠等嵌入式行为)。
“需求效应(demand bias)”—— 设计(如conjoint、between-subjects)可部分缓解,另有方法论进展。
“线上样本不可信”—— 样本质量参差,需按最佳实务避免机器人/低质反应、并选择合适样本以匹配理论目标群体。
实务指南
Best practices: So you want to do a survey experiment?
实验设计(Experimental design):
随机分配是核心:决定需要比较哪些条件(control vs treatments 或多 treatment 比较)应由理论驱动。
常见设计类型(及适用情境):
Vignette(情景)实验:适用于检验信息框架或累积信息的总效应,但若句子/段落整块变化则难以隔离具体维度。
Factorial 实验:操控多个因素并完全交叉,有利于检测交互效应(但条件数随因子增长迅速增加)。
Conjoint 实验:测试多种处理的独立累加效应,常用于偏好或差别对待研究;通常关注平均边际成分效应(AMCE)。
Within- vs Between-subjects:大多数survey experiments是between-subjects;within-subjects能提高效率并适合某些中介分析,但设计挑战不同。
处理与问项措辞(Developing treatments and survey items):
平衡现实主义、外部有效性与简洁性、内部有效性:复杂现实情境虽更真实,但在问卷中可能降低可识别性或被试注意力。优先确保处理能在问卷情境中有效影响被试(即产生可观测的处理效应)。
建议:参考已有最佳实践(例如用于操控种族/阶级的名字或照片),并以简单、明确为主以保证内部效度。
关注:第一个在处理后测量的因变量是“完全因果识别”的结果;后续量测可能受其他非处理因素影响。
从设计到实施(Pretesting, sample, preregistration)
预试(pretesting):用方便样本测试处理是否按意图工作(包括操控检验/开放式问题,或小规模试点以估计效应量)。但警惕在预试后不断调整以追求显著性的风险。
样本选择:基于理论目标群体(Lundberg et al. 框架)来选择样本;在代表性、样本规模与目标群体匹配之间做权衡。对研究问题聚焦小众群体时,优先考虑样本匹配。
功效分析(power analysis):实验必须考虑到样本大小与可检测效应度的关系;若目标是发现小效应,应保证足够样本。
预注册(preregistration):强烈建议以提升透明度并降低事后挖掘显著性的风险。
分析与其他注意点(Analysis and other considerations):
关于是否使用抽样权重:当前建议报告未加权的样本平均处理效应(SATE),并在可能时报告加权的总体平均处理效应(PATE);若两者不一致需讨论原因(权重、选择偏差、异质效应等)。
控制变量的使用:在随机分配下,控制变量不改变处理的无偏估计,但可减少标准误;作者同时提醒在某些情形下加入协变量可能带来偏差。
交互效果与异质性:交互效应常常统计功效不足;可借助机器学习或新方法估计异质处理效应(Athey & Imbens 等方法)。conjoint 设计的交互效应估计有其特别挑战,已有最新方法论进展可借鉴。
进行调查实验时的常见陷阱
Brief discussion of common pitfalls
作者列出若干实践中常见的陷阱并给出提醒:
透明度不足:若缺乏设计细节(排除逻辑、问题顺序、操控文本等),难以评估可信度 — 建议利用补充材料和预注册。
多元素共变的比较:若不同处理同时变动多个元素,因果解释受限;设计应与欲主张的因果声明一致。
只有第一个处理后的问题是完全因果识别的结果,后续问题须谨慎解释。
样本过大导致滥用显著性(p-hacking)或样本不足导致错误地将非显著解读为无效应,两者皆需避免。
优先内部效度与清晰设计,并通过与其他方法三角互证(triangulation)提升外部效度。
结语与未来展望
Concluding thoughts
作者对未来的几点观察与建议:
鼓励采用重复横截面与面板设计来研究时间维度上的变化与处理的持久性(例如#MeToo相关研究的多波次实验)。
倡导更周延的抽样策略以便研究情境效应(如在学校情境内对教师进行分层抽样)。
强调混合方法的潜力:将调查实验与质性研究、文本分析、数字踪迹数据结合可产生更丰富解释力(例如使用结构性主题建模分析开放式文本)。
呼吁社会学界积极参与并跟进其他学科(政治学、心理学)在实验方法论上的创新与批判性对话。
指出AI(例如大型语言模型)和自适应实验设计为未来研究工具与方法的扩展方向。
最后强调:调查实验在社会学仍被低估,学科需增强这方面的能力与评估标准,避免仅靠跨学科外部发展。
反思
从“问卷里的实验”到“实验里的社会”,这篇文章提醒我们:科学研究并非都要穿白大褂、进实验室。社会学家同样能用问卷中的小小情境,揭开我们对性别、族群、阶层的潜在偏见。
或许下次再看到那些“你会怎么选择?”的题目时,我们都可以多想一步——你的回答,不只是选择,更是一面映照社会逻辑的镜子。
参考文献
Schachter, A., & Weisshaar, K. (2025). Survey experiments in sociology. Annual Review Of Sociology, 51(1), 149–169. https://doi.org/10.1146/annurev-soc-083024-070113
「全球社会学精选」Global Sociology Digest (GSD) 汇聚全球知名高校的社会科学学者,持续推送高质量学术成果,追踪国际会议动态,解读社会热点议题,并分享实用的研究方法、升学经验与科研心得。我们致力于打造一个推动思想交流、经验分享与知识共进的社科平台。
扫码加入我们
获得更多资讯