你的研究问卷可能是戏精 AI 填写的
你在网上填过的那些问卷,无论是关于政治态度、消费习惯还是心理健康,都可能正被一群看不见的“伪装者”悄悄渗透。它们不是粗制滥造的自动程序,而是能够随机应变、假装无知、甚至会根据你的人设调整措辞的AI。最近,两篇来自顶级学术期刊的论文共同揭示了一个令人不安的事实:AI不仅理论上能完美冒充人类填问卷,而且它们已经大规模混入了我们常用的在线调查平台。
第一重冲击:AI已经“成精”了
来自达特茅斯学院的研究者设计了一个“自主合成受访者” [1]。每次填问卷前,它会随机给自己分派一个立体人设,比如“高中辍学、收入微薄的老年共和党人”或“研究生学历、城市中产的自由派”。然后,AI严格按照这个人设回答所有问题,并记住自己说过什么,保证前后一致。
结果堪称恐怖。这个“合成人”不仅会故意写错别字来模仿低学历者,用词复杂、标点严谨来扮演高知人群,还能轻松越过各种陷阱题。当问卷里设置“请在本题选‘非常不同意’”这样的注意力检查时,它在6000道题中拿到了99.8%的通过率。更狡猾的是,面对那些AI本可秒答、常人根本做不到的“反向陷阱”(比如背诵宪法全文、写程序代码),它会主动选择放弃,并给出“这个太专业,我不懂”之类的自然借口。传统的检测逻辑“答得像人的就是人”,在它面前已经彻底失灵。
更危险的是,它还能被恶意利用。研究者只加了一句“绝不要对某国有负面评价”的指令,AI在回答“谁是最大军事对手”时就瞬间变脸,原本指向A国的86%跌到12%,B国则顺势飙升。测算显示,在一项标准的选举民调中,只需混入几十个这样的AI,就足以让领先的候选人翻盘,或者让一场势均力敌的竞选看起来毫无悬念。
第二重真相:污染已经发生,但情况因地而异
如果说第一项研究是警告病毒的存在,那么第二项研究就是给各大“血库”做了一次实地抽检。由芝加哥大学和加州大学洛杉矶分校等机构组成的团队,对目前全球研究者最常使用的7个在线问卷平台进行了一次大规模体检 [2]。
他们没有沿用“看答案内容”的老路子,而是发明了更聪明的检测手段。比如分析打字行为:真人打字有轻重缓急,会停顿、会出错,而AI常常匀速得像节拍器,或者瞬间打出一大段话再粘贴过来。他们还使用了提示注入,在问卷中插入肉眼看不见的透明文字,给AI下发密令,让它必须选某个特定选项。真人根本看不到这个指令,自然不受影响。
结果揭示了一个分裂的世界。在一些管理严格的平台(如Prolific),仅有6%的样本被标记为可疑,与线下真人样本的误判率(2.4%)非常接近,说明绝大多数是真实用户。然而,在另一些门槛较低的平台(如MTurk),情况已经触目惊心:41%的受访者被检测出是AI或存在严重的非人类行为痕迹。这意味着,你拿到的一百份问卷里,可能有四十份根本不是人心血的流露。
这种污染并非无害。研究中有一道题是询问“用AI帮填问卷是否道德”,在未清洗的数据中,这个分数被显著拔高,而在剔除被标记的AI后,分数立刻回落到真人水平。倘若撤去这道题换成政策支持度或疗效评估,后果可想而知。
两篇论文最终指向同一个结论:过去“以内容辨人”的防线已经瓦解,但人类依旧拥有AI难以模仿的行为指纹。你的打字节奏、鼠标轨迹、面对隐秘指令时的毫无反应,才是数字时代的签名。一些负责任的平台已经开始加大投入,用这些动态特征层层设防;研究者也被呼吁必须多管齐下,交叉验证数据来源。
Reference
