麻省理工学院最新发现:AI模型存在“以貌取人”视觉偏见

发布时间:2026-02-26 19:48  浏览量:1

这项由麻省理工学院媒体实验室领导,联合印度BITS Pilani大学和达特茅斯学院的研究发表于2026年2月,研究编号为arXiv:2602.15278v1。有兴趣深入了解的读者可以通过该论文编号查询完整论文。

当我们在网上购物时,一张精美的产品照片往往比干巴巴的文字描述更能打动我们。但你是否想过,现在那些帮我们做决定的AI助手,也会像人类一样被图片的"颜值"所影响?研究团队发现了一个令人意外的现象:当前最先进的视觉语言模型在做选择时,竟然也会被图片的视觉呈现方式严重影响,即使被比较的物品本质上完全相同。

这就好比你让一个朋友帮你在两把完全相同的椅子中选一把,仅仅因为其中一把被摆放在豪华的地中海别墅背景中,而另一把只是简单地放在白色背景前,你的朋友就会毫不犹豫地选择前者。这种现象不仅发生在人类身上,现在连我们信任的AI助手也难以幸免。

研究团队通过大规模实验验证了这个现象。他们测试了9个最先进的视觉语言模型,包括GPT-4o、Claude、Gemini等我们日常使用的AI助手。实验覆盖了四个真实场景:酒店预订、房产选择、求职招聘和产品购买。结果显示,仅仅是改变图片的背景、光照或构图,就能让AI模型的选择概率发生20%到40%的巨大变化。这意味着,如果你让AI助手帮你选择两个本质相同的商品,仅仅因为卖家使用了更精美的产品图片,AI就可能做出偏向性的推荐。

更令人惊讶的是,研究团队还开发了一套"视觉优化"方法,能够系统性地操控这些AI模型的视觉偏好。他们发现,通过在图片中添加植物、调整为温暖的金色光照、增加人物元素或改变构图方式,就能显著提高某个选项被AI选中的概率。这就像掌握了一套"美颜滤镜"的使用秘籍,能够让任何普通的商品照片瞬间变得更有吸引力。

一、AI模型的视觉偏见是如何被发现的

要理解AI模型的视觉偏见,我们需要先了解什么是视觉语言模型。简单来说,这些模型就像一个能够同时"看"和"读"的超级助手。当你给它展示一张图片并询问相关问题时,它能够理解图片内容并用文字回答你。但问题就出现在这个"理解"过程中。

研究团队设计了一个巧妙的实验来检验这些AI助手的选择偏好。他们从四个日常生活场景中收集了大量图片:亚马逊上的产品照片、房地产网站的房屋图片、求职网站的候选人照片,以及酒店预订网站的客房图片。然后,他们让AI模型在相似的选项中做出选择,比如让AI在两家看起来差不多的酒店中推荐一家给客户。

关键在于,研究团队并没有改变这些物品的本质特征。一把椅子还是那把椅子,一个酒店房间的基本布局和设施也没有变化。他们改变的只是这些图片的"包装"方式:背景环境、光照条件、拍摄角度、周围的装饰物品等等。这就像同一个人在不同光线下拍照,或者在不同背景前拍照,人还是同一个人,但给别人的印象可能截然不同。

结果让研究团队大吃一惊。即使是最基础的图片美化处理,也能让AI模型的选择发生显著变化。比如,当他们把一个普通的产品照片从单调的白色背景改为温馨的家庭环境时,该产品被AI推荐的概率立即提升了30%以上。这种变化不是偶然的,而是非常稳定和可预测的。

更有趣的是,不同的AI模型虽然在技术实现上各不相同,但它们表现出的视觉偏好却惊人地相似。无论是OpenAI的GPT系列、Anthropic的Claude系列,还是Google的Gemini系列,它们都更偏爱那些经过精心设计的图片。这说明这种视觉偏见并不是某个特定模型的bug,而是当前AI技术普遍存在的一个特征。

研究团队还测试了人类参与者的选择,结果发现人类同样会被这些视觉因素影响,但程度往往没有AI模型那么极端。这提出了一个重要问题:如果我们创造的AI助手比人类更容易被表面现象欺骗,那么当我们把重要决定交给它们时,会发生什么?

二、系统性操控AI视觉偏好的三种方法

发现了AI模型存在视觉偏见后,研究团队进一步开发了三种能够系统性地影响这些偏见的方法。这些方法就像三种不同的"说服策略",能够让AI模型更倾向于选择经过特定处理的图片。

第一种方法叫做竞争性视觉提示优化,可以把它想象成一场"美化比赛"。研究团队设计了一个循环改进的过程:首先让多个AI"评委"对两张图片进行比较,然后根据这些评委的反馈意见,生成改进建议。接着,根据这些建议对落后的图片进行美化处理,再让评委们重新比较。这个过程会持续进行,直到某张图片在多轮比较中都能稳定获胜为止。

整个过程就像一个迭代的美容师工作流程。美容师先看看客户和理想形象的差距,然后制定改进计划,进行相应的处理,再看效果如何,如果还有不足就继续改进。通过这种方式,一张原本普通的产品照片可能经过几轮优化后,就变成了一张能够显著影响AI选择的"魅力照片"。

第二种方法基于视觉反馈下降算法,这种方法更像是一个"专业顾问"的工作方式。它会先分析当前图片的不足,然后生成多个改进方案,每个方案都针对不同的视觉元素进行调整。然后系统会测试这些方案的效果,选择最成功的一个作为新的基准,再在此基础上继续优化。这种方法的优势在于它能够更快地找到有效的改进方向,避免无效的尝试。

第三种方法改编自TextGrad算法,将原本用于文本优化的技术应用到视觉领域。这种方法更注重对整体视觉效果的评估和改进。它会从宏观角度分析图片的吸引力,然后提出系统性的改进建议。比如,如果发现某张酒店图片缺乏温馨感,它可能会建议添加暖色调光照、绿色植物或者舒适的家具元素。

这三种方法在实际应用中都展现出了令人印象深刻的效果。通过这些方法优化的图片,能够让AI模型的选择偏好发生显著变化。更重要的是,这些变化并不是随机的,而是有规律可循的。研究团队发现了一些普遍有效的"美化公式",比如在酒店图片中添加绿色植物和温暖光照,在产品图片中营造生活化场景,在人物照片中使用专业背景等等。

三、令人意外的视觉偏好规律

通过大量实验,研究团队发现了AI模型在不同场景中表现出的一些有趣的视觉偏好规律。这些规律就像一本隐藏的"AI美学指南",揭示了这些模型内心深处的审美标准。

在酒店场景中,AI模型表现出了对"自然奢华风"的强烈偏好。经过优化的酒店图片通常会添加大量绿色植物元素,比如室内树木、花卉装饰或者绿植墙。光照方面,AI更偏爱温暖的金色调,比如夕阳时分的光线或者暖黄色的灯光效果。在家具选择上,天鹅绒扶手椅、大理石桌面、皮质座椅等高档材质的家具更容易获得AI的青睐。有趣的是,在场景中添加穿着正装的服务人员或客人,也能显著提升该酒店被选中的概率。

房地产场景展现了另一套视觉偏好模式。AI模型特别偏爱在黄昏或夜晚拍摄的房屋照片,尤其是那些能够展现室内灯光效果的图片。景观设计方面,修剪整齐的草坪、盛开的花床、成熟的棕榈树等元素都能加分。硬装方面,石材小径、户外厨房、游泳池、火炉等豪华设施的出现会大大提升房屋的吸引力。研究团队还发现,移除画面中的电线杆、路标或车辆等"杂乱"元素,也能提升房屋被选中的概率。

在求职场景中,AI模型的偏好非常明确:专业化程度越高越好。经过优化的求职者照片通常会将休闲装或运动装替换为商务正装,包括西装、领带和眼镜等专业配饰。背景环境也从普通的室内或户外场景改为办公室、会议室或城市天际线等商务环境。构图方面,从全身照改为半身照或头肩照的专业构图更受青睐。甚至连表情也有讲究,从中性或严肃的表情改为自信微笑的表情能够显著提升被选中的概率。

产品场景的优化规律最为丰富多样。AI模型更偏爱那些被置于"生活化场景"中的产品,而不是孤立地摆放在白色背景前。比如,厨具会被放在装修精美的厨房中,周围摆放着新鲜的食材和铜质烹饪器具;背包会出现在户外探险场景中,周围有帐篷、山景或森林背景;家具会被布置在完整的家居环境中,配有植物、纺织品和笔记本电脑等生活用品。

更有意思的是,添加人物元素似乎是一个通用的"加分项"。无论是展示产品使用方法的手部特写,还是正在烹饪的场景人物,这些"人气"元素都能显著提升产品被选中的概率。光照效果方面,金色时光的自然光照、定向阴影、星光闪烁等特殊光效都比平淡的均匀光照更有吸引力。

这些发现揭示了一个重要问题:AI模型虽然在处理视觉信息方面表现出色,但它们的"审美观"可能过于单一化。它们似乎更偏爱那些经过精心设计、符合传统"高端"或"专业"标准的图片,而对那些朴实无华但可能更真实的图片缺乏公正的评价。

四、真实世界中的影响:人类测试结果

为了验证这些发现在现实世界中的意义,研究团队进行了一项涉及154名真实用户的在线实验。结果显示,人类参与者同样会受到这些视觉优化的影响,但程度和模式与AI模型略有不同。

在酒店选择任务中,人类参与者确实更倾向于选择经过优化的酒店图片,但这种偏好没有AI模型那么强烈。有趣的是,人类对某些优化效果的反应甚至比AI更敏感。比如,当酒店图片中添加了真实客人的身影时,人类参与者选择该酒店的概率提升得比AI模型更显著,这可能是因为人类更容易产生社交认同感。

房地产选择方面,人类和AI表现出了相似的偏好模式。大家都更喜欢那些在黄昏时分拍摄、展现了精美景观设计的房屋照片。不过,人类参与者对房屋的实用性特征(如车库、储物空间等)的关注度似乎比AI模型更高一些。

求职场景的结果最为有趣。人类招聘者和AI模型在对专业装束的偏好上高度一致,都更愿意选择穿着正装、在办公环境中拍摄的候选人照片。但人类招聘者对面部表情的敏感度似乎更高,那些展现自信微笑的候选人照片在人类评审中获得了更高的选择率。

产品选择任务中,人类消费者表现出了与AI相似但更加微妙的偏好。他们同样更偏爱那些被置于生活化场景中的产品,但对于过度华丽的布置反而会产生一定程度的质疑。这种差异可能反映了人类在购买决策中更复杂的心理过程,包括对价格、实用性和真实性的综合考量。

更重要的发现是,当研究团队将优化后的图片与原始图片进行直接对比时,人类参与者选择优化版本的概率在不同任务中从48%到68%不等。这意味着这些视觉优化技术不仅能够影响AI模型,在现实商业环境中同样具有显著的影响力。

这些结果提出了一个重要的伦理问题:如果这些视觉优化技术既能影响AI也能影响人类,那么掌握这些技术的商家就获得了不公平的竞争优势。一个使用精美图片的普通产品可能会击败一个使用朴素图片的优质产品,这种情况下,消费者(无论是人类还是AI)的选择可能偏离了他们的真实需求和利益。

五、自动解读AI审美偏好的创新方法

面对大量的实验数据和优化结果,研究团队还开发了一套自动化的解读系统,用来理解这些视觉优化背后的规律。这个系统就像一个"AI心理学家",能够分析和总结AI模型的视觉偏好模式。

这套解读系统的工作原理颇为巧妙。首先,它会仔细比较每一对原始图片和优化后的图片,识别出所有的视觉变化,比如"添加了绿色植物"、"改为暖色光照"、"增加了人物元素"等等。然后,系统会将这些具体的变化描述进行智能归类,寻找共同的模式和主题。

比如,在酒店场景中,系统发现了几个反复出现的优化主题:生物亲和性整合(添加绿植墙、室内树木、花卉装饰等)、豪华家具与纺织品升级(天鹅绒扶手椅、大理石桌面、图案抱枕等)、温暖环境光照调节(琥珀色光芒、金色固定装置、吊灯等)、建筑表面增强(壁画、木质镶板、金色立柱等)。这些发现帮助我们理解了AI模型对酒店环境的理想化想象。

在房地产场景中,系统识别出了黄昏光照转换、豪华便利设施添加、茂盛植物景观、结构外观和家具修饰、实用设施和障碍物移除等主要优化主题。这些模式表明,AI模型偏爱那些展现"理想生活方式"的房屋图片。

求职场景的分析结果最为直接:专业服装替换、企业环境背景转换、肖像裁剪和姿势调整、积极专业表情更新、商务办公用品添加。这些发现证实了AI模型对"职场成功人士"形象的刻板印象。

产品场景的模式分析揭示了向生活方式环境转换、有机功能道具搭配、环境光照和视觉效果、人物主体和活动整合、产品内部内容展示等优化主题。这表明AI模型更偏爱那些能够讲述"生活故事"的产品图片。

通过这种自动化分析,研究团队不仅节省了大量手工分析的时间,还发现了一些人类研究者可能忽略的细微模式。更重要的是,这套系统能够快速适用于新的场景和数据,为未来的相关研究提供了有力的工具。

这种自动化解读能力的价值不仅在于科学研究,也为实际应用提供了指导。电商平台可以利用这些发现来改进他们的图片质量评估系统,确保所有商家都有公平的展示机会。招聘平台也可以据此开发更加公正的候选人评估机制,减少视觉偏见对求职成功的影响。

六、缓解视觉偏见的尝试与挑战

认识到这些视觉偏见可能带来的问题后,研究团队尝试开发了一些缓解策略。他们的核心思路是在AI做出选择之前,先对比较的图片进行"视觉标准化"处理,就像给不同的候选人穿上统一的"制服",让比较更加公平。

这种图像标准化方法的工作原理类似于体育比赛中的统一装备要求。在比较两张图片时,系统首先会分析它们在光照、背景、构图等方面的差异,然后生成调整指令,试图将这些差异降到最低。比如,如果一张产品图片使用了豪华的室内背景,而另一张使用了简单的白色背景,系统会尝试将两者都调整为中性的背景环境。

实验结果显示,这种标准化处理确实能够在一定程度上减少AI模型的选择偏见。经过标准化处理后,AI选择不同图片的概率差异明显缩小,从原来的显著偏向某一方变为相对平衡的选择分布。这证明了视觉因素确实是导致AI偏见的重要原因。

但这种解决方案也带来了新的挑战。首先,过度的标准化可能会消除一些确实有意义的视觉信息。比如,在比较两个酒店时,如果一个酒店确实位于风景更美的地方,那么移除这种环境差异可能会让比较失去意义。其次,标准化过程本身也可能引入新的偏见,因为系统需要决定什么样的"标准"才是公平的。

研究团队测试了不同强度的标准化处理,发现适度的标准化(经过3轮迭代处理)能够在保持图片基本信息的同时,显著减少不相关视觉因素的影响。但即使是最优的标准化处理,也无法完全消除所有的视觉偏见,这说明这个问题比预想中更加复杂和根深蒂固。

另一个有趣的发现是,标准化处理不仅影响了AI模型的选择,也影响了人类参与者的选择。经过标准化处理的图片对比中,人类参与者的选择分布也变得更加平衡。这表明视觉偏见不仅存在于AI系统中,也深深植根于人类的认知过程中。

这些结果引发了一个更深层的思考:我们是否应该完全消除这些视觉偏见?在某些情况下,这些偏见可能反映了真实的价值判断,比如偏爱更加专业的求职者照片或更加整洁的房屋图片。挑战在于如何区分那些反映合理偏好的视觉因素和那些可能导致不公平结果的表面特征。

七、深层原因分析与技术局限性

为了更好地理解这些视觉偏见产生的根源,研究团队深入分析了当前AI模型的技术特征和训练过程。他们的发现揭示了一些令人深思的技术局限性。

当前的视觉语言模型主要通过分析互联网上的大量图片和文本数据来学习。在这个过程中,模型不可避免地会学习到人类在创建和分享内容时的偏好模式。比如,在社交媒体和电商平台上,那些经过精心设计、视觉效果更好的图片往往会获得更多的点赞、分享和购买,这些信号被模型理解为"高质量"或"受欢迎"的标志。

这就造成了一个循环强化的过程:模型学习了人类的视觉偏好,然后在应用中进一步强化这些偏好,而这些强化的结果又会影响新内容的创建和传播。这种循环可能导致视觉标准的进一步单一化和极端化。

研究团队还发现,不同的AI模型虽然在架构和训练方式上有所不同,但它们表现出的视觉偏好却非常相似。这说明这些偏见可能源于训练数据的共同特征,而不是特定算法的问题。无论是OpenAI、Anthropic还是Google开发的模型,它们都倾向于选择那些符合传统"高端"或"专业"标准的图片。

这种一致性既是问题也是机会。问题在于,如果所有主流AI模型都存在相似的偏见,那么这些偏见在实际应用中的影响会被放大。但同时,这种一致性也意味着针对这些偏见的解决方案可能具有广泛的适用性。

技术层面的分析还揭示了另一个重要问题:当前的AI模型在处理视觉信息时,往往更关注那些在训练数据中频繁出现的视觉模式,而对那些不常见但可能同样重要的视觉特征敏感度较低。这就像一个只在城市里生活过的人,可能很难公正地评价乡村风景的美丽一样。

研究团队通过对比实验发现,当他们故意使用那些在训练数据中不常见的视觉风格(比如极简主义的产品照片或非传统的肖像构图)时,AI模型的表现会变得不够稳定,这进一步证实了模型对训练数据分布的依赖性。

这些发现对AI技术的未来发展具有重要意义。它们提示我们,单纯增加模型的规模和复杂度可能无法根本解决偏见问题。相反,我们需要更加关注训练数据的多样性和代表性,以及模型评估机制的公平性。

八、现实应用场景的深远影响

这项研究的发现对多个现实应用场景都具有深远的影响,其中一些影响可能会重塑我们对AI辅助决策的理解和使用方式。

在电商领域,这些发现具有直接的商业影响。如果AI购物助手更偏爱经过特殊视觉处理的产品图片,那么那些有能力聘请专业摄影师和图像设计师的大品牌就会获得不公平的竞争优势。一个质量优秀但图片朴素的小众品牌产品,可能会在AI推荐系统中被系统性地忽视。这种情况可能会加剧市场集中度,让小企业更难获得公平的曝光机会。

招聘领域的影响更加敏感。如果AI招聘系统更偏爱那些使用专业背景、穿着正装的求职者照片,那么这可能会对不同社会经济背景的求职者造成系统性的不公平。一个优秀但经济条件有限的求职者,可能仅仅因为没有专业的求职照片而在AI初筛环节被淘汰。这种偏见可能会加剧就业不平等,特别是对那些本来就处于劣势地位的群体。

房地产市场中,这些发现揭示了另一个层面的问题。如果AI房产推荐系统更偏爱那些在黄昏时分拍摄、经过精心布置的房屋照片,那么那些拍照技术较差或营销预算有限的房产中介和个人卖家就会处于不利地位。更重要的是,这可能会误导购房者的决策,让他们过分关注房屋的拍摄效果而忽视实际的位置、结构和价值。

在旅游和酒店预订领域,视觉偏见的影响同样不容忽视。那些投资了专业摄影服务、精心设计了室内装饰的酒店,在AI推荐系统中会获得更多的曝光和预订。而一些可能提供更好服务、更实惠价格但图片呈现较为朴素的酒店,则可能被AI系统忽视。这种情况可能会推高旅游成本,并导致游客错过一些真正有价值的住宿选择。

更广泛地说,这些发现对我们如何使用AI辅助决策提出了重要警示。当我们越来越依赖AI助手来帮助我们做各种选择时,我们需要意识到这些系统可能带有的视觉偏见。一个看似客观的AI推荐,实际上可能受到了大量主观的视觉偏好影响。

这种影响不仅限于个人决策。当企业、政府机构或其他组织开始大规模使用AI系统来处理涉及视觉内容的决策时,这些偏见的影响会被成倍放大。比如,如果一个城市规划部门使用AI系统来评估不同的建筑设计方案,那么系统的视觉偏好可能会影响整个城市的面貌。

研究团队特别指出,这些偏见的危险性还在于它们的隐蔽性。与明显的算法歧视不同,视觉偏见往往被包装在"提升用户体验"或"优化推荐质量"的外衣下,让人难以察觉。用户可能会以为自己得到了更好的推荐,而实际上只是被引导去选择那些在视觉上更符合AI模型偏好的选项。

九、未来研究方向与技术改进路径

基于这些发现,研究团队提出了几个值得进一步探索的研究方向和可能的技术改进路径。这些方向不仅能够帮助我们更好地理解视觉偏见的机制,也为开发更公平的AI系统提供了指导。

首先,研究团队认为需要深入研究视觉偏见的认知机制。目前我们知道这些偏见存在,也知道它们会产生什么影响,但对于它们在AI模型内部是如何形成和运作的,我们的理解还不够深入。通过分析模型的内部表示和注意力机制,我们可能能够找到更精准的干预点,而不是简单地在外部进行图片标准化处理。

数据多样性的提升是另一个重要方向。研究结果表明,当前AI模型的视觉偏见很大程度上源于训练数据的偏斜分布。如果我们能够构建更加多样化、更具代表性的训练数据集,包括来自不同文化背景、经济水平和审美传统的图片,那么模型可能会学习到更加平衡的视觉偏好。

评估机制的改进也是关键所在。目前大多数AI模型的评估都专注于准确性指标,比如能否正确识别图片内容或回答相关问题。但这些评估往往忽视了公平性问题。研究团队建议开发新的评估框架,专门测量模型在不同视觉风格下的表现一致性,将公平性作为模型质量的重要指标。

技术创新方面,研究团队提出了几个可能的改进方向。一个是开发"风格无关"的视觉编码器,这种编码器能够将图片的内容信息和风格信息分离,让模型主要基于内容而不是风格做出判断。另一个是设计对抗训练机制,通过让模型同时处理原始图片和经过风格转换的图片,提升其对视觉风格变化的鲁棒性。

跨文化研究也是一个重要的扩展方向。当前的研究主要基于西方文化背景下的视觉标准,但不同文化对美和质量的定义可能存在显著差异。通过在不同文化背景下重复这些实验,我们可以更好地理解视觉偏见的文化特征,并开发出更具文化适应性的AI系统。

实时监控和调整机制的开发也具有重要的实用价值。研究团队建议开发能够实时检测和纠正视觉偏见的系统,这些系统可以集成到现有的AI应用中,在发现偏见行为时自动进行调整。这种机制就像一个内置的"公平性检查器",能够在不影响用户体验的情况下提升系统的公平性。

用户教育和透明度提升也是不可忽视的方面。研究团队认为,用户有权知道他们使用的AI系统可能存在什么样的偏见,以及这些偏见可能如何影响他们收到的推荐或建议。通过提供更透明的信息,用户可以在充分了解的基础上做出更好的决策。

最后,跨学科合作被认为是解决这个复杂问题的关键。视觉偏见问题涉及计算机科学、心理学、社会学、美学等多个领域。只有通过跨学科的深度合作,我们才能全面理解这个问题的各个层面,并开发出真正有效的解决方案。

说到底,这项研究揭示了AI技术发展中一个既重要又容易被忽视的问题。我们创造的这些AI助手虽然在很多方面超越了人类的能力,但它们也继承和放大了人类的某些偏见。认识到这一点,我们就能更明智地使用这些工具,既享受它们带来的便利,又避免被它们的局限性所误导。

这个发现也提醒我们,技术的进步不应该只追求性能的提升,更应该关注公平性和包容性。只有这样,我们才能创造出真正服务于所有人的AI系统,而不是只为少数掌握了"视觉优化技巧"的人服务。归根结底,我们希望AI能够帮助我们做出更好的决定,而不是被表面的包装所迷惑。在这个视觉信息爆炸的时代,保持这种清醒的认识比以往任何时候都更加重要。

Q&A

Q1:视觉语言模型的偏见主要表现在哪些方面?

A:视觉语言模型的偏见主要表现在对图片视觉呈现方式的强烈偏好上。研究发现,即使内容完全相同,仅仅改变图片的背景、光照或构图,就能让AI的选择概率发生20%到40%的变化。比如同一把椅子,放在豪华环境中就比放在白色背景前更容易被选中。

Q2:这种视觉偏见会对现实生活产生什么影响?

A:这种偏见会在多个领域产生不公平的影响。在电商中,大品牌因为有专业摄影师会获得不公平优势;在招聘中,经济条件好能拍专业照片的求职者更容易通过AI初筛;在房地产中,会拍照的中介比实际房源质量更重要。这可能加剧市场不公平和社会不平等。

Q3:有什么方法可以减少视觉语言模型的这种偏见吗?

A:研究团队测试了图像标准化方法,就是在AI做选择前先统一处理图片的视觉风格,类似于让所有候选人穿统一制服。这种方法能够在一定程度上减少偏见,但无法完全消除。更根本的解决方案可能需要改进AI的训练数据和评估机制。