兄弟们,咱就是说,最近AI圈又炸出个大新闻!在上海科技大学屠可伟教授的带领下,一群学霸直接在计算语言学界的“奥斯卡”——ACL 2023(国际计算语言学学会年会)上,把杰出论文奖给抱回来了!这篇超硬核的论文叫《Do PLMs Know and Understand Ontological Knowledge?》,翻译过来就是“预训练大模型到底知不知道、理不理解‘本体知识’?”听起来是不是有点抽象?别急,今天咱们就用最接地气的话,把这个高大上的研究掰开了、揉碎了,给你讲得明明白白,让你也能跟朋友吹一波“我懂AI的底层逻辑了”!
首先,咱们得搞清楚啥是“本体知识”。你可以把它想象成世界的“说明书”或者“族谱”。比如,“狗”是一种“动物”,“动物”有“四条腿”、“会叫”这些属性;而“金毛”又是“狗”的一种。这种“是什么”、“有什么”、“属于哪一类”的知识体系,就是本体知识。它是人类构建常识、理解世界的基础。那么问题来了,现在那些无所不能的大模型,比如ChatGPT,它们肚子里装了这么多数据,是真的理解了这套“世界说明书”,还是只是在玩高级的文字接龙呢?这正是上科大团队要搞明白的核心问题。
为了验证这一点,他们设计了一套超精细的探测方法。简单来说,就是给大模型出各种刁钻的“考题”。比如,问它“企鹅是不是鸟?”(是),再问“企鹅会不会飞?”(不会)。一个真正理解本体知识的模型,应该能同时回答对这两个问题,并且知道“鸟”这个类别下既有会飞的也有不会飞的特例。研究团队测试了包括BERT、RoBERTa在内的多个主流大模型,结果发现,虽然这些模型在很多任务上表现惊艳,但它们对本体知识的掌握其实是“碎片化”和“浅层”的。它们可能记住了“企鹅-鸟”这个关联,但未必真正理解“鸟”这个概念的完整内涵和边界。这就像是一个背了很多成语但不懂其背后典故和适用场景的学生,看起来很厉害,一深究就露馅了。
说到这儿,肯定有小伙伴想问,不同价位或者说不同规模的模型,在这方面表现有啥区别?这问题问到点子上了!研究团队其实也做了横向对比。他们拿一个参数量较小的BERT-base和一个超大的RoBERTa-large来比。数据显示,在简单的“实体-类别”判断上(比如“苹果是水果吗?”),小模型和大模型准确率都挺高,差距不大。但在处理更复杂的、涉及多跳推理或例外情况的问题时(比如“鸵鸟是鸟,但它为什么不会飞?这是否矛盾?”),大模型的优势就显现出来了。大模型的准确率能比小模型高出15%到20%。这说明,更大的模型容量确实能存储和关联更多的知识碎片,从而在复杂推理上表现更好。不过,即便是最大的模型,也没能做到100%完美,这说明光堆参数不是万能的,模型架构和训练方式可能才是关键。
那这个研究在真实世界里有啥用呢?应用场景简直不要太丰富!举个例子,在智能客服领域,如果一个模型不理解本体知识,用户问“我的iPhone屏幕碎了,能保修吗?”,它可能会机械地回答所有“手机”相关的问题,而忽略了“iPhone”属于“苹果产品”,而苹果的保修政策又有其特殊性。另一个例子是在医疗问答系统里,如果模型只知道“阿司匹林”是一种“药”,但不知道它具体属于“非甾体抗炎药”,有“抗血小板聚集”的作用,那么当患者问“我做完心脏支架手术后能吃什么药预防血栓?”时,模型就很可能给出错误或不完整的答案。上科大的这项研究,就像是给这些AI系统做了一次深度“体检”,指出了它们在知识理解上的短板,为未来打造更可靠、更聪明的AI指明了方向。
当然啦,围绕大模型和知识,网上也有很多误区。最常见的一个就是:“模型参数越多,懂得就越多,理解得就越深。” 上科大的研究恰恰打破了这个迷思。他们的实验证明,模型可能只是记住了海量的文本共现模式(比如“狗”经常和“汪汪叫”一起出现),但这不等于它理解了“狗”作为一种生物的本质属性。另一个误区是:“只要数据够多,模型自己就能悟出真理。” 事实是,网络数据本身就充满了噪声、偏见和错误。如果模型没有一套内在的、结构化的知识框架(也就是本体知识)去甄别和整合信息,它很容易被带偏,变成一个“博学的傻子”。所以,如何让模型从“死记硬背”走向“融会贯通”,是当前AI研究的核心挑战之一。
对于想在这个领域深挖的同学们,这里也分享几个选购“研究方向”或者说避坑的小技巧。第一,别光看模型在标准数据集上的分数,要多关注它在需要常识推理和知识理解的任务上的表现。第二,可以多看看像上科大团队这样做的“探测性研究”(Probing Study),这类工作能帮你穿透模型的表象,看到它内部的真实状态。第三,别迷信大厂出品,有时候高校实验室的创新想法反而更能切中要害。上科大这次获奖就是一个绝佳的例子,本科生吴蔚琪作为一作,博士生蒋承越紧随其后,再加上达摩院的合作支持,这种产学研结合的模式,往往能催生出既有理论深度又有应用价值的成果。
最后,展望一下未来,这个方向会怎么走?我觉得主要有两大趋势。一是“符号+神经”的融合。也就是说,不再指望模型完全从数据里自学成才,而是人为地给它注入一些结构化的知识图谱(这就是符号主义),让它有个扎实的“骨架”,然后再用神经网络去填充血肉。屠可伟教授团队本身就在做这方面的探索。二是“持续学习”和“可解释性”。未来的模型不仅要能回答问题,还要能告诉你“我是根据哪条知识、通过怎样的推理得出这个结论的”。只有这样,我们才能真正信任AI,把它用在医疗、金融等高风险领域。总而言之,上科大这次的获奖研究,不只是一块奖牌,更是打开了一扇窗,让我们看到了通往更智能、更可靠的AI未来的一条清晰路径。
参考资料[1] 本科论文到底要不要查AIGC看完这篇你就懂了! - WZ132降AI率工具
[2] 论文AI查重到底是怎么“识破”你抄的降重神器大揭秘! - WZ132降AI率工具
[3] 本科论文“国检”到底查啥一文说清楚! - WZ132降AI率工具
[4] 贝影论文降重到底靠不靠谱学生党真实体验大揭秘! - WZ132降AI率工具
[5] AI写作神器大揭秘:小发猫、笔神这些工具到底香不香新手也能秒上手! - WZ132降AI率工具