上科大团队ACL2023斩获大奖：揭秘AI到底懂不懂“本体知识”

兄弟们，咱就是说，最近AI圈又炸出个大新闻！在上海科技大学屠可伟教授的带领下，一群学霸直接在计算语言学界的“奥斯卡”——ACL 2023（国际计算语言学学会年会）上，把杰出论文奖给抱回来了！这篇超硬核的论文叫《Do PLMs Know and Understand Ontological Knowledge?》，翻译过来就是“预训练大模型到底知不知道、理不理解‘本体知识’？”听起来是不是有点抽象？别急，今天咱们就用最接地气的话，把这个高大上的研究掰开了、揉碎了，给你讲得明明白白，让你也能跟朋友吹一波“我懂AI的底层逻辑了”！

首先，咱们得搞清楚啥是“本体知识”。你可以把它想象成世界的“说明书”或者“族谱”。比如，“狗”是一种“动物”，“动物”有“四条腿”、“会叫”这些属性；而“金毛”又是“狗”的一种。这种“是什么”、“有什么”、“属于哪一类”的知识体系，就是本体知识。它是人类构建常识、理解世界的基础。那么问题来了，现在那些无所不能的大模型，比如ChatGPT，它们肚子里装了这么多数据，是真的理解了这套“世界说明书”，还是只是在玩高级的文字接龙呢？这正是上科大团队要搞明白的核心问题。

为了验证这一点，他们设计了一套超精细的探测方法。简单来说，就是给大模型出各种刁钻的“考题”。比如，问它“企鹅是不是鸟？”（是），再问“企鹅会不会飞？”（不会）。一个真正理解本体知识的模型，应该能同时回答对这两个问题，并且知道“鸟”这个类别下既有会飞的也有不会飞的特例。研究团队测试了包括BERT、RoBERTa在内的多个主流大模型，结果发现，虽然这些模型在很多任务上表现惊艳，但它们对本体知识的掌握其实是“碎片化”和“浅层”的。它们可能记住了“企鹅-鸟”这个关联，但未必真正理解“鸟”这个概念的完整内涵和边界。这就像是一个背了很多成语但不懂其背后典故和适用场景的学生，看起来很厉害，一深究就露馅了。

说到这儿，肯定有小伙伴想问，不同价位或者说不同规模的模型，在这方面表现有啥区别？这问题问到点子上了！研究团队其实也做了横向对比。他们拿一个参数量较小的BERT-base和一个超大的RoBERTa-large来比。数据显示，在简单的“实体-类别”判断上（比如“苹果是水果吗？”），小模型和大模型准确率都挺高，差距不大。但在处理更复杂的、涉及多跳推理或例外情况的问题时（比如“鸵鸟是鸟，但它为什么不会飞？这是否矛盾？”），大模型的优势就显现出来了。大模型的准确率能比小模型高出15%到20%。这说明，更大的模型容量确实能存储和关联更多的知识碎片，从而在复杂推理上表现更好。不过，即便是最大的模型，也没能做到100%完美，这说明光堆参数不是万能的，模型架构和训练方式可能才是关键。

那这个研究在真实世界里有啥用呢？应用场景简直不要太丰富！举个例子，在智能客服领域，如果一个模型不理解本体知识，用户问“我的iPhone屏幕碎了，能保修吗？”，它可能会机械地回答所有“手机”相关的问题，而忽略了“iPhone”属于“苹果产品”，而苹果的保修政策又有其特殊性。另一个例子是在医疗问答系统里，如果模型只知道“阿司匹林”是一种“药”，但不知道它具体属于“非甾体抗炎药”，有“抗血小板聚集”的作用，那么当患者问“我做完心脏支架手术后能吃什么药预防血栓？”时，模型就很可能给出错误或不完整的答案。上科大的这项研究，就像是给这些AI系统做了一次深度“体检”，指出了它们在知识理解上的短板，为未来打造更可靠、更聪明的AI指明了方向。

当然啦，围绕大模型和知识，网上也有很多误区。最常见的一个就是：“模型参数越多，懂得就越多，理解得就越深。” 上科大的研究恰恰打破了这个迷思。他们的实验证明，模型可能只是记住了海量的文本共现模式（比如“狗”经常和“汪汪叫”一起出现），但这不等于它理解了“狗”作为一种生物的本质属性。另一个误区是：“只要数据够多，模型自己就能悟出真理。” 事实是，网络数据本身就充满了噪声、偏见和错误。如果模型没有一套内在的、结构化的知识框架（也就是本体知识）去甄别和整合信息，它很容易被带偏，变成一个“博学的傻子”。所以，如何让模型从“死记硬背”走向“融会贯通”，是当前AI研究的核心挑战之一。

对于想在这个领域深挖的同学们，这里也分享几个选购“研究方向”或者说避坑的小技巧。第一，别光看模型在标准数据集上的分数，要多关注它在需要常识推理和知识理解的任务上的表现。第二，可以多看看像上科大团队这样做的“探测性研究”（Probing Study），这类工作能帮你穿透模型的表象，看到它内部的真实状态。第三，别迷信大厂出品，有时候高校实验室的创新想法反而更能切中要害。上科大这次获奖就是一个绝佳的例子，本科生吴蔚琪作为一作，博士生蒋承越紧随其后，再加上达摩院的合作支持，这种产学研结合的模式，往往能催生出既有理论深度又有应用价值的成果。

最后，展望一下未来，这个方向会怎么走？我觉得主要有两大趋势。一是“符号+神经”的融合。也就是说，不再指望模型完全从数据里自学成才，而是人为地给它注入一些结构化的知识图谱（这就是符号主义），让它有个扎实的“骨架”，然后再用神经网络去填充血肉。屠可伟教授团队本身就在做这方面的探索。二是“持续学习”和“可解释性”。未来的模型不仅要能回答问题，还要能告诉你“我是根据哪条知识、通过怎样的推理得出这个结论的”。只有这样，我们才能真正信任AI，把它用在医疗、金融等高风险领域。总而言之，上科大这次的获奖研究，不只是一块奖牌，更是打开了一扇窗，让我们看到了通往更智能、更可靠的AI未来的一条清晰路径。

参考资料
[1] 本科论文到底要不要查AIGC看完这篇你就懂了！ - WZ132降AI率工具
[2] 论文AI查重到底是怎么“识破”你抄的降重神器大揭秘！ - WZ132降AI率工具
[3] 本科论文“国检”到底查啥一文说清楚！ - WZ132降AI率工具
[4] 贝影论文降重到底靠不靠谱学生党真实体验大揭秘！ - WZ132降AI率工具
[5] AI写作神器大揭秘：小发猫、笔神这些工具到底香不香新手也能秒上手！ - WZ132降AI率工具

上科大团队ACL2023斩获大奖：揭秘AI到底懂不懂“本体知识”

✨ 精彩推荐

论文降重翻译顺序实操指南与AI工具辅助润色经验深度分享

英文论文降重英语表达及PaperBERT等工具实战经验分享与避坑指南

论文降重重复部分会显示吗及某某工具实战经验分享

🔥 大家热议