权威评测显示:智慧芽AI Agent查新检索能力远超通用大模型

8月21日,AI驱动的科技创新和知识产权信息服务商智慧芽发表最新研究成果《一项研究:AI工具的查新检索基准测试》。该研究针对真实专利工作场景下的查新检索任务设计“PatentBench-查新检索”评测基准,并对智慧芽“查新检索AI Agent”、ChatGPT-o3(联网搜索版)、DeepSeek-R1(联网搜索版)三个AI工具开展了查新检索能力的基准测试。

评测结果显示,智慧芽“查新检索AI Agent”在核心评估指标上显著优于ChatGPT-o3、DeepSeek-R1(两者皆为联网搜索版)为代表的通用AI工具,X检出率和X召回率分别达到76%和32%,是通用AI工具的2-3倍。

“过去一段时间里,智慧芽在专利和研发场景推出了几十款AI Agents工具,但大家都会问:如何验证评估不同工具在专利查新检索中的效率和能力?”智慧芽创始人兼CEO张济徽表示,“今天公布的测试结果给出了关于AI工具专业能力的科学答案。我们期待让大家更加客观、直观地看到专业AI工具如何帮助企业在知识产权工作中实现降本增效。”

专业评测验证AI工具处理专利任务的真实性能

查新检索是指针对某项技术方案或专利申请,系统检索全球现有技术,以判断其是否具备“新颖性”和“创造性”的专业检索过程。由于专利工作横跨法律、技术和商业三大交叉领域,具有极高的专业壁垒,通用的AI工具往往难以准确胜任专利场景中的复杂任务。

此次评测基于跨受理局并行审查的国际同族专利构建了高质量评测数据集。通过自研的权利要求一致性比对模型进行语义对齐与技术相似度评估,消除语言表述差异带来的影响,确保测试的客观性和准确性。评测以各受理局审查员在判断新颖性与创造性时实际引用的关键X、Y类对比文献作为评测的“基准答案”,经过去重与标引规范化整合,形成一致且可复用的参考标准。本次评测精选了89个满足严格要求的测试样本,其中38.2%为中文文本,61.8%为英文文本,在IPC分类号上实现均匀分布,真实模拟现实中的查新检索场景。

图:89个测试样本的专利文本语言、IPC分类号分布情况

在评估指标方面,本次评测采用“X检出率”和“X查全率”两大核心指标。“X检出率”用以衡量AI工具能否检索到X文献的能力,其在专利审查阶段尤为关键,审查员只需要找到少量X文献即可快速判定某件专利申请是否缺乏“新创性”。在针对每个样本的测试中,在TopK返回结果中,命中了“X文献全集”中的任一X文献,则记为“1”,未命中记为“0”,命中了X文献的测试样本数量的比例即为“X检出率”。

图:“PatentBench-查新检索”的“X检出率”计算公式

“X查全率”旨在衡量AI工具能否检索到尽可能多的X文献的能力,其在研发立项阶段和专利申请前阶段至关重要,无论是企业研发人员、专利人员还是外部专利代理师,都需要尽可能全面地找到X文献,以指导技术方案的调整、权利要求书的撰写,从而提高专利授权率。在整个测试数据集中,Top100返回结果中命中的X文献数量占所有测试样本中的X文献总数量的比例,即为“X查全率”。

图:“PatentBench-查新检索”的“X查全率”计算公式

智慧芽查新检索AI Agent评测表现领先通用大模型

研究显示,智慧芽查新检索AI Agent的“X检出率”高达76%,是另外两款通用AI工具的2倍以上,ChatGPT-o3(联网搜索版)为32%、DeepSeek-R1(联网搜索版)为9%。这意味着,所有89个测试样本中,智慧芽在其中四分之三的测试样本中都找到了至少1个X文献。

图:“X检出率”评测结果

与此同时,智慧芽查新检索AI Agent的“X查全率”为32%,甚至达到了另外两款通用AI工具的3倍以上,ChatGPT-o3(联网搜索版)为11%,DeepSeek-R1(联网搜索版)为3%。这表明,在Top100返回结果中,智慧芽的Agent已能发现32%的正确答案,若结合后续人类专家的筛选,X文献检索结果将更加完整。

图:“X查全率”评测结果

综上表明,智慧芽查新检索AI Agent在查新检索场景中的评测表现,远远超越通用大模型。尽管通用大模型具备强大的泛化推理能力,但在专利查新检索这类高度专业化任务中仍存在显著局限。专业领域AI工具的针对性发展,在专利垂直场景中展现出不可替代的必要性与应用价值。

专业工作交给专业AI

智慧芽查新检索AI Agent之所以能够达到上述基准测试结果的高水平,源于其垂直领域模型微调和RAG技术。该Agent对基础开源大模型进行了系统化的专利领域专业知识微调,确保模型能够深度理解专利技术语言和检索逻辑。在此基础上,Agent采用检索增强生成(RAG)技术执行高质量的检索工作,将实时检索能力与生成能力有机结合。通过这种技术组合,智慧芽Agent能够准确捕获文本中的关键技术特征,实施精密的检索策略,并提供低幻觉的可靠结果,从而在专业查新检索任务中展现出显著优于通用大模型的性能优势。

基于上述优势,对于在企业或专利代理机构从事专利申请相关工作的知识产权专业人士来说,智慧芽查新检索AI Agent是一款能在保持准确性的同时成倍提高新颖性检索效率的工具。通过在几分钟内完成传统需要数小时的搜索、筛选和排序工作,专业人士可以将精力集中在更高价值的分析和决策上,实现从“3天重复性检索工作”到“3小时高质量分析工作”的效率跃升。

此外,对于正在进行项目预研立项的企业研发团队而言,“查新检索AI Agent”可能是一个革命性的解决方案,通过在早期阶段进行高效的查新检索,从而显著降低缺乏新颖性的风险,并最大限度地减少研发资源的潜在浪费,为研发工作流带来巨大的转变。

点击链接即可试用智慧芽查新检索AI Agent

https://app.jingsocial.com/mF/commonLandingPage/CTA/ee52dc27a11f4444aa0b4956c3194927?pushId=rNvzcoH39zRXY3rRJi96Ag1

来源:智慧芽

编辑:Sharon