Google研究团队介绍了一种新型研究代理框架 Test-Time Diffusion Deep Researcher (TTD-DR)。
该框架通过模拟人类研究的迭代过程(起草 → 查找资料 → 修订 → 完成),将“草稿”视为噪声,通过 检索增强的扩散过程 不断修正和提升报告质量,从而实现了最先进的研究与推理能力。
简单来说,TTD-DR 是一种会“写论文”的 AI 助手:
•它先写一份初稿。
•然后像研究人员一样,不断查资料、修订,把初稿一步步打磨得更完整。
•这个过程就像图片扩散模型从模糊到清晰一样,AI 把草稿“去噪”成高质量的最终研究报告。

两大创新:
•自进化:多个答案竞争,优胜者保留
•扩散去噪:草稿驱动搜索,逐步打磨
研究背景
•大语言模型 (LLMs) 已能执行复杂推理、写报告、生成创意,但 Deep Research (DR) 代理在复杂研究场景中仍有不足:多数系统是“工具堆砌”(检索 + 总结 + 写作),缺少统一框架。缺少人类研究最核心的 反复修订循环:提出假设 → 搜集资料 → 修订论点 → 再检索 → 完善成果。
•核心灵感:将研究过程类比为 扩散模型:它的特别之处在于:把 AI 写研究报告的过程,模拟成 人类科研写论文的习惯:先写一个粗糙的初稿再去查资料(补缺失的论据,修正错误)。一遍遍修改和完善(逐渐让报告更完整、更严谨)。他们借用了 扩散模型(Diffusion Model) 的概念:初稿 = 噪声(信息不完整、不准确)。检索与修订 = 去噪过程(不断引入新知识、修正推理)。最终成果 = 高质量研究报告。

框架设计
TTD-DR 的设计包含三部分:骨干研究流程、自进化算法 和 报告级去噪机制。
1 骨干研究流程(Backbone DR Design)
整个研究过程分为三个主要阶段:
1.研究计划生成输入用户问题,输出结构化研究计划。计划包含研究子问题、核心主题,作为后续检索和写作的指南。

▪2.迭代搜索
▪搜索问题生成:根据研究计划和已有信息,提出具体检索问题。答案检索:从外部知识库或网络检索相关文档,并将结果总结成简洁答案。

3.报告生成
将研究计划与所有检索问答对结合,整合成完整报告。
两大核心方法
方法一:组件级自进化(Self-Evolution)
•每次搜索或回答,AI 不只给一个答案,而是生成多个不同版本。
•然后用 AI 审稿人(LLM-judge) 来打分(比如哪个答案更有用、更完整)。
•低分的会被修改(根据反馈修订),高分的会被保留。
•最后把多个优质答案融合成更好的答案。
👉 类比:学生写论文,先写多个版本,交给老师/同学打分,再改进,最后融合出最优版本。
方法二:报告级去噪(Denoising with Retrieval)
•把当前草稿当作“带噪声的初稿”。
•用它来生成新的搜索问题 → 获取新资料 → 修订草稿。
•不断循环,直到草稿逐渐完善,最后生成终稿。
👉 类比:学生一边写论文一边发现哪里不完整,就去图书馆查资料,再回来修改。
实验结果
研究团队在三个主要基准上测试 TTD-DR:
1.DeepConsult任务:复杂查询 → 生成长篇研究报告。特点:需要大规模信息整合与逻辑连贯性。
2.Humanity’s Last Exam (HLE)任务:多跳推理(multi-hop reasoning),要求跨文档和跨主题检索。子集 HLE-Search:挑选 200 个需要更复杂检索与推理的问题。
3.GAIA任务:多跳推理问答,强调事实正确性与逻辑链条。
对比基线
•OpenAI Deep Research (DR)(强基线)
•其他 DR 系统(使用默认 LLM 作为代理)
•本文提出的 TTD-DR 版本:Backbone DR(基础三阶段流程)+ Self-Evolution(加入自进化优化)+ Diffusion with Retrieval(完整 TTD-DR 框架)
核心实验结果
1 长篇研究报告(DeepConsult)
•指标:Win Rate(人工或自动评价,系统结果 vs. OpenAI DR)
•结果:OpenAI DR 作为对比基线。TTD-DR 胜率 74.5%,显著超越 OpenAI DR。当只使用 Backbone DR 时,效果不如 OpenAI DR。加入 Self-Evolution 后,Win Rate 提升至 59.8%,首次超过 OpenAI DR。完整 TTD-DR 框架 进一步提升至 74.5%。
2 多跳推理(HLE & HLE-Search)
•指标:Correctness(预测答案与参考答案匹配率)
•结果:HLE-Search:Backbone DR < OpenAI DR。加入 Self-Evolution → 提升 +4.4%。加入 Diffusion with Retrieval → 进一步提升,最终比 OpenAI DR 高 7.7%。HLE 整体:正确率持续提升,但主要优势体现在复杂子集 HLE-Search。
3 GAIA 数据集
•指标:Correctness
•结果:Backbone DR < OpenAI DR。Self-Evolution → Correctness 提升 +1.2%。Diffusion with Retrieval → 进一步提升,总体比 OpenAI DR 高 1.7%。

消融实验(Ablation Study)
研究团队进行了逐步消融,观察各模块贡献:
1.Backbone DR三阶段流程,性能低于 OpenAI DR。说明单一框架不足以击败强基线。
2.+ Self-Evolution在 DeepConsult 上:Win Rate 提升到 59.8%,超过 OpenAI DR。在 HLE-Search / GAIA 上:Correctness 分别提升 4.4% 和 1.2%。
3.+ Diffusion with Retrieval (完整 TTD-DR)DeepConsult:Win Rate 最终提升到 74.5%。HLE-Search:Correctness +7.7%。GAIA:Correctness +1.7%。

结论:三个组件缺一不可,完整框架才能达到新 SOTA。
效率与扩展性
•Pareto Frontier 分析:指标:研究报告质量 vs. 推理延迟(秒)。结果:TTD-DR 在相同延迟下,质量显著高于 OpenAI DR。说明 TTD-DR 在效率—效果权衡上更优。

结论
•在 长篇报告生成 上,TTD-DR 的胜率达到 74.5%,显著优于 OpenAI DR。
•在 HLE-Search 和 GAIA 上,正确率分别提升 7.7% 和 1.7%。
•消融实验:单独使用骨干流程 → 表现不如 OpenAI DR;加入自进化算法 → 长篇任务表现超过 OpenAI DR;再加入报告级去噪 → 在所有基准上全面超越。
•效率分析:通过 Pareto Frontier 分析,TTD-DR 在相同时间延迟下能生成更高质量的结果,说明它比现有代理更高效。
如何体验 TTD-DR
TTD-DR 已经在 Google Cloud Agentspace 上产品化实现,并通过 Google Cloud Agent Development Kit (ADK) 提供。
1. 使用 Google Cloud Agentspace
•需要有 Google Cloud 账号。
•登录后可以进入 Agentspace(谷歌面向企业和研究的 AI 代理平台)。
•在 Agentspace 中可以找到 Deep Researcher / TTD-DR 的应用版本。
2. 通过 Agent Development Kit (ADK)
•谷歌提供了 开发套件 (ADK),可以将 TTD-DR 集成到自己的应用或研究工作流中。
•适合有一定开发能力的用户,将 TTD-DR 嵌入到数据分析、研究助理或检索系统。

















