Google 开发了一种新型的扩散模型Deep Researcher框架 模拟人类研究员写作报告

Google研究团队介绍了一种新型研究代理框架 Test-Time Diffusion Deep Researcher (TTD-DR)

该框架通过模拟人类研究的迭代过程(起草 → 查找资料 → 修订 → 完成),将“草稿”视为噪声,通过 检索增强的扩散过程 不断修正和提升报告质量,从而实现了最先进的研究与推理能力。

简单来说,TTD-DR 是一种会“写论文”的 AI 助手:

•它先写一份初稿。

•然后像研究人员一样,不断查资料、修订,把初稿一步步打磨得更完整。

•这个过程就像图片扩散模型从模糊到清晰一样,AI 把草稿“去噪”成高质量的最终研究报告。

Google 开发了一种新型的扩散模型Deep Researcher框架 模拟人类研究员写作报告

两大创新:

•自进化:多个答案竞争,优胜者保留

•扩散去噪:草稿驱动搜索,逐步打磨

研究背景

•大语言模型 (LLMs) 已能执行复杂推理、写报告、生成创意,但 Deep Research (DR) 代理在复杂研究场景中仍有不足:多数系统是“工具堆砌”(检索 + 总结 + 写作),缺少统一框架。缺少人类研究最核心的 反复修订循环:提出假设 → 搜集资料 → 修订论点 → 再检索 → 完善成果。

•核心灵感:将研究过程类比为 扩散模型:它的特别之处在于:把 AI 写研究报告的过程,模拟成 人类科研写论文的习惯:先写一个粗糙的初稿再去查资料(补缺失的论据,修正错误)。一遍遍修改和完善(逐渐让报告更完整、更严谨)。他们借用了 扩散模型(Diffusion Model) 的概念:初稿 = 噪声(信息不完整、不准确)。检索与修订 = 去噪过程(不断引入新知识、修正推理)。最终成果 = 高质量研究报告。

17586815154373

框架设计

TTD-DR 的设计包含三部分:骨干研究流程自进化算法报告级去噪机制

1 骨干研究流程(Backbone DR Design)

整个研究过程分为三个主要阶段:

1.研究计划生成输入用户问题,输出结构化研究计划。计划包含研究子问题、核心主题,作为后续检索和写作的指南。

Google 开发了一种新型的扩散模型Deep Researcher框架 模拟人类研究员写作报告

▪2.迭代搜索

▪搜索问题生成:根据研究计划和已有信息,提出具体检索问题。答案检索:从外部知识库或网络检索相关文档,并将结果总结成简洁答案。

Google 开发了一种新型的扩散模型Deep Researcher框架 模拟人类研究员写作报告

3.报告生成

将研究计划与所有检索问答对结合,整合成完整报告。


两大核心方法

方法一:组件级自进化(Self-Evolution)

•每次搜索或回答,AI 不只给一个答案,而是生成多个不同版本。

•然后用 AI 审稿人(LLM-judge) 来打分(比如哪个答案更有用、更完整)。

•低分的会被修改(根据反馈修订),高分的会被保留。

•最后把多个优质答案融合成更好的答案。

👉 类比:学生写论文,先写多个版本,交给老师/同学打分,再改进,最后融合出最优版本。


方法二:报告级去噪(Denoising with Retrieval)

•把当前草稿当作“带噪声的初稿”。

•用它来生成新的搜索问题 → 获取新资料 → 修订草稿。

•不断循环,直到草稿逐渐完善,最后生成终稿。

👉 类比:学生一边写论文一边发现哪里不完整,就去图书馆查资料,再回来修改。

实验结果

研究团队在三个主要基准上测试 TTD-DR:

1.DeepConsult任务:复杂查询 → 生成长篇研究报告。特点:需要大规模信息整合与逻辑连贯性。

2.Humanity’s Last Exam (HLE)任务:多跳推理(multi-hop reasoning),要求跨文档和跨主题检索。子集 HLE-Search:挑选 200 个需要更复杂检索与推理的问题。

3.GAIA任务:多跳推理问答,强调事实正确性与逻辑链条。


对比基线

•OpenAI Deep Research (DR)(强基线)

•其他 DR 系统(使用默认 LLM 作为代理)

•本文提出的 TTD-DR 版本:Backbone DR(基础三阶段流程)+ Self-Evolution(加入自进化优化)+ Diffusion with Retrieval(完整 TTD-DR 框架)


核心实验结果

1 长篇研究报告(DeepConsult)

•指标:Win Rate(人工或自动评价,系统结果 vs. OpenAI DR)

•结果:OpenAI DR 作为对比基线。TTD-DR 胜率 74.5%,显著超越 OpenAI DR。当只使用 Backbone DR 时,效果不如 OpenAI DR。加入 Self-Evolution 后,Win Rate 提升至 59.8%,首次超过 OpenAI DR。完整 TTD-DR 框架 进一步提升至 74.5%。


2 多跳推理(HLE & HLE-Search)

•指标:Correctness(预测答案与参考答案匹配率)

•结果:HLE-Search:Backbone DR < OpenAI DR。加入 Self-Evolution → 提升 +4.4%。加入 Diffusion with Retrieval → 进一步提升,最终比 OpenAI DR 高 7.7%。HLE 整体:正确率持续提升,但主要优势体现在复杂子集 HLE-Search。


3 GAIA 数据集

•指标:Correctness

•结果:Backbone DR < OpenAI DR。Self-Evolution → Correctness 提升 +1.2%。Diffusion with Retrieval → 进一步提升,总体比 OpenAI DR 高 1.7%。

Google 开发了一种新型的扩散模型Deep Researcher框架 模拟人类研究员写作报告


消融实验(Ablation Study)

研究团队进行了逐步消融,观察各模块贡献:

1.Backbone DR三阶段流程,性能低于 OpenAI DR。说明单一框架不足以击败强基线。

2.+ Self-Evolution在 DeepConsult 上:Win Rate 提升到 59.8%,超过 OpenAI DR。在 HLE-Search / GAIA 上:Correctness 分别提升 4.4% 和 1.2%。

3.+ Diffusion with Retrieval (完整 TTD-DR)DeepConsult:Win Rate 最终提升到 74.5%。HLE-Search:Correctness +7.7%。GAIA:Correctness +1.7%。

Google 开发了一种新型的扩散模型Deep Researcher框架 模拟人类研究员写作报告

结论:三个组件缺一不可,完整框架才能达到新 SOTA。


效率与扩展性

•Pareto Frontier 分析:指标:研究报告质量 vs. 推理延迟(秒)。结果:TTD-DR 在相同延迟下,质量显著高于 OpenAI DR。说明 TTD-DR 在效率—效果权衡上更优。

Google 开发了一种新型的扩散模型Deep Researcher框架 模拟人类研究员写作报告


结论

•在 长篇报告生成 上,TTD-DR 的胜率达到 74.5%,显著优于 OpenAI DR。

•在 HLE-Search 和 GAIA 上,正确率分别提升 7.7% 和 1.7%。

•消融实验:单独使用骨干流程 → 表现不如 OpenAI DR;加入自进化算法 → 长篇任务表现超过 OpenAI DR;再加入报告级去噪 → 在所有基准上全面超越。

•效率分析:通过 Pareto Frontier 分析,TTD-DR 在相同时间延迟下能生成更高质量的结果,说明它比现有代理更高效。


如何体验 TTD-DR

TTD-DR 已经在 Google Cloud Agentspace 上产品化实现,并通过 Google Cloud Agent Development Kit (ADK) 提供。

1. 使用 Google Cloud Agentspace

•需要有 Google Cloud 账号。

•登录后可以进入 Agentspace(谷歌面向企业和研究的 AI 代理平台)。

•在 Agentspace 中可以找到 Deep Researcher / TTD-DR 的应用版本。

2. 通过 Agent Development Kit (ADK)

•谷歌提供了 开发套件 (ADK),可以将 TTD-DR 集成到自己的应用或研究工作流中。

•适合有一定开发能力的用户,将 TTD-DR 嵌入到数据分析、研究助理或检索系统。

xAI 发布 Grok 4 Fast 相比 Grok 4 同等性能下价格下降 98% 达到SOTA 搜索工具使用能力

xAI 发布其全新一代人工智能模型 Grok 4 Fast,在保持前沿推理能力的同时,极大提升 性价比与速度。Grok 4 Fast 在 AIME、HMMT 等关键基准上接近甚至持平 GPT-5,高于 Grok 4 与 Grok 3 Mini,同时保持了极高的效率。

•相比 Grok 4:更便宜、更省算力,但性能接近。

•相比 Grok 3 Mini:更强大,能胜任复杂推理和实时搜索。

•相比 GPT-5/Gemini/Claude:通过 极高 Token 效率 + 工具使用能力,在性价比和部分搜索任务中领先。

核心特性

xAI 发布 Grok 4 Fast 相比 Grok 4 同等性能下价格下降 98% 达到SOTA 搜索工具使用能力

1.高性价比推理模型比 Grok 4 平均减少 40% 思考 token 使用量。同等性能下价格下降 98%。在 Artificial Analysis Intelligence Index 上被验证为 业界最优的“价格-智能”比率。

2.大规模上下文窗口提供 200万 token 上下文窗口。支持 reasoning(深度推理)与 non-reasoning(快速响应)统一架构。

3.推理与搜索能力具备 SOTA 搜索工具使用能力,包括代码执行、Web 浏览、X 平台内容解析(含图像与视频)。在多项检索基准测试中表现领先,例如:BrowseComp (zh):51.2%(对比 Grok 4 的 45.0%)X Bench Deepsearch (zh):74.0%(对比 Grok 4 的 66.0%)

4.性能对比(主要基准测试)GPQA Diamond:85.7%(接近 Grok 4 的 87.5%,超越 GPT-5 Mini)AIME 2025:92.0%(接近 GPT-5 的 94.6%)HMMT 2025:93.3%(与 GPT-5 持平)LiveCodeBench:80.0%(高于 Grok 4 的 79.0%)

5.统一架构同一模型支持推理与非推理模式,无需单独模型切换。简单问题可即时响应。复杂任务可自动切换至深度推理。降低延迟与成本,适合实时应用(如搜索、问答、研究辅助)。

xAI 发布 Grok 4 Fast 相比 Grok 4 同等性能下价格下降 98% 达到SOTA 搜索工具使用能力

可用性与定价

•用户端:已集成至 grok.com、iOS、Android 应用。免费用户也可使用。

•开发者端:在 OpenRouter、Vercel AI Gateway 免费提供试用。提供 grok-4-fast-reasoning 与 grok-4-fast-non-reasoning 两种模式。API 定价:输入 <128k tokens:$0.20/百万输出 <128k tokens:$0.50/百万缓存输入 tokens:$0.05/百万

xAI发布其最新语言模型Grok 4 声称其性能“在所有学科优于几乎所有研究生”

埃隆·马斯克(Elon Musk)通过直播发布了其人工智能公司xAI的最新语言模型Grok 4。

Grok 4被马斯克称为“世界上最聪明的AI”,在综合学术基准测试“人类最后的考试”(Humanity’s Last Exam)中取得了约25%的准确率,与OpenAI的Deep Research工具相当 。

Grok 4
  • 多模态能力:初始版本支持文本输入,未来计划加入图像生成、视频和音频处理功能,以实现更丰富的交互体验 。
  • 双版本发布
    • 通用版:适用于日常写作、研究、翻译等任务,支持函数调用、结构化输出和高级逻辑推理。
    • Grok 4 Code:专为开发者设计,集成代码生成、错误检测和上下文软件开发辅助功能 。
  • 语音模式升级:新增五种语音模式,包括一位名为Eve的英国口音AI助手,具备表达性语音和歌唱能力 。
Grok 4

功能特性

Grok 4 的设计强调实用性和专业化,分为通用版(Grok 4)和编程专版(Grok 4 Code),旨在为日常用户和开发者提供高效工具。核心功能包括以下方面:

1.推理与逻辑能力

  • 采用“第一性原理”推理方法,提高逻辑一致性和深度分析能力,能够模拟物理学家式的思考过程,处理复杂问题如跨学科知识整合。
  • 声称“在所有学科优于几乎所有研究生”,包括自然语言处理、数学和跨领域知识。
  • 支持实时学习和适应用户需求,实现高度自定义化,例如根据用户反馈调整响应风格或集成现有工作流程。

2.编程与代码相关

  • Grok 4 Code 是专为开发者设计的变体,支持代码生成、调试、创建完整应用、游戏、文档和网页。
  • 内置代码解释器,提升编码效率,与 GPT-4 等模型相比,在代码开发中表现出色,但强调更强的数学准确性和逻辑推理。
  • 支持工具集成,如函数调用、外部 API 触发(例如查询天气或订票),并提供结构化输出(如 JSON 格式),便于系统对接。

3.多模态支持

  • 初始版本支持文本到文本模态,以及图像解释功能,能够处理上传的图片并生成描述或修改。
  • 视觉和图像生成能力即将推出,未来几个月内将扩展到视频生成和更全面的多模态交互(如文本生成图像/视频)。
  • 技术规格
    • 上下文窗口为 256k tokens(优于大多数模型,低于 Gemini 2.5 Pro 的 1M)
    • 支持图文输入
    • 支持函数调用和结构化输出

4.其他功能

  • 集成 Polymarket 支持赌博相关查询,以及 Grok Voice 的 ASMR Goon Mode,提供合成语音交互。
  • 图像编辑功能:用户可上传照片,描述修改需求,模型生成编辑版本。
  • 强调“真实信息”导向,允许政治不正确的表述(若有依据),并在处理时事时分析多方来源以减少偏见。

性能表现

Grok 4 的性能通过泄露基准测试和官方声明展示出显著提升,尤其在数学、编程和推理领域。马斯克宣称其在所有科目达到 Ph.D. 水平,无例外。

Grok 4(思考)在 ARC-AGI-2 上取得了新的 SOTA,达到了 15.9% 这几乎是之前商业 SOTA 的两倍,并且领先当前 Kaggle 竞赛的 SOTA

以下是关键基准数据(部分基于泄露,可能未经官方最终确认)。

Grok 4
  1. 基准测试成绩
    • Humanity’s Last Exam (HLE):Grok 4 得分 45%,远超 Gemini 2.5 Pro 的 21%,以及其他模型。该测试评估跨学科 Ph.D. 级知识,Grok 4 Heavy(带工具版)得分 44.4%,优于 Gemini 2.5 Pro 的 26.9%。
    • Grok 4
    • AIME 2025 (美国数学邀请赛):准确率 95%,突出其数学能力,与人类专家相当。
    • 其他评测:在 GPQA、SWE-bench 等编程和推理基准中表现优异,编程能力与 Claude 并列第一。Grok 4 Code 在编码任务上大幅领先竞争对手。
    • Grok 4
  2. 与竞争对手比较
    • 优于 GPT-4:在逻辑推理、数学准确性和编码智能上更强,尤其在工具集成场景。
    • 挑战 Claude 和 Gemini:在自然语言处理和多模态任务上表现出色,但基础功能(如避免 bug)仍有改进空间。
    • 整体优势:训练于 Colossus 超级计算机,提供 10 倍计算提升,实现更快响应和更深推理。
  3. 潜在争议
    • 部分基准(如 HLE 45%)引发质疑,可能涉及实验设置或数据不透明。早期版本 Grok 3 曾因基础问题被批评,Grok 4 在推理优势基础上需完善稳定性。
  4. 人工分析智能指数(Artificial Analysis Intelligence Index:Grok 4 得分 73,超过 OpenAI o3 和 Google Gemini 2.5 Pro(均为 70)。
    首次登顶:Grok 4 是 xAI 首次在该机构的智能指数中排名第一。
  5. 测试方式:使用 xAI API 进行测试,注意 Twitter/X 上的版本可能行为不同。Grok 4
  6. 领先模型对比得分
  • 在多个子基准测试中创下新纪录
    • GPQA Diamond:88%(历史最高,超过 Gemini 的 84%)
    • Humanity’s Last Exam:24%(历史最高,超过 Gemini 的 21%)
    • MMLU-Pro:87%(并列最高)
    • AIME 2024:94%(并列最高)
    • Grok 4
  • 速度对比(token/s)
    • Grok 4:75
    • o3:188(最快)
    • Gemini 2.5 Pro:142
    • Claude 4 Sonnet Thinking:85
    • Claude 4 Opus Thinking:66(最慢)
    • Grok 4

价格

  • Grok 4 定价与 Grok 3 相同:$3/$15 每百万输入/输出 token。
  • 与 Claude 4 Sonnet 相同,但贵于 Gemini 2.5 Pro 和 o3。

xAI还推出了名为“SuperGrok Heavy”的高级订阅计划,月费为300美元。订阅者将获得Grok 4 Heavy版本的独家访问权限,以及未来功能的抢先体验。

Grok 4

Perplexity 发布其AI浏览器:Comet 一个“增强型搜索 + 思维笔记 + 自动秘书”的混合体

Perplexity 认为,好奇心(Curiosity)是人类进步的原动力,但传统网页浏览方式是一种单向静态的信息获取,“浏览器”并不真正支持探索和理解。为此,他们打造了 Comet——一款将 AI 深度融入浏览体验的“认知型浏览器”。

目标不是改进传统浏览器,而是彻底重构“Web 浏览”这个概念本身

浏览器不再只是“显示网页”的工具,而是变成“你的智能问答伴侣、研究助理和数字秘书”。

核心功能详解

✅ 1. 思维驱动式浏览

  • 每个标签页、任务、想法被整合进“对话空间”(思维轨迹容器)。
  • 允许用户提问、探索,并可持续跟踪与延伸——比如从一个网页提问,引出关联信息或新任务。

✅ 2. AI 实时辅助

Comet 类似于一个“增强型搜索 + 思维笔记 + 自动秘书”的混合体。

2image

✅ 3. 无干扰专注体验

  • 不需要频繁切换标签或任务。
  • 所有内容都可以通过“指令 + 语言交互”方式统一调度。
  • 聚焦于当前项目,不容易分心。

✅ 4. 深度个性化 + 持续学习

  • Comet 会学习你的使用方式与偏好:
    • 喜欢什么样的信息?
    • 哪种表达风格更适合你?
    • 你正在进行哪些项目/研究/购物计划?
  • 它随着使用变得“越来越懂你”。

技术架构与生态整合

🔧 搜索引擎:Perplexity AI

  • 结合搜索 + 问答 + 参考文献三位一体的 AI 驱动引擎。
  • 用户可直接问问题、快速得到准确答案,同时附带引用来源,提高可验证性。

🧩 浏览器兼容性:

  • 支持导入原浏览器书签、插件、设置。
  • 使用上更像 Chrome/Edge,但附加“认知能力”。
  • 原生集成 Perplexity Assistant(语义理解助手)用于任何网页操作。

可用信息

  • 平台支持:目前提供 Mac 和 Windows 版本,未来将拓展更多平台。
  • 兼容性:支持现有的浏览器插件、设置和书签导入。
  • 搜索引擎:内置 Perplexity AI 搜索引擎,专注于快速、可追溯的答案。
  • 价格与获取方式:提供永久免费版本,目前仅对 Perplexity Max 用户开放,并采用邀请机制。

下载:https://comet.perplexity.ai/

Moonshot AI 推出的新一代 MoE 架构大模型:Kimi K2 开源自主代理模型

Moonshot AI 推出的新一代 MoE 架构大模型:Kimi K2,并将其开源,总参数达 1 万亿,激活参数为 320 亿。它在代码、数学、知识问答等任务上表现优异,并特别针对**“代理型任务”**进行了优化——不只是“回答问题”,更可以“完成任务”。

该模型目前以两个版本开源:

  • Kimi-K2-Base:基础模型,适合研究和自定义微调。
  • Kimi-K2-Instruct:指令微调版本,适合通用聊天和轻量级智能体应用。

主要特性

✅ 多步任务执行
✅ 代码生成与调试
✅ 数据分析与可视化
✅ 工具自动调用
✅ 本地部署能力强

其设计目标是提供可落地的“开放代理智能”,让开发者和研究者能构建具备 工具调用能力、主动执行任务能力 的 AI 系统。

1image

功能特性及评测表现

Kimi-K2 在多个标准化评测中均取得领先成绩,尤其在以下几类任务中表现突出:

✅ 编程与软件开发

  • 在多个评测中表现超过 GPT-4.1 和 Claude Sonnet。
  • 可以阅读、修改、调试代码,还能自动生成网页或转换项目(如 Flask 转 Rust)。
  • 能理解项目结构,并跨文件修改,适合实际开发辅助

✅ 数学与科学推理

  • MATH-500 数据集上达到 97.4% 正确率,为当前开源模型最佳之一
  • 具备代数、几何、数据建模等能力,可解答复杂数学题

✅ 工具调度与 Agent 框架

  • Tau2AceBench 等模拟任务中,Kimi-K2 能自主调用工具完成如“订航班”、“客服对话”等完整流程
  • 展示出较强的任务规划、执行顺序控制、接口调用能力
  • 给它一个目标(如“分析工资和远程办公的关系”),它能:
    • 自动加载数据
    • 执行数据清洗和统计分析
    • 画图(柱状图、散点图、箱线图)
    • 甚至生成一份含图表和交互器的 网页报告
    • 并不需要用户手动编排工作流或写脚本

支持终端操作

  • 它能理解命令行环境(Terminal)并执行任务:
    • 编辑文件
    • 运行程序
    • 自动调试测试失败的用例
    • 重复尝试直到成功为止

自然语言交互

  • 支持通过自然语言控制开发任务,比如说:“帮我重构这个项目的数据库模块并加上日志记录”

Kimi-K2 就会调用代码分析器、自动重构、测试、生成报告。

Kimi-K2 技术亮点

1. 稀疏专家架构(Sparse MoE, Mixture-of-Experts)

  • 架构概述:模型总参数量约 1 万亿(1T),但每次推理仅激活约 32 亿(32B) 参数子网络,属于稀疏激活的大模型架构。
  • 优势
    • 计算更高效:相比密集模型,计算和显存占用更低;
    • 能力不妥协:MoE 提供“专家分工”,在不同任务上调用不同子模型,性能更均衡。
  • 效果证明:在多个评测任务中,MoE 架构帮助 Kimi-K2 在代码、数学和任务执行能力上优于同规模密集模型。

2. 更稳的训练:自研优化器 MuonClip

  • 问题背景:大模型训练时,容易出现“注意力权重太大”导致不稳定、训练崩掉。
  • Kimi 的做法:用了一个特别的优化器 MuonClip,它能自动识别并“剪掉”那些不正常的数据波动。
  • 结果?
    模型训练更稳定,效果也更好,尤其在处理长文本、复杂逻辑时,表现更可靠。

3. 更聪明的训练方法:靠任务练出来的

  • Kimi-K2 不只是喂它数据,还“让它做任务”。
  • 训练数据来自真实模拟任务,比如:
    • 帮用户写报告
    • 修复代码错误
    • 调用图表工具画图
    • 自动生成网页
  • 训练方法更聪明
    • 自己生成数据、自己打分(用另一个模型评估表现好不好);
    • 用这些反馈继续优化自己,越来越聪明。

4. 自己能规划步骤,会用工具

  • Kimi-K2 不只是回答一个问题,它可以规划一个任务的多个步骤
  • 比如你说:“帮我分析工资和办公地点的关系,并用图表示出来”它会自动完成这些流程:
    • 读数据 → 整理分类 → 做统计 → 画图 → 写解释
  • 如果你提供工具或 API,它还能自己判断什么时候调用哪个工具,很像一个小型智能助理。

5. 简单易用:不用复杂框架就能当智能体

  • 你不需要搭很复杂的系统,它也能帮你完成任务。
  • 它可以:
    • 理解你的自然语言指令
    • 自己决定步骤并执行
    • 返回结果(代码、网页、报告、图表等)
  • 对开发者很友好,用 API 或本地部署就能上手,不需要额外的中间件或流水线。

6. 多方面能力全面强

  • 代码:能读懂、写、测试、修复程序,跨文件修改也行。
  • 数学:代数、几何、概率、统计都能做,表现接近 GPT-4。
  • 数据分析:理解表格、画图、生成可视化报告。
  • 网页生成:从数据直接生成完整页面(HTML + JS + 图表)。
  • 终端操作:能执行命令、调试构建错误、自动运行流程。

使用方式与部署支持

✅ 在线使用

  • 可访问 kimi.com 免费体验聊天和数据分析能力
  • 网页版 UI 支持代码执行、文件上传、图表渲染

✅ API 调用

  • 兼容 OpenAI / Claude 接口格式
  • 支持标准 HTTP 请求集成,适合部署在自己的产品或项目中
  • 价格
    – $0.15 / 百万输入令牌(缓存命中)
    – $0.60 / 百万输入令牌(缓存未命中)
    – $2.50 / 百万输出令牌
    API:platform.moonshot.ai

✅ 本地部署

支持以下主流推理框架部署 Kimi-K2:

  • vLLM:适合大规模低延迟部署
  • SGLang:便于构建复杂多轮任务系统
  • KTransformers / TensorRT-LLM(适合边缘部署)

官方介绍:https://moonshotai.github.io/Kimi-K2/

GitHub:https://github.com/MoonshotAI/Kimi-K2

模型下载:https://huggingface.co/moonshotai

Google 推出其首个文本嵌入模型 gemini-embedding-001 MTEB排行榜第一 超过了OpenAI

Google 宣布其首个文本嵌入模型 gemini-embedding-001 已在 Gemini API 和 Vertex AI 中全面开放给开发者使用。

Gemini Embedding 模型可以把文字转化为数字向量(方便计算机理解)。这类向量可以被用在搜索、分类、推荐、问答等多种人工智能任务中。

简而言之,它是让计算机更“理解”人类语言的基础技术,适用于需要理解文本含义的场景。

模型能力与优势

🌐 多语言支持

  • 覆盖 100 多种语言,适合构建全球化应用。

📏 高维嵌入输出,灵活可调整

  • 默认输出向量维度为 3072
  • 可根据应用需求压缩为 1536768,便于在不同资源和成本要求下灵活选择;
  • 采用 Matryoshka Representation Learning (MRL) 技术支持向量裁剪,兼顾性能和存储优化。

🔬 强大跨领域能力

模型在多个专业领域任务中表现出色,包括:

  • 法律
  • 金融
  • 科学
  • 编程

Massive Text Embedding Benchmark (MTEB) 多语言评测中排名领先,是当前业内综合能力最强的嵌入模型之一。

Google 推出其首个文本嵌入模型 gemini embedding 001 MTEB排行榜第一 超过了OpenAI

商业化与部署

📊 使用场景

  • 构建智能搜索(Semantic Search)
  • 文本聚类与分类
  • 信息检索系统
  • 多语言问答系统
  • 企业知识管理

你可以用它来做:

  • 搜索引擎中的语义搜索
  • 聊天机器人、法律/金融/科技文档的文本分析
  • 机器学习中的文本分类任务

💰 定价模型

  • 免费额度:可用于实验和开发;
  • 付费模式
    • $0.15 美元 / 每 100 万输入 tokens;

🚀 如何快速使用?

可通过 Gemini API 的 embed_content 接口调用嵌入模型:

from google import genai

client = genai.Client()

result = client.models.embed_content(
        model="gemini-embedding-001",
        contents="What is the meaning of life?"
)

print(result.embeddings)

ChatGPT macOS 桌面应用录音模式开始向 Plus 用户全面开放

ChatGPT macOS 桌面应用录音模式开始向 Plus 用户全面开放

  • 它让你可以在 ChatGPT 里“说话”而不是打字;
  • ChatGPT 会把你说的话转成文字,再自动总结重点;
  • 总结内容会保存下来,你可以问它“上次会议我们说了什么?”——它会记得;
  • 你可以让它把录音总结变成:会议纪要、邮件草稿、项目计划、甚至代码;
  • 你也可以选择不让它记住或用于训练;
  • 录音最长支持两小时,超时后也会自动总结。

ChatGPT 的 Record 模式 允许用户录制语音(如会议、头脑风暴、语音笔记),并自动进行转录和总结。总结内容会以“Canvas(画布)”的形式保存在聊天历史中,可以进一步生成项目计划、电子邮件,甚至代码草稿。

该模式还支持跨对话引用过去录音中的内容(通过“Reference record history”功能),以提高回答的上下文相关性。

⚠️ 法律责任提醒:录音功能需根据本地法律和规定进行使用,务必获得被录音者的明确同意。

🎙️ 如何使用 ChatGPT Record 模式

1. 启动录音

  • 在任何聊天窗口底部点击 Record 按钮;
  • 首次使用时需授予麦克风和系统音频权限。
启动录音

2. 录制语音

  • 实时转录,显示计时器;
  • 可随时点击“暂停”或“停止”。
录制语音

3. 停止或完成录音

  • 点击 Stop 停止;
  • 然后可选择:
    • Resume:继续;
    • Send:上传并生成 Canvas 总结。
停止或完成录音

4. 取消与删除录音

  • 点击“X”取消,随后可:
    • 上传;
    • 删除;
    • 取消返回继续录制。
取消与删除录音

5. 总结与转换

  • 上传后,ChatGPT 将生成结构化 Canvas;
  • 用户可要求 ChatGPT 将其转为邮件、项目文档、代码等。

💰 限制与价格

  • 目前免费提供(可能会变化);
  • 单次录音最长 120 分钟
  • 超时录音会自动生成 Canvas。

🔐 隐私与数据使用

模型训练相关:

  • 音频录音仅用于转录后立即删除;
  • 若启用“Improve the model for everyone”选项,转录内容和 Canvas 可能被用于模型训练;
  • 企业、教育版和团队版默认不用于训练。

数据保留:

  • Canvas 和转录遵循用户的会话数据保留策略;
  • 删除聊天即删除相关 Canvas 和转录(30 天内完成)。

🧠 Reference Record History 功能

  • 启用后,ChatGPT 可以引用历史 Canvas 和转录内容,回答如“我们周一会议上决定了什么?”等问题;
  • 可在设置 → 个性化中启用或禁用;
  • 删除 Canvas 后,内容不再被引用(可能有延迟)。

🛠️ 常见问题与排错指南

  • 支持多位说话人
  • 支持非英语语言(英语最佳,其他语言准确率仍在改进中)
  • 可由管理员在团队/企业/教育版中启用/禁用
  • macOS 权限需手动开启麦克风与系统音频录制
  • 每段录音都会附带独立 Canvas,请通过原始对话查找

官方帮助文档:https://help.openai.com/en/articles/11487532-chatgpt-record