最好的AI账号代充网站:DogAPI

image 8

随着人工智能工具的普及,越来越多的人需要使用 ChatGPT、Claude、Gemini、MidJourney 等AI应用。然而,许多用户在官方渠道购买账号或续费时,会遇到支付方式受限、价格偏高、充值不便等问题。这时,一个可靠的 AI账号代充网站 就显得尤为重要。

在众多代充平台中,DogAPI(https://dogapi.ai) 被认为是目前市场上最好的选择之一。它不仅价格实惠,还具备安全稳定、到账迅速的优势,深受开发者与AI爱好者的好评。

为什么选择DogAPI作为AI账号代充平台?

1. 多样化的AI产品覆盖

DogAPI 支持多种主流AI服务的账号代充,包括:

  • ChatGPT Plus(支持最新GPT模型)
  • Claude Pro(Anthropic高性能模型)
  • Google Gemini Advanced
  • MidJourney(AI绘画账号充值)
  • 其他AI API接口及开发者服务

用户只需选择所需产品,即可完成便捷充值。

2. 安全与稳定性

安全性是选择代充平台时的首要考虑。DogAPI 拥有成熟的风控体系,确保用户账户信息不会被泄露,充值过程加密传输,保障资金安全。

3. 快速到账

在DogAPI充值,通常只需几分钟即可到账,避免了等待的焦虑。对于需要立即使用AI工具的用户而言,快速到账是核心优势

4. 专业的技术支持

DogAPI 背后是一支在 云计算与AI行业深耕多年的专业团队,能够为客户提供定制化的解决方案。不论是个人用户还是企业客户,都能获得贴心的服务支持。


DogAPI的优势对比

特点DogAPI其他代充网站
产品覆盖ChatGPT、Claude、Gemini等通常只支持部分AI产品
安全性加密传输,官方API支持部分平台无安全保障
到账速度几分钟内到账可能延迟数小时甚至更久
售后支持专业技术团队一般仅提供简单客服

由此可见,DogAPI 在价格、服务与安全性方面都具备明显优势。


如何使用DogAPI进行AI账号代充?

  1. 打开官网:DogAPI.ai
  2. 选择需要充值的AI账号类型(如ChatGPT Plus)。
  3. 填写账号信息并选择支付方式。
  4. 提交订单后,等待几分钟即可到账。

整个流程简洁高效,特别适合需要长期使用AI工具的开发者与企业用户。


总结

如果你正在寻找 最好的AI账号代充网站,DogAPI 无疑是值得信赖的首选。凭借 安全可靠、快速到账、多产品支持 等优势,它已经成为众多AI用户的首推平台。

一文带你彻底搞懂!企业级MCP Server接入OAuth授权服务器全流程解析(含完整代码)

原创 秋山墨客 2025-08-26 09:00 江苏

MCP Server的安全问题:看完这篇就够了。

?k=38a827cc&u=https%3A%2F%2Fmmbiz.qpic

点击上方蓝字加入我们

?k=154cec1f&u=https%3A%2F%2Fmmbiz.qpic

?k=690b1834&u=https%3A%2F%2Fmmbiz.qpic

如果你正在构建一个基于MCP架构的企业级LLM应用:各个部门都能通过客户端UI,经由共享的MCP Server访问内部工具与执行自动化任务。一个现实的问题是,你如何确保只有经过授权的员工才可以访问特定的MCP资源?注意这并非一个简单API-Key可以解决,特别是有的企业还会要求集成已有的安全体系(如企业SSO)。

图片

本文将从基础概念入手,并通过一个Python + MCP SDK + 第三方授权的完整示例项目,一步步说清如何在MCP架构集成OAuth安全认证。

  • OAuth 2.0核心概念速览

  • MCP对OAuth2.0的支持架构

  • 实战:在MCP中集成Google OAuth2.0认证

  • 因地制宜:与其他安全方案的配合

【完整代码地址见文末】

01

OAuth 2.0核心概念速览

OAuth 2.0是一个授权协议,允许第三方应用在未经用户透露密码的情况下,获得访问用户受保护资源的权限。其关键角色包括:

  • 资源拥有者:通常指用户,即受保护资源的所有者。

  • 客户端:要访问资源的第三方应用,它需要向资源拥有者请求授权(比如一个需要访问你QQ身份信息的应用)。

  • 授权服务器:验证用户身份并在用户同意授权后发放授权码令牌的服务器。

  • 资源服务器:实际存放受保护的资源,它会验证令牌并根据权限返回资源。

?k=55bd9c3e&u=https%3A%2F%2Fmmbiz.qpic

?k=6642eb2f&u=https%3A%2F%2Fmmbiz.qpic

可以把 OAuth 想象成银行的保险柜使用流程:

  • 你(用户)是保险柜的主人(资源拥有者)。

  • 一个朋友(客户端应用)需要临时取出你的资料(访问数据)。

  • 你不会把柜子钥匙(账号密码)交给他,到银行前台(授权服务器)登记,并签发一张临时访问凭证(令牌)给他。

  • 保险柜工作人员(资源服务器)认凭证给他资料,凭证过期后自动失效。

OAuth 2.0最常见的模式是授权码模式,常见于各种Web应用。其典型流程如下:

?k=b7cbbec4&u=https%3A%2F%2Fmmbiz.qpic

以一个需要获取你Google帐号信息实现登录的应用为例:

  1. 用户授权:用户点击“使用Google登录”后,应用将浏览器重定向到Google的OAuth的认证界面 。在重定向URL中,应用会附带自身ID、请求的授权范围(scope)、回调地址等信息 。

  2. 用户登录并同意:用户在Google授权服务器登录(如果尚未登录),并看到应用请求的权限范围,选择是否同意授权 。

  3. 授权码返回:若用户同意,授权服务器将浏览器重定向回先前应用提供的重定向URI,并附上一个授权码(code)。

  4. 交换令牌:应用拿到授权码后,向授权服务器发送后台请求,用授权码交换访问令牌(Access Token)。这一步在后台完成,对用户不可见。

  5. 访问资源:应用获得这个Access Token后,就可以访问你授权的部分Google账户信息(通过Google API)。

OAuth 2.1规范在此基础上要求所有应用在授权流程中使用PKCE校验码,以防止授权码被拦截利用 :即在步骤1中客户端生成一对挑战码与验证串,授权服务器在步骤4中校验,确保令牌只发给最初发起请求的客户端。

02

MCP对OAuth2.0的支持架构

现在我们来看MCP协议的新版本是如何将OAuth机制融入AI应用架构的,引入标准化的身份验证与授权框架,以便AI应用可以无缝对接现有的身份提供商和安全机制。

以借助第三方OAuth授权服务器,实现“用户登录 -> 获取OAuth令牌 -> 访问MCP服务”的闭环为例。首先有两个简单的映射关系:

  • 资源服务器对应到现在的MCP Server

  • 客户端应用对应到现在的MCP Client应用。如一个带有UI的ChatBot。

MCP规范定义的标准授权流程为:

?k=433adeeb&u=https%3A%2F%2Fmmbiz.qpic

这里的流程与上述标准流程的主要区别有两点:

  • 客户端应用在第三方认证授权之前,需要首先向MCP服务器发起授权,MCP服务器负责把客户端重定向到第三方授权服务器。

  • 客户端应用不直接获得第三方授权的令牌,而是由MCP Server获得(通过授权码)后;再生成MCP自己的令牌(与第三方令牌绑定);

此外,MCP规范还要求MCP Server实现元数据发现接口(告诉客户端授权相关的端点),以及动态客户端注册接口,不过这些主要工作默认会由SDK“代劳”。

03

实战:在MCP中集成Google OAuth2.0认证

现在我们构建一个完整的示例:使用Python语言和官方MCP Python SDK,在本地运行一个MCP Server,并将其配置为使用Google的OAuth2服务进行用户认证授权。在实际生产中,你可以把OAuth Server替换成企业自己的统一授权服务。

    【环境准备与OAuth配置】

    • 确保已安装MCP官方的Python SDK最新版本。

    • 免费注册一个Google OAuth应用,用来扮演OAuth授权服务器。

    • 在Google API控制台创建OAuth客户端ID凭证,类型选择“Web应用”。添加重定向URI为MCP服务器的回调地址,比如http://localhost:3000/callback,并获取生成的客户端ID客户端密钥,将其配置到环境变量(见下)。

    服务端的主要配置信息如下:

      from pydantic import AnyHttpUrl
      from pydantic_settings import BaseSettings, SettingsConfigDict

      class ServerSettings(BaseSettings):
          model_config = SettingsConfigDict(env_prefix="MCP_")

          #MCP Server配置 
          host: str = "localhost"
          port: int = 3000
          server_url: AnyHttpUrl = AnyHttpUrl("http://localhost:3000")
          callback_path: str = "http://localhost:3000/callback"

          #Google Auth配置信息
          client_id: str  #配置MCP_CLIENT_ID环境变量 
          client_secret: str #配置MCP_CLIENT_SECRET环境变量 
          auth_url: str = "https://accounts.google.com/o/oauth2/auth"
          token_url: str = "https://oauth2.googleapis.com/token"
          scope: str = "https://www.googleapis.com/auth/userinfo.email https://www.googleapis.com/auth/userinfo.profile openid"

      【MCP Server端实现】

      实现MCP Server的OAuth认证最主要的工作是实现OAuthAuthorizationServerProvider接口,该接口负责服务端的OAuth所有相关操作,这些接口会在OAuth授权流程中被框架所调用。这里我们实现GoogleOAuthProvider,其内部数据如下:

      class GoogleOAuthProvider(OAuthAuthorizationServerProvider):
          def __init__(self, settings: ServerSettings):
              #服务端设置信息
              self.settings = settings
              #动态注册的客户端信息
              self.clients: Dict[str, OAuthClientInformationFull] = {}
              # 存储生成的授权码和相关信息
              self.auth_codes: Dict[str, AuthorizationCode] = {}
              # 存储用来交换的tokens和相关信息
              self.tokens: Dict[strDict] = {} 
              # 存储 state 和相关信息(用来验证回调请求)
              self.state_mapping: Dict[strDict[strstr]] = {}

      剩下的就是实现必要的接口,我们将接口分个类,大致如下(详细请参考完整代码):

      客户端管理接口

      MCP 客户端动态注册时的接口,简单的将SDK传递来的信息保存或读取即可。

      • register_client(client_info)

         – 注册新的OAuth客户端,SDK会自动创建ID和Secret,这里保存起来即可。

      • get_client(client_id)

         – 根据client_id从保存的信息中获取已注册的客户端信息即可。

          async def get_client(self, client_id: str) -> Optional[OAuthClientInformationFull]:
            return self.clients.get(client_id)

          async def register_client(self, client_info: OAuthClientInformationFull):
            self.clients[client_info.client_id] = client_info

        授权流程接口

        • authorize(client, params)

           – 处理MCP客户端授权请求,这里只要生成并返回第三方授权服务器(Google)的授权URL即可,同时维护state映射关系(state是用于后续回调时验证的码):

          async def authorize(self, client: OAuthClientInformationFull, params: AuthorizationParams) -> str:
             state = secrets.token_hex(16)
             #state是用来防攻击验证的一个码 ,先存起来 
             self.state_mapping[state] = {
                  "redirect_uri"str(params.redirect_uri),
                  "client_id": client.client_id,
                  "code_challenge"getattr(params, 'code_challenge'None),
              }
              # google oauth的url构建,返回给MCP客户端,用来重定向 
              auth_params = {
                  "client_id": self.settings.client_id,
                  "redirect_uri": self.settings.callback_path,
                  "response_type""code",
                  "scope": self.settings.scope,
                  "state": state,
                  "access_type""online",  # 不需要 refresh token
              }

              auth_url = f"{self.settings.auth_url}?{urllib.parse.urlencode(auth_params)}"
              return auth_url
          • handle_callback(code, state)

             – 处理第三方(Google)回调,并使用授权码向Google交换访问令牌;

             – 生成MCP内部的授权码并存储对应客户信息,并重定向回客户端;

             – 注意这里保存了google数据,用来后续客户端交换获得令牌;这是简化处理(直接用Google的令牌),正常流程应该生成属于MCP自己的token

            async def handle_callback(self, code: str, state: str) -> str:
                state_data = self.state_mapping.get(state)
                if not state_data:
                    raise HTTPException(400"Invalid state parameter")

                # 用google返回的code和google交换token 
                token_response = await create_mcp_http_client().post(
                    self.settings.token_url,
                    data=urllib.parse.urlencode({
                        "client_id": self.settings.client_id,
                        "client_secret": self.settings.client_secret,
                        "code": code,
                        "redirect_uri": self.settings.callback_path,
                        "grant_type""authorization_code",
                    }),
                    headers={"Content-Type""application/x-www-form-urlencoded"},
                )
                token_response.raise_for_status()
                google_data = token_response.json()

                # 生成内部授权码给客户端 
                mcp_code = f"mcp_{secrets.token_hex(16)}"
                self.auth_codes[mcp_code] = AuthorizationCode(
                    code=mcp_code,
                    client_id=state_data["client_id"],
                    redirect_uri=state_data["redirect_uri"],
                    redirect_uri_provided_explicitly=True,
                    expires_at=time.time() + 300,
                    scopes=self.settings.scope.split(),
                    code_challenge=state_data.get("code_challenge"or "",
                )
                #存储google的返回token等,用来后续交换
                self.tokens[mcp_code] = google_data
                
                del self.state_mapping[state]
                # 回调客户端的uri ,将内部生成的授权码返回  
                    return construct_redirect_uri(state_data["redirect_uri"], code=mcp_code, state=state)

            令牌交换接口

            这是客户端应用向MCP Server交换令牌时需要调用的接口。

            • load_authorization_code(client, authorization_code)

               – 加载并验证授权码的有效性,检查是否存在、是否过期。这一步很简单,直接从保存的auth_codes中返回对应的信息即可。

            • exchange_authorization_code(client, authorization_code)

               – 将MCP客户端传来的授权码交换为访问令牌。这里只需要从上面保存的tokens中取出code对应的google_data,然后把其中的access_token返回。

            令牌验证接口

            这是客户端应用调用MCP Server资源/工具时验证令牌的接口。

            • load_access_token(token)

               – 验证访问令牌的有效性,检查令牌是否存在、是否过期,这个方法在每次API请求时被调用,也正是该接口保证了后续MCP Server访问的安全性。

            async def load_access_token(self, token: str) -> Optional[AccessToken]:
                token_data = self.tokens.get(token)
                if not token_data:
                    return None
                    
                if token_data.get("expires_at"0) < time.time():
                    del self.tokens[token]
                    return None
                return AccessToken(
                    token=token,
                    client_id=token_data["client_id"],
                    scopes=self.settings.scope.split(),
                    expires_at=int(token_data.get("expires_at"0)),
                )

            创建与启动FastMCP Server

            实现了Provider后,就可以创建Server实例并启动,只需借助于FastMCP:传入auth_server_provider参数(provider实例)与auth参数(设置信息)即可:

            ......
            #传入server_setting 
                oauth_provider = GoogleOAuthProvider(settings)
                auth_settings = AuthSettings(
                    issuer_url=settings.server_url,
                    client_registration_options=ClientRegistrationOptions(
                        enabled=True,
                    ),required_scopes=["openid"],
                )
                app = FastMCP(
                    name="Google OAuth MCP Server",
                    auth_server_provider=oauth_provider,
                    host=settings.host,
                    port=settings.port,
                    auth=auth_settings,
                )

            此外,由于MCP Server需处理Google带有授权码的回调,需要增加一个路由:

            @app.custom_route("/callback", methods=["GET"])
            async def callback_handler(request: Request) -> Response:
               #...取出request中的code,state信息...
               try:
                    redirect_uri = await oauth_provider.handle_callback(code, state)
                    return RedirectResponse(url=redirect_uri)
               ...

            在完成这些工作后,调用FastMCP的run方法启动server:

            ?k=8a460107&u=https%3A%2F%2Fmmbiz.qpic

            【MCP Client实现】

            MCP OAuth客户端的核心是使用OAuthClientProvider处理完整的OAuth 2.0 Authorization Code流程,通过本地回调服务器和浏览器交互完成用户授权,最终建立安全的MCP会话连接。在MCP SDK中附有一个通用的带有OAuth认证授权的客户端,我们在其基础上简单修改(参考本文源代码)后直接使用。

            1. 运行客户端

            该命令行客户端启动后,你将会看到如下提示:

            ?k=98b62e74&u=https%3A%2F%2Fmmbiz.qpic

            2. 通过Google帐号授权

            在首次运行时,这时候可以看到客户端请求MCP Server进行授权,随后,MCP Server会将客户端重定向到Google,你会在浏览器看到:

            ?k=961bb10c&u=https%3A%2F%2Fmmbiz.qpic

            输入你的Google帐号和密码,让MCP Server借助你的Google授权来对MCP客户端进行认证,并允许后续的资源访问。如果你的帐号密码正确,很快你会看到:

            ?k=32c99a88&u=https%3A%2F%2Fmmbiz.qpic

            3. 授权成功,可以调用MCP Server

            上面是MCP客户端在获得MCP Server返回的访问token后生成的提醒页面。代表授权成功,此时客户端就可以安全调用MCP Server的接口,比如查看工具列表:

            ?k=84c1d1b4&u=https%3A%2F%2Fmmbiz.qpic

            4. 借助MCP Inspector直接测试服务端

            除了这里的命令行客户端,也可以借助MCP Inspector做授权测试,启动inspector:

            npx @modelcontextprotocol/inspector

            在打开的web界面中配置好transport类型和服务端URL后,可以借助其内置的OAuth设置工具,进行一步步的认证授权过程,可以很方便的观察到每个步骤与返回信息:

            ?k=42fda0bb&u=https%3A%2F%2Fmmbiz.qpic

            这里选择“QuickOAuth Flow”,然后在下方逐步完成授权过程:

            ?k=006230fe&u=https%3A%2F%2Fmmbiz.qpic

            (注意其中有一步需要自行打开回调链接,并将获得的授权码拷贝到下一步)

            以上演示了完整的MCP Server基于OAuth规范的认证授权过程。需要再次说明的是,这里我们直接使用Google颁发的token作为访问MCP资源的凭证,更严格的实现应该是在此处由MCP服务器签发自己的应用访问令牌,这里做了简化处理。

            04

            因地制宜:与其他安全方案的配合

            上述示例展示了如何在MCP架构中集成OAuth认证,实现了用户身份验证和权限控制。这种方案特别适合有UI界面的应用场景,如典型的使用MCP Server扩展LLM能力的ChatBot类应用等,用户可以通过浏览器完成授权流程,特别是你需要与现有企业身份证系统集成时。

            在实际应用中,当MCP客户端应用是后台Agent应用或其他后端服务时,没有用户交互界面来完成典型的OAuth授权码流程,此时就需要考虑变通的方案,比如:

            • 简单的API Key模式:常见的携带API Key的模式

            • OAuth Client Credentials Flow:客户端凭证模式,无需前端用户参与,直接使用Client ID+Secret向授权服务器请求令牌,常用于两个后端服务间的安全通信

            • 混合认证策略

            总的来说,选择合适的安全方案需要综合考虑应用架构、安全需求和用户体验,而不是单纯依赖某一种技术方案。

            本文源代码:

            https://github.com/pingcy/mcp-oauth-demo

            图片

            END

            推荐学习本公众号最新出版的作品

            📘《MCP原理揭秘与开发指南——构建可扩展的AI智能体》

            本书基于 2025-03-26 最新 MCP 协议规范 与 1.9.0 + 版本的 SDK 编写,全面覆盖从核心设计理念协议机制解析MCP 开发实践与完整源码案例,帮助你从根本上理解 MCP,并掌握 SDK 的高阶开发能力。

            请注意——这不是一本简单的 MCP Server使用的“工具说明书”,而是一本为MCP开发者编写的、以MCP SDK解析与实战为核心的技术指南。不仅教你用“工具”,更教你如何“打造工具”。

            详情点击下方链接

            识别以下名片

            加入公众号交流群(请说明来意)

            图片

            阅读原文

            跳转微信打开

            顶级邪修倾囊相授!藏师傅教你速通Nano Banana

            原创 歸藏的 AI 工具箱 2025-08-27 15:24 北京

            ?k=9f104283&u=https%3A%2F%2Fmmbiz.qpic

            Image

            大家好,这里是歸藏(guizang),今天教大家如何最大程度发掘最强图片编辑模型 Nano Banana 的潜力。

            昨晚我们期盼了很久的图像编辑模型终于上线了,大家不再需要从竞技场吭哧瘪肚抽卡,可以爽玩,而且谷歌一如既往的发挥了财大气粗的优势,可以让你疯狂白嫖。

            在做了一晚上的通宵测试之后,发现这玩意真的很离谱。直接把 Adobe 和一众修图软件整麻了。

            以往复杂的修图操作现在都可以一句话搞定,而且人脸的相似度相对于 FLUX Kontext 高了一截。

            不多逼逼,先来总结一下这期教学内容:

            • 用 Nano Banana 帮你修图:祛痘、瘦身、瘦脸、都不在话下
            • 烂片拯救者,用 Nano Banana 一键让你的普通照片变大片
            • 用简洁高效的方式展示你的今日穿搭
            • 当然也可以快速让你的照片穿上别人整理的穿搭
            • 通过标记、框选、涂鸦等方式辅助提示词更加精准的生成图片
            • 充分利用 Nano Banana 的世界知识制作视频特效
            • 根据主角图片一键生成连续的电影分镜
            • 将你喜欢的照片或者物品变成实体贴纸送给朋友

            如何使用 Nano Banana 

            首先来看一下如何使用 Nano Banana ,优先推荐在谷歌的 AI Studio (https://aistudio.google.com/)上使用,因为免费而且不会掺水。

            进入页面后,我们在页面最右侧将模型切换到 Gemini 2.5 Flash Image Preview 这个模型,没错这就是 Nano Banana的官方名称。

            Image

            切换模型之后就可以在输入框输入图片修改的需求,同时上传你需要修改的图片,这里支持多张图片的上传,之后点击 Run 按钮等待结果就行。

            Image

            当然 Nano Banana 也支持连续进行图片编辑,这里需要注意的是,连续的编辑四五次以后,就可能因为上下文超出而效果变差,这时候建议新建窗口重新开始。

            Image

            除了 AI Studio 以外,一部分 Gemini APP 的用户也可以用 Nano Banana 了,如果你可以用的时候会收到一个类似的弹窗,切换 Gemini 2.5 Flash 模型然后选择图片就行。

            Image

            我们熟知的一些 API 服务商和聚合图像视频产品比如 FAL 和 Krea 也都已经上线了 Nano Banana,你也可以在他们那里用,注意不要直接搜索 Nano Banana 官网,没有这种东西,你看到的全是骗子网站。

            使用 Nano Banana 修图

            大家现在都喜欢拍照,觉得自己拍的照片不好看?不会调色?有无关的东西?交给 NanoBanana 一段提示词解决。

            把你的废片发给他,然后用我的提示词就可以一键把你的普通照片修成大片。

            This photo is very boring and plain. Enhance it! Increase the contrast, boost the colors, and improve the lighting to make it richer,You can crop and delete details that affect the composition.

            Image

            Image

            Nano Banana 这次升级以后人脸 ID 的一致性得到了大幅增强,如果你只是小幅修改图片的话,相似度非常高。

            这样的话我们就可以直接用自然语言进行修图了,比如让藏师傅的脸变瘦,可以发现我面部的一些瑕疵也被修复了,所以你也可以直接让 Nano Banana 帮你修复肤质问题。

            Make the character's face in the image slimmer, while increasing the muscle mass of the arms.

            Image

            Nano Banana 帮你展示穿搭和尝试新穿搭

            今日 OOTD?直接让他展示平铺展示穿搭设计的所有商品。

            A flat lay photograph showing all the clothing items involved in the photo.

            Image

            当然也可以反过来,用你的照片帮你尝试其他博主分享的穿搭,还原度非常好。

            用提示词词的时候注意图片的顺序,我这里是用第一张第二张表示的。

            The character in Figure 2 is wearing the clothing and accessories from Figure 1.

            Image

            通过涂鸦和标记控制图片的修改

            由于本身 Nano Banana 的多模态理解和世界知识理解能力就很强,所以你不止可以通过文本提示词修改,也可以直接在需要修改的图片上做标记去修改。

            我们先整个基础的用法,如果你有多张图片的话,你可以在图片上面做标记让模型更好的理解你的文本提示词。

            比如我这里提示词就可以写让他用A图片的背景、B图片的沙发和相机角度、C图片的角色来完成三张图片的合成。

            Using the environment from A, the sofa camera angle from B, and the subject from C, create a new image that combines these three elements.

            Image

            再进阶一点,你可以用方框或者圆圈标记修改图片需要替换的位置,比如我这里就让他把第二张图片的桌子和椅子放到了红框的位置。

            可以看到这玩意确实是电商利器,图2里面椅子的细节、材质啥的都完美还原,但是光线表现和色彩风格却完美融入了图1.

            Place the chair and table from the first image at the red box location in the second image, and generate the image without the red box markings.

            Image

            终极涂鸦控制这个非常离谱了,你可以直接给他两个正常姿势的角色和一个角色互动的涂鸦。

            他就会帮你画出两个角色对应姿势的互动图像,这个对于动画制作和精准的动作控制帮助非常大。

            Have these two characters fight using the pose from Figure 3.Add appropriate visual backgrounds and scene interactions,Generated image ratio is 16:9

            Image

            上面的是我跑的,随便画了一下姿势,如果你能够将草稿画的更加的细致的话 Nano Banana 的修改也会更精确。

            比如这个 X 用户 minux302 的案例,连角色表情都还原了。

            Image

            当然我们还可以继续发散,相同角色+不同动作参考+连续编辑+可灵 2.1 首尾帧=高质量打斗动画。

            这个有多强,我就不强调了,大家可以自己想象。

            将你的照片变成可爱贴纸

            昨天看到 Fenx 用 AI 圈子的流行梗做了一堆贴纸觉得很好玩,因为是开源的,我还去电商平台找店铺打印了几套。

            昨晚 Nano Banana 发布后就试了一下看能不能基于他的设计参考生成,没想到真可以。

            而且我问了一下贴纸打印只有 PNG 图片也可以,你完全可以做一套自己的然后找店铺打印送给朋友,应该会是不错的礼物。

            Help me turn the character into a white outline sticker similar to Figure 2. The character needs to be transformed into a web illustration style, and add a playful white outline short phrase describing Figure 1.

            Image

            生成建筑或者物品讲解特效

            谷歌说 Nano Banana 里面有 Gemini 的世界知识,所以你就可以在图片上增加一些物品的介绍或者描述。

            比如这里我们就可以为世界知名建筑的图片加上对应的 AR 介绍卡片,比如这里的泰姬陵和悉尼歌剧院信息都是对的。

            you are a location-based AR experience generator. highlight [point of interest] in this image and annotate relevant information about it.

            Image

            Image

            获得图片之后我们用首尾帧视频模型处理一下就直接变成讲解动画特效了,这里我用的可灵 2.1,还能加上对应的讲解语音,一个完整的景点介绍分镜就搞好了。

            电商图片修改

            之前 FLUX Kontext 在电商修改的时候有个问题就是商品比例有问题,特别是首饰上这种问题很多,这里测试了一下 Nano Banana 会好非常多。

            有时候他会改掉第二张图的细节比如发型,跟他说一下就行。

            The woman in Figure 2 is wearing the necklace from Figure 1,Do not change the details of other Figure 2.

            Image

            古早动漫图和照片修复超分

            老生长谈的图片修复和超分 Nano Banana 也表现的不错,比如我这里就修复了一下古早的《攻壳机动队》动画截图。

            Enhance the resolution of this old anime image and add the appropriate texture details, reinterpreting it with modern anime techniques.

            Image

            好了这就是藏师傅这几天探索出来的 Nano Banana 全部的玩法和创意了。

            当然之前我介绍的 FLUX Kontext 的玩法 Nano Banana 也全都支持,这里就不赘述了,感兴趣可以去看之前的文章《

            对普通人最有用的一次!藏师傅教你用FLUX Kontext解决一切图片问题

            从现在开始所有需要“视觉表达”的生意,都值得用 Nano Banana 重做一遍。电商图片、本地生活、教育、婚庆、影视、印刷、旅游、媒体工具每个垂类和场景都有无数的需求等待满足。

            希望藏师傅的内容能对你有所启发,感谢各位,希望帮忙点个赞👍或者喜欢🩷,也可以转发给你需要的朋友们。

            阅读原文

            跳转微信打开

            藏师傅教你用 Nano Banana 编辑图片做手办

            原创 歸藏的 AI 工具箱 2025-08-23 17:23 北京

            教大家一下如何在 LM Arena 里面使用 Nano Banana 模型编辑图片以及做手办图。

            ?k=ac394a41&u=https%3A%2F%2Fmmbiz.qpic

            前几天发了 Nano Banana 的测评之后很多朋友不知道怎么用,刚好最近用 Nano Banana 做手办图的玩法又火了。

            所以顺便教大家一下如何在 LM Arena 里面使用 Nano Banana 模型编辑图片以及做手办图。

            先看一下结果。

            昨天看到 ZHO 做的黑神话钟馗的手办就改了一下他的提示词,加上了游戏实体版盒子以及屏幕上的游戏画面。

            顺便用昨天刚上的可灵 2.1 首尾帧模型搞了一个特效让模型重新回到游戏中去。

            接下来教一下怎么做,懒得看文本的也可以看我录的视频:

            首先我们需要访问 LM Arena  (https://lmarena.ai/?chat-modality=image)。

            打开以后需要先在右下角选择 Image 这样才能触发图像模型。

            然后我们需要上传自己想要修改的图片,我这里用的是黑神话钟馗 CG 里的截图,然后输入提示词就行。

            提示词这里我是用 ZHO 的改的,把内容换了以后还让钟馗骑上了老虎,因为截图的时候没办法截全。

            Please turn this screenshot of the game character into a character figure riding on an Asian tiger. Behind it, place a PlayStation game box printed with the character’s image and the game title ‘Black Myth: Zhong Kui.’ Next to it, add a computer with its screen displaying the in-game scene, complete with the game’s UI and the character. In front of the game box, add a round plastic base for the figure and have it stand on it. The PVC material of the base should have a crystal-clear, translucent texture, and set the entire scene indoors.


            Image

            回车之后我们会发现 LM Arena 一次会出两张图片,因为本来这个平台就是为了让你评价模型好坏的。

            所以两张图都是不同的模型生成的,然后等生成结束你需要在输入框上面那里选一个你觉得最好的结果,这时候才会显示模型名称。

            如果你的两个结果里面都没有 Nano Banana 模型的话,就需要重新按照刚才的的流程再生成一次,一般两三次肯定能抽到了。


            Image

            抽到你想要的图片之后点击下载就可以了。


            Image

            然后我们还可以把抽到的图片变成视频来提高图像的表现力,比如就可以用我昨天介绍的可灵 2.1 首尾帧的提示词加上编辑前和编辑后的图片做个钟馗从手办回到 CG 的图像。

            首尾帧提示词生成的提示词可以在我昨天的内容找到《可灵 2.1 首尾帧藏师傅外挂教程:两张图→大片,附万能提示词

            显示器中的游戏画面闪烁了一下,一道微光从屏幕中溢出并扫过前方的实体手办。手办底座周围的空气开始扭曲,细小的灰尘被无形的力量卷起,紧接着,整个手办连同老虎一起缓缓地、反重力地从亚克力底座上漂浮起来,在半空中开始缓慢自转。当手办旋转时,它后方的真实世界墙壁和桌面背景开始像被投入石子的水面一样产生涟漪,并从手办轮廓的边缘开始向外像素化分解,暴露出其后方那云雾缭绕的山峦背景。游戏世界的背景以手办为中心,如一幅画卷般迅速展开并吞噬了整个真实环境。与此同时,漂浮手办的材质也开始发生变化,塑料的质感上流淌过数据流般的光效,表面的涂装逐渐被CG渲染出的金属、皮革和毛发的超精细纹理所取代。摄像机在此过程中,从一个固定的广角镜头,转为围绕着漂浮的手办进行环绕拍摄,并最终在手办完全转化为CG模型


            Image

            最后我还简单做了一下剪辑,加上了一小段原本的 CG 画面和其中的音乐,看起来就更加带感了。


            Image

            再欣赏一下生成结果吧,今天的教程到这里就结束了,赶紧去玩玩,也可以给我点个赞和喜欢

            阅读原文

            跳转微信打开

            LLM应用开发之 “三国杀” :低代码、开源框架与全自研的取舍之道,及AI编程的冲击。

            原创 曾经的毛毛 2025-08-22 16:18 江苏

            认识AI应用不同开发路线的特点、适用性与未来发展。

            ?k=5bd3b731&u=https%3A%2F%2Fmmbiz.qpic

            点击上方蓝字加入我们

            ?k=154cec1f&u=https%3A%2F%2Fmmbiz.qpic

            ?k=690b1834&u=https%3A%2F%2Fmmbiz.qpic

            本篇聊一个轻松的话题。

            随着AI技术的百花齐放,开发者在构建 LLM应用(如RAG或智能体)时可能会在不同的技术路线中犹豫(特别是ToB项目):借助低代码平台快速搭建;或使用成熟LLM应用框架加速开发;更可以基于LLM API与轻量级工具自研开发。

            ?k=ec3e8e75&u=https%3A%2F%2Fmmbiz.qpic

            当然,它们并非简单的互斥关系。本文也并非要评判孰优孰劣,只是对它们的特点、适用性及未来发展做分析展望,希望能够帮助技术决策者们做出更合理的选择。

            • 低代码/无代码平台

            • 开源LLM应用开发框架

            • 基于API/轻量级工具自研

            • 三种路线对比与决策

            • X因素:AI编程的冲击

            01

            低代码/无代码平台

            低代码/无代码平台通过可视化拖拽、配置等方式让开发者无需大量编程即可搭建AI应用。典型的比如:

            • 字节的Coze(已开源):主打零代码构建 AI Agent与丰富的插件生态

            • 开源的Dify提供了模型、数据和工作流编排一站式工具链

            • 开源的FastGPT:起源并专注基于知识库的RAG应用编排

            • 后期之秀RAGFlow:定位且擅长深度的复杂的文档理解及其应用


            此外阿里、腾讯、百度等也都有类似的快速开发平台,普遍具备即用即配的特性,可大幅降低开发门槛。


            ?k=bc840fd6&u=https%3A%2F%2Fmmbiz.qpic

            【特点】

            • 上手快、开发门槛低 借助可视化界面和现成模块,开发者能快速搭建原型并迭代。开源版(如果有)还能私有化部署,企业可保有控制权。


            • 生态较丰富 平台通常内置各种模型接口与插件,可以方便的与向量数据库、各种工具做集成。开发者不必自己管理底层基础设施。


            • 灵活度和适应性有限 低代码平台多围绕典型场景设计,底层逻辑难以修改,业务复杂可能会感到束手无策,特别是一些深度的企业应用场景。


            • 部署选择可能会受限 有的功能可能会绑定特定模型或第三方,不能随意切换;某些平台当前仅提供云托管,无法本地部署,对涉敏数据不友好。


            ?k=55bd9c3e&u=https%3A%2F%2Fmmbiz.qpic

            ?k=6642eb2f&u=https%3A%2F%2Fmmbiz.qpic

            一些开发者可能会考虑在开源低代码平台上做二次开发。不过这是一个“双刃剑”:

            • 技术复杂性:这类平台往往带有大量抽象层,理解源代码的学习成本较高。且有的平台文档不足,需要自行摸索。

            • 升级兼容性:由于社区版本的不断迭代,二次开发可能会产生很多冲突,后续版本同步会非常麻烦,甚至不得不放弃。

            • 后续难以优化:低代码平台为了通用性很多时候会牺牲性能,后续如果有调优需求,难度极大甚至无法完成。

            • 长期维护成本:从项目角度看,二次开发后就需要自行维护新分支的Bug修复、依赖更新、安全等,后期维护成本高。


            最核心的问题是,低代码平台的初衷是“降低开发门槛”,但如果二开后又变成了自研(改别人代码甚至比自研更麻烦),那就需要评估是否还值得?

            ?k=c04872b9&u=https%3A%2F%2Fmmbiz.qpic

            【适用场景】

            更适合标准化、相对轻量级的应用场景,或用于快速原型验证和市场试水。例如,你希望快速开发一个基于结构化知识问答的客服机器人以获得用户反馈。总之,当开发资源匮乏、上线时效优先于功能、需求明确且稳定,可以考虑借助低代码平台。

            02

            开源LLM应用开发框架

            LLM框架旨在通过丰富的模块和接口封装降低开发复杂度,让开发者专注业务逻辑而非重复造轮子。典型代表包括 LangChain 及其高阶Agent框架LangGraph、专注多智能体协作的CrewAI/AutoGen、OpenAI的轻量级Agent-SDK、Google新推出的ADK、更擅长数据密集型应用的LlamaIndex…可谓生态繁荣,各有侧重。


            ?k=2181d46c&u=https%3A%2F%2Fmmbiz.qpic

            【特点】

            • 功能模块丰富,减少造轮子。框架通常会提供各种 LLM、向量库和 API 的统一接口,自带文档处理、向量检索、工作流编排等组件,构建简单的RAG/Agent 流程只需少量配置即可完成。大幅降低了开发门槛和时间成本。


            • 社区活跃、学习资料丰富 这些框架等在 Github等有大量示例和教程,社区活跃且提供 Bug 修复和版本更新。


            • 学习曲线和抽象复杂度。相对低代码,开发框架通常起步简单,但精通则需要啃原版文档甚至读源码,一些特性也需要你有较深厚的编程与设计模式基础。


            • 性能开销和调试困难。为了通用性,框架必须要引入额外封装与抽象层,有时会使简单任务变得繁琐甚至性能下降,而调试又需要你深入理解组件。另外,有的框架过于“偏爱”自家模型,比如Google/OpenAI。


            • 生态快速演化导致维护成本高。框架不断迭代,版本升级频繁(比如LangChain),兼容性问题较多,一些公司后期发现难以驾驭而转向自研。


            【适用场景】

            开源框架适用于团队技术能力尚可、中等复杂度项目,尤其当需求与框架特长匹配时能显著提升效率。例如,使用LlamaIndex构建较复杂的RAG应用、使用LangGraph构建Agent Workflow、使用AutoGen构建多智能体系统。对于强调数据安全或本地部署的项目,也可优先选择完全开源、支持私有化的框架。

            03

            基于API/轻量级工具自研

            自主研发方案指不依赖大型平台或重量级开发框架,直接利用大模型 API,结合一些轻量级的开源工具或组件,自行设计 Prompt、多轮对话管理、向量检索等,量身定制实现 RAG或Agent 应用。开发者对系统的控制权最大,能精细打磨每一个环节。

            【特点】

            • 灵活与可控。 开发者可完全理解系统内部工作,遇到问题能直接定位并优化关键路径;无需承担框架抽象带来的开销,可以针对业务进行性能优化和缓存策略。


            • 精细集成和自主掌控 方便对接企业内部权限系统、数据库和日志监控等基础设施;除模型 API 外无需依赖其他第三方,长期看也可规避一些商业限制风险。


            • 开发工作量和技术要求高 构建完整的AI应用往往涉及文档处理、索引、Prompt 、流程编排、外部工具对接、多轮对话、HITL、长期记忆等多个复杂环节,开发者需要熟悉大量工具与开发技巧,所有问题都需要自己解决。


            • 可能重复造轮子 许多通用功能(对话、记忆、输出解析、安全过滤)框架已经提供成熟实现,重新开发既耗时间又可能质量不佳。


            【适用场景】

            自主开发适合复杂度高、定制化要求极高的企业级项目,团队技术能力较强且稳定。例如一些深度定制的行业AI项目,需要根据自身业务流程精细控制每个细节,并对集成与安全要求很高,现有低代码或框架难以满足或需要大量二次开发。

            目前,一些项目在使用 LangChain 等框架一段时间后,随着需求增加发现难以驾驭,最终选择剥离框架,最终让代码库更精简清晰、开发效率更高。这说明自主开发虽然前期工作量大,但在复杂项目中长期价值更高。

            04

            技术路线对比与决策


            ?k=e9259515&u=https%3A%2F%2Fmmbiz.qpic

            软件项目的技术路线选型是一项重要的商业决策,特别是对于复杂的ToB应用,并非简单的“交钥匙”,而是一个与客户业务绑定的长期协作工程。既要考虑短期的业务需求与流程匹配、也要预留未来的扩展性、更要考虑长期的技术生态的可持续性等。

            ?k=f556ec92&u=https%3A%2F%2Fmmbiz.qpic

            • 业务目标与核心诉求

              既不能过度追求短期的上线速度,也不能盲目追求所谓的技术先进度与控制力。比如:如果需要快速验证并获取用户反馈,低代码平台速度更优;如需深度定制和差异化,框架或自研更合适。


            • 团队实力与技术发展

              没有资深 AI 工程师的团队不宜直接自研,可选择成熟框架或平台;有经验的团队可通过自研实现差异化;而在考虑不同的平台或框架选择时,又得充分评估成熟度与技术发展。


            • 因地制宜,融合应用,各取所长
              在一个中大型的软件工程中,无需过度拘泥于某种特定的技术路线,做一个“非此即彼”的单选题:融合应用,各取所长,让技术为业务赋能而不是被它束缚手脚,才是务实之道。
              比如:
            • 用Coze/Dify等搭建系统中对数据安全性合规性要求不高的知识库与相关应用,并通过平台API开放给其他模块集成
            • 用LlamaIndex/RAGFlow这样的数据为中心的框架构建企业中多模态文档、大量异构知识、结构化数据的RAG管道
            • 用LangGraph构建企业中部分较复杂的AI智能体工作流和业务逻辑
            • 涉及敏感数据、有独特算法要求、高定制业务逻辑的环节,则通过自主开发实现精细控制(结合LLM API);并与其他路线开发的模块集成

            这样,既能发挥各技术路线的优势,又能规避各自的短板,实现整体项目的高效推进与稳定运行。

            • 必要时考虑分阶段演进

              另一个必须要考虑的环节是,技术选型必须与团队当前能力和发展路径相匹配。比如,初创期可先用低代码平台快速上线,验证需求后逐步替换为框架或自研。这种策略在很多AI创业公司中也很常见:在初见成效后,为了追求更大的技术掌控力以实现创新,会逐渐切换到以自研为主,甚至拥有自己的框架或平台。


            05

            X因素:AI编程的冲击

            随着 AI 编程工具能力提升,开发者以自然语言驱动生成应用,使得开发效率得到前所未有的提高。当前的AI编程早已超越早期简单的工具代码辅助完成,涵盖到了架构设计、环境搭建、代码编写、Bug修复、自动化测试、辅助部署等;借助MCP等更可以实时的结合企业数据结构、最新开发文档实现更智能的定制开发。

            ?k=6d930a8b&u=https%3A%2F%2Fmmbiz.qpic

            可以想象,低代码领域正面临“效率差距”挑战:AI 编码的效率可能会超过传统低代码模式,加上自主编码天然的掌控力与灵活性,低代码的空间会被进一步压缩,特别是对在AI领域有成熟开发经验的程序员/团队。

            ?k=55bd9c3e&u=https%3A%2F%2Fmmbiz.qpic

            ?k=6642eb2f&u=https%3A%2F%2Fmmbiz.qpic

            或者说,低代码/无代码现在只是“更简单”,而不一定是“更高效”。对于资深开发人员来说,当两种方法对他们都足够“简单”时,在真实的项目中,会愿意选择更高效、更灵活、更可掌控、更“有成就感”的“框架+自研+AI辅助编程”的路线。

            ?k=c04872b9&u=https%3A%2F%2Fmmbiz.qpic

            或许,与 AI 融合并差异化的共存发展是低代码/无代码的发展方向:

            • 强化AI组件并提高开放性

            集成常见的聊天机器人、RAG、推荐等AI预置模块,让开发者更轻松的组合智能应用;或借助 AI 生成表单、报表和测试用例,减少重复劳动;并提供 API 接口和工具,使平台更具扩展性,降低企业用户的“绑定”焦虑。

            • 让AI驱动低代码模块生成

            比如,让用户用自然语言描述需求,系统自动生成可重用的低代码模块并转换为可运行原型;这种结合保留了低代码的易用性,又引入了 AI 的生成能力,这将使非技术人员也可能利用低代码平台来调整业务逻辑与规则。

            • 更加专业化和行业化

            AI编程对高度定制化的行业编程能力仍然不足。因此低代码平台可以在细分行业,如医疗、金融、制造等领域通过预置行业模型和流程模板提供定制化方案;同时重点强化数据安全和治理能力。

            整体上,低代码/无代码仍适用于标准化、轻量级场景及快速原型验证,但必须加速与 AI 的结合,向更专业化、企业友好和私有部署方向演进。

            不过最有趣的是,AI作为大量程序员参与缔造的技术结晶,最先掀起颠覆式变革的却是缔造者自身的工作方式:AI编程正在深刻改写着代码世界的规则。

            图片

            END

            推荐学习本公众号最新出版的作品

            📘《MCP原理揭秘与开发指南——构建可扩展的AI智能体》

            本书基于 2025-03-26 最新 MCP 协议规范 与 1.9.0 + 版本的 SDK 编写,全面覆盖从核心设计理念协议机制解析MCP 开发实践与完整源码案例,帮助你从根本上理解 MCP,并掌握 SDK 的高阶开发能力。

            请注意——这不是一本简单的 MCP Server使用的“工具说明书”,而是一本为MCP开发者编写的、以MCP SDK解析与实战为核心的技术指南。不仅教你用“工具”,更教你如何“打造工具”。

            详情点击下方链接

            识别以下名片

            加入公众号交流群(请说明来意)

            图片

            阅读原文

            跳转微信打开

            可灵 2.1 首尾帧藏师傅外挂教程:两张图→大片,附万能提示词

            原创 歸藏的 AI 工具箱 2025-08-22 17:08 北京

            大家好,我是歸藏。今天带来可灵 2.1 首尾帧模型的测试和使用教程,重点是教你解决首尾帧视频最难的两部分图片生成和提示词生成。

            ?k=318b122c&u=https%3A%2F%2Fmmbiz.qpic

            大家好,我是歸藏。

            今天带来可灵 2.1 首尾帧模型的测试和使用教程,重点是教你解决首尾帧视频最难的两部分图片生成和提示词生成,尤其后面提示词价值很高,都能做产品了建议收藏。

            前几天可灵给超级创作者开了 2.1 模型的首尾帧视频生成的权限,抽时间试了一下。

            发现这个模型对于提示词理解和遵循以及图片转换的自然度都搞得太好了,基本上在首尾帧这个功能上已经到顶了。

            知道有朋友习惯先质疑在质疑,先看结果。

            所有分镜都是一次生成没有抽卡,就是素材拼接没有剪辑,只有简单变速。

            是不是很好,而且这条视频我从头到尾基本只用了半小时就搞定了,等待视频生成的时候还能干别的。

            这时候很多朋友就要说了:“就会骗我们,为啥我用的时候就得疯狂抽卡”。

            我也反思了一下原因,在模型能力很强的情况下依然需要抽卡和没办法获得好素材的原因主要有两个:

            首先是没办法获得合适的图片

            虽然可灵 2.1 首尾帧已经强到了完全无关的两张图片也可以顺滑的转换,比如下面这个视频。但是肯定不像前后关联的图片带给观众的冲击强。


            ?k=3c0697c8&u=https%3A%2F%2Fmmbiz.qpic

            第二点就是有了图片之后不会写提示词

            你获得了两张合适的图片,本能的意识到两者是有关联的,但是具体如何有美感和自然的从首帧变到尾帧自己是没有办法详细的描述的,所以就造成了你觉得变化的过程不符合自己的要求,只能通过不断抽卡祈祷出现奇迹。


            Image

            所以今天藏师傅就教一下从获取合适的图片素材以及如何写提示词两方面生成优质的首尾帧视频,顺便看看可灵 2.1 的首尾帧模型有多强大。

            如何获得合适的图片

            首先我们来看一下如何获取用来做首尾帧视频生成的合适图片,我自己平时主要用三个方法:相同提示词抽卡、修改提示词抽卡、使用 FLUX Kontext 等图像编辑模型对图片进行编辑。

            首先是相同提示词抽卡:

            由于是相同提示词并且很多模型在同时生成多张的时候种子是一致的,所以多张图中很容易找到相似度很高的图片,非常适合用来做展示类的首尾帧视频。

            比如我上面视频里面的每个角色展示的分镜就是相同提示词生成的,我找了两个面部和形体相似但是背景和服装不同的兔子来完成展示,可以看到可灵过渡的非常好,尤其是面部,给人感觉连贯性很强。

            仿古画,版画,水墨,古风,笔触感,大师级构图,可爱俏皮的兔子精,白发发髻,神话,诡谲,奇幻,山海经,毛绒绒白色装饰,黑色背景,


            ?k=68248ede&u=https%3A%2F%2Fmmbiz.qpic

            修改提示词抽卡:

            如果我们要做画面中主要人物或者物品的移动或者消失出现,一个合适的方法就是,先写出尾帧的提示词,生成图片后根据需求更改其中的一部分就行。

            比如这个富士山和汽车的画面就是先有汽车停在富士山下的提示词,然后在删掉汽车的部分完成的。

            首帧提示:mount fuji on the background centered,, professional color grading, 4k, shot on RED camera, wallpaper quality
            尾帧提示:two R34 nissan skylines, stunning, with mount fuji on the background centered,, professional color grading, 4k, shot on RED camera, wallpaper quality


            ?k=6ff5455e&u=https%3A%2F%2Fmmbiz.qpic

            使用图像编辑模型编辑:

            以前想要编辑图片基本只能局部重绘,但是局部重绘局限性非常大,索性我们最近有了不少可用的图像编辑模型。

            通过自然语言就可以编辑图片,这样我们就能实现对图片的精确控制,制作出各种特效。

            比如将扁平的 Logo 图片变成有丰富材质和背景的视频,我就是拿了一张 Logo 图片然后用图片编辑模型让他加上材质更换背景。

            最后在用可灵 2.1 首尾帧生成视频的时候可以看到从扁平到金属材质的过程可灵还加上了非常顺滑的过渡一点不突兀。


            ?k=66294b3d&u=https%3A%2F%2Fmmbiz.qpic

            也可以让某个人物拿上东西或者放下东西,这个在电商场景非常实用。

            比如下面这个就是用原始的模特图片和后面拿上产品的图片生成的,模特和产品都可以保持一致性,可用性相当高,而且可灵生成的时候完全没有常见的手部细节问题。


            Image


            ?k=729a5ad9&u=https%3A%2F%2Fmmbiz.qpic

            当然我们也可以用这个方式去做非常炫酷的文字特效。

            比如我这里就先生成了一个金属文字的 KLING,然后用图像编辑模型修改文字,分别变成了 2.1 和 First Last Frame,然后用可灵 2.1 首尾帧能力生成两个视频,拼起来就是连贯的文字变化特效。


            Image

            当然,我们也可以加上更加丰富的变化,比如每个分镜不止文字会变化文字材质和周围环境也发生变化,整个表现力会更加丰富,而且可灵 2.1 不止响应了文字本身的变化,环境的变化也跟文字是同步的。


            ?k=82a6fe20&u=https%3A%2F%2Fmmbiz.qpic

            图像编辑常见的人物或者玩偶变装特效也很好玩,比如这里让 Labubu 做个简单变装。


            ?k=54282995&u=https%3A%2F%2Fmmbiz.qpic

            如何生成首尾帧视频的提示词

            我上面所有的首尾帧的提示词没一个是我自己写的,完全是 AI 生成的。

            先给大家用来生成首尾帧视频的提示词,然后教一下大家提示词为什么这么写。将你想要生成的首尾帧图片和这个提示词一起扔给任何一个头部的多模态模型就可以了。

            这个提示词可以生效也是因为可灵 2.1 的首尾帧提示词理解和遵循能力大幅增强的缘故。

            藏师傅的首尾帧提示词生成提示:

            你是一位顶尖的创意视频导演和VFX(视觉特效)概念艺术家。你的任务是为AI视频生成模型设计一个从【起始帧】到【结束帧】的转场过程。

            你的核心目标是:构思并用一段话清晰、具体地描述这个动态视觉变化。

            在构思时,请遵循以下创作框架:

            第一步:分析差异 快速判断【起始帧】和【结束帧】的差异程度。

            A类 – 关联性强: 主体或场景基本一致,只是状态、风格或环境发生改变(例如,同一个人换了衣服,同一个场景从白天到黑夜)。

            B类 – 差异巨大: 主体和场景完全不同(例如,一只猫在客厅 → 一艘飞船在太空)。

            第二步:选择转场策略

            如果属于 A类,优先采用“原地演变”的策略。让变化直接发生在主体和环境上,尽量不使用或只使用微弱的摄像机移动。

            如果属于 B类,采用“运镜驱动转场”的策略。必须使用一种明确的摄像机移动(如推、拉、摇、移、旋转)来引导过渡,让镜头运动成为连接两个不相干画面的桥梁。

            第三步:构思具体变化(从以下工具箱中选择组合)

            主体变化: 主体如何改变?(形态变化、材质替换、服装更替、分解重组、消失或出现)。

            环境变化: 背景如何改变?(时间流逝、季节更替、空间切换、从现实变为幻想)。

            风格/特效变化: 用什么视觉风格或特效来包装这个过程?(例如,画面逐渐像素化后重组、被火焰/水流吞噬后显现、转变为水彩/油画风格、出现光效粒子)。

            输出规则:

            将你的最终构思整合为一个连贯的段落。

            描述要具体、直接,充满画面感。专注于“我们看到了什么”,而不是“我们感觉到了什么”。

            严格遵守你在第二步中选择的摄像机移动策略。

            避免使用模糊的比喻和过于文学化的修辞。

            现在,请根据我提供的【起始帧】(图片A)和【结束帧】(图片B),生成你的转场描述。

            看下这个提示词有多强,他会自动判断两张图片的差异度,然后根据差异的不同采取不同的提示词生成策略。

            需要注意的是这个提示词生成的视频提示需要模型有非常强的提示词理解和遵循能力,所以目前应该只有可灵 2.1 效果比较好。

            比如这种两张图片有相关性的,他就会优先用原地演变的原则主要重点放在主体和环境身上,让人物穿衣服,背景的植物生长来完成首尾帧的转换。

            画面开始时,少女俯身在地,随着她缓缓抬起上身,她身后的盆景松树也开始悄然生长,枝干以肉眼可见的速度变得更加粗壮和舒展,同时,少女裙摆和发髻上的孔雀羽饰也随之展开。当她完全坐直,将目光从地面移向前方时,背景的光线由柔和的漫射光转变为明亮的聚光,将她和生长后的松树轮廓勾勒得更为清晰,而她身旁原先独立的假山石已经和松树的根部融为一体,成为她坐下的石台。整个过程中,摄像机非常缓慢地向左平移,最终将人物与生长后的树木一同置于画面中心,完成了构图的变化。


            ?k=488dcacf&u=https%3A%2F%2Fmmbiz.qpic

            如果两张图片差异巨大甚至完全无关怎么办,他就会要求模型加上运镜进行过渡,让连贯的镜头表现变成链接两张图片的桥梁,而且模型也会自己加上一些特效变化让一个具体的材质引导画面变化,一下就让两张图片有了联系。

            比如这里的狐狸和龙差别很大,模型就让狐狸的绸带变为了流动的浓墨融合进了水墨的巨龙身体里面,一下就让两者有了关联,比如你就会想狐狸是不是就是巨龙的一个化身,而且我都没想到这个转场可灵 2.1 可以搞定。

            镜头首先聚焦于狐妖腰间飘动的一条彩色绸带,随着一股无形的风起,这条绸带挣脱束缚,向画面深处和高处飞去。摄像机立即启动,以一个平滑的弧线运镜紧紧跟随这条绸带。在高速运动中,绸带的丝绸质感逐渐溶解,其上的多彩颜色开始褪去并融合成单一的、流动的浓墨。与此同时,背景中的亭台楼阁在动态模糊中被迅速替换为灰色的、翻涌的云海。当绸带完全转化为一道粗壮的墨迹时,它的表面开始浮现出细密的黑色鳞片纹理,并继续在云雾中延展、壮大,演化为龙的身体。镜头沿着这条由绸带演变而来的龙身继续向前推进并上摇,最终穿出云层,定格在【结束帧】中那颗巨大威严的龙头上,它的一对金瞳在阴沉的云海中赫然亮起。


            ?k=f54b6df6&u=https%3A%2F%2Fmmbiz.qpic

            这套提示词也不是 LLM 凭空产生的,而是我跟模型讨论的结果。

            我先规定了一些基础的提示词生成原则,比如运镜不要太多,文学性修辞和比喻不要太多,产出了一个基础的要求。

            然后就开始跟模型讨论两张图片变化的本质其实就是模型对“过程”和“变化”的理解与想象

            然后就开始遍历到底两张图片之间会有哪些变化和过程,遍历了一下发现确实是可以穷尽的,然后在对这么多状态进行分类和组合,最后得出了常见的变化和组合主体变化 + 环境变化或者风格变化 + 特效变化这两种。

            结合结合这两者的特点和我前面的提示词书写要求,结合生成了最终的提示词,如果你以后想写自己的提示词也可以参考这个思路。


            Image

            好了教程基本上已经写完了,我们来总结一下藏师傅这套可灵 2.1 首尾帧的通关攻略。

            • 三张王牌拿图法(同提示词抽卡、改提示词抽卡、FLUX Kontext 编辑)
            • 一条万能提示词,让多模态模型替你写提示词

            但真正的价值不在这里,而在你接下来 10 分钟要做的两件事。

            第一件事:把「流程」固化成「资产」

            把今天所有步骤打包成一个模板:首帧图链接 | 尾帧图链接 | 差异分类(A/B)| 生成提示词 | 成片链接。以后任何新项目,直接往模板里填图,10 秒出提示词,半小时出片。这套模板可能就是你未来三个月的睡后生产力。

            第二件事:把「特效」升维成「叙事」

            首尾帧的本质不是「过渡」,而是「因果」。狐狸 → 巨龙:绸带化墨只是视觉钩子,真正的叙事是「妖狐渡劫化龙」。少女 → 盆景:树长人坐只是动态美感,真正的叙事是「人景共生」。当你用「因果」而不是「过渡」去写提示词,观众看到的就不是特效,而是故事。从「特效师」变成「叙事者」,你的视频单价至少翻 5 倍。

            工具会迭代,模型会升级,但「流程资产化 + 叙事升维」这两件事永远不过时。现在,轮到你把「可灵 2.1 首尾帧」写进自己的复利曲线了。

            最后如果觉得藏师傅这套方法对你有帮助的话,欢迎帮我点个赞👍或者喜欢🩷,也可以转发✈️需要的朋友。

            阅读原文

            跳转微信打开

            今天起,不用下载飞书也能用飞书多维表格了!

            飞书 2025-08-21 12:48 北京

            ?k=8af57e79&u=https%3A%2F%2Fmmecoa.qpic

            一直以来,飞书多维表格作为飞书功能中的明星产品,收到了用户们广泛的好评和喜爱。为了让更多人以更低的门槛使用飞书多维表格,我们决定: 飞书多维表格将不仅支持飞书,也会支持其他平台。

            现在,无需下载和注册飞书,飞书多维表格作为单独产品可以独立使用点击链接 即可体验!


            图片

            更独立的飞书多维表格,

            意味着什么?


            更加独立的「飞书多维表格」,既保留了飞书中多维表格的完整功能,也解除了和飞书其他模块的功能依赖,浏览器直接搜飞书多维表格就能找到入口。


            ?k=2dd94aa4&u=https%3A%2F%2Fmmecoa.qpic

            这意味着,飞书多维表格将可以和其他 IM 系统任意打通,实现跨平台无缝衔接,让不同规模的企业都能迎来“零代码、自主定制业务系统”的全新起点。

            图片

            五大核心优势

            1. 无需下载飞书,即可免费享有

            不用成为飞书用户,即可免费享有专业级的飞书多维表格,完整保留各项能力,如仪表盘、工作流、高级权限、AI 功能、百万行权限等,有效降低企业数字化成本,满足 “ 第三方 IM + 飞书生产力工具 ” 的灵活组合需求。


            ?k=c646b9d1&u=https%3A%2F%2Fmmecoa.qpic


            2. 超低门槛解锁工作中的 AI 场景,会用表格就会用 AI

            让 AI 以极低的门槛融入业务,支持目前飞书多维表格所有的 AI 能力。包括 AI 字段捷径、仪表盘 AI 分析、 AI 生成公式等,让 AI 对业务人员真能用、真落地。


            ?k=08c3e22c&u=https%3A%2F%2Fmmecoa.qpic

            3. 不用做图表,数据“拖进”仪表盘,就能 Get 企业级专业的数据驾驶舱

            飞书多维表格拥有专业的 BI 主题、专业的 BI 组件。全面升级数据分析能力后,已完整覆盖专业 BI 软件所有的常用分析功能,让数据看得更清,让决策更快更准。


            ?k=49998cfe&u=https%3A%2F%2Fmmecoa.qpic

            4. 高性能数据库底座,稳载复杂核心业务

            飞书多维表格具备性能领先的数据库底座能力,可轻松承载高速增长、结构复杂的核心业务。让业务人员搭建的系统,用得深、用得久、容得下更多人。


            ?k=06fc6600&u=https%3A%2F%2Fmmecoa.qpic

            5. 不懂编程,零代码也能搭建属于自己的业务系统

            千行百业的业务人员,都在使用飞书多维表格解决业务问题。即使不会编程,也能零代码搭建业务工具,实现只有专业研发团队才能做到的业务创新。

            目前, 飞书多维表格已在永旺、Recomm 、海底捞、雅迪、伊芙丽 X 珂蒂丝等国内外知名企业落地应用 ,成功助力客户搭建起数据承载量大、业务逻辑复杂且运行稳定的数字化业务系统。比如,日本永旺用它替代了亿元级自研的派遣员工管理系统,让复杂管理变得轻盈;伊芙丽 X 珂蒂丝的会员管理系统因它焕发活力,周活超 2000 人的日常运转里,藏着用户的信任与效率的跃升。

            不知不觉间,飞书多维表格已经成为不少大公司的核心系统外挂系统和小公司的核心系统。


            ?k=40b7b696&u=https%3A%2F%2Fmmecoa.qpic

            提供了更多入口的飞书多维表格,也将带给不同规模企业的业务系统更多可能性。

            现在,无需下载和注册飞书,每一个人都能以更低的门槛用上同款解决方案。还等什么?点击阅读原文,即刻试用吧!

            如果你在使用过程中有任何问题,都可以点击链接入群,获得专属解答。


            图片

            往期回顾


            ?k=6baf343e&u=https%3A%2F%2Fmmecoa.qpic

            ?k=b8a7e5bc&u=https%3A%2F%2Fmmecoa.qpic

            ?k=9dfc7c38&u=https%3A%2F%2Fmmecoa.qpic

            ?k=ba426366&u=https%3A%2F%2Fmmecoa.qpic



            图片

            阅读原文

            跳转微信打开

            谷歌Pixel发布汇总:硬件与软件全面AI化,那谁你就学叭

            原创 歸藏的 AI 工具箱 2025-08-21 12:48 北京

            ?k=7b60cf44&u=https%3A%2F%2Fmmbiz.qpic

            大家好,我是歸藏(guizang)谷歌昨晚举行了他们的 2025 年硬件发布会,早上起来回顾和总结一下。

            虽然之前预想到了会有很多的 AI 能力,但是没想到会这么多这么激进,其中很多硬件和 AI 结合的相当好。

            想买 Pixel 手机了,这玩意现在基本上可以说是 AI 手机,里面一堆端侧的 LLM 和扩散模型。


            Image

            来详细看一下这次发布会上的所有 AI 软件和硬件能力。

            Gemini 驱动的健康教练

            Gemini 构建的全新 AI 驱动个人健康教练,这个太好了,AI 驱动的健身和健康计划:

            • 自定义训练:会为你制定个性化的健身计划,提供详细的锻炼建议和侧重每周进步的指标目标。
            • 基于数据的训练:教练会根据实时数据和每日洞察持续调整你的训练计划,帮助你达成目标。
            • 实时签到与调整:当生活打乱计划时,你可以随时与教练连接进行调整。
            • 睡眠质量洞察:你的睡眠教练会查看你一周的睡眠,发现模式并提供如何随时间改善睡眠质量的见解。
            • 适应性睡眠计划:为了帮助你了解为保持最佳状态和表现实际需要多少睡眠,你的睡眠教练会提供一个根据你日常活动水平调整的个性化计划。
            • 会随着你的变化而调整的帮助:当你在健康旅程中进展时,你的个人健康教练会逐渐了解你——学习你的偏好。
            • 问题的答案:你可以向你的教练提出任何问题,并获得真正个性化且有科学依据的答案。
            • 洞察与要点:你的教练始终在关注你。它会主动分享你健康与保健的趋势。

            苹果真是浪费了 Apple watch 的数据,但是好歹这玩意是APP 可以获取的。我不知道为啥到现在都没有 AI 辅助数据分析和训练的优质 APP 出现 多好的机会啊。


            Image


            Image

            AI 驱动的拍摄指导和自然语言修图

            通过自然语言编辑拍摄的照片:这个功能也很好,只需要打字或者语音就可以让相册里的 Gemini 帮你编辑照片,Nano Banana 是不是用在这里了。

            除了像调整光线和去除干扰等修正性编辑之外,你还可以寻求更具创意的帮助。例如,你可以更改图片背景,给主体添加派对帽或太阳镜等有趣元素,等等。


            Image

            Gemini 驱动的拍照教练:不止帮你修图还帮你拍照,通过激发新的创意并帮助你探索可能未曾考虑过的构图,指导你拍出更好的照片。通过逐步引导,它会就光线、构图等方面提供建议。


            Image

            Pixel 10 Pro 和 Pixel 10 Pro XL 上相机的数码变焦范围可以到 100 倍,他们专门用了一个本地的扩散模型来对放大后的照片进行细节补充。


            Image

            Gemini 驱动的智能大屏设备 Gemini for Home

            即将推出 Gemini 驱动的智能大屏设备 Gemini for Home,具体的能力有:

            • Gemini Live:有摄像头可以看到家里的画面,所以可以直接在这个设备上使用 Gemini Live 提出环境相关问题。
            • 发现并播放媒体:可以通过不说出名字的模糊指令来播放对应的视频或者音频
            • 获得更强大的智能家居控制:Gemini 可以推理处理复杂命令,因此可以说“把所有地方的灯都关了,除了我的卧室”。
            • 协调家庭与生活:自然语言用于日历创建、清单创建和计时器控制。
            • 询问任何问题:以 Gemini 为核心,可以快速获得具体需求量身定制的答案,涉及无数主题。


            Image

            其他 AI 相关能力

            所有 Pixel 10 手机均搭载 Google Tensor G5 芯片,可以本地运行 Gemini Nano 模型。

            不过谷歌坚持不用公版 ARM 架构,导致这次的芯片性能增幅有点拉跨,GPU IP 来自 Imagination 不支持光追。


            Image

            Magic Cue 功能:支持将所有谷歌应用的信息串联起来,在合适的地方建议你一键分享,比如在 Messages 应用中。


            Image

            Voice Translate :会利用端侧模型实时翻译通话内容,而且会模仿对方的说话音色,,更加自然,目前不支持翻译中文。


            Image

            Call Screen:Take a Message 现在会为错过或拒接的来电提供实时转录,AI 根据留言为你识别和弹出建议的下一步操作,留言和转录内容会放在通话笔记中。


            Image

            Gemini Live 更新:摄像头共享的时候 Gemini 会根据需求框选出需要高亮的摄像头中的物品,Gemini APP 现在支持用 Veo3 生成视频。


            Image

            NotebookLM 跟 Pixel 截图应用和录音应用整合:如果检测到你拍摄的图片或者录音可能适合加入笔记本,就会建议你添加收藏到NotebookLM。

            新的笔记应用 Pixel Journal:帮助你记录身心健康、目标进展,并建立终身的反思习惯。设备端 AI 会提供写作提示,帮助你理清思路,并随时间为你提供有关模式和进展的洞见。


            Image


            Image


            Image

            录音机应用里面可以帮你生成音乐:只需录制你的哼唱的声音并选择想要的音乐风格,就能创建与自己氛围相符的独特曲目。

            新的手表 Pixel Watch 4 现在有 Gemini 驱动的健身教练能力,AI 真的非常适合干这个,我就用 GPT-5 分析自己运动数据。它提供主动的健身与睡眠指导以及按需建议,基于来自你的 Pixel Watch 的指标。通过“抬腕交谈”,只需抬起手腕就能唤出 Gemini,跟他交流。


            Image

            发布 AI 耳机 Pixel Buds Pro 2:耳机内置 Tensor A1 和 Gemini,可以在嘈杂环境中与 Gemini Live 通话。会自动根据环境调整耳机音量或者开启降噪。可以不动手就接听来电,或拒绝回复短信。只需点头或摇头即可。


            Image

            看完了所有的内容,总结一下谷歌硬件发布会代表的几个趋势:

            • 手机系统的所有自带软件全部 AI 化,而且功能都非常实用
            • 除了手机之外的其他硬件产品也全部加上了 Gemini 的对话和沟通能力
            • 两个重点发力的 AI 软件场景是 AI 健康教练和 AI 修图&拍摄指导
            • AI 功能不再局限于主动触发,会自动在合适的场景下弹出和给出建议
            • 多个系统 APP 之间的 AI 能力可以联动,输出的信息可以相互流转
            • 端侧模型大量使用,覆盖了所有模态,AI 照片修改和100 倍数码变焦细节补充以及通话实时翻译&文本建议

            谷歌过去一年在所有模型上的成果这次基本都反哺在了硬件上,反观苹果呢,依然在执着的推出 2900 毫安时电池的超薄 iPhone,这电量不知道够不够半天用。

            如果觉得今天的内容对你有帮助的话可以帮我点个赞👍或者喜欢🩷,也可以推荐给你的朋友,感谢

            阅读原文

            跳转微信打开

            全新最堅固耐用的 Pixel 10 Pro Fold 正式在台登場

            Pixel 10 Pro Fold 展開
            Pixel 10 Pro Fold 在 Pixelsnap 充電座上充電
            Pixel 10 pro Fold 背面

            Adblock test (Why?)

            全新升級 Pixel Watch 4 即將登場

            Pixel Watch 4 可以維修
            Pixel Watch 4 擁有我們至今最全面、最精準的健康與運動追蹤功能:

            Adblock test (Why?)