ORANGE BOOK · HERMES AGENT

第三章 给它配一颗大脑(模型选择)


一、先理解一件事:Hermes ≠ 大模型

很多人第一次用 Hermes,会以为它本身就是一个 AI。其实不是。

Hermes 是一个"骨架",大模型是它的"大脑"。

骨架决定了它能做什么动作(读文件、跑命令、调浏览器、跨平台联通),大脑决定了它有多聪明(理解你的话、做决策、写代码、判断对错)。骨架是开源免费的,但大脑是要花钱的(除非用本地模型)。

这意味着:同样一个 Hermes,配上不同的模型,会完全是两个体验

配什么模型 体验大致是
Claude Opus 4 像一个清华博士给你打工,又贵又好
Claude Sonnet 4 像一个 985 硕士,性价比之王
GPT-4o 像一个全能型本科生,话痨但靠谱
Kimi K2 / DeepSeek V3 像一个国内重点本科,便宜,中文好
Llama 3.3 70B(本地) 像一个免费实习生,慢但隐私 100%
Qwen 2.5 7B(本地) 像一个免费小弟,能干简单活

下面我们把这些选项摊开讲清楚。

二、五大模型来源对比

来源 优势 劣势 推荐场景
OpenRouter 一个 Key 通吃 200+ 模型,自动比价 国内访问偶尔不稳 海外用户、想随时切换模型
Anthropic 直连 Claude 系列,质量最高 只有 Claude,国内需代理 追求极致质量
OpenAI 直连 GPT-4o / GPT-5,生态完善 国内需代理 已经在用 ChatGPT Plus
Kimi / DeepSeek 等国产 国内可用、中文好、价格友好 模型更新比海外慢半拍 国内用户首选
Ollama 本地 完全免费、隐私 100% 需要 16GB+ 内存才好用 隐私敏感、研究、白嫖党

下面分别讲怎么配。

三、方案 A:海外用户首选 —— OpenRouter

OpenRouter 是 2026 年最流行的"模型路由"——你只交一份钱,它帮你转给底层的 OpenAI、Anthropic、Google、Meta、Mistral 等数十家。

配置步骤

  1. 打开 https://openrouter.ai,用 GitHub 账号登录;
  2. 进入 "Credits",充 5~20 美元;
  3. 进入 "Keys",点 "Create Key",复制以 sk-or-v1- 开头的字符串;
  4. 在终端:
hermes config set model.provider openrouter
hermes config set model.default anthropic/claude-sonnet-4
hermes config set OPENROUTER_API_KEY sk-or-v1-你的key

推荐模型清单(按性价比从高到低)

模型 价格(输入/输出,每百万 token) 适合
anthropic/claude-sonnet-4 $3 / $15 日常首选,性价比之王
anthropic/claude-haiku-4-5 $0.25 / $1.25 子代理、批量任务
openai/gpt-4o-mini $0.15 / $0.60 快速响应、低预算
google/gemini-pro-1.5 $1.25 / $5 长上下文(>100K)
meta/llama-3.3-70b-instruct $0.35 / $0.40 开源便宜量大
anthropic/claude-opus-4 $15 / $75 最难的活才用

四、方案 B:国内用户首选 —— Kimi + DeepSeek 组合

国内用户最大的痛是访问 OpenRouter / Anthropic 不稳。好消息是:2026 年的国产模型已经追上了,特别是中文场景。

4.1 注册账号、拿 Key

平台 网址 注册方式 推荐用途
Kimi(月之暗面) platform.moonshot.cn 手机号 长文本、中文写作
DeepSeek platform.deepseek.com 手机号 通用、代码、推理
智谱 GLM open.bigmodel.cn 手机号 中文、工具调用
百炼通义 bailian.console.aliyun.com 阿里云账号 多模态、稳定

注册后,到对应的"API Keys"页面创建一个 Key(一般以 sk- 开头),并充值 10~50 元(国内模型很便宜,能用很久)。

4.2 在 Hermes 里配置自定义端点

Hermes 支持任何"OpenAI 兼容"的接口,只需要告诉它"基础地址"和"Key"。

打开 ~/.hermes/config.yaml(用任何文本编辑器,比如 VS Code 或 macOS 自带 TextEdit):

hermes config edit

model: 块改成下面这样(这是 Kimi 的例子):

model:
  provider: openai-compatible
  default: moonshot-v1-128k
  endpoints:
    moonshot:
      base_url: "https://api.moonshot.cn/v1"
      api_key_env: "KIMI_API_KEY"
      models:
        - moonshot-v1-8k
        - moonshot-v1-32k
        - moonshot-v1-128k    # 长上下文,128k token
        - kimi-k2              # 最新旗舰

然后填 Key:

hermes config set KIMI_API_KEY sk-你的-kimi-key

DeepSeek 同理:

endpoints:
  deepseek:
    base_url: "https://api.deepseek.com/v1"
    api_key_env: "DEEPSEEK_API_KEY"
    models:
      - deepseek-chat       # V3 通用
      - deepseek-reasoner   # R1 推理(适合复杂逻辑)
hermes config set DEEPSEEK_API_KEY sk-你的-deepseek-key

4.3 推荐组合(国内用户)

用途 模型 原因
日常对话、写文档 kimi-k2moonshot-v1-128k 中文质量最好
代码、推理 deepseek-reasoner 逻辑能力强、便宜
简单任务、子代理 deepseek-chat 速度快、几乎不要钱
中文长文本(>30K) moonshot-v1-128k 长上下文专家

五、方案 C:全本地隐私 —— Ollama

如果你的工作涉及商业机密、医疗数据、法律文件——任何绝对不能上传到云的内容——Ollama 是你的首选。

5.1 装 Ollama

# macOS / Linux 一键安装
curl -fsSL https://ollama.ai/install.sh | sh

# Windows 去官网下载安装包
# https://ollama.ai/download

装完启动它:

ollama serve

它会在 localhost:11434 启动一个本地 API 服务。

5.2 拉一个模型

按你的硬件挑:

你的内存 推荐模型 大小 描述
8GB qwen2.5:7b 4.5GB 通义千问 7B,中文好
16GB qwen2.5:14bllama3.3:8b 8~9GB 一般任务都能干
32GB qwen2.5-coder:32b 19GB 代码 + 通用,性价比最高
64GB+ llama3.3:70bqwen2.5:72b 40GB+ 接近 Claude Sonnet 水平

例如:

ollama pull qwen2.5-coder:14b

5.3 让 Hermes 用 Ollama

hermes config set model.provider ollama
hermes config set model.default qwen2.5-coder:14b
hermes config set model.endpoints.ollama.base_url http://localhost:11434

或者直接在 ~/.hermes/config.yaml 里:

model:
  provider: ollama
  default: qwen2.5-coder:14b
  endpoints:
    ollama:
      base_url: "http://localhost:11434"

5.4 本地模型的真实体验

诚实地说:

  • 优点:免费、隐私、断网也能用、可以无限折腾不用心疼钱;
  • 缺点:相比 Claude Sonnet 还是会"笨一些"(除非你有 64GB+ 内存跑 70B),尤其是涉及复杂任务规划时;
  • 最佳实践:把 Ollama 用在简单、敏感、批量的任务上(如总结私人邮件、整理私密文档),把云模型用在关键决策上。

六、省钱组合:100 元月费跑出 500 元体验

这是本章最有价值的部分。Hermes 支持一个叫 fallback / 路由 的功能——你可以告诉它:"简单的活用便宜模型,难的活才动用贵的"。

6.1 一份省钱配置(推荐 80% 普通用户)

打开 ~/.hermes/config.yaml,写成下面这样:

model:
  provider: openrouter
  default: anthropic/claude-sonnet-4
  
  # 智能路由:按任务类型自动选模型
  routing:
    # 简单任务用便宜的
    - match: "task.complexity == 'simple'"
      model: "anthropic/claude-haiku-4-5"
    
    # 子代理用最便宜的
    - match: "agent.type == 'subagent'"
      model: "openai/gpt-4o-mini"
    
    # 写代码用代码强的
    - match: "task.type == 'code'"
      model: "anthropic/claude-sonnet-4"
    
    # 长文档用长上下文的
    - match: "context.length > 50000"
      model: "google/gemini-pro-1.5"
    
    # 涉及复杂决策才动用 Opus
    - match: "task.complexity == 'critical'"
      model: "anthropic/claude-opus-4"

  # 兜底:如果默认模型挂了用谁
  fallback:
    - "anthropic/claude-haiku-4-5"
    - "openai/gpt-4o-mini"

  # 预算上限:到这个数字就停
  budget:
    daily_limit_usd: 1.50    # 每天最多花 1.5 美元(约 11 元)
    monthly_limit_usd: 30    # 每月最多 30 美元(约 220 元)
    alert_at: 0.80           # 用到 80% 时给你发提醒

按这个配置跑一个月,重度用户实测大约花费在 80~150 元之间,比不分模型直接用 Claude Sonnet 省 60% 以上。

6.2 国内版省钱组合

如果你用的是 Kimi + DeepSeek:

model:
  provider: openai-compatible
  default: kimi-k2
  routing:
    - match: "task.complexity == 'simple'"
      model: "deepseek-chat"            # 几乎不要钱
    - match: "agent.type == 'subagent'"
      model: "deepseek-chat"
    - match: "task.type == 'code'"
      model: "deepseek-reasoner"        # 代码 + 推理强
    - match: "context.length > 30000"
      model: "moonshot-v1-128k"         # 长文本
  budget:
    daily_limit_cny: 5
    monthly_limit_cny: 100

实测一个月 30~80 元就能搞定中度用户的日常需求。

6.3 省钱的三个铁律

  1. 简单的事别动用 Opus / GPT-4——一句话写邮件、一段话总结,用 Haiku / Mini / DeepSeek 就够了。差别你根本感觉不到。
  2. 子代理永远用便宜模型——主代理负责调度(用聪明模型),子代理负责跑腿(用便宜模型)。详见 第十章
  3. 设硬上限——daily_limit 这件事一定要做。Hermes 跑定时任务时如果出 Bug 死循环调用 API,一晚上能给你刷出 200 美元账单。设一个上限,最多就那么多。

七、临时切换模型:/model 命令

有时候你正在用便宜模型聊天,突然遇到一个难题想"借一下 Claude Opus"。不用退出,直接:

> /model anthropic/claude-opus-4
[模型切换] 当前对话已切换到 anthropic/claude-opus-4

这次对话用 Opus,下次新对话又会自动回到默认的 Sonnet。

也可以这样查看当前用的模型:

> /model
当前模型: anthropic/claude-sonnet-4
本次对话已用: 12,043 input tokens, 3,891 output tokens
预估花费: $0.094

八、SOUL.md 里指定不同任务的偏好(进阶)

第四章会详细讲 SOUL.md,这里先剧透一下。你可以在 ~/.hermes/SOUL.md 里写:

当我让你帮我"写代码"或"调试"时,请使用 anthropic/claude-sonnet-4。
当我让你帮我"总结"或"翻译"时,请使用 anthropic/claude-haiku-4-5 即可。
当我让你帮我"做战略性决定"或"复杂规划"时,可以用 claude-opus-4,但用之前先告诉我成本估算。

Hermes 会读到这些偏好,并在每次任务前自动选合适的模型。

九、几个实际花费数字(参考)

下面这些数字基于 2026 年 4 月的价格,仅供参考:

场景 模型 一次成本 月费(每天 1 次)
整理 50 封邮件总结 Claude Sonnet 4 ¥0.20 ¥6
90 分钟会议录音转纪要 Claude Sonnet 4 ¥0.80 ¥24
写一份 1500 字周报初稿 Claude Sonnet 4 ¥0.30 ¥9
24 小时定时盯演唱会票 Haiku 4.5 ¥0.05 ¥1.5
客户反馈 60 条分类打分 DeepSeek V3 ¥0.10 ¥3
国庆出游 6 天规划(含搜索) Sonnet + Gemini ¥3 一次性

整体来看,普通人的月度花费 50~150 元就能让 Hermes 当 24 小时秘书。如果你只用 Ollama 本地,0 元

十、小结:你的"组合拳"

按"使用强度"给一个推荐组合:

类型 推荐组合 月预算
试一试 Ollama (qwen2.5:7b) 0 元
国内轻度 Kimi + DeepSeek 路由 30~80 元
国内中度 Kimi K2 + DeepSeek + Qwen 本地兜底 80~150 元
海外轻度 OpenRouter Sonnet + Haiku 路由 $5~$15
海外重度 OpenRouter Opus + Sonnet + Haiku $30~$80
极致隐私 Ollama 70B(需要 64GB 内存) 0 元(电费除外)

本章一图回顾

              ┌─────────────────┐
              │   Hermes Agent   │
              │   (骨架)       │
              └─────────────────┘
                       │
         ┌─────────────┼─────────────┐
         ↓             ↓             ↓
    ┌────────┐   ┌────────┐   ┌────────┐
    │ 主大脑 │   │ 干活的 │   │ 兜底的 │
    │Sonnet  │   │ Haiku  │   │ Ollama │
    └────────┘   └────────┘   └────────┘
        ↑          ↑              ↑
    复杂规划    日常对话      隐私敏感

    + 设 budget 上限  + 用 routing 路由 = 省钱组合

下章预告

模型配好了,但你给它发的提示词如果是"帮我写个东西",效果照样很差。 第四章 学会和它对话 会教你:

  • 提示词五要素(角色、目标、上下文、约束、产出格式)
  • 直接复制就能用的 XML 提示词模板
  • 怎么用 SOUL.md 给 Hermes 一个"专属人格"
  • MEMORY.mdUSER.md 的实战写法
  • 让 Hermes "记忆唤起"的小技巧