一、先理解一件事:Hermes ≠ 大模型
很多人第一次用 Hermes,会以为它本身就是一个 AI。其实不是。
Hermes 是一个"骨架",大模型是它的"大脑"。
骨架决定了它能做什么动作(读文件、跑命令、调浏览器、跨平台联通),大脑决定了它有多聪明(理解你的话、做决策、写代码、判断对错)。骨架是开源免费的,但大脑是要花钱的(除非用本地模型)。
这意味着:同样一个 Hermes,配上不同的模型,会完全是两个体验。
| 配什么模型 | 体验大致是 |
|---|---|
| Claude Opus 4 | 像一个清华博士给你打工,又贵又好 |
| Claude Sonnet 4 | 像一个 985 硕士,性价比之王 |
| GPT-4o | 像一个全能型本科生,话痨但靠谱 |
| Kimi K2 / DeepSeek V3 | 像一个国内重点本科,便宜,中文好 |
| Llama 3.3 70B(本地) | 像一个免费实习生,慢但隐私 100% |
| Qwen 2.5 7B(本地) | 像一个免费小弟,能干简单活 |
下面我们把这些选项摊开讲清楚。
二、五大模型来源对比
| 来源 | 优势 | 劣势 | 推荐场景 |
|---|---|---|---|
| OpenRouter | 一个 Key 通吃 200+ 模型,自动比价 | 国内访问偶尔不稳 | 海外用户、想随时切换模型 |
| Anthropic 直连 | Claude 系列,质量最高 | 只有 Claude,国内需代理 | 追求极致质量 |
| OpenAI 直连 | GPT-4o / GPT-5,生态完善 | 国内需代理 | 已经在用 ChatGPT Plus |
| Kimi / DeepSeek 等国产 | 国内可用、中文好、价格友好 | 模型更新比海外慢半拍 | 国内用户首选 |
| Ollama 本地 | 完全免费、隐私 100% | 需要 16GB+ 内存才好用 | 隐私敏感、研究、白嫖党 |
下面分别讲怎么配。
三、方案 A:海外用户首选 —— OpenRouter
OpenRouter 是 2026 年最流行的"模型路由"——你只交一份钱,它帮你转给底层的 OpenAI、Anthropic、Google、Meta、Mistral 等数十家。
配置步骤
- 打开 https://openrouter.ai,用 GitHub 账号登录;
- 进入 "Credits",充 5~20 美元;
- 进入 "Keys",点 "Create Key",复制以
sk-or-v1-开头的字符串; - 在终端:
hermes config set model.provider openrouter
hermes config set model.default anthropic/claude-sonnet-4
hermes config set OPENROUTER_API_KEY sk-or-v1-你的key
推荐模型清单(按性价比从高到低)
| 模型 | 价格(输入/输出,每百万 token) | 适合 |
|---|---|---|
anthropic/claude-sonnet-4 |
$3 / $15 | 日常首选,性价比之王 |
anthropic/claude-haiku-4-5 |
$0.25 / $1.25 | 子代理、批量任务 |
openai/gpt-4o-mini |
$0.15 / $0.60 | 快速响应、低预算 |
google/gemini-pro-1.5 |
$1.25 / $5 | 长上下文(>100K) |
meta/llama-3.3-70b-instruct |
$0.35 / $0.40 | 开源便宜量大 |
anthropic/claude-opus-4 |
$15 / $75 | 最难的活才用 |
四、方案 B:国内用户首选 —— Kimi + DeepSeek 组合
国内用户最大的痛是访问 OpenRouter / Anthropic 不稳。好消息是:2026 年的国产模型已经追上了,特别是中文场景。
4.1 注册账号、拿 Key
| 平台 | 网址 | 注册方式 | 推荐用途 |
|---|---|---|---|
| Kimi(月之暗面) | platform.moonshot.cn | 手机号 | 长文本、中文写作 |
| DeepSeek | platform.deepseek.com | 手机号 | 通用、代码、推理 |
| 智谱 GLM | open.bigmodel.cn | 手机号 | 中文、工具调用 |
| 百炼通义 | bailian.console.aliyun.com | 阿里云账号 | 多模态、稳定 |
注册后,到对应的"API Keys"页面创建一个 Key(一般以 sk- 开头),并充值 10~50 元(国内模型很便宜,能用很久)。
4.2 在 Hermes 里配置自定义端点
Hermes 支持任何"OpenAI 兼容"的接口,只需要告诉它"基础地址"和"Key"。
打开 ~/.hermes/config.yaml(用任何文本编辑器,比如 VS Code 或 macOS 自带 TextEdit):
hermes config edit
把 model: 块改成下面这样(这是 Kimi 的例子):
model:
provider: openai-compatible
default: moonshot-v1-128k
endpoints:
moonshot:
base_url: "https://api.moonshot.cn/v1"
api_key_env: "KIMI_API_KEY"
models:
- moonshot-v1-8k
- moonshot-v1-32k
- moonshot-v1-128k # 长上下文,128k token
- kimi-k2 # 最新旗舰
然后填 Key:
hermes config set KIMI_API_KEY sk-你的-kimi-key
DeepSeek 同理:
endpoints:
deepseek:
base_url: "https://api.deepseek.com/v1"
api_key_env: "DEEPSEEK_API_KEY"
models:
- deepseek-chat # V3 通用
- deepseek-reasoner # R1 推理(适合复杂逻辑)
hermes config set DEEPSEEK_API_KEY sk-你的-deepseek-key
4.3 推荐组合(国内用户)
| 用途 | 模型 | 原因 |
|---|---|---|
| 日常对话、写文档 | kimi-k2 或 moonshot-v1-128k |
中文质量最好 |
| 代码、推理 | deepseek-reasoner |
逻辑能力强、便宜 |
| 简单任务、子代理 | deepseek-chat |
速度快、几乎不要钱 |
| 中文长文本(>30K) | moonshot-v1-128k |
长上下文专家 |
五、方案 C:全本地隐私 —— Ollama
如果你的工作涉及商业机密、医疗数据、法律文件——任何绝对不能上传到云的内容——Ollama 是你的首选。
5.1 装 Ollama
# macOS / Linux 一键安装
curl -fsSL https://ollama.ai/install.sh | sh
# Windows 去官网下载安装包
# https://ollama.ai/download
装完启动它:
ollama serve
它会在 localhost:11434 启动一个本地 API 服务。
5.2 拉一个模型
按你的硬件挑:
| 你的内存 | 推荐模型 | 大小 | 描述 |
|---|---|---|---|
| 8GB | qwen2.5:7b |
4.5GB | 通义千问 7B,中文好 |
| 16GB | qwen2.5:14b 或 llama3.3:8b |
8~9GB | 一般任务都能干 |
| 32GB | qwen2.5-coder:32b |
19GB | 代码 + 通用,性价比最高 |
| 64GB+ | llama3.3:70b 或 qwen2.5:72b |
40GB+ | 接近 Claude Sonnet 水平 |
例如:
ollama pull qwen2.5-coder:14b
5.3 让 Hermes 用 Ollama
hermes config set model.provider ollama
hermes config set model.default qwen2.5-coder:14b
hermes config set model.endpoints.ollama.base_url http://localhost:11434
或者直接在 ~/.hermes/config.yaml 里:
model:
provider: ollama
default: qwen2.5-coder:14b
endpoints:
ollama:
base_url: "http://localhost:11434"
5.4 本地模型的真实体验
诚实地说:
- 优点:免费、隐私、断网也能用、可以无限折腾不用心疼钱;
- 缺点:相比 Claude Sonnet 还是会"笨一些"(除非你有 64GB+ 内存跑 70B),尤其是涉及复杂任务规划时;
- 最佳实践:把 Ollama 用在简单、敏感、批量的任务上(如总结私人邮件、整理私密文档),把云模型用在关键决策上。
六、省钱组合:100 元月费跑出 500 元体验
这是本章最有价值的部分。Hermes 支持一个叫 fallback / 路由 的功能——你可以告诉它:"简单的活用便宜模型,难的活才动用贵的"。
6.1 一份省钱配置(推荐 80% 普通用户)
打开 ~/.hermes/config.yaml,写成下面这样:
model:
provider: openrouter
default: anthropic/claude-sonnet-4
# 智能路由:按任务类型自动选模型
routing:
# 简单任务用便宜的
- match: "task.complexity == 'simple'"
model: "anthropic/claude-haiku-4-5"
# 子代理用最便宜的
- match: "agent.type == 'subagent'"
model: "openai/gpt-4o-mini"
# 写代码用代码强的
- match: "task.type == 'code'"
model: "anthropic/claude-sonnet-4"
# 长文档用长上下文的
- match: "context.length > 50000"
model: "google/gemini-pro-1.5"
# 涉及复杂决策才动用 Opus
- match: "task.complexity == 'critical'"
model: "anthropic/claude-opus-4"
# 兜底:如果默认模型挂了用谁
fallback:
- "anthropic/claude-haiku-4-5"
- "openai/gpt-4o-mini"
# 预算上限:到这个数字就停
budget:
daily_limit_usd: 1.50 # 每天最多花 1.5 美元(约 11 元)
monthly_limit_usd: 30 # 每月最多 30 美元(约 220 元)
alert_at: 0.80 # 用到 80% 时给你发提醒
按这个配置跑一个月,重度用户实测大约花费在 80~150 元之间,比不分模型直接用 Claude Sonnet 省 60% 以上。
6.2 国内版省钱组合
如果你用的是 Kimi + DeepSeek:
model:
provider: openai-compatible
default: kimi-k2
routing:
- match: "task.complexity == 'simple'"
model: "deepseek-chat" # 几乎不要钱
- match: "agent.type == 'subagent'"
model: "deepseek-chat"
- match: "task.type == 'code'"
model: "deepseek-reasoner" # 代码 + 推理强
- match: "context.length > 30000"
model: "moonshot-v1-128k" # 长文本
budget:
daily_limit_cny: 5
monthly_limit_cny: 100
实测一个月 30~80 元就能搞定中度用户的日常需求。
6.3 省钱的三个铁律
- 简单的事别动用 Opus / GPT-4——一句话写邮件、一段话总结,用 Haiku / Mini / DeepSeek 就够了。差别你根本感觉不到。
- 子代理永远用便宜模型——主代理负责调度(用聪明模型),子代理负责跑腿(用便宜模型)。详见 第十章。
- 设硬上限——
daily_limit这件事一定要做。Hermes 跑定时任务时如果出 Bug 死循环调用 API,一晚上能给你刷出 200 美元账单。设一个上限,最多就那么多。
七、临时切换模型:/model 命令
有时候你正在用便宜模型聊天,突然遇到一个难题想"借一下 Claude Opus"。不用退出,直接:
> /model anthropic/claude-opus-4
[模型切换] 当前对话已切换到 anthropic/claude-opus-4
这次对话用 Opus,下次新对话又会自动回到默认的 Sonnet。
也可以这样查看当前用的模型:
> /model
当前模型: anthropic/claude-sonnet-4
本次对话已用: 12,043 input tokens, 3,891 output tokens
预估花费: $0.094
八、SOUL.md 里指定不同任务的偏好(进阶)
第四章会详细讲 SOUL.md,这里先剧透一下。你可以在 ~/.hermes/SOUL.md 里写:
当我让你帮我"写代码"或"调试"时,请使用 anthropic/claude-sonnet-4。
当我让你帮我"总结"或"翻译"时,请使用 anthropic/claude-haiku-4-5 即可。
当我让你帮我"做战略性决定"或"复杂规划"时,可以用 claude-opus-4,但用之前先告诉我成本估算。
Hermes 会读到这些偏好,并在每次任务前自动选合适的模型。
九、几个实际花费数字(参考)
下面这些数字基于 2026 年 4 月的价格,仅供参考:
| 场景 | 模型 | 一次成本 | 月费(每天 1 次) |
|---|---|---|---|
| 整理 50 封邮件总结 | Claude Sonnet 4 | ¥0.20 | ¥6 |
| 90 分钟会议录音转纪要 | Claude Sonnet 4 | ¥0.80 | ¥24 |
| 写一份 1500 字周报初稿 | Claude Sonnet 4 | ¥0.30 | ¥9 |
| 24 小时定时盯演唱会票 | Haiku 4.5 | ¥0.05 | ¥1.5 |
| 客户反馈 60 条分类打分 | DeepSeek V3 | ¥0.10 | ¥3 |
| 国庆出游 6 天规划(含搜索) | Sonnet + Gemini | ¥3 | 一次性 |
整体来看,普通人的月度花费 50~150 元就能让 Hermes 当 24 小时秘书。如果你只用 Ollama 本地,0 元。
十、小结:你的"组合拳"
按"使用强度"给一个推荐组合:
| 类型 | 推荐组合 | 月预算 |
|---|---|---|
| 试一试 | Ollama (qwen2.5:7b) | 0 元 |
| 国内轻度 | Kimi + DeepSeek 路由 | 30~80 元 |
| 国内中度 | Kimi K2 + DeepSeek + Qwen 本地兜底 | 80~150 元 |
| 海外轻度 | OpenRouter Sonnet + Haiku 路由 | $5~$15 |
| 海外重度 | OpenRouter Opus + Sonnet + Haiku | $30~$80 |
| 极致隐私 | Ollama 70B(需要 64GB 内存) | 0 元(电费除外) |
本章一图回顾
┌─────────────────┐
│ Hermes Agent │
│ (骨架) │
└─────────────────┘
│
┌─────────────┼─────────────┐
↓ ↓ ↓
┌────────┐ ┌────────┐ ┌────────┐
│ 主大脑 │ │ 干活的 │ │ 兜底的 │
│Sonnet │ │ Haiku │ │ Ollama │
└────────┘ └────────┘ └────────┘
↑ ↑ ↑
复杂规划 日常对话 隐私敏感
+ 设 budget 上限 + 用 routing 路由 = 省钱组合
下章预告
模型配好了,但你给它发的提示词如果是"帮我写个东西",效果照样很差。 第四章 学会和它对话 会教你:
- 提示词五要素(角色、目标、上下文、约束、产出格式)
- 直接复制就能用的 XML 提示词模板
- 怎么用
SOUL.md给 Hermes 一个"专属人格" MEMORY.md和USER.md的实战写法- 让 Hermes "记忆唤起"的小技巧