10.1 三个让人焦虑的场景
场景 A:你是 HR,刚收到 60 份候选人简历。让你用 ChatGPT 总结?候选人的隐私信息你担不起这个责。
场景 B:你是医生,晨会上的病例讨论被录了 1 小时音。让你上传到讯飞听见?病人隐私问题马上炸。
场景 C:你是律师,收到客户一份 200 页的英文招股书。让你扔给 Claude?你刚刚违反了"客户保密义务"。
这三个场景过去靠"自己看 + 自己写",效率低到抓狂。 本地 AI 出现后,变成了"自己电脑里读完 + 自己电脑里整理完"。
10.2 本地文档处理的 4 类素材
| 类别 | 典型场景 | 本地处理工具 |
|---|---|---|
| 文本类(TXT、Markdown) | 笔记、文章 | Cherry Studio / LM Studio 直接读 |
| 富文本类(Word、PDF) | 报告、合同 | Cherry Studio / AnythingLLM 自带解析 |
| 表格类(Excel、CSV) | 数据、统计 | Cherry Studio + Code Interpreter |
| 音视频类(MP3、MP4) | 录音、视频 | whisper.cpp 转文字后处理 |
10.3 文本与 PDF 处理:直接拖进去就行
这一类最简单。
Cherry Studio 的做法
- 打开 Cherry Studio
- 在对话框右侧,点回形针图标
- 选 PDF / Word / Markdown / TXT 文件(一次最多 10 个)
- 等几秒解析完
- 直接问问题
支持的格式:PDF、Word、PowerPoint、Excel、Markdown、TXT、HTML、Epub。
LM Studio 的做法
LM Studio 0.3+ 起内置 RAG 文档处理:
- 在对话页面,点 "Add files"
- 选文件
- 等待向量化(首次稍慢)
- 提问
AnythingLLM 的做法
AnythingLLM 主打"工作区"概念:
- 创建一个工作区(如"公司合同")
- 把文件拖进去
- 在工作区内的所有对话都自动引用这些文件
10.4 长文档总结的 3 种结构化提示词
结构 1:层级摘要(适合大多数场景)
请阅读这份 [文档类型],给我一份层级摘要:
【一句话摘要】
[全文最核心的一句话]
【3 句话摘要】
[3 句话能讲完全部要点]
【10 条要点】
[bullet list,每条 30 字以内]
【5 个关键数字 / 名词】
[列出最值得记住的 5 个数据或专有名词]
【1 个潜在风险 / 矛盾点】
[这份文档里你觉得最值得警惕的一处]
这个模板适合 95% 的场景——简历、报告、说明书、新闻、博客文章。
结构 2:按角色摘要(适合"多视角分析")
请用三个不同视角分析这份 [文档]:
【作为 [甲方 / 投资人 / 监管 / 客户],我会怎么看?】
- 我最关注的 3 件事
- 我觉得有问题的 2 处
- 我会问的 1 个尖锐问题
【作为 [乙方 / 创始人 / 项目方],我会怎么看?】
- 我会强调的 3 个亮点
- 我可能在掩盖的 2 处
- 我准备好回答的 1 个反问
【作为 [中立第三方 / 行业老兵],我会怎么看?】
- 这份文档里 2 处最重要的"信号"
- 这份文档里 1 处最容易被忽略的"风险"
适合:投资尽调、商务合同评审、招标文件分析、求职 offer 对比。
结构 3:动作清单(适合"读完要做事")
请阅读这份 [会议纪要 / 邮件 / 工作交接文档],给我一份"行动清单":
【今天必须做的】
[最多 3 条,每条带"为什么这件事不能拖"]
【本周内要做的】
[最多 5 条,每条带"截止时间建议"]
【本月内要跟进的】
[最多 5 条]
【需要我立即问清楚的 1 个问题】
[如果不问清楚,后面所有事情都做不下去的那个问题]
适合:交接班、会议纪要、邮件回复、跨部门对接。
10.5 长文档"分块 + 总结"工作流
如果文档特别长(> 100 页 PDF),即使 32K 上下文也吃不下。这时用"分块总结"工作流:
步骤 1:分块(按章节)
把 PDF 按章节拆成多个 markdown 文件:第一章.md、第二章.md……
步骤 2:每章总结
对每个 .md 用结构 1 总结,得到 N 份摘要。
步骤 3:汇总总结
把所有章节摘要拼起来,再问:
下面是这份文档每一章的摘要:
[贴入所有章节摘要]
请你给我一份"总览级摘要":
1. 全书的核心论点(一句话)
2. 全书的逻辑框架(5 句话讲清楚)
3. 全书最有价值的 5 个洞见
4. 全书最值得引用的 3 个数据
5. 我读完这本书之后,最应该改变的 1 个行动
这套工作流可以总结 500 页的书、整本招股书、整套技术文档。
10.6 录音转文字:本地化的核心环节
录音是会议、采访、播客、课堂的载体。但传统的"把录音上传到云端做转写"对隐私敏感场景是灾难。
为什么必须本地
- 会议涉及内部战略 / 人事讨论
- 心理咨询录音
- 医生 - 病人对话
- 调查记者的采访
- 家庭录音
这些绝对不能上传任何云端。
本地语音转写的两大主力
1. whisper.cpp(跨平台)
OpenAI Whisper 的 C++ 重写版,由 Georgi Gerganov(也是 llama.cpp 作者)维护。
安装(Mac):
brew install whisper-cpp
# 下载模型(large 是最准的)
whisper-cpp --model large-v3 audio.mp3
或用更友好的封装:
- MacWhisper(Mac 桌面 App,付费但极易用)
- Buzz(跨平台开源 GUI)
- WhisperX(Python 命令行)
2. MLX-Whisper(Mac M 系列专用,最快)
Apple MLX 框架优化版。M2 Pro 上转写速度比 whisper.cpp 快 2–3 倍。
pip install mlx-whisper
mlx_whisper audio.mp3 --model mlx-community/whisper-large-v3-mlx
3. SenseVoice / FunASR(中文最准)
阿里达摩院开源,中文识别准确率比 Whisper 还高。
pip install funasr
支持中文细分场景(医疗、法律、电话客服)。
一段录音从声音到摘要的完整本地链路
[1] 录音文件 (audio.mp3)
↓
[2] whisper.cpp / MLX-Whisper / SenseVoice
↓ (生成 transcript.txt)
[3] 转写文本
↓
[4] Cherry Studio / Ollama Qwen 3 14B
↓
[5] 用"层级摘要"或"动作清单"提示词总结
↓
[6] 最终的会议纪要 .md
整条链路完全本地——录音、转写、总结,没有一步走外网。
10.7 会议纪要专用工作流
完整提示词
你是一个高级会议纪要助理。下面是一段 [会议名称] 的转写文本(自动转写可能有错别字,请理解):
[贴入 transcript]
请按以下结构生成会议纪要:
# [会议主题]
**时间**:[从转写中识别 / 我会补充]
**参与人**:[按发言识别,标 A、B、C 或我会补充姓名]
**会议性质**:[如 例会 / 决策会 / 头脑风暴]
## 一、本次会议核心议题(3 条以内)
[从转写中提炼,每条一句话]
## 二、关键讨论
[按议题分块,每块 3–5 句话总结]
## 三、决议事项
[只列"明确达成共识"的事,加责任人]
## 四、待跟进事项
[列出"还没结论但要继续讨论"的事]
## 五、Action Items
| 待办事项 | 责任人 | 截止时间 | 优先级 |
|---|---|---|---|
## 六、风险提示
[这次会议中你识别到的 1–3 处潜在风险或矛盾]
保存为模板,每次开完会用。
一个真实样例:心理咨询师的本地工作流
阿莉是一个独立心理咨询师。她每周做 30 个 50 分钟咨询。
之前:每个咨询后她都会手写笔记,1 小时整理一次,每周花 30 小时整理。
现在的本地工作流:
- 咨询时全程录音(征得来访者同意)
- 当晚把录音用 SenseVoice 本地转写
- 用 Qwen 3 14B + 自定义"咨询纪要模板"生成结构化笔记
- 自己花 5 分钟微调 + 加临床观察
- 整理时间从 30 小时压到 5 小时
关键:所有录音和转写从未离开她的 Mac mini。
10.8 邮件总结:让你"不再被邮箱淹没"
你是我的邮件助理。下面是我这周收到的 [N] 封邮件(按时间排序):
[贴入邮件]
请你做四件事:
1. 【需要立即处理的】
列出我必须今天回复的邮件,按紧急度排序
2. 【可以等等的】
列出可以延后到本周回复的邮件
3. 【可以归档的】
列出无需回复的邮件(FYI 类、订阅类、营销类)
4. 【需要我注意的】
邮件中"暗藏"的重要信息(如老板的间接表态、客户的潜在不满)
每周一次,把整周的邮件压成 5 分钟扫一眼就懂的清单。
10.9 表格类数据:让本地 AI 帮你看 Excel
虽然本地 AI 不像云端那样有"代码解释器",但你可以这样:
方法 1:把 Excel 转 markdown 表格再问
# Mac/Linux 用 csvkit
csvtomd data.csv > data.md
把生成的 markdown 表格扔给本地 AI 问:
下面是一份销售数据表,请帮我:
1. 总结整体趋势
2. 找出 3 个异常值
3. 给我 1 个值得深挖的问题
方法 2:让本地 AI 写 Python 代码,你执行
我有一份 sales.csv,列名是 date, region, product, amount。
请你写一段 pandas 代码,帮我:
1. 按月份分组算总销售额
2. 按产品排名前 5
3. 画一张销售额随时间变化的柱状图
不要执行,只输出代码,我自己跑。
这两种方法都能在你的电脑里完成全部数据分析。
10.10 本地文档处理的局限
诚实地说几个本地的弱点:
限制 1:扫描版 PDF 需要先 OCR
如果你的 PDF 是图片扫描的(不是文本),本地 AI 直接读不出来。先用本地 OCR:
- Mac:自带"实况文本"或 PDFsam Visual
- 跨平台:Tesseract OCR(开源)、PaddleOCR(百度,中文好)
- 新方案:用本地视觉模型(Qwen 2.5-VL)直接看图
限制 2:复杂表格 PDF 解析有损
财报、招股书里的复杂多列表格,本地解析常常错位。 解法:用 marker 或 nougat 这种专门 PDF → markdown 的工具先转,再喂给 AI。
限制 3:一次性总结超长文档(> 50 万字)压力大
100 页 PDF 没问题,整本书勉强,整套法典就要分块多次了。
10.11 4 个职业的本地文档工作流模板
律师
- 输入:客户合同(PDF)
- 工具:Cherry Studio + Qwen 3 14B
- 提示词:风险条款识别 + 修订建议
- 输出:标注版合同 + 谈判要点
记者
- 输入:1 小时采访录音
- 工具:MLX-Whisper + Qwen 3 14B
- 提示词:转写 + 关键金句提取 + 故事框架
- 输出:稿件大纲
投资人
- 输入:项目方招股书 + BP
- 工具:AnythingLLM + Qwen 3 32B
- 提示词:三视角分析 + 30 个尽调问题
- 输出:投决会前置材料
老师
- 输入:50 份学生作文(Word)
- 工具:Cherry Studio + Qwen 3 8B
- 提示词:每篇 3 个优点 + 3 个改进点 + 一句鼓励
- 输出:批阅笔记
10.12 本章小练习
练习 1:总结一份你最怕读的文档
找一份你"早就想读但没时间读"的 PDF(说明书、合同、政策文件、长篇报告),扔给本地 AI 用 10.4 结构 1 总结。 5 分钟读完一份你拖了一个月的文档——这就是本地 AI 的礼物。
练习 2:本地转写一段录音
用 MacWhisper / Buzz / whisper.cpp 转写一段你最近的录音(自拍 vlog 也行)。 亲身感受"完全离线转写"的速度和准确率。
练习 3:建立你的"会议纪要模板"
按 10.7 节模板,为你自己常开的会议类型(如周会、项目会、客户会)各做一个版本。存到笔记里,每次开完会直接用。
10.13 一句话记住
录音转文字本地化 + AI 总结本地化——这是知识工作者隐私防线的最后两道关。
下一章 第十一章 · 搭建你的本地知识库,我们把"分散的文档"升级成"一个可检索的本地大脑"。