DOC/「数据不出域情况下的硬件 AI 方案（LLM）」调研 #354

leeduckgo · 2026-01-20T22:52:59Z

leeduckgo
Jan 20, 2026
Maintainer

「数据不出域情况下的硬件 AI 方案（LLM）」是一个非常经典的**「端云协同」（Edge-Cloud Synergy）或「隐私优先架构」**的设计挑战。核心在于如何在 利用云端大模型强大推理能力 的同时，严守数据隐私边界。

对此提出两个关键问题：

针对这两个关键问题，以下是具体的架构设计建议：

在数据离开本地域之前，必须经过一个部署在本地硬件上的「智能网关」。这个网关承担了两项核心任务：

目标是尽可能在本地解决问题，只有必要时才请求云端。这需要一个多层级的分类机制。

意图识别（Intent Classification）

在本地硬件上运行一个轻量级模型（SLM, Small Language Model）或分类器（如 BERT-sized model），对用户 Prompt 进行语义分析。

参考资料：[qwen3-0.6B这种小模型有什么实际意义和用途吗？](https://www.zhihu.com/question/1900664888608691102/answer/1901766512827674814?share_code=1ebT87V87BrmJ&utm_psn=1989755035840688405)

本地可解决的需求（Local-First）：
- 高频简单任务： 闲聊、简单的逻辑转换、翻译、格式调整。
- 强隐私任务： 涉及内部数据库查询（如“查找张三的工资条”）、处理本地文件摘要。这些任务必须强制路由到本地部署的小模型（如 Llama-3-8B 或 Qwen-7B 的量化版）。
- 低延时任务： 控制指令（如“打开空调”），需要在毫秒级响应。
云端需求（Cloud-Required）：
- 复杂推理任务： 编写长代码、深度逻辑分析、创意写作。
- 通用知识问答： 需要海量世界知识（如“解释量子纠缠的历史”），本地模型知识库不足以覆盖。

2. 算力自适应（Computational Awareness）

分类不仅看「能不能做」，还要看「本地忙不忙」，如果本地的算力资源负载过高，可以将任务分类到「云端执行侧」。

对于必须上云的任务，需要在本地网关进行「数据脱敏」。这通常采用 内容识别与替换 机制。

1. 识别（Detection）：本地 NER 模型 在本地运行一个专门的命名实体识别（NER）模型，扫描 Prompt 中的敏感信息。

敏感实体例子： 姓名、手机号、身份证号、银行卡号、IP 地址、公司内部项目代号等。

2. 替换与映射（Masking & Mapping）： 不要直接删除，而是使用占位符（Token Replacement），并建立本地映射表。

3. 云端推理（Cloud Inference）： 云端大模型接收到的是脱敏后的请求。它会基于占位符进行逻辑推理。

4. 回填与还原（De-masking）： 云端结果返回本地网关后，网关根据之前的映射表，将占位符还原为原始信息，再呈现给用户。