为什么选择本地 AI 模式?
云端 AI 服务很方便,但它意味着你和 FEAIA 的每一句对话都会经过第三方服务器。对于桌面陪伴产品而言,这个问题尤为敏感——你可能在对话中分享情绪、烦恼、个人计划。
本地模式的好处:
- 完全隐私:对话数据不离开本机
- 无网络依赖:断网环境下正常运行
- 低延迟响应:首字响应时间 100–300ms,远优于云端
- 无 API 费用:无需绑定 OpenAI 或其他云服务
环境要求
| 配置项 | 最低要求 | 推荐配置 |
|---|---|---|
| 操作系统 | Windows 10 64位 | Windows 11 |
| RAM | 8GB | 16GB+ |
| 显卡(可选) | — | NVIDIA RTX 系列(加速推理) |
| 磁盘空间 | 10GB(模型文件) | 40GB+ |
FEAIA 主程序本身内存占用 < 150MB,大部分内存消耗来自 Ollama 运行的语言模型。
第一步:安装 Ollama
- 前往 ollama.com 下载 Windows 安装包(约 60MB)
- 双击安装,默认选项即可
- 安装完成后,Ollama 会在后台自动启动(系统托盘可见图标)
验证安装成功:
打开 Windows 命令提示符(Win + R,输入 cmd),运行:
ollama --version
若输出版本号(如 ollama version 0.3.x),说明安装成功。
第二步:下载 AI 模型
Ollama 支持多种开源模型。以下是 FEAIA 推荐的搭配方案:
Q: 应该选择哪个模型?
| 模型 | 大小 | 适用场景 | 推荐指数 |
|---|---|---|---|
llama3:8b |
4.7GB | 通用对话,8GB内存可用 | ⭐⭐⭐⭐⭐ |
qwen2:7b |
4.4GB | 中文优化,对话更自然 | ⭐⭐⭐⭐⭐ |
mistral:7b |
4.1GB | 英文对话,逻辑推理强 | ⭐⭐⭐⭐ |
llama3:70b |
40GB | 旗舰体验,需要高端显卡 | ⭐⭐⭐(需RTX) |
在命令提示符中运行(以 qwen2:7b 为例):
ollama pull qwen2:7b
下载完成后会显示 success。下载时间取决于网速,通常 5–30 分钟。
第三步:在 FEAIA 中连接 Ollama
- 打开 FEAIA 主界面,点击右上角 ⚙ 设置
- 进入 AI 引擎 标签页
- 在「AI 提供商」下拉菜单中选择 Ollama(本地)
- 服务地址默认为
http://localhost:11434,保持不变 - 在「模型名称」中输入刚才下载的模型(如
qwen2:7b) - 点击 测试连接 — 若显示 ✅ 连接成功,即配置完成
常见问题
Q: 测试连接失败,提示「无法连接到 Ollama 服务」?
请确认 Ollama 后台服务正在运行。在任务管理器中检查是否有 ollama.exe 进程。若没有,重新启动 Ollama。
Q: 模型响应速度很慢怎么办?
如果没有独立显卡,模型将使用 CPU 推理,速度较慢(约 5–15 tokens/秒)。推荐升级到 NVIDIA RTX 系列显卡以启用 GPU 加速,速度可提升 8–20 倍。
Q: 可以同时连接云端和本地两种模式吗?
可以。FEAIA 设置中支持保存多个 AI 配置方案,可随时切换。例如,工作时使用本地 qwen2:7b,需要长篇写作辅助时切换至 GPT-4。
Q: 哪款 FEAIA 套餐支持本地 AI 模式?
本地 AI 模式在 所有套餐(包括免费版) 中均可使用,没有任何限制。这是我们的核心设计理念:隐私不应该是付费功能。
配置完成后的下一步
- 进入 记忆设置,开启长期记忆功能(需 Pro 及以上)
- 探索 50+ Live2D 皮肤 库,为你的本地 AI 搭配个性外观
- 加入 FEAIA 社群 分享你的本地模型配置方案
如果在配置过程中遇到任何问题,欢迎访问 FEAIA 帮助中心 或在社群中提问。
