在
Ollama命令速查指南
这篇文章中把 Ollama 的命令过了一遍,中间提到了 ollama launch 这个功能,但只是带了一句。最近抽空把几个主流 Ollama integration 都试了一下,单独写一篇笔记,主要记录 Codex、Claude Code、Hermes Agent、OpenClaw、VS Code 这几个工具怎么和 Ollama 搭在一起用。
关于 ollama launch,Ollama v0.15+ 引入了这个新命令,可以用本地或云端模型,自动完成 Claude Code、OpenCode、Codex 等常用编码工具的配置与启动,不需要手动改环境变量或写配置文件。它的核心价值在于「一条命令,帮你装好、配好、启动好」,后面介绍每个工具的时候基本都会用到它。
文章里用到的模型统一用 qwen3.5:9b(换成其他模型也可以,道理一样),本地跑需要大约 5-10GB 内存。
什么是 Ollama “生态集成”?
Ollama 本身是一个“模型运行器”。你装好它、拉一个模型下来,可以在终端里对话,也可以调它的 API。但真实开发场景里,可能你想:
- 在 VS Code 里写代码的时候,让 AI 帮你补全、解释代码
- 在终端里有一个专门的 AI 助手,能读懂你整个项目,帮你跑命令、改文件
- 在 WhatsApp 或 Telegram 上发个消息,AI 就能帮你查天气、记笔记、回消息
这些“专门的 AI 助手”就是生态集成工具。它们各自有不同的侧重点:
- Codex(OpenAI 出品):终端里的 AI 编码助手,问问题、写脚本、解释代码
- Claude Code(Anthropic 出品):更激进的编码 agent,可以直接读写你电脑上的文件、执行命令
- Hermes Agent:一个可以自己“学会新技能”的长期 AI 助理,适合挂在服务器上
- OpenClaw:跨消息平台(微信、Telegram、Discord)的 AI 网关
- VS Code:编辑器里的 AI 聊天和自动补全
还有更多,这里不过多介绍,详情可以查看官方文档: https://docs.ollama.com/integrations
这些工具默认情况下,背后用的是各家公司的云端模型(比如 OpenAI 的 GPT、Anthropic 的 Claude),需要付费、需要 API key、你的代码和对话也会传到云端。
Ollama 的集成作用就是:把这些工具的后台偷偷换成你本地跑的模型。你依然可以用工具本身的界面和功能,但底层的“脑子”换成 qwen3.5:9b 或者任何你喜欢的本地模型。不用花钱、不用联网、数据留在自己电脑上。
Codex:终端里的 AI 编码助手
Codex 是什么?
Codex 是由 OpenAI 开发的下一代全能型AI编程代理(AI Coding Agent),旨在从单纯的“代码补全”转向自主完成整个开发任务。它通过理解自然语言指令,结合对代码库的深入上下文分析,自主进行编写、修复、测试和提交代码等工作。
目前 Codex 具备以下核心能力:
- 全能型编程代理 (AI Coding Agent): 不仅仅是建议代码,而是直接以代理身份参与开发。
- 多模型与环境支持: 包含基于 GPT-5.3-Codex 模型的新一代工具,并支持通过 CLI(终端)或 VSCode/IntelliJ IDEA 扩展使用。
- 具有屏幕操作能力: Codex 具备“计算机使用(Computer use)”能力,能像人类一样通过视觉识别、点击和输入,自主操控电脑上的各类应用程序。
Codex 可以做什么?
Codex 能够完成复杂的软件工程任务,包括:
- 自主编程与项目构建: 根据需求描述,自主编写功能函数、构建项目原型,甚至理解复杂的文件结构和上下文。
- 全流程自动化: 实现从理解需求、写代码、跑测试、修复Bug到提交 Pull Request (PR) 的全自动化流程。
- 理解并维护现有代码库: 分析大型代码库,准确解答关于代码逻辑的问题。
- 自主电脑操作: 像人类一样在 MacOS 或 Windows 上运行软件、操控浏览器,进行跨应用开发。
- 多功能辅助: 具备生成图片、从过去的开发体验中学习、执行长时间运行任务的能力。
Codex 已面向多个 OpenAI 方案(如 ChatGPT Plus, Enterprise, Team)开放,且部分工具已支持免费使用。
用 Ollama 怎么替代 Codex 默认模型的?
Ollama 提供了一个兼容层,让 Codex 以为自己在和 OpenAI 的 API 对话,实际上请求发给了 http://localhost:11434 上的本地模型。
两种启动方式:
方式一(手动):
codex --oss -m qwen3.5:9b
这个 --oss 参数什么意思?OSS 是 Open Source Software 的缩写,--oss 告诉 Codex:“不要用默认的 OpenAI 云端模型,改用本地或第三方的开源模型”。后面 -m qwen3.5:9b 指定具体的模型名字。注意 Ollama 的模型名要写全(可以用 ollama list 查看)。
用 codex --oss 启动,强制对接本地的开源模型,不走 OpenAI 的云端。Ollama 在 2026 年 1 月的官方公告里明确支持了这个模式,Codex 可以读取、修改和执行工作目录下的代码,使用本地模型作为后端。
方式二(Ollama launch):
ollama launch codex --model qwen3.5:9b
ollama launch 会帮您自动设置环境变量、拉起 Codex 并选好模型。
进入 Codex 的交互界面后(通常会出现一个 > 提示符),你可以输入:
> 写出一个 Python 函数,判断一个数是不是素数
模型会生成代码,并且 Codex 还会额外添加一些解释。
Claude Code:能自动改你代码的 agent
Claude Code 是什么?
Claude Code 是由 Anthropic 开发的终端Agentic Coding(智能体编程)助手。它运行在本地终端,能理解整个代码库,自主执行读写文件、运行Shell命令、操作Git、利用MCP工具等复杂任务。它不仅提供建议,更像一位真正的“程序员”帮你完成端到端开发,显著提升编码和自动化运维效率。
Claude Code 可以做什么:
- 自主编码与项目重构: 根据自然语言描述,直接创建、修改、跨文件重构代码,不仅局限于单一文件。
- Debug 与故障排除: 读取本地错误日志,分析多轮思考后定位问题根源,自主修复。
- 自动化工作流: 自动处理Git提交、运行测试脚本、构建项目,无需手动操作命令行。
- 文档生成: 自动为现有代码生成注释、文档或README文件。
- 接入外部工具(MCP): 利用模型上下文协议(MCP),连接搜索工具、数据库或其他 API,处理更复杂的任务。
- 多语言与跨场景支持: 支持终端、IDE(如VS Code)、浏览器使用,擅长在多种语言环境下编写代码。
与传统Chatbot不同,Claude Code 特别适合需要理解上下文的大型工程项目,能够帮你“思考”并实际执行操作。
不通过 Ollama 怎么用?
需要 Anthropic API key,按 token 付费,而且 Claude 模型本身不免费。
用 Ollama 怎么替代?
Ollama 提供了一个假的 Anthropic API 端点,让 Claude Code 以为自己连上了 Claude 的服务,实际上是在和本地模型对话。
启动方式:
ollama launch claude --model qwen3.5:9b
第一次运行会安装 Claude Code 本体,然后弹出一个配置界面。你只需要确认模型选 qwen3.5:9b,其他一路回车就行。
之后 Claude Code 会在当前目录下启动,界面像一个聊天框。你可以输入:
/loop 检查所有 Python 文件里是否有 TODO 注释
它会自己去扫文件、返回结果。
注意:Claude Code 非常依赖模型的工具调用能力。qwen3.5:9b 支持基本的 tool calling,但如果遇到复杂任务(修改多个文件、执行 git 命令),可能需要更大或更专门的模型(比如 qwen2.5-coder:14b)。本地试验的话,建议先用简单任务试试水。
Hermes Agent:会自己“学习”的长期助理
Hermes Agent 是什么?
Hermes Agent 是由 Nous Research 开发的开源自主AI智能体平台(Agent Framework),主打“自进化”与“自主权”。它能够实现跨会话持久记忆、自主学习新技能(Skill)以及多平台协作。该平台运行在用户本地或私有服务器,不仅能聊天,更能作为一个具备终端、浏览器等工具调用能力的“数字打工人”,随着使用时间的增长愈发理解用户习惯。
Hermes Agent 能做什么?
- 持久化记忆与自进化 (Long-term Memory & Self-evolution)
- 记忆: 能记住之前的对话内容、偏好设置和任务状态,不会随会话关闭而丢失记忆。
- 技能沉淀: 自主提炼并保存可复用的技能。用户完成任务后,Agent 能将成功路径总结为“技能”,并在未来处理类似任务时自动调用。
- 多工具自主调用 (Autonomous Tool Use)
- 终端与文件操作: 直接在你的服务器或电脑上执行命令、文件操作。
- 网页浏览与自动化: 具备自动化浏览器功能,结合防爬技术访问网络数据。
- API 集成: 支持通过接口接入其他应用。
- 多平台接入与跨平台联动 (Multi-platform Access)
- 可无缝接入飞书、Telegram、Slack 等即时通讯平台,允许用户在工作群中通过指令指挥 Agent,实现自动化运营、内容生成或任务排期。
- 工作流自动化 (Workflow Automation)
- 处理复杂任务:能够自动分拆任务、规划路径、调用技能并自主完成,适合投研分析、日常助理等任务。
- 隐私可控的私有化部署 (Private Deployment)
- 支持在个人设备或阿里云等云服务商的容器中私有化部署,确保用户数据不出域,满足企业级安全需求。
应用场景示例
- 私人AI助理: 记录并管理个人会议、待办事项。
- 自动化投研/调研: 定时抓取网络新闻、分析研报、自动生成周报。
- 工作流助手: 飞书/钉钉指令自动生成代码、自动化发布内容。
Hermes Agent 接近于一个“可运行的智能体工作操作系统”,不仅适合个人提升效率,也适合企业快速构建定制化、可自我改进的AI助手。
不通过 Ollama 怎么用?
Hermes 默认支持多种模型后端(包括 OpenAI、Groq 等),也支持 Ollama。你可以手动配置它的 config.yaml 指向 http://localhost:11434。但手动配置很麻烦。
用 Ollama 怎么简化?
ollama launch hermes
这个命令会自动安装 Hermes、跑配置向导。向导里会让你选模型,你选 qwen3.5:9b,然后选择要不要接入 Telegram 或 Discord。一路回车,最后它会启动一个 Web 控制台。
实际能干什么?
- 连上 Telegram 后,你在手机给 bot 发消息“提醒我明天上午10点开会”,Hermes 就会记住到点推送
- 你问“我上次让你记的会议笔记是什么?”,它能从长期记忆里找出来
- 你教它“如果有人说‘帮我查股票’,就去调用某个股票 API”,它会把这个规则存成新技能
系统要求:Hermes 需要 Node.js 18+,内存至少 4GB(不算模型)。Windows 用户最好装 WSL2 再跑。
OpenClaw:跨平台消息网关
OpenClaw 是什么?
OpenClaw 是一款基于 TypeScript 开发的开源、高可扩展AI Agent(智能体)框架,Logo是一只红色龙虾,所以也被大家叫做小龙虾。它不仅能聊天,更核心的能力是自主拆解任务、操控电脑(浏览器/本地应用/Shell指令)并调用软件,被称为运行在本地的“数字生命中枢”或AI管家,旨在实现工作流和日常任务的自动化。
OpenClaw 可以做什么?
- 自动化办公与文件处理: 自动整理文件、汇总报告、读取/发送邮件、操作Excel和数据库。
- 软件操控与Web自动化: 控制浏览器(如Printify同步订单)、操作本地应用、执行Shell指令。
- 多平台助手与智能调度: 接入飞书、WhatsApp、Telegram、Slack等,实现群内指令查数据、智能任务分配。
- 个性化定制与智能助理: 自动拉取日历、查询天气、汇总重要新闻并生成摘要报告推送。
- 自主AI Agent开发: 允许用户通过TypeScript/Python开发自定义MCP Server技能,扩展其能力边界。
简单来说,OpenClaw 可以把AI从“聊天室”带入到“真实的工作环境中”,成为执行任务的“手脚”。
不通过 Ollama 怎么用?
OpenClaw 本身只是个网关,需要后端连一个 AI 模型。它可以连 OpenAI 的 API,也可以连 Ollama 的本地模型。
用 Ollama 启动:
ollama launch openclaw --model qwen3.5:9b
启动后会让你配置要连接哪些聊天软件。比如你想接 Telegram:
- 在 Telegram 上找 BotFather 创建一个新 bot,拿到 token
- 在 OpenClaw 的配置里输入 token
- 用你的 Telegram 账号给你的 bot 发
/start
之后在 Telegram 上发任何消息,OpenClaw 都会拿去问 qwen3.5:9b,然后把回复发回来。
另一个用法:ollama launch openclaw 默认会启动一个终端里的聊天界面,你可以在电脑上直接和它对话,不接任何消息软件。适合先测试模型效果。
注意:OpenClaw 需要 Node.js 20+。如果你只是想本地对话,其实 Ollama 自己的 ollama run 就够了,没必要用 OpenClaw。OpenClaw 主要优势是跨平台桥接。
VS Code:编辑器里的 AI 聊天
VS Code 集成是什么?
不是新工具,就是 VS Code 编辑器自带的 GitHub Copilot Chat 功能。你可以在侧边栏打开一个聊天窗口,问代码相关的问题,Copilot 会回答。而且 Copilot 免费版就支持选择不同的模型。
为什么要用 Ollama 的集成?
Copilot 默认用的模型是 OpenAI 的(或 GitHub 自托管的)。你想换成本地模型,可以在 Copilot Chat 的设置里添加一个“Ollama”来源。
最简单的方式:
ollama launch vscode --model qwen3.5:9b
这个命令会打开 VS Code(如果你没装 VS Code 它会提示你自己去下载安装),然后自动在 Copilot Chat 里注册本地模型。你只需要在聊天窗口右下角的下拉菜单里,把模型从 “GPT-4o” 切换到 “Ollama / qwen3.5:9b” 就可以了。
手动配置(不靠 ollama launch):
- 打开 VS Code,按
Cmd+Shift+P(Mac) 或Ctrl+Shift+P(Win) - 输入 “Chat: Select Model”,回车
- 点击 “Add Model…”,选择 “Ollama”
- VS Code 会自动扫描你本地的 Ollama 模型,列出 qwen3.5:9b
- 选择它,然后就可以在聊天窗口里用了
能做什么?
- 选中一段代码,右键选“Explain”,模型会解释这段代码
- 在聊天窗口输入“帮我写一个 React 组件,显示当前时间”,它会生成代码并插入到当前文件
- 和 Copilot 的其他功能(Inline Chat、Fix 等)都兼容
注意:VS Code 的 Copilot Chat 在第一次使用时需要登录 GitHub 账号(免费),之后就不再需要网络了(只要你用的是本地 Ollama 模型)。
常见疑问汇总
Q1:我用 ollama launch codex 之前,需要先自己装 codex 吗?
Ollama launch 会自动帮你安装(如果检测到没装)。但前提是你的系统里有 npm 或者 pip(取决于具体的工具)。如果自动安装失败,它会提示你手动安装的命令。
Q2:直接运行 codex 和 codex --oss -m qwen3.5:9b 有什么区别?
直接 codex 会尝试用 OpenAI 的云端模型。codex --oss -m xxx 强制使用本地模型(通过 Ollama 的 API),不收费、无网络。
Q3:有些工具需要 64k 上下文,你的模型默认只有 4k-8k,怎么办?
运行模型时设置环境变量:
OLLAMA_CONTEXT_LENGTH=65536 ollama run your-model-name
或者修改 Ollama 服务的环境变量。不过 64k 上下文消耗的内存会翻好几倍,16GB 内存的机器可能会爆。
Q4:我试了 ollama launch xxx,提示“command not found: ollama”
说明 Ollama 没装好,或者没加到 PATH。先确认 ollama -v 能正常输出。如果是在 Windows PowerShell 里,可能需要重新打开终端。
Q5:这些工具里面哪个最适合新手?
单纯想体验“本地模型当 AI 助手”,最简单的是 VS Code 集成。不用额外装任何东西(除了 Ollama 和 VS Code 本身),在聊天窗口里就能用。其次是 Codex,终端里打字也比较直观。Claude Code 和 Hermes 有一定门槛,建议先熟悉前两个再尝试。
