Ollama 使用教程：本地 AI 大模型部署工具完全指南

本地大模型部署教程｜Ollama 从入门到进阶完整笔记

2026-04-23 | 16 分钟 | 7816 字 | - 阅读 | - 评论

Ollama 怎么装？命令怎么用？模型怎么选？一文吃透Ollama全知识点，含安装步骤、常用命令速查、模型导入与生态集成，解决本地大模型部署所有基础问题，新手零门槛上手。

文章目录

本文已同步发布到微信公众号「人言兑」

👈 扫描二维码关注，第一时间获取更新！

🔗 点击前往微信公众号阅读本文

想本地部署大模型，却被复杂配置、命令操作劝退？这篇Ollama全实操指南，从基础定义、多系统安装，到模型运行、量化自定义，手把手教你上手，新手也能快速实现本地大模型自由。

第一次听说 Ollama 是2025年，那时候其实没太在意，觉得大概又是某种跑模型用的轮子。但实际用了一段时间之后发现，这玩意儿确实值得写一篇笔记。

Ollama 使用教程 - 本地部署大模型

Ollama 是什么

Ollama 是一个开源跨平台的大模型工具，专为在本地环境运行大型语言模型设计。它的核心价值在于降低在本地部署大模型的门槛。你不必像早期那样手动配置环境、处理依赖、写一堆 Python 代码，一个命令就能把模型拉下来跑起来。Ollama 有点像Docker的感觉。

Ollama 的支持范围很广，主流的开源模型基本都覆盖了，包括 Llama 系列、DeepSeek-R1、Qwen 系列、Gemma 等等，Ollama官方的模型库在 https://ollama.com/library 。

Ollama 是哪个公司做的

官方文档倒没怎么强调公司的事情，但我搜了一下相关信息：Ollama 是由 Jeffrey Morgan 和 Michael Chiang 在 2021 年创立的美国初创公司（Ollama Inc.），总部位于加州帕洛阿尔托。Jeffrey 之前在 Docker 工作过，Kitematic 就是他的创业项目被 Docker 收购了。Ollama 是 Y Combinator 2021 冬季项目的一员，早期种子轮融资了 12.5 万美元。2024 年团队有 21 个人，营收到了 320 万美元。当然，这些都是公司层面的信息，对普通用户来说，Ollama 本身是免费开源的这一点更重要。

另外看到一个有意思的信息：2025 年 3 月国家网络安全通报中心发过通报，说 Ollama 默认配置存在未授权访问风险，建议私有化部署时修改默认配置。这一点在用的时候需要注意，如果在生产环境用或者暴露到公网，还是要做安全配置的。

如何安装 Ollama

Ollama 支持 macOS、Windows、Linux，操作方法各有不同。对机器的配置也有一定的要求，详情可参考：本地部署AI大模型需要多高的电脑配置，你的电脑能跑大模型吗？

macOS 安装 Ollama

我自己用的是 Mac，安装有两种方式：

Homebrew（推荐）:

brew install ollama

直接下载 DMG:

去 Ollama官网下载地址下载 ollama.dmg，把应用拖到 Applications 文件夹里。

系统要求是 macOS Sonoma (v14) 或更新版本，支持 Apple M 系列和 x86（仅 CPU）。

Windows 安装 Ollama

Windows 用户去官网下载 Ollama MSI 安装包或者直接运行 OllamaSetup.exe，一路下一步。安装完成后，Ollama 后台自动运行，ollama 命令就可以在 cmd、PowerShell 或任何终端里用了。系统要求 Windows 10 22H2 或更新版本。

关于 GPU：如果用的是 NVIDIA 显卡，安装 452.39 或更新版本的驱动；如果用的是 AMD Radeon，需要对应驱动。

Linux 安装 Ollama

Linux 可以用Ollama官方提供的一键安装脚本：

curl -fsSL https://ollama.com/install.sh | sh

如果是 Linux 系统作为服务运行，建议用 systemd 来管理。脚本会自动帮你配置好 service 文件，启动服务用 systemctl start ollama，查看状态用 systemctl status ollama。

Docker 安装 Ollama

Docker 部署也很方便。CPU 版本直接用：

docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama

如果有 NVIDIA GPU，需要先安装 NVIDIA Container Toolkit，然后带 --gpus=all 参数启动。AMD GPU 则用 rocm 标签。

安卓手机能不能安装 Ollama？

Ollama 本身没有官方的安卓 App，但可以用 Termux（安卓终端模拟器）在手机上跑。Termux 里安装 Ollama 的 Linux ARM64 版本就可以运行一些小规模模型了。不过说实话，手机跑大模型更多是图一乐，体验和性能都不如 PC。

如何使用 Ollama 运行本地大模型？

为什么要在本地用 Ollama?

很多人可能有疑问「ChatGPT 不挺好的嘛，干嘛非得在本地折腾模型」。原因有几个：本地跑模型数据完全在你自己手里，不用把敏感信息发给云端 API；没有 API 调用的 token 费用，买一次硬件就行了，长期使用成本很低；断网也能用。Ollama 给了我们这种穷鬼独立开发者一个「在不交钱和不交数据的情况下使用大模型」的选择。

首先我们要知道去哪里找模型？怎么用自己想要的那个模型？

怎么知道 Ollama 支持哪些模型

Ollama 的模型库： https://ollama.com/library ，这是一个不断在更新的列表，一个模型一个模型地看过去，每个都带了对应的运行命令。比如你看到「Gemma 3」点了进去，页面会直接给你 ollama run gemma3:latest 这样的命令，复制粘贴就可以用。

不过 library 页面的缺点是模型太多，刚开始肯定会眼花。这里有几种方法用来快速定位你想要的模型：

直接用关键词搜：Ollama 官网有 Search 功能（ https://ollama.com/search ），输入「kimi」「qwen」「phi」之类的关键词，如果支持，就会列出所有相关模型。这个方法最快。
看别人都在用什么：找一圈之后你会注意到，热度最高的通常是 llama3.1、deepseek-r1、gemma3、qwen3 这些。先拿它们练手，跑通了再去折腾别的。
拿不准的可以先查 GitHub：有些模型还在更新合并中，官网搜不到，但 GitHub issue 里可能会有相关的讨论。

Ollama 云模型

虽然 Ollama 本身是本地工具，除了本地跑模型，他们也提供了在线服务（ollama.com），注册账号后可以免费使用一些云模型。付费版 Pro 大概在 20 美元每月，提供更大的云使用配额和并发支持。

如果你的电脑跑不动特别大的模型（比如 120B 参数），可以把它「云端化」——模型在 Ollama 的云服务上跑，但你本地的工具和 API 调用方式没有任何变化。

如果模型是带 cloud 标签的，就是使用ollama云端模型服务，无需本地下载模型，是需要付费的。首次使用时，会给一个链接，需要先在浏览器通过这个链接完成注册并登陆Ollama账号，然后点击Connect按钮确认连接。确认完之后就可以关闭浏览器。本地使用就不要用 cloud 版本，另外注意模型大小的选择还要考虑你的电脑配置情况。

Quick Start：从零开始跑第一个模型

假设你已经装好了 Ollama。先开个终端手动启动ollama：

ollama serve

再开一个终端执行：

ollama run qwen3.5:4b

输入命令之后，Ollama 会去自动下载模型文件。

下载完成后，会自动跳进交互式对话界面。屏幕上会出现类似下面的东西：

ollama run qwen3.5:4b

>>> Send a message (/? for help)

在这里打字回车，模型就会开始回复。按 Ctrl+D 或者单独一行打 /bye 可以退出。比如：

>>> 你好
Thinking...
嗯，用户发来“你好”，看起来是个简单的打招呼。可能刚打开对话框，想测试一下我的反应，或者只是随便说句话。作为助
手，我应该保持友好热情，但也不要太冗长。

用户用“你好”开头，属于非常基础的问候，没有具体需求。这时候直接追问问题可能显得机械。我应该先回应问候，再给出
一些可切入的选项，比如帮助、聊天、任务等，让用户选择下一步方向。

不过，用户可能只是单纯想聊聊天，不一定有明确目标。所以除了提供帮助的选项，也可以提一句“随便聊聊也可以”。另外
，用表情符号能让语气更友好，比如笑脸或帮助手势。

最后，保持简短，避免信息过载。如果用户真有需求，他们会继续提问；如果只是打招呼，这样回应也合适。
...done thinking.

你好！有什么我可以帮你的吗？无论是解答问题、处理任务，还是随便聊聊，我都在这里哦～ 😊

>>> Send a message (/? for help)

Ollama 模型资源速查

下面这几个是我用过并且觉得值得一试的本地模型：

目标	命令	说明
跑 Gemini 3	`ollama run gemma3:4b`	入门模型，快且够用
通义千问 Qwen 3	`ollama run qwen3`	中文效果不错
最强开源推理	`ollama run deepseek-r1:7b`	逻辑推理很强
视觉模型	`ollama run llama3.2-vision`	拖图进去就能识别
Meta 的推理模型	`ollama run llama3.3`	70B 需要 16GB+ 内存

找到喜欢的模型后，通用用法如下：

安装模型：ollama pull <模型名>
单次生成：ollama run <模型名> "问题内容"
交互模式：ollama run <模型名> 回车进入对话
查看已安装模型：ollama list

国产模型特别说明：支持本地读、中文理解好的国产模型，现在已经不是稀罕事了。qwen、glm 都是很好的选择。如果你是想在 Mac 上跑轻量的 embedding 模型，可用 ollama run embeddinggemma 或者 all-minilm。

Ollama 常用命令

装了 Ollama 之后，最重要的就是掌握几种常用的命令了。

ollama serve

手动启动 Ollama API 服务。Ollama 默认服务端口是 11434，服务启动后就可以用 API 来生成回复了。

ollama pull

拉取（下载）模型到本地：

ollama pull llama3.2

pull 命令会从官方仓库下载模型文件，模型文件通常有几个 GB 到几十 GB 不等。如果下载速度慢，可以配置代理或者换国内镜像地址。还有一个小技巧：下载卡住的时候 Ctrl+C 取消，再跑一次 pull 命令，有时能恢复。

ollama run

运行模型，如果是第一次用，会自动先 pull：

ollama run gemma3

ollama run 启动后会进入交互式聊天模式，你可以直接敲问题和模型对话。也可以加上参数来调整模型行为，比如 --temperature 0.7。

ollama list

查看本地已经下载了哪些模型。

ollama ps

查看当前哪些模型加载在内存里，以及它们用了什么处理器（GPU 还是 CPU）。

ollama create

通过 Modelfile 创建自定义模型，比如导入手动下载的 GGUF 文件。

「创建模型」这个说法容易让人误解，以为是在训练一个全新的模型。其实 Ollama 的 create 做的事情是：基于现有模型生成一个「变体」，变体可以改、可以量化、可以合并 LoRA 适配器，但底层骨架还是原来的模型。

场景 1：修改系统提示词（最常见）

你想让模型变成「鲁迅风格」，又不想每次在 chat 里手动敲系统提示。写一个 Modelfile：

FROM qwen3.5:9b
SYSTEM 你是鲁迅，说话带点讽刺和挖苦，但要有深意。

然后构建：

ollama create qwen3.5-luxun -f ./Modelfile

之后直接跑 ollama run qwen3.5-luxun 就能一直保持这个风格。不需要改任何代码。

场景 2：调整参数固化到模型

你不满意默认的 temperature 0.8，觉得太飘。可以写：

FROM llama3.2:3b
PARAMETER temperature 0.3
PARAMETER top_p 0.9
PARAMETER repeat_penalty 1.1

构建后每次跑这个模型都会用这些参数，不用在 API 请求里重复传 options。

ollama stop

停止后台运行的模型。

速查总表

分类	命令	作用
基础	`ollama —version`	查看版本
基础	`ollama help [命令]`	查看帮助
模型管理	`ollama pull <模型名>`	拉取模型
模型管理	`ollama list`	列出本地模型
模型管理	`ollama show <模型名>`	查看模型信息
模型管理	`ollama cp <原模型> <新模型>`	复制模型
模型管理	`ollama rm <模型名>`	删除模型
模型管理	`ollama create -f Modelfile`	从 Modelfile 创建模型
运行	`ollama run <模型名>`	启动交互对话
运行	`ollama run <模型名> "提示词"`	单次生成
运行	`ollama run <模型名> —keepalive 10m`	控制模型在内存停留时间
运行	`ollama run <模型名> —format json`	强制 JSON 格式输出
服务	`ollama serve`	手动启动服务端
服务	`ollama ps`	查看内存中的模型（正在运行的）
服务	`ollama stop <模型名>`	停止正在运行的模型
账号	`ollama signin` / `signout`	登录或退出 Ollama 云端账号

补充一句，Ollama 的命令结构和 Docker 挺像的，用习惯 Docker 的人会感觉熟悉。

更多 Ollama 命令详细用法请参考文章： Ollama 命令详解（含参数完整说明）

Ollama 模型导入与自定义

Ollama 官方模型库的模型已经够多了，但有时候需要导入自己的模型文件（比如从 Hugging Face 下载的 Safetensors 格式或 GGUF 格式的模型）。

导入 GGUF 模型

写一个 Modelfile 文件：

FROM /path/to/your/model.gguf

然后在同目录下执行：

ollama create my-model -f Modelfile

这样就可以通过 ollama run my-model 来用了。

导入 LoRA 适配器

如果你有微调好的 LoRA 适配器（Safetensors 格式），Modelfile 写法如下：

FROM llama3.2
ADAPTER /path/to/adapter/directory

然后执行 ollama create my-model 构建模型。

量化

量化这是一个化整为零的过程，会把模型里那些高精度的数据，比如32位浮点数（FP32），转换成更精简的4位或8位整数（INT4/INT8）来进行运算。

打个比方：你可以把浮点数（FP32）想象成一份详尽到小数的财务报表，而整数（INT8/INT4）相当于四舍五入到个位。虽然损失了些许“精度”，但数据量大大降低，计算速度也快得多了。对大模型来说，这点精度的牺牲通常不影响回答质量，但省下的资源是实实在在的。

Ollama 还支持直接把 FP16/FP32 模型量化成 GGUF 格式：

ollama create --quantize q4_K_M mymodel -f Modelfile

比如说把模型从原本的 F16 精度量化成 Q4_K_M 格式，模型大小会大幅减少，推理速度变快，代价是精度会稍微下降。

Q4_K_M的含义：

Q：表示 Quantization（量化）。
4：表示平均使用 4位（4-bit） 来存储每个参数。位数越少，模型越小，通常在速度和精度间取舍。
K：指使用了 K-quants 这种特殊的量化技术。它会对模型中“重点”（如注意力层）和“非重点”（如简单的线性层）部分区别处理，从而在压缩体积的同时更好地保留精度。
M：代表 Medium（中等），是 K 量化方案下的质量/大小等级。还有更好的 K_L（Large）和 K_S（Small）。

GGUF量化类型速查表

类型	平均位数	模型大小示例 (7B模型)	质量 (相对于FP16)	主要特点与适用场景
Q4_K_M	4.25-4.5	~4.1 GB	高	通用平衡点：在大小、速度和质量上达到最佳平衡，也是Ollama的默认方案，适合大多数场景。
Q5_K_M	5.5	~5 GB	更高	高质量需求：比`Q4_K_M`质量更高，更接近原始模型，适合专业用途或对输出质量有严格要求的场景。
Q8_0	8	~8 GB	最高	近乎无损：质量与FP16几乎难以区分，但体积也大幅增加，适合资源充裕的顶级硬件。
IQ4_XS	4.25	~4.1 GB	高	利用重要性权重：比标准`Q4_K_M`稍复杂，通过“重要性矩阵”校准，精度可能与Q5相当，但体积更小。
Q3_K_M	3.5	~3 GB	中等	资源受限：比4位模型体积更小，但质量下降较明显，用于体验极轻量部署。
Q2_K	2	~2 GB	低	极限压缩：体积最小、速度最快，但质量损失严重，适合树莓派等超低配置设备。
Q6_K	6.5	~5.5 GB	非常高	罕见的高质量选择：质量紧追`Q8_0`，是体积与质量的另一个优秀平衡点。
Q4_0 / Q5_0	4 / 5	~4 GB / ~5 GB	中/高	早期格式（已过时）：性能和质量都不如同位的K系列，一般不推荐。

这里的模型大小是按INT4/INT8量化后估算的，方便你直观对比。实际大小取决于原始模型结构和实现，但相对比例是准确的。

日常娱乐、开发测试：选 Q4_K_M，效率和效果的绝佳平衡点，大多数人的首选。
对回答质量有较高要求：选 Q5_K_M，能保留更多原始能力，尤其适合写代码、复杂推理等任务。
追求极致性能：选 Q8_0，在资源充裕（如专业工作站）时获得接近原生的质量。
硬件配置极低：选 Q3_K_M 或 Q2_K，牺牲质量以在有限设备（如树莓派、旧笔记本）上运行。

Ollama 环境变量配置

Ollama 支持很多环境变量来定制化行为，几个常用的：

OLLAMA_MODELS: 模型文件的存放目录，默认是 ~/.ollama/models。如果 C 盘满了或者想放到外置硬盘，改这个变量就行。

OLLAMA_HOST: 服务监听的地址和端口，默认 127.0.0.1:11434。如果想允许局域网其他设备访问，改成 0.0.0.0:11434。

OLLAMA_CONTEXT_LENGTH: 上下文长度，默认根据显存动态决定（VRAM < 24G 时 4k，24-48G 时 32k，≥48G 时 256k），但可以手动改。

OLLAMA_NUM_GPU: 指定使用的 GPU 数量。

Ollama 的核心能力

Streaming（流式输出）

Ollama 的一大特点是支持流式输出。就是模型生成回复的时候一字一字地往外蹦，而不是等全部生成完了再一次性返回。

REST API 默认开启了 streaming，SDK 里需要显式设置 stream=True。

流式输出里还能处理多字段：常规内容就是 content 字段，思考过程在 thinking 字段，工具调用则在 tool_calls 字段里。

比如执行：

curl http://localhost:11434/api/chat -d '{
  "model": "qwen3.5:4b",
  "messages": [{ "role": "user", "content": "Hello!" }]
}'

会一字一字的流式输出json结构：

{
  "model": "qwen3.5:4b",
  "created_at": "2026-04-24T10:12:01.370492Z",
  "message": {
    "role": "assistant",
    "content": "",
    "thinking": " welcoming"
  },
  "done": false
}

Python 代码里逐个 chunk 解析出来就行了。

# python 3.8+
# pip install ollama
from ollama import Client

client = Client(host="http://localhost:11434", headers={"x-some-header": "some-value"})

messages = [
    {
        "role": "user",
        "content": "你好，我是阿小信。你叫什么名字？",
    },
]

for part in client.chat("qwen3.5:4b", messages=messages, stream=True):
    print(part.message.content, end="", flush=True)

输出：

你好，阿小信！我是 Qwen3.5，通义千问系列中的最新大模型。很高兴认识你！有什么可以帮你的吗？😊

输出结果速度依赖于你用的模型和你的电脑配置。

Thinking（思考链）

一些 Thinking-capable 模型（比如 DeepSeek-R1、Qwen3）会在 thinking 字段输出推理过程，然后最终的答案在 content 字段里。这个能力可以帮助你理解模型是怎么一步步推理出答案的，也可以用来调试模型的逻辑是不是跑偏了。

使用的时候可以控制是否启用 thinking：

ollama run deepseek-r1 --think "What's the capital of France?"
ollama run deepseek-r1 --hidethinking "Summarize this article"

在命令行交互模式下，也可以用 /set think 或 /set nothink 来临时开关。

Structured Outputs（结构化输出）

结构化输出是 Ollama 一个很实用的能力。通过提供 JSON schema，可以强制模型按照固定格式返回 JSON，而不是自由发挥。

from ollama import chat
from pydantic import BaseModel

class Pet(BaseModel):
    name: str
    animal: str
    age: int

response = chat(
    model='gpt-oss',
    messages=[{'role': 'user', 'content': '我有两只猫...'}],
    format=Pet.model_json_schema(),
)
pet = Pet.model_validate_json(response.message.content)

建议把 temperature 设低（比如 0），输出会更稳定。Ollama 的云端版本暂时不支持结构化输出，只有本地模型能用。

Vision（视觉/多模态）

Vision 模型可以接受图片输入，模型会描述图片内容、识别物体、回答关于图片的问题。

ollama run gemma3 ./image.png "what's in this image?"

API 调用时把图片转成 base64 编码后传给 images 数组。SDK 支持文件路径、URL 或 raw bytes，REST API 只接受 base64。

Embeddings（嵌入向量）

Embeddings 模型把文本转成向量（浮点数数组，长度一般 384-1024 维度），可以用来做语义搜索、RAG 等。

ollama run embeddinggemma "Hello world"

或者通过 API 批量生成：

curl -X POST http://localhost:11434/api/embed \
  -H "Content-Type: application/json" \
  -d '{"model": "embeddinggemma", "input": ["sentence1", "sentence2"]}'

相关阅读：从零上手 Ollama 嵌入向量：语义搜索 + RAG 落地代码教程

Tool calling（工具调用）

Ollama 支持函数调用，模型可以根据用户问题决定调用哪个工具，然后把工具返回的结果纳入回复中。可以单次调用一个工具，也支持并行调用多个工具。

相关阅读： Ollama 工具调用（Tool Calling）学习笔记

Web search

Ollama 还提供 Web Search API。可以用来让模型获取最新信息、减少幻觉。前提是注册 Ollama 账号并创建 API Key，然后用 ollama.web_search("your query") 调用。

Ollama 的生态集成

Ollama 的一大优势就是和众多 AI 工具和 IDE 的集成做得很好。官方文档列出了很多：

OpenClaw 可以把 Ollama 变成个人 AI 助理，跨 WhatsApp、Telegram、Slack、Discord 等平台，自带 web search 能力。推荐至少 64k 上下文长度。启动命令：ollama launch openclaw。

Hermes Agent 是 Nous Research 做的 AI Agent，支持自动技能创建、跨会话记忆，内置 70 多种技能。

Claude Code（Anthropic 的智能编程工具）可以通过 Ollama 的 Anthropic兼容 API 来用开源模型。

Codex（OpenAI）：用 --oss 标志就能对接。OpenCode 也是类似的终端 AI 编程助手。

VS Code 可以直接在 Copilot Chat 的模型选择器里用 Ollama 的模型。

详情阅读： Ollama 生态集成实操指南：Claude Code、Codex、Hermes Agent、OpenClaw、VS Code等工具集成实操（附命令）

Ollama 的 CUDA/GPU 支持

Ollama 对 GPU 的支持比较全面：NVIDIA、AMD、Intel（通过 Vulkan）都可以。

官方 GPU 文档里列出了支持的 NVIDIA GPU——Compute Capability 5.0+ 且驱动版本 531+ 的卡都行。几乎所有流行的显卡都覆盖了：GTX 900 系列到 RTX 5090。Mac 用户用的是 Apple M 系列的 Metal 加速。

用 ollama ps 可以看模型当前是用 CPU 还是 GPU 跑。显示「100% GPU」表示完全在 GPU 上运行，「100% CPU」表示完全在系统内存，「48%/52% CPU/GPU」表示混合加载。

不同规模模型的硬件要求：7B 模型建议 8GB+ 内存，13B 需要 16GB+，33B 需要 32GB+。

Ollama 常见问题与故障排查

在 Mac 上用 launchctl setenv 设置环境变量，然后重启 Ollama 应用。

在 Linux 上用 systemd 的话，环境变量在 override 文件里配置。systemctl edit ollama.service 打开编辑器，在 [Service] 块下加 Environment="OLLAMA_HOST=0.0.0.0:11434" 再重启。

在 Windows 上，环境变量在「系统属性-高级-环境变量」里配置，退出 ollama 后再重启生效。

关于日志：Mac 看 ~/.ollama/logs/server.log，Linux journald 用 journalctl -u ollama -f，Windows 在 %LOCALAPPDATA%\Ollama\server.log。

模型下载卡住或下载慢：配置代理、换国内镜像站，或者用第三方下载工具把模型手动下载好再用 ollama create 导入。

模型加载到 CPU 而不是 GPU：检查驱动版本、显存够不够、环境变量有没有限制 GPU 访问。强制 CPU 模式可以试试设 CUDA_VISIBLE_DEVICES=""。

Ollama 资源链接

Ollama 官网： https://ollama.com
Ollama GitHub： https://github.com/ollama/ollama
Ollama 文档： https://docs.ollama.com
官方模型库： https://ollama.com/library
Quickstart 指南： https://docs.ollama.com/quickstart
FAQ： https://docs.ollama.com/faq
GPU 支持文档： https://docs.ollama.com/gpu
Docker 部署文档： https://docs.ollama.com/docker

这篇笔记主要是结合自己的实际操作体验整理的，写的时候参考了很多官方文档和网上的资料。希望对刚接触 Ollama 的朋友有帮助。如果有什么遗漏或者不对的地方，欢迎指出来。

关注我

Ollama 是什么

Ollama 是哪个公司做的

如何安装 Ollama

macOS 安装 Ollama

Windows 安装 Ollama

Linux 安装 Ollama

Docker 安装 Ollama

安卓手机能不能安装 Ollama？

如何使用 Ollama 运行本地大模型？

怎么知道 Ollama 支持哪些模型

Ollama 云模型

Quick Start：从零开始跑第一个模型

Ollama 模型资源速查

Ollama 常用命令

ollama serve

ollama pull

ollama run

ollama list

ollama ps

ollama create

ollama stop

速查总表

Ollama 模型导入与自定义

导入 GGUF 模型

导入 LoRA 适配器

量化

Ollama 环境变量配置

Ollama 的核心能力

Streaming（流式输出）

Thinking（思考链）

Structured Outputs（结构化输出）

Vision（视觉/多模态）

Embeddings（嵌入向量）

Tool calling（工具调用）

Web search

Ollama 的生态集成

Ollama 的 CUDA/GPU 支持

Ollama 常见问题与故障排查

Ollama 资源链接

版权声明

关注我

也可以看看

关注博主

微信打赏

文章分类

广告赞助

热门标签

大流量卡

推荐阅读

广告赞助

最新文章

广告赞助

最多阅读

广告赞助

最多评论

广告赞助

最有帮助

广告赞助

最少阅读

广告赞助

猜你喜欢

广告赞助

今日热门

广告赞助

随便看看

广告赞助

资源下载

网站统计