Update avaliable. Click RELOAD to update.
📱 安装应用到主屏幕,获得更好体验
目录

AirLLM让我第一次惊喜——然后在笔记本上搭出了私人ChatGPT

AirLLM and Ollama - Build your own private ChatGPT

1. 为什么这很重要

很多开发者现在都对本地AI很好奇。

他们想在本机跑LLM,因为在意隐私、想在没有API账单的情况下测试模型。这正是AirLLM、Ollama和Open WebUI这些工具变得重要的原因。

AirLLM在你想用有限硬件试验大模型时非常出色。但有时你不想跟复杂的配置搏斗,只想跑一个本地AI模型然后开始构建东西。这就是Ollama的用武之地。

2. AirLLM的优点和局限

AirLLM的核心思路很聪明:按层加载模型,用完一层卸载再加载下一层,大幅降低显存需求。

我在一台8GB内存的旧笔记本上跑过Llama 3 70B,确实能出结果。但速度很慢,每生成一个token要等好几秒。它适合做实验——验证一个模型在你的硬件上能不能跑——但不适合日常使用。

3. Ollama是什么

Ollama就像本地AI界的Docker。你不用手动配置模型文件,不用操心格式,不用写长长的安装脚本。简单装好Ollama,然后运行一个模型就行。

ollama run llama3.2

这一条命令就能下载模型、加载它、并启动一个本地聊天会话。

4. 安装Ollama

macOS或Linux上,一行安装:

curl -fsSL https://ollama.com/install.sh | sh

Windows上,从官网下载安装。

装好后,运行:

ollama run llama3.2

如果机器配置一般,先从小模型开始:

ollama run gemma3:1b

或者试试专门写代码的模型:

ollama run qwen2.5-coder

5. 第一次运行的感受

第一次跑Ollama,感觉和普通的AI教程完全不同。没有API Key,没有账单面板,没有云机器,没有等待审核。模型就是在你自己的笔记本上跑的。

这种感觉很重要。因为一旦AI本地跑起来了,你思考问题的方式就不一样了。你可以测试更多东西,可以搞坏它,可以建小工具,可以随便实验而不用担心每个token都要花钱。这就是本地AI真正的力量。

6. 用Open WebUI加一个ChatGPT界面

终端里跑AI对开发者来说够用,但有时你需要一个正经的聊天界面。这就是Open WebUI做的事情。

Open WebUI给你一个浏览器里的ChatGPT风格界面,连接到你本地的Ollama模型。

用Docker运行:

docker run -d -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data \
  ghcr.io/open-webui/open-webui:main

然后打开 http://localhost:3000,你就有了一个私人AI聊天应用。它在浏览器里跑,连接到Ollama,你的提示词都留在你自己的机器上。

7. 从Python调用Ollama

最妙的是,Ollama不只是用来聊天的。你还能在Python里用它。

安装Python包:

pip install ollama

创建一个 local_ai_chat.py 文件:

import ollama

response = ollama.chat(model='llama3.2', messages=[
  {'role': 'user', 'content': '用Python写一个快速排序'}
])
print(response['message']['content'])

跑起来之后,你的Python程序就和一个本地AI模型通信了。不需要OpenAI的API Key,模型下载后甚至不需要联网。

8. 做一个带记忆的本地聊天机器人

进阶一点,带上对话历史:

import ollama

messages = [{'role': 'system', 'content': '你是一个AI助手'}]

def local_chat():
    while True:
        user_input = input('你: ')
        if user_input.lower() == 'exit':
            break
        messages.append({'role': 'user', 'content': user_input})
        response = ollama.chat(model='llama3.2', messages=messages)
        print(f"AI: {response['message']['content']}")
        messages.append(response['message'])

local_chat()

现在你有了一个基本的本地AI聊天机器人。每个初学者都应该试试这个——它让你直观理解本地AI的工作方式。

9. 为什么这对开发者有用

这套方案对开发者很有用,因为你可以在上面搭很多东西。比如私有聊天机器人、不需要联网的AI工具、给你自己的文件做的小工具。

最棒的是,你不必从一开始就绑定付费API。你可以先在本地做原型,然后如果以后需要更强算力,再迁移到云端模型。

10. AirLLM仍然有价值

用过Ollama之后你可能会问:还需要AirLLM吗?

答案是:需要。

AirLLM在你想要用有限硬件试验超大模型时仍然有用。它的逐层加载思路很聪明,能减少内存压力。

但Ollama更适合日常使用。所以我的看法是:AirLLM用来推硬件极限,Ollama用来日常使用,Open WebUI提供好看的本地聊天界面,Python让你在本地AI上建真正的应用。

它们不是对手,是不同场景的工具。

11. 我的真实体验

一切都完美吗?不是。

本地AI仍然有局限。小模型快但能力弱,大模型需要更多内存、更好的显卡或者更多耐心。有些答案没有付费前沿模型那么强。第一次下载模型也要花时间。

但即便如此,这体验也值得。因为当你真正在本地跑起AI的那一刻,你会理解一件重要的事:AI不一定非要活在云端。

对于日常任务,本地AI已经够用了。用于学习,它很出色。用于原型,它很便宜。用于保护隐私,它很强大。对于开发者,它是一个游乐场。

12. 快速设置回顾

# 安装Ollama
curl -fsSL https://ollama.com/install.sh | sh

# 运行本地模型
ollama run llama3.2

# 运行小模型
ollama run gemma3:1b

# 安装Python包
pip install ollama

# 运行Open WebUI
docker run -d -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data \
  ghcr.io/open-webui/open-webui:main

# 打开
http://localhost:3000

现在你的笔记本电脑上有了一个私人的ChatGPT风格AI应用。

13. 最后的想法

AirLLM是我的第一个惊喜。它让我知道大AI模型可以在有限硬件上用更聪明的方式运行。

但Ollama和Open WebUI给了我下一个惊喜。它们让我看到本地AI也可以很简单、很实用、很好看。

这很重要,因为AI的未来不只是云端AI。还有本地AI——在笔记本电脑上、在桌面、在私人工具里、在不把每个提示词都发送到服务器的AI。

那个未来已经开始。而理解它最好的方式很简单:装Ollama,跑一个模型,开WebUI,写一个小Python脚本。亲眼看看它怎么工作。

因为当你在本地跑起第一个AI模型的时候,这个概念就变成现实了。

你不再只是读关于AI的文章——你在运行它。而这才是真正的学习开始的地方。

版权所有,本作品采用知识共享署名-非商业性使用 3.0 未本地化版本许可协议进行许可。转载请注明出处:https://www.wangjun.dev//2026/05/airllm-to-ollama-private-chatgpt/