部署Ollama大型语言模型平台

简介

Ollama 是一个专注于优化和高效部署的大型语言模型平台，旨在为开发者提供高性能、可扩展的语言模型服务。

安装 NVIDIA 驱动

首先需要安装 NVIDIA 驱动。请访问以下网址：

https://www.nvidia.com/Download/index.aspx?lang=tw

根据你的显卡型号下载对应的驱动，然后运行以下命令安装：

./NVIDIA-Linux-x86_64-535.104.05.run

更多详细信息，请参考我的这篇文章：使用 Docker 运行 Jellyfin 并且用 GPU 解码

安装 NVIDIA Container Toolkit

如果你想在容器中运行 Ollama，需要安装 NVIDIA Container Toolkit。详细安装指南请参考 NVIDIA Container Toolkit 安装指南。

配置 yum 仓库：

curl -s -L https://nvidia.github.io/libnvidia-container/stable/rpm/nvidia-container-toolkit.repo | \
  sudo tee /etc/yum.repos.d/nvidia-container-toolkit.repo

启用实验性功能：

sudo yum-config-manager --enable nvidia-container-toolkit-experimental

安装 NVIDIA Container Toolkit：

sudo yum install -y nvidia-container-toolkit

配置 Docker：

nvidia-ctk runtime configure --runtime=docker

重启 Docker：

systemctl restart docker

安装 Ollama

可以直接执行以下命令安装 Ollama：

curl -fsSL https://ollama.com/install.sh | sh

手动安装步骤请参考 Ollama on Linux。

运行模型

运行以下命令启动模型：

ollama run llama3

默认情况下，模型运行 5 分钟后会自动关闭，且只允许本机连接。如果你希望允许外部连接并让模型长时间运行，可以配置以下参数：

编辑配置文件：

vi /etc/systemd/system/ollama.service.d/override.conf

添加以下内容：

[Service]
Environment="OLLAMA_HOST=0.0.0.0"
Environment="OLLAMA_KEEP_ALIVE=-1"

重启 Ollama：

systemctl daemon-reload
systemctl restart ollama

请注意，如果你的显卡显存小于 15GB，建议选择 8B 参数以内的模型，不要选择 70B 参数的模型。

欢迎关注我的博客www.bboy.app

Have Fun

Bboysoul's Blog

部署Ollama大型语言模型平台

简介

安装 NVIDIA 驱动

安装 NVIDIA Container Toolkit

安装 Ollama

运行模型