首页 公告 项目 RSS

部署Ollama大型语言模型平台

June 25, 2024 本文有 471 个字 需要花费 1 分钟阅读

简介

Ollama 是一个专注于优化和高效部署的大型语言模型平台,旨在为开发者提供高性能、可扩展的语言模型服务。

安装 NVIDIA 驱动

首先需要安装 NVIDIA 驱动。请访问以下网址:

https://www.nvidia.com/Download/index.aspx?lang=tw

根据你的显卡型号下载对应的驱动,然后运行以下命令安装:

./NVIDIA-Linux-x86_64-535.104.05.run

更多详细信息,请参考我的这篇文章:使用 Docker 运行 Jellyfin 并且用 GPU 解码

安装 NVIDIA Container Toolkit

如果你想在容器中运行 Ollama,需要安装 NVIDIA Container Toolkit。详细安装指南请参考 NVIDIA Container Toolkit 安装指南

配置 yum 仓库:

curl -s -L https://nvidia.github.io/libnvidia-container/stable/rpm/nvidia-container-toolkit.repo | \
  sudo tee /etc/yum.repos.d/nvidia-container-toolkit.repo

启用实验性功能:

sudo yum-config-manager --enable nvidia-container-toolkit-experimental

安装 NVIDIA Container Toolkit:

sudo yum install -y nvidia-container-toolkit

配置 Docker:

nvidia-ctk runtime configure --runtime=docker

重启 Docker:

systemctl restart docker

安装 Ollama

可以直接执行以下命令安装 Ollama:

curl -fsSL https://ollama.com/install.sh | sh

手动安装步骤请参考 Ollama on Linux

运行模型

运行以下命令启动模型:

ollama run llama3

默认情况下,模型运行 5 分钟后会自动关闭,且只允许本机连接。如果你希望允许外部连接并让模型长时间运行,可以配置以下参数:

编辑配置文件:

vi /etc/systemd/system/ollama.service.d/override.conf

添加以下内容:

[Service]
Environment="OLLAMA_HOST=0.0.0.0"
Environment="OLLAMA_KEEP_ALIVE=-1"

重启 Ollama:

systemctl daemon-reload
systemctl restart ollama

请注意,如果你的显卡显存小于 15GB,建议选择 8B 参数以内的模型,不要选择 70B 参数的模型。

欢迎关注我的博客www.bboy.app

Have Fun