简介
Ollama 是一个专注于优化和高效部署的大型语言模型平台,旨在为开发者提供高性能、可扩展的语言模型服务。
安装 NVIDIA 驱动
首先需要安装 NVIDIA 驱动。请访问以下网址:
https://www.nvidia.com/Download/index.aspx?lang=tw
根据你的显卡型号下载对应的驱动,然后运行以下命令安装:
./NVIDIA-Linux-x86_64-535.104.05.run
更多详细信息,请参考我的这篇文章:使用 Docker 运行 Jellyfin 并且用 GPU 解码
安装 NVIDIA Container Toolkit
如果你想在容器中运行 Ollama,需要安装 NVIDIA Container Toolkit。详细安装指南请参考 NVIDIA Container Toolkit 安装指南。
配置 yum 仓库:
curl -s -L https://nvidia.github.io/libnvidia-container/stable/rpm/nvidia-container-toolkit.repo | \
sudo tee /etc/yum.repos.d/nvidia-container-toolkit.repo
启用实验性功能:
sudo yum-config-manager --enable nvidia-container-toolkit-experimental
安装 NVIDIA Container Toolkit:
sudo yum install -y nvidia-container-toolkit
配置 Docker:
nvidia-ctk runtime configure --runtime=docker
重启 Docker:
systemctl restart docker
安装 Ollama
可以直接执行以下命令安装 Ollama:
curl -fsSL https://ollama.com/install.sh | sh
手动安装步骤请参考 Ollama on Linux。
运行模型
运行以下命令启动模型:
ollama run llama3
默认情况下,模型运行 5 分钟后会自动关闭,且只允许本机连接。如果你希望允许外部连接并让模型长时间运行,可以配置以下参数:
编辑配置文件:
vi /etc/systemd/system/ollama.service.d/override.conf
添加以下内容:
[Service]
Environment="OLLAMA_HOST=0.0.0.0"
Environment="OLLAMA_KEEP_ALIVE=-1"
重启 Ollama:
systemctl daemon-reload
systemctl restart ollama
请注意,如果你的显卡显存小于 15GB,建议选择 8B 参数以内的模型,不要选择 70B 参数的模型。
欢迎关注我的博客www.bboy.app
Have Fun