一分钟本地用上 Deepseek-R1 以及其他大模型
安装
首先安装 Ollama 根据你的系统版本下载安装就行 下载地址
- 安装完成后,打开终端,输入
ollama -v
回车,如果出现以下内容,说明安装成功 - 类似
ollama version is 0.5.7
安装Docker 和上一步一样 下载地址
- 安装完成后,打开终端,输入 `docker --version` 回车,如果出现以下内容,说明安装成功
- 类似 `Docker version 20.10.12, build e91ed57`
到 Ollama 官网 地址 输入Deepseek 搜索就能看到 目前它应该在首位 你可以直接点击
| 这些是对应的模型参数 1代表1亿参数量 数字越大越好 同时也对应着你的显卡等级要越来越高
1.5b | 7b | 8b | 14b | 32b | 70b | 671b
随意显卡 | 6G显卡 | 8G显卡 | 12G显卡 | 16G显卡 | 70b的我也没部署过估计需要4090 24g以上的现存 | 671b的基本都是大公司部的 我们就别折腾了
在跑模型这块显存 大于 显卡性能 也就是说你的 3060 16g显存 大于 4060 8G显存
同时内存也是越大越好 因为在显存不够的时候会使用内存存储 所以内存越大 频率越高 你跑token的速度就越快 这也是他们只使用cpu 跑模型也能跑的起来的原因 cpu 跑输出token 没有gpu 快,所以尽量都使用gpu跑。
选好模型好根据 ollama 的提示 终端输入 ollama run deepseek-r1:8b
等待下载完成就能得到一个本地的对话模型了
你可以在终端输入
ollama list
查看你下载的模型列表 你可以在终端输入ollama run <模型名字>
来运行你下载的模型
了解完了基本信息 现在在你的终端 输入一下命令获取 open-web-ui 地址
只是我使用这个 你如果使用终端访问可以省去这一步直接回到 第
4
步 等待就可以了
使用 open-webui
不使用gpu 用cpu 跑
1 | docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main |
使用gpu 跑 (推荐)
注意 使用gpu 跑 你需要安装nvidia-cuda 如果你没有安装 可以参考 nvidia-cuda Toolkit 进行安装
安装完成好 重新打开终端 输入 nvidia-smi 此时会显示你的显卡信息 如果没有 检查安装过程是否换了目录 如果没有 请重新安装(我是没出现过这种问题 所以不太清楚)
1 | docker run -d -p 3000:8080 --gpus=all -v ollama:/root/.ollama -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:ollama |
Tips
目前我使用过的两张显卡分别是 4050 6g 和 4060 8g
- 跑模型方面 4060 8g 可以跑 14b 的模型 4050 6g 可以跑 7b 8b 的模型
- 但是 14b 明显输出token 就很慢 4060 8g 跑8b 的速度就还行了足够日常使用了
- 其他模型也是一样的用法
建议
- 1.6Gb显存 约等于 1亿参数量 所以跑的时候把显存 * 1.6 就可以大概估算出你的显卡能跑多少参数量的模型
- 问了技术总监说大概是这样,如果跑的慢了就往下降级就可以了。
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 江宇晨的博客站!