win11平台intel集成显卡部署deepseek-r1 模型-编程相关-云港产品技术论坛

win11平台intel集成显卡部署deepseek-r1 模型

老龙 5月前 896

1、安装miniconda，从官网免费下载安装

在系统变量中，添加系统环境变量：CONDA_ENVS_PATH ，变量值：D:\MyPython

这是为了用conda管理的一些开发环境全部放到d:\mypython这个目录下便于管理

2、安装ollama 过程略

【注意】安装完成以后，桌面右下角托盘区，会出现ollama图标，务必点右键退出！

3、安装intel oneapi：

从这个链接下载oneAPI Base Toolkit，并安装：Get the Intel® oneAPI Base Toolkit

4、创建运行环境以及安装一些必要的包

conda create -n llm python=3.11 libuv
conda activate llm

#已经确定下面的没用
#pip install dpcpp-cpp-rt==2024.0.2 mkl-dpcpp==2024.0.0 onednn==2024.0.0

#安装ipex-llm[xpu]驱动，没用
#pip install --pre --upgrade ipex-llm[xpu] --extra-index-url https://pytorch-extension.intel.com/release-whl/stable/xpu/cn/
#可以使用下面的指令进行加速，用不到
#pip install --pre --upgrade ipex-llm[xpu] --extra-index-url https://pytorch-extension.intel.com/release-whl/stable/xpu/cn/ -i https://pypi.tuna.tsinghua.edu.cn/simple

#安装ipex-llm[cpp]驱动，必须要安装
pip install --pre --upgrade ipex-llm[cpp]

cd d:\mypython\llm
#mkdir ollama
#cd ollama
init-ollama.bat

#下面可以省略，不用llama加载模型，就用不到
#cd ..
#mkdir llama-cpp
#cd llama-cpp
#init-llama-cpp.bat

#设置环境变量
set OLLAMA_NUM_GPU=999
set no_proxy=localhost,127.0.0.1
set ZES_ENABLE_SYSMAN=1
set SYCL_CACHE_PERSISTENT=1
set OLLAMA_HOST=0.0.0.0
set SYCL_PI_LEVEL_ZERO_USE_IMMEDIATE_COMMANDLISTS=1

#Ollama 默认每 5 分钟从 GPU 内存卸载一次模型。针对 ollama 的最新版本，
#你可以设置 OLLAMA_KEEP_ALIVE=-1 来将模型保持在显存上
set OLLAMA_KEEP_ALIVE=-1

#可以不需要
#call "C:\Program Files (x86)\Intel\oneAPI\setvars.bat"

#运行服务后，保持窗口不要退出
ollama serve

测试intel gpu是否已经支持：

#重新开一个cmd
conda activate llm
#输入：
python
#进入python控制台，继续输入
import torch 
from ipex_llm.transformers import AutoModel,AutoModelForCausalLM    
tensor_1 = torch.randn(1, 1, 40, 128).to('xpu') 
tensor_2 = torch.randn(1, 1, 128, 40).to('xpu') 
print(torch.matmul(tensor_1, tensor_2).size()) 

#如果输出torch.Size([1, 1, 40, 40]) 表示pytorch已经支持intel arc集成显卡

#输入Ctrl + Z 退出 python控制台
Ctrl + Z 
#输入 conda deactivate 退出ollama 环境
conda deactivate
#关闭cmd窗口
exit

6、启动模型

#用管理员权限打开cmd 并运行下面的指令：
conda activate llm
#设置环境参数
set OLLAMA_HOST=0.0.0.0
#运行模型
ollama run deepseek-r1:7b
#或者使用国内魔塔的模型，下载速度很快，要下载并运行ollama支持的GGUG格式的模型下载
ollama run modelscope.cn/Qwen/Qwen2.5-14B-Instruct-GGUF

如果遇到网络问题，没有下载成功，多尝试几次

7、intel参考链接

最新回复 (0)

发新帖

老龙

主题数
125

帖子数
11

注册排名
2