win11平台intel集成显卡部署deepseek-r1 模型

老龙 2月前 403

1、安装miniconda,从官网免费下载安装

在系统变量中,添加系统环境变量:CONDA_ENVS_PATH ,   变量值:D:\MyPython 

这是为了用conda管理的一些开发环境全部放到d:\mypython这个目录下便于管理

 

2、安装ollama 过程略

【注意】安装完成以后,桌面右下角托盘区,会出现ollama图标,务必点右键退出!

 

3、安装intel oneapi:

从这个链接下载oneAPI Base Toolkit,并安装:Get the Intel® oneAPI Base Toolkit

 

4、创建运行环境以及安装一些必要的包

conda create -n llm python=3.11 libuv
conda activate llm

#已经确定下面的没用
#pip install dpcpp-cpp-rt==2024.0.2 mkl-dpcpp==2024.0.0 onednn==2024.0.0

#安装ipex-llm[xpu]驱动,没用
#pip install --pre --upgrade ipex-llm[xpu] --extra-index-url https://pytorch-extension.intel.com/release-whl/stable/xpu/cn/
#可以使用下面的指令进行加速,用不到
#pip install --pre --upgrade ipex-llm[xpu] --extra-index-url https://pytorch-extension.intel.com/release-whl/stable/xpu/cn/ -i https://pypi.tuna.tsinghua.edu.cn/simple

#安装ipex-llm[cpp]驱动,必须要安装
pip install --pre --upgrade ipex-llm[cpp]

cd d:\mypython\llm
#mkdir ollama
#cd ollama
init-ollama.bat

#下面可以省略,不用llama加载模型,就用不到
#cd ..
#mkdir llama-cpp
#cd llama-cpp
#init-llama-cpp.bat

#设置环境变量
set OLLAMA_NUM_GPU=999
set no_proxy=localhost,127.0.0.1
set ZES_ENABLE_SYSMAN=1
set SYCL_CACHE_PERSISTENT=1
set OLLAMA_HOST=0.0.0.0
set SYCL_PI_LEVEL_ZERO_USE_IMMEDIATE_COMMANDLISTS=1

#Ollama 默认每 5 分钟从 GPU 内存卸载一次模型。针对 ollama 的最新版本,
#你可以设置 OLLAMA_KEEP_ALIVE=-1 来将模型保持在显存上
set OLLAMA_KEEP_ALIVE=-1

#可以不需要
#call "C:\Program Files (x86)\Intel\oneAPI\setvars.bat"

#运行服务后,保持窗口不要退出
ollama serve

 

测试intel gpu是否已经支持:

#重新开一个cmd
conda activate llm
#输入:
python
#进入python控制台,继续输入
import torch 
from ipex_llm.transformers import AutoModel,AutoModelForCausalLM    
tensor_1 = torch.randn(1, 1, 40, 128).to('xpu') 
tensor_2 = torch.randn(1, 1, 128, 40).to('xpu') 
print(torch.matmul(tensor_1, tensor_2).size()) 

#如果输出torch.Size([1, 1, 40, 40]) 表示pytorch已经支持intel arc集成显卡

#输入Ctrl + Z 退出 python控制台
Ctrl + Z 
#输入 conda deactivate 退出ollama 环境
conda deactivate
#关闭cmd窗口
exit

 

6、启动模型

#用管理员权限打开cmd 并运行下面的指令:
conda activate llm
#设置环境参数
set OLLAMA_HOST=0.0.0.0
#运行模型
ollama run deepseek-r1:7b
#或者使用国内魔塔的模型,下载速度很快,要下载并运行ollama支持的GGUG格式的模型下载
ollama run modelscope.cn/Qwen/Qwen2.5-14B-Instruct-GGUF

如果遇到网络问题,没有下载成功,多尝试几次

 

7、intel参考链接

最新回复 (0)
返回
发新帖