intel核显安装大语言模型

本文提供在 Windows 系统上配置 Intel GPU 运行环境、安装大语言模型加速库 ipex-llam 的完整指南,并详解通过 Ollama 平台部署与管理本地 LLM 的流程。

环境搭建

1、更新显卡驱动

ipex-llm 是一个将大语言模型高效地运行于 Intel GPU 、NPU 和 CPU 上的大模型 XPU 加速库。

ipex-llm 需要显卡驱动程序版本不低于 31.0.101.5122 。可以从 Intel 官方下载页面下载并安装最新的 GPU 驱动程序,更新后需要重启以完成安装

1755011631987

2、安装 Miniforge

Miniforge 是一个 Python 环境和包管理工具,它提供了一个轻量级、高效的 Conda 发行版,适合那些希望避免 Anaconda 大型包集合或者对系统资源有限制的用户。通过使用Miniforge,用户可以享受到Conda的便利,同时不必担心额外的负担

下载安装好后,添加环境变量 Miniforge安装路径\Scripts\

3、安装 ipex_llm

1
2
3
conda create -n ipex_ollama python=3.11 #创建一个 ipex_ollama 环境
conda activate ipex_ollama # 激活 ipex_ollama 环境
pip install --pre --upgrade ipex-llm[cpp] # 安装 ipex-llm

4、安装 ollama(需要以管理员运行)

1
2
3
4
mkdir ipex_ollama
cd ipex_ollama
conda activate ipex_ollama
init-ollama.bat # 初始化 ollama

1753974707357

5、运行 ollama(需要先激活 ipex_ollama 环境)
1
2
3
4
5
6
7
8
9
10
@echo off
set OLLAMA_NUM_GPU=999 # 强制 Ollama 使用所有可用 GPU 核心
set no_proxy=localhost,127.0.0.1 # 绕过代理直连本地服务
set ZES_ENABLE_SYSMAN=1 # 启用 Intel GPU 系统管理接口
set SYCL_CACHE_PERSISTENT=1 # 启用 GPU 内核缓存,加速重复计算
set SYCL_PI_LEVEL_ZERO_USE_IMMEDIATE_COMMANDLISTS=1 # 优化 GPU 指令队列提交
set OLLAMA_HOST=0.0.0.0 # 允许局域网内其他设备访问服务
set OLLAMA_NUM_PARALLEL=1 # 限制并行请求数为 1,避免显存溢出
start /b .\ollama.exe serve
echo Ollama service started.

1755011564996

需要一直保持运行!!!

配置大语言模型

可以点击链接查看 ollama 模型名称,配置环境变量 OLLAMA_MODELS 修改模型下载位置,默认下载位置为 C盘,建议修改

1、拉取模型

1
ollama pull [model-name]

image-20250813180733565

2、查看已下载模型

1
ollama ls

image-20250812231846297

3、运行模型

1
ollama run [model-name]

image-20250812232015790

输入问题即可

image-20250812232237446

界面配置

下载ollama-webui工程代码:git clone https://github.com/ollama-webui/ollama-webui-lite ollama-webui,初始化项目 pnpm i,并运行 pnpm dev

1756042671291

浏览器里访问 http://localhost:3000

image-20250824213916765

  • 版权声明: 本博客所有文章除特别声明外,著作权归作者所有。转载请注明出处!

扫一扫,分享到微信

微信分享二维码

~