Chạy Ollama trên Intel iGPU: Tăng tốc AI Local với IPEX-LLM

Giới thiệu

Bạn muốn chạy các mô hình ngôn ngữ lớn (LLM) như DeepSeek-R1 hay Llama-3 ngay trên chiếc laptop văn phòng của mình mà không cần card đồ họa rời đắt tiền? Với sự hỗ trợ của Intel IPEX-LLM, việc tận dụng sức mạnh của iGPU (card đồ họa tích hợp) để chạy AI local đã trở nên đơn giản hơn bao giờ hết.

Điều kiện tiên quyết

Để bắt đầu, máy tính của bạn cần trang bị phần cứng Intel tương thích đã được xác thực:

CPU: Intel Core Ultra hoặc Intel Core thế hệ 11 đến 14.
GPU: Intel Arc A-Series, Arc B-Series hoặc Iris Xe Graphics.
Hệ điều hành: Windows 10/11 (khuyên dùng bản 22H2 trở lên).

Cập nhật Driver đồ họa

Đây là bước bắt buộc. Bạn cần cài đặt phiên bản driver 32.0.x trở lên để IPEX-LLM có thể hoạt động ổn định.

Dành cho Intel Arc/Ultra: Link
Dành cho Intel Core thế hệ 11-14: Link

Chọn phiên bản phù hợp (Ở đây máy mình sử dụng Intel Core i5-1235U):

Lưu ý: Các bạn cũng có thể sử dụng Intel Driver & Support Assistant ở bên trái để tự tìm phiên bản phù hợp

Windows sẽ xóa driver cũ và cài đặt phiên bản mới nhất (32.0.x)

Sau khi cài đặt và cập nhật Driver lên phiên bản mới nhất (Kiểm tra trên phần mềm Intel Graphics Software)

Tải Ollama Portable (IPEX-LLM)

Thay vì cài đặt bản Ollama thông thường, bạn cần tải bản Ollama portable zip dành riêng cho Windows có tích hợp IPEX-LLM (ví dụ: ollama-ipex-llm-2.3.0b...win.zip).

Lưu ý: Đây là bản pre-build Portable chạy sẵn (tức là chỉ cần tải và chạy). Nếu bạn muốn tự build bản mới nhất thì có thể tham khảo hướng dẫn của Intel/IPEX-LLM

Thiết lập dịch vụ Ollama

Giải nén: Giải nén file zip vừa tải vào một thư mục (ví dụ: D:\Program\ollama-ipex-llm).

Mở CMD và di chuyển đến folder cài đặt.

Khởi động dịch vụ: Chạy file start-ollama.bat (có thể thêm vào Windows Services để chạy tự động)

Một cửa sổ CMD sẽ hiện ra, thông báo dịch vụ Ollama đang chạy và sẵn sàng nhận lệnh.

Kiểm tra phiên bản: Phiên bản Ollama Portable hiện tại đang là 0.9.3

Pull model Ollama để sử dụng (bạn có thể sử dụng bất kỳ model nào khác)

ollama pull deepseek-r1:7b

Ở cửa sổ ollama serve cho thấy card GPU đang được nhận diện đúng (ví dụ: Intel Iris Xe Graphics với 12GB VRAM chia sẻ).

Chạy Ollama model với GPU

Chạy model với chế độ debug để kiểm tra hiệu năng

ollama run deepseek-r1:7b --verbose

Kiểm tra Performance cho thấy đang sử dụng GPU thay vì CPU

Sau khi hoàn thành ta sẽ thấy thông số khi chạy rơi vào 6.5 tokens/s

Lưu ý: Con số này sẽ thay đổi dựa vào khả năng xử lý của mỗi máy và model khác nhau (thực tế có thể khác so với máy của bạn)

Tùy chỉnh nâng cao

Bạn có thể chỉnh sửa file ollama-serve.bat để tối ưu hóa hoặc thay đổi cách thức hoạt động của hệ thống bằng các biến môi trường:

set OLLAMA_NUM_GPU=999: Ép buộc sử dụng GPU.
set OLLAMA_NUM_GPU=0: Chuyển hoàn toàn sang chạy bằng CPU (nếu muốn).
set ZES_ENABLE_SYSMAN=1: Bật quản lý hệ thống để tối ưu hiệu năng Intel.

Ví dụ sửa OLLAMA_NUM_GPU=0 để chạy bằng CPU. Lúc này Ollama sẽ sử dụng CPU và GPU hoàn toàn không được sử dụng.

Kiểm tra kết quả thì hiệu suất rơi vào 3.5 tokens/s (khoảng 60%)

So sánh hiệu năng iGPU và CPU

Một thử nghiệm thực tế với mô hình DeepSeek-R1:7b trên chip Intel Core i5-1235U cho thấy sự khác biệt rõ rệt:

Thông số	Chạy bằng iGPU (IPEX-LLM)	Chạy bằng CPU (mặc định)
Tốc độ phản hồi (eval rate)	6.52 tokens/s	3.55 tokens/s
Mức độ sử dụng GPU	~95%	~3%
Hiệu suất so sánh	100%	~60%

Việc sử dụng iGPU giúp tốc độ xử lý nhanh gần gấp đôi so với chỉ dùng CPU, mang lại trải nghiệm mượt mà hơn khi chat với AI.

Benchmark từ trang chủ thì tokens khi chạy bằng iGPU của Intel sẽ vào khoảng 6-8 tokens/s

Kết luận

Nhờ IPEX-LLM, những chiếc laptop văn phòng trang bị chip Intel đời mới giờ đây đã có thể trở thành một “trạm AI” mini đầy mạnh mẽ. Hãy cập nhật ngay driver mới nhất và trải nghiệm tốc độ AI local ngay hôm nay!

Giới thiệu

Điều kiện tiên quyết

Cập nhật Driver đồ họa

Tải Ollama Portable (IPEX-LLM)

Thiết lập dịch vụ Ollama

Chạy Ollama model với GPU

Tùy chỉnh nâng cao

So sánh hiệu năng iGPU và CPU

Kết luận

Thiên Phong

Leave a Reply Cancel reply

Phân tích hệ sinh thái quản trị đa ngành Sovico: HDBank – Vietjet Air

SigNoz – Giải pháp Giám sát All-in-One tích hợp OpenTelemetry

[Blog] Kiến trúc hệ thống Core Banking: GitOps và Multi-level Caching

Danh sách Thẻ tín dụng Free phòng chờ sân bay trong nước và quốc tế

Mạng di động ảo (MVNO) – Giải mã mô hình mạng không sở hữu

AI, Windows

Chạy Ollama trên Intel iGPU: Tăng tốc AI Local với IPEX-LLM

Giới thiệu

Điều kiện tiên quyết

Cập nhật Driver đồ họa

Tải Ollama Portable (IPEX-LLM)

Thiết lập dịch vụ Ollama

Chạy Ollama model với GPU

Tùy chỉnh nâng cao

So sánh hiệu năng iGPU và CPU

Kết luận

Thiên Phong

Leave a Reply Cancel reply

Phân tích hệ sinh thái quản trị đa ngành Sovico: HDBank – Vietjet Air

SigNoz – Giải pháp Giám sát All-in-One tích hợp OpenTelemetry

[Blog] Kiến trúc hệ thống Core Banking: GitOps và Multi-level Caching

Danh sách Thẻ tín dụng Free phòng chờ sân bay trong nước và quốc tế

Mạng di động ảo (MVNO) – Giải mã mô hình mạng không sở hữu