[llama.cpp] 로컬에서 GGUF 형식 LLM 모델 실행하기

Generative AI

[llama.cpp] 로컬에서 GGUF 형식 LLM 모델 실행하기

iseop 2025. 5. 11. 22:28

추론만 가능한 형태의 파일이다. 추론에 필요한 메타데이터와 가중치 데이터가 들어있다.

1. llama.cpp 깃허브 저장소에서 필요한 바이너리 내려받기

https://github.com/ggml-org/llama.cpp/releases

본인은 엔비디아 GPU를 사용중이라 "llama-b5345-bin-win-cuda12.4-x64.zip" 파일을 내려받았다.

2. GGUF 파일 구하기

허깅페이스에서 원하는 GGUF 형식의 모델 파일을 구한다. Bllossom이라는 모델은 LLaMA에 한국어 코퍼스로 잔뜩 full fine tuning한 모델이라고 한다. 아래 링크는 LLaMA 3.2를 베이스로 하는 Bllossom 3B의 양자화 모델이다. 크기가 2GB 정도라서 거의 아무데서나 실행할 수 있을 것 같다.

https://huggingface.co/Bllossom/llama-3.2-Korean-Bllossom-3B-gguf-Q4_K_M

3. llama-run 또는 llama-server

첫 단계에서 받은 llama.cpp 바이너리 중에 llama-run.exe를 찾아서 모델 경로와 필요한 옵션(별로 없다)을 지정하고 실행하면 된다. llama-server.exe로 실행하면 예쁜 챗봇 UI를 가진 웹 서버가 로컬에 실행된다.

끝.

저작자표시 비영리 변경금지 (새창열림)

현재글[llama.cpp] 로컬에서 GGUF 형식 LLM 모델 실행하기

DevNetSecOps Lifecycle

[llama.cpp] 로컬에서 GGUF 형식 LLM 모델 실행하기

'Generative AI'의 다른글

티스토리툴바

[llama.cpp] 로컬에서 GGUF 형식 LLM 모델 실행하기

'Generative AI'의 다른글

관련글

티스토리툴바