추론만 가능한 형태의 파일이다. 추론에 필요한 메타데이터와 가중치 데이터가 들어있다.
1. llama.cpp 깃허브 저장소에서 필요한 바이너리 내려받기
https://github.com/ggml-org/llama.cpp/releases
본인은 엔비디아 GPU를 사용중이라 "llama-b5345-bin-win-cuda12.4-x64.zip" 파일을 내려받았다.
2. GGUF 파일 구하기
허깅페이스에서 원하는 GGUF 형식의 모델 파일을 구한다. Bllossom이라는 모델은 LLaMA에 한국어 코퍼스로 잔뜩 full fine tuning한 모델이라고 한다. 아래 링크는 LLaMA 3.2를 베이스로 하는 Bllossom 3B의 양자화 모델이다. 크기가 2GB 정도라서 거의 아무데서나 실행할 수 있을 것 같다.
https://huggingface.co/Bllossom/llama-3.2-Korean-Bllossom-3B-gguf-Q4_K_M
3. llama-run 또는 llama-server
첫 단계에서 받은 llama.cpp 바이너리 중에 llama-run.exe를 찾아서 모델 경로와 필요한 옵션(별로 없다)을 지정하고 실행하면 된다. llama-server.exe로 실행하면 예쁜 챗봇 UI를 가진 웹 서버가 로컬에 실행된다.
끝.