什么是 SGLang ?

SGLang 是一种专为大语言模型 (LLM) 服务开发的推理编排语言，主要由 Skywork AI 开发。它的设计目标是简化和优化大语言模型的推理流程，包括提示模板的编写、多轮对话、工具调用（Tool Calling）、API 集成等任务。

SGLang 的核心特点

类脚本语言的语法风格
- 类似 Python 的语法，易读易写，支持变量、条件语句、循环、函数调用等编程结构。
- 可以方便地定义复杂的推理逻辑流程。
Prompt 模板 + 控制逻辑的融合
- 不只是静态 Prompt，还能在一个脚本中动态生成 Prompt、处理模型响应，并根据结果做决策。
- 例如：可以根据用户输入的意图调用不同的工具或触发不同的逻辑分支。
原生支持多轮对话和上下文管理
- 非常适合构建 Chatbot、多轮问答系统。
- 支持 conversation memory 的机制，自动处理对话上下文。
工具（Tool）调用
- 支持调用外部函数、API，或者通过插件接入数据库、搜索引擎、计算模块等。
- 可用于 Agent 系统开发。
易于部署和集成
- 可以作为服务部署，结合 Web 前端或 API 接口。
- 支持 OpenAI、Skywork、LLaMA 等主流模型。

SGLang 安装

参考vllm官网文档 https://docs.sglang.ai/index.html 或 GitHub https://github.com/sgl-project/sglang

docker安装示例：

docker run --gpus all \
    --shm-size 32g \
    -p 30000:30000 \
    -v ~/.cache/huggingface:/root/.cache/huggingface \
    --env "HF_TOKEN=<secret>" \
    --ipc=host \
    lmsysorg/sglang:latest \
    python3 -m sglang.launch_server --model-path meta-llama/Llama-3.1-8B-Instruct --host 0.0.0.0 --port 30000

SGLang 默认从 Hugging Face 下载模型