Non-disaggregated performance 怎么测试 #89

ToBeResumed · 2025-01-22T01:29:00Z

在vllm_benchmark result中给出的几种测试对比组，请问Non-disaggregated模式是怎么设置的，对应步骤里哪步？

ShangmingCai · 2025-01-22T09:02:58Z

@ToBeResumed Non-disaggregated的实验你直接通过vllm起实例就可以了，通过传入参数开启chunked-prefill，比如

CUDA_VISIBLE_DEVICES=0 python3 \
    -m vllm.entrypoints.openai.api_server \
    --model $model \
    --port 8100 \  
    --max-model-len 10000 \ 
    --enable-chunked-prefill \
    --gpu-memory-utilization 0.8

ToBeResumed · 2025-01-23T01:02:21Z

谢谢解答，新年快乐

ToBeResumed closed this as completed Jan 23, 2025

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Non-disaggregated performance 怎么测试 #89

Non-disaggregated performance 怎么测试 #89

ToBeResumed commented Jan 22, 2025

ShangmingCai commented Jan 22, 2025

ToBeResumed commented Jan 23, 2025 •

edited

Loading

Non-disaggregated performance 怎么测试 #89

Non-disaggregated performance 怎么测试 #89

Comments

ToBeResumed commented Jan 22, 2025

ShangmingCai commented Jan 22, 2025

ToBeResumed commented Jan 23, 2025 • edited Loading

ToBeResumed commented Jan 23, 2025 •

edited

Loading