Serving

2026

Nitsum: Serving Tiered LLM Requests with Adaptive Tensor Parallelism May 16, 2026

2024

Can Scheduling Overhead Dominate LLM Inference Performance? A Study of CPU Scheduling Overhead on Two Popular LLM Inference Systems September 10, 2024
Preble: Efficient Prompt Scheduling for Augmented Large Language Models May 7, 2024
Efficient Augmented LLM Serving With InferCept February 10, 2024