[Python] FastAPI 의 동기/비동기 처리 방식 그리고 병렬과 동시성

Tae Jeong 2026. 1. 8. 14:43

2026. 1. 8. 14:43

728x90

배경

사내 LLM 서비스 개발 중 vLLM 이 병렬처리 되지 않는 현상이 발생했습니다. vLLM 로그를 보면 vLLM 서버에 요청이 하나씩 전송되어 처리되고 있는것을 알 수 있었는데, 처음엔 vLLM 내부에서 multi GPU 인식을 하지 못해 vram 을 과다하게 점유하여 병렬처리가 되지 않는 문제라고 생각했습니다.

하지만, vLLM 실행시 multi gpu 옵션을 줬고, 로그를 찍어보아도 2개의 gpu 가 잘 인식되어 있는것을 확인하고 문제를 찾다 FastAPI 에서 vLLM 에 요청을 보낼 때 openai 의 라이브러리를 사용했던것이 문제임을 알게 되었습니다. openai 라이브러리 중 OpenAI 를 사용하면 동기 Request 로 작동하고 AysncOpenAI 를 사용해야 비동기 작동을 하는 것을 알게 되었습니다.

해당내용을 정리할 겸 Request 를 사용한 방식가 httpx 를 사용한 요청방식의 차이점 그리고 FastAPI 의 동기/비동기, 병렬과 비동기의 작동방식을 정리하려고 합니다.

1. FastAPI 동기 / 비동기 처리 방식

FastAPI는 엔드포인트 함수가 def 인지 async def 인지에 따라 완전히 다른 방식으로 동작합니다.

1.1 동기 엔드포인트 (def)

from fastapi import FastAPI
import time

app = FastAPI()

@app.get("/sync")
def sync_endpoint():
    time.sleep(5)
    return {"msg": "done"}

동기 엔드포인트의 경우 FastAPI는 내부적으로 ThreadPoolExecutor를 사용해 요청을 처리합니다.

즉, 요청 하나당 스레드 하나를 점유하게 됩니다. 이 방식의 문제는 외부 API 호출과 같이 I/O 대기 시간이 긴 작업이 있을 경우입니다. 응답이 올 때까지 스레드가 점유되기 때문에, 동시에 처리할 수 있는 요청 수가 급격히 줄어들게 됩니다. 이 경우 vLLM 입장에서는 요청이 하나씩 순차적으로 들어오는 것처럼 보이게 됩니다.

1.2 비동기 엔드포인트 (async def)

from fastapi import FastAPI
import asyncio

app = FastAPI()

@app.get("/async")
async def async_endpoint():
    await asyncio.sleep(5)
    return {"msg": "done"}

비동기 엔드포인트는 이벤트 루프 기반으로 동작합니다. I/O 작업을 기다리는 동안 제어권을 이벤트 루프에 반환하고, 다른 요청을 처리할 수 있습니다. 다만 여기서 중요한 점은, async def로 선언했다고 해서 자동으로 비동기가 되는 것은 아닙니다. 엔드포인트 내부에서 사용하는 모든 I/O 작업이 비동기여야만 의미 있는 비동기 처리가 됩니다.

아래에서 추가적으로 설명하겠지만, 비동기 작업은 병렬과 다릅니다. 비동기작업은 동시성 작업으로 동시에 처리되는 것 처럼 보이게 됩니다.

2. FastAPI에서의 동시성과 병렬성

Concurrency and async / await - FastAPI

FastAPI framework, high performance, easy to learn, fast to code, ready for production

fastapi.tiangolo.com

이번 이슈를 이해하기 위해서는 동시성과 병렬성의 차이를 명확히 구분할 필요가 있습니다.

2.1 동시성 (Concurrency)

동시성은 여러 작업을 번갈아가며 처리하는 개념입니다.

실제로 동시에 실행되는 것은 아니지만, 동시에 처리되는 것처럼 보이게 됩니다.FastAPI의 비동기 처리는 여기에 해당합니다.

2.2 병렬성 (Parallelism)

concurrent.futures — Launching parallel tasks

Source code: Lib/concurrent/futures/thread.py, Lib/concurrent/futures/process.py, and Lib/concurrent/futures/interpreter.py The concurrent.futures module provides a high-level interface for asynchr...

docs.python.org

병렬성은 여러 작업을 실제로 동시에 실행하는 개념입니다.

FastAPI 공식문서에 귀여운 burger 예시가 있는데요

1.동시성

2. 병렬성

자세한 내용은 위 링크에서 한번 확인해보시기 바랍니다.

3. OpenAI 라이브러리가 병목이 된 이유

3.1 OpenAI (동기 SDK) 사용 시

from openai import OpenAI

client = OpenAI(
    base_url="<http://vllm:8000/v1>",
    api_key="EMPTY"
)

@app.post("/chat")
def chat():
    response = client.chat.completions.create(
        model="qwen",
        messages=[{"role": "user", "content": "hello"}]
    )
    return response.choices[0].message.content

OpenAI 클래스는 동기 방식으로 동작합니다.

즉, 응답이 돌아올 때까지 FastAPI 스레드를 완전히 점유합니다.

이로 인해 발생한 현상은 다음과 같습니다.

FastAPI 요청이 직렬화됨
vLLM 서버 로그에 요청이 하나씩 찍힘
GPU가 충분히 있음에도 batching이 발생하지 않음

처음에는 vLLM 설정 문제로 오해하기 쉬운 부분이었습니다.

3.2 AsyncOpenAI 사용 시 (해결)

from openai import AsyncOpenAI

client = AsyncOpenAI(
    base_url="<http://vllm:8000/v1>",
    api_key="EMPTY"
)

@app.post("/chat")
async def chat():
    response = await client.chat.completions.create(
        model="qwen",
        messages=[{"role": "user", "content": "hello"}]
    )
    return response.choices[0].message.content

AsyncOpenAI를 사용하면서 문제가 해결되었습니다.

FastAPI 이벤트 루프가 block되지 않음
여러 요청이 동시에 vLLM으로 전달됨
vLLM batching 정상 동작
multi GPU 사용 확인

결과적으로 병렬처리가 되지 않는 것처럼 보였던 문제의 원인은

FastAPI와 vLLM 사이의 요청 방식이었습니다.

4. requests와 httpx 차이

4.1 requests

import requests

def call_vllm():
    r = requests.post(url, json=payload)
    return r.json()

동기 전용 라이브러리
async def 내부에서 사용 시 이벤트 루프를 block
FastAPI 비동기 구조와 맞지 않음

4.2 httpx (비동기 권장)

import httpx

async def call_vllm():
    async with httpx.AsyncClient(timeout=60) as client:
        r = await client.post(url, json=payload)
        return r.json()

비동기 I/O 지원
connection pooling 제공
FastAPI와 궁합이 매우 좋음

4.3 잘못된 예와 올바른 예

❌ 잘못된 예

@app.post("/bad")
async def bad():
    r = requests.post(url, json=payload)
    return r.json()

⭕ 올바른 예

@app.post("/good")
async def good():
    async with httpx.AsyncClient() as client:
        r = await client.post(url, json=payload)
        return r.json()

728x90

'Dev,AI' 카테고리의 다른 글

python 3.12.~ 설치 [ 새로운 버전 설치, 심볼릭 링크 ] (0)	2025.08.25
AI_Basic) 역전파(Backpropagtaion) : 학습부터 역전파가 어디에 사용되는지까지 코드위주 (3)	2024.12.02
[python] FastAPI framework 다른 프레임워크와 비교 중심 (4)	2024.11.22
AI_basic ) 역전파(BackPropagation) (1)	2024.11.06
AI_Basic ) 선형회귀 ( Linear Regression ) 이론부터 구현 ( OLS, 경사하강법 ) (2)	2024.11.06

💻 🧐