Text to Video API Overview

Overview of the Text to Video API. Generate videos from text prompts using AI video diffusion models.

Text to Video API

Generate short videos from text prompts using state-of-the-art AI video models.

Endpoints

Text to Video — generate from text
Train Text to Video — train custom video models (Enterprise)

Supported video models

We support multiple video diffusion backends. The default produces 4-second clips at 24fps.

curl -X POST 'https://stablediffusionapi.com/api/v6/text_to_video' \
  -d '{
    "key": "YOUR_API_KEY",
    "prompt": "an astronaut on the moon, cinematic",
    "num_frames": 96,
    "fps": 24
  }'