OpenAI API兼容格式请求参数 – stream

导航栏：首页 / AI开发参考资料 / OpenAI API 兼容格式参考资料 / 请求参数详解 / stream

如果您想深入了解如何借助 OpenAI API 打造人工智能硬件，欢迎访问本站教程目录页，查看太极创客团队为您精心准备的系列教程。

参数说明

stream参数控制API响应的返回方式。它决定了模型生成的内容是一次性返回还是逐步流式返回：

false（默认）：传统的非流式响应模式，等待模型生成完整回复后一次性返回
true：流式响应模式，模型会逐步生成内容并实时返回给客户端

流式响应模式的设计理念是提升用户体验，通过减少用户等待时间来创造更加自然和流畅的交互体验。这种模式特别适用于需要生成长文本或复杂内容的场景。

流式响应的工作原理

当启用流式响应时，API会以Server-Sent Events (SSE) 格式返回数据：

模型生成的每个token（或token块）都会作为一个独立的事件发送
客户端可以实时接收和处理这些事件，无需等待完整响应
整个过程保持HTTP连接，直到生成完成或发生错误

必需性

stream是API请求中的可选参数。如果不设置此参数，系统将使用默认值false，即非流式响应模式。

在请求体中的使用

在发送API请求时，stream参数需要包含在JSON请求体的最外层。以下是一个完整的请求体示例，展示了stream参数的位置和用法：

{
  "model": "gpt-5.2",
  "messages": [
    {
      "role": "user",
      "content": "请详细解释机器学习的概念和应用。"
    }
  ],
  "stream": true,
  "temperature": 0.7,
  "max_tokens": 1000
}

{
  "model": "gpt-5.2",
  "messages": [
    {
      "role": "user",
      "content": "请详细解释机器学习的概念和应用。"
    }
  ],
  "stream": true,
  "temperature": 0.7,
  "max_tokens": 1000
}

在这个示例中：

"stream": true 启用了流式响应模式
stream 与 model、messages、temperature 等参数处于同一层级
stream值是一个布尔值，不需要引号包裹
启用流式响应后，API将以事件流的形式返回生成的内容

流式响应的数据格式

当启用流式响应时，API返回的数据格式与非流式模式有所不同：

单个事件的数据格式：

data: {"id":"chatcmpl-123","object":"chat.completion.chunk","created":1677652288,"model":"gpt-5.2","choices":[{"index":0,"delta":{"content":"机器"},"finish_reason":null}]}

data: {"id":"chatcmpl-123","object":"chat.completion.chunk","created":1677652288,"model":"gpt-5.2","choices":[{"index":0,"delta":{"content":"学习"},"finish_reason":null}]}

data: {"id":"chatcmpl-123","object":"chat.completion.chunk","created":1677652288,"model":"gpt-5.2","choices":[{"index":0,"delta":{},"finish_reason":"stop"}]}

data: [DONE]

单个事件的数据格式：

data: {"id":"chatcmpl-123","object":"chat.completion.chunk","created":1677652288,"model":"gpt-5.2","choices":[{"index":0,"delta":{"content":"机器"},"finish_reason":null}]}

data: {"id":"chatcmpl-123","object":"chat.completion.chunk","created":1677652288,"model":"gpt-5.2","choices":[{"index":0,"delta":{"content":"学习"},"finish_reason":null}]}

data: {"id":"chatcmpl-123","object":"chat.completion.chunk","created":1677652288,"model":"gpt-5.2","choices":[{"index":0,"delta":{},"finish_reason":"stop"}]}

data: [DONE]

流式响应的关键特征：

delta字段：包含新生成的内容片段，而不是完整的回复
渐进式构建：客户端需要累积所有delta内容来构建完整的回复
结束标记：以”data: [DONE]”标记流式响应的结束
finish_reason：指示生成结束的原因（如”stop”、”length”等）

流式响应的优势对比

特性	流式响应 (stream=true)	非流式响应 (stream=false)
响应延迟	低 – 用户可以立即看到开始的内容	高 – 需要等待完整回复生成
用户体验	更好 – 实时显示生成过程	一般 – 一次性显示完整结果
内存使用	较低 – 逐步处理小块数据	较高 – 需要存储完整响应
实现复杂度	较高 – 需要处理事件流	简单 – 直接处理JSON响应
错误处理	复杂 – 需要处理部分响应	简单 – 成功或失败明确
适用场景	长文本生成、聊天应用	简单查询、批量处理

使用建议

根据应用场景选择：对于聊天应用、内容生成工具等需要良好用户体验的场景，建议使用流式响应；对于批量处理、简单查询等对响应时间要求不高的场景，可以使用非流式响应
处理网络中断：流式响应过程中可能发生网络中断，需要实现重连机制和错误恢复策略，确保用户体验的连续性
控制输出速度：流式响应可能会快速生成大量内容，考虑在客户端实现适当的显示速度控制，避免用户界面更新过快
内存管理：虽然流式响应的内存使用相对较低，但仍需要注意累积大量内容时的内存管理，特别是在长对话场景中
错误处理策略：流式响应的错误处理更加复杂，需要处理部分响应的情况。建议实现完整的错误捕获和处理机制
超时设置：流式响应可能需要更长的时间来完成，特别是在生成长文本时。设置合理的超时时间，避免过早断开连接
用户体验优化：在界面设计中考虑流式响应的特性，如显示正在输入的指示器、平滑的内容更新动画等
性能监控：监控流式响应的性能指标，如首个token到达时间、整体生成速度等，用于优化用户体验

常见问题解答

问：流式响应是否会增加API调用成本？
答：流式响应本身不会增加额外的API调用成本。成本主要取决于生成的token数量，与响应方式无关。但是，由于流式响应提供了更好的用户体验，可能会导致用户使用更频繁，从而间接增加总成本。
问：流式响应的数据格式是否稳定？
答：流式响应的基本格式是相对稳定的，但具体的字段结构可能会随着API版本的更新而有所变化。建议在使用时实现健壮的数据解析逻辑，能够处理字段缺失或结构变化的情况。
问：如何处理流式响应中的网络超时？
答：处理流式响应的网络超时需要特殊的策略：1）设置合理的连接超时时间（建议30-60秒）；2）实现心跳机制检测连接状态；3）在检测到超时后，可以选择重试或优雅降级到非流式响应；4）在UI层面提供适当的反馈，告知用户连接状态。
问：流式响应是否支持所有模型？
答：大多数现代模型都支持流式响应，但某些特定模型或版本可能不支持。建议在使用前查阅具体模型的文档说明。如果发现某个模型不支持流式响应，系统会自动回退到非流式模式。
问：如何优化流式响应的性能？
答：优化流式响应性能的方法包括：1）使用合适的max_tokens值，避免生成过长内容；2）优化网络连接，使用CDN或就近的服务节点；3）在客户端实现高效的数据处理和渲染机制；4）考虑使用WebSocket等更高效的实时通信协议；5）监控和分析性能瓶颈，针对性优化。
问：流式响应在移动端的表现如何？
答：流式响应在移动端的表现总体良好，但需要注意：1）移动网络的不稳定性可能影响流式响应的连续性；2）需要考虑移动设备的电池消耗；3）在弱网环境下可能需要实现更智能的重试和恢复机制；4）建议实现自适应的流式策略，根据网络质量动态调整。

OpenAI API兼容格式目录

请求格式概览
请求参数详解
- model
- messages
- temperature
- max_tokens
- stream
- stop
- top_p
- n
- presence_penalty
- frequency_penalty
- user
- response_format
- tools
- tool_choice
- logit_bias
- logprobs
- top_logprobs
- seed
常见组和用法
附录