Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

流式返回为何还是接口相应完一次性返回 #32

Open
chenwenniupi opened this issue Jan 8, 2025 · 10 comments
Open

流式返回为何还是接口相应完一次性返回 #32

chenwenniupi opened this issue Jan 8, 2025 · 10 comments

Comments

@chenwenniupi
Copy link

No description provided.

@LnYo-Cly
Copy link
Owner

LnYo-Cly commented Jan 8, 2025

请问是否有详细的描述,例如问题截图、环境、依赖版本、测试代码等等。

@chenwenniupi
Copy link
Author

目前流式返回速度很慢 调用之后都是接口响应完成之后再一次性返回

@chenwenniupi
Copy link
Author

1736385957747
1736385994789

@LnYo-Cly
Copy link
Owner

LnYo-Cly commented Jan 9, 2025

  1. 回复速度慢是因为ollama
  2. 前端在流式下一次性或大段内容输出打印,你可以在send函数中添加Thread.sleep(10);

@chenwenniupi
Copy link
Author

现在的流式响应是接口调用 一般要等20几秒才开始返回 我的理解是应该是流式返回总共花20多秒

@LnYo-Cly
Copy link
Owner

LnYo-Cly commented Jan 9, 2025

现在的流式响应是接口调用 一般要等20几秒才开始返回 我的理解是应该是流式返回总共花20多秒

  1. 请使用参数量更小的模型
  2. 升级你的计算机配置
  3. 使用GPU加载ollama
  4. ollama的模型第一次使用会进行预加载,你可以设置参数修改模型保活时间

@LnYo-Cly
Copy link
Owner

LnYo-Cly commented Jan 9, 2025

现在的流式响应是接口调用 一般要等20几秒才开始返回 我的理解是应该是流式返回总共花20多秒

image
上图测试也为llama3.2:1b模型

返回时间慢,和框架无关

@chenwenniupi
Copy link
Author

请问你这个ollama是在什么配置的电脑或者服务器上跑的呢?

@MaLoneGitHub
Copy link

同样的问题,stream,请求几十秒之后,一下全部打印了。但是用其他SDK(PlexPt/chatgpt-java)的就是一段一段打印的。地址参数都是一摸一样

@LnYo-Cly
Copy link
Owner

同样的问题,stream,请求几十秒之后,一下全部打印了。但是用其他SDK(PlexPt/chatgpt-java)的就是一段一段打印的。地址参数都是一摸一样

你好,我使用你提到的SDK,二者效果是一样的。

Image
图一是我自己部署的线上环境测试。

Image
图二是我使用您所提到的SDK的测试。

二者均是流式逐字打印。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants