Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

add support for Deepseek R1 model and display CoT #2118

Open
wants to merge 2 commits into
base: master
Choose a base branch
from

Conversation

memset0
Copy link

@memset0 memset0 commented Jan 24, 2025

添加了 Deepseek R1 模型的支持,并会展示思维链。

对代码的改动如下(主要是修改了 oai_std_model_template.py):

  • 修改 decode_chunk() 函数:Deepseek 在返回思维链内容时会将内容设置为空,这里增加了特殊处理避免将 None 和字符串拼接而报错。
  • 修改(函数工厂返回的) predict()predict_no_ui_long_connection() 函数,支持显示 CoT。这里将 CoT 将以 blockquote 的方式包裹。

维护者可以考虑的建议:

  • Gradio 前端并没有给 blockquote 提供 CSS 样式,因此前端看起来无法区分 CoT 和模型返回的内容,我可以再 commit 一下相关样式。
  • CoT 较长,很多用户可能并不需要,建议提供一个全局配置项,决定是否展示 CoT。

Solve #2117

@memset0
Copy link
Author

memset0 commented Jan 24, 2025

这里顺便修改了一下 deepseek-chat 的 max_token,因为根据我查到的文档信息 V3 已经支持 64K 上下文,如果不对麻烦指正

Copy link
Contributor

@SakuraPuare SakuraPuare left a comment

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

不能直接对 template 改吧

@memset0
Copy link
Author

memset0 commented Jan 24, 2025

不能直接对 template 改吧

用一个额外的配置项,不影响现有模型的使用。这样修改也能支持其他兼容 OpenAI API 的推理模型。

@binary-husky
Copy link
Owner

thanks! working on it

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

Successfully merging this pull request may close these issues.

4 participants