模型管理

模型为本系统的核心, 所有功能都围绕模型展开

提供商: 模型所属的提供商, 系统会根据选择的提供商调对应的LLM API接口
模型名称: 模型名称为本系统的属性, 如: openai-gpt-4o, 模型名称是唯一的, 可通过模型名称调用API, 系统会自动转换成对应的模型
模型: LLM API对应的真实模型, 如: gpt-4o
模型地址: 系统已内置有对应的官方模型地址, 非必须可以不填, 格式: https://api.abc.com/v1
模型路径: 系统已内置有对应的官方模型路径, 非必须可以不填, 格式: /chat/completions
计费规则: 两种计费规则分别对应不同的tokens计算逻辑
1. 按官方: 根据官方返回usage里的tokens, 再结合配置的价格计算出实际花费
2. 按系统: 本系统会手动计算出各类tokens, 如: 提问、回答、上下文和识图等, 再结合配置的价格计算出实际花费, 注意: 此选项会消耗一定的性能, 请根据实际需要进行选择
计费方式: 两种计费方式分别对应不同的计算公式
1. 按Tokens: 根据计费规则所选, 按usage里的tokens计算出各项实际花费额度, 总花费 = 各计费项花费总和 × 分组折扣 × 会员折扣
2. 按次: 每次调用接口扣除固定的额度, 总花费 = 一次花费 × 分组折扣 × 会员折扣
计费项: 采用可自由组合多计费项模式, 自动计算每项花费额度
请求数据格式
1. 统一格式: 遵循OpenAI官方接口标准
2. 官方格式: 直接透传请求内容, 不做任何处理
响应数据格式
1. 统一格式: 遵循OpenAI官方接口标准
2. 官方格式: 直接透传响应内容, 不做任何处理
所属分组: 把模型添加到对应分组中
预设配置
- 支持system角色
  - 开启代表此模型支持system角色
  - 预设提示词: 如果设置了会默认替换用户调用传入的内容
- max_tokens范围
  - 最小值: 如果设置了会默认替换用户调用传入的参数
  - 最大值: 如果设置了会默认替换用户调用传入的参数
- 支持流式: 配置模型是否支持流式
启用代理
- 启用代理后, 调用模型时, 将使用模型代理的模型地址和路径参数
- 负载策略: 轮询(默认), 权重
- 模型代理: 选择配置模型代理, 可多选, 将按负载策略去请求
- 注意: 模型转发时此配置无效, 将以转发的目标模型配置为准
模型转发
- 全部转发: 无条件转到目标模型上
- 按关键字
  - 智能匹配
    - 判定模型: 将使用选择的判定模型根据配置的关键字利用大模型接口进行判断转发到哪个目标模型上
  - 按关键字
    - 使用正则表达式匹配提问的内容, 如果命中关键字则会转发到目标模型上
- 内容长度: 根据设置的内容长度判断上下文长度是否满足转发条件, 满足则转发到目标模型上
启用后备
- 后备代理: 当前模型代理不可用时(包含: 没有可用密钥或被禁用等)或者重试达到最大次数时, 将自动转发到后备模型代理上
- 后备模型: 当前模型不可用时(包含: 没有可用密钥或可用模型代理等)或者重试达到最大次数时, 将自动转发到后备模型上

模型管理 ​

​

模型管理