Skip to content

常见问题排查

JarvisZeng edited this page Jul 30, 2021 · 2 revisions

1. 版本历史

版本状态 创建人 完成日期 备注
1.0 zhihuiwang 2020-11-09 初始化
1.1 jarviszeng 2020-12-01 调整格式

2. 日志说明

一般来说,排查问题,需要如下几个日志:

  1. fate/logs/$job_id/fate_flow_schedule.log,这个是某个任务的内部调度日志
  2. fate/logs/$job_id/* 这些是某个任务的所有执行日志
  3. fate/logs/fate_flow/fate_flow_stat.log,这个是与任务无关的一些日志
  4. fate/logs/fate_flow/fate_flow_schedule.log,这个是所有任务的整体调度日志
  5. fate/logs/fate_flow/fate_flow_detect.log,这个是所有任务的整体异常探测日志

3. 离线部分

3.1 upload失败

  • 检查eggroll相关服务是否异常;

3.2 提交任务(submit_job)卡住

  • 检查双方rollsite服务是否被kill了

3.3 提交任务(submit_job)返回grpc异常

  • 提交任务的链路: guest fate_flow -> guest rollsite -> host rollsite -> host fate_flow
  • 检查上面的链路中的每个服务是否挂了,必须保证每个节点都正常运行;
  • 检查路由表的配置是否正确;

3.4 dataio组件异常: not enough values to unpack (expected 2, got 1)

  • 数据的分隔符和配置中的分割符不一致

3.5 任务运行时抛出异常:"Count of data_instance is 0"

  • 任务中有交集组件并且交集匹配率为0,需要检查guest和host的输出数据id是否能匹配上;

4. 在线部分

4.1 推模型(load)retcode返回100,可能的原因有哪些?

  • 没有部署fate-servings;
  • flow没有获取到fate-servings的地址;flow读取fate-servings的地址的优先级排序: ①从zk读取;②没有打开zk的话,会从fate的服务配置文件读取,配置路径在/data/projects/fate/conf/service_conf.yaml(1.5.x) || /data/projects/fate/arch/conf/server_conf.json(1.4.x)

4.2 servings的配置在哪?怎么配?

  • 1.4.x配置路径:/data/projects/fate/arch/conf/server_conf.json
{
	"servers": {
		"servings": ["127.0.0.1:8000"]
		}
}
  • 1.5.x配置路径:/data/projects/fate/conf/service_conf.yaml
servings:
	hosts:
	  - 127.0.0.1:8000

4.3 推模型(load)retcode返回123,可能原因有哪些?

  • 模型信息有误;
  • 此错误码是fate-servings没有找到模型而抛出的;

4.4 绑定模型(bind)操作时提示"no service id"?

  • 在bind配置中自定义service_id