-
Notifications
You must be signed in to change notification settings - Fork 47
常见问题排查
JarvisZeng edited this page Jul 30, 2021
·
2 revisions
版本状态 | 创建人 | 完成日期 | 备注 |
---|---|---|---|
1.0 | zhihuiwang | 2020-11-09 | 初始化 |
1.1 | jarviszeng | 2020-12-01 | 调整格式 |
一般来说,排查问题,需要如下几个日志:
- fate/logs/$job_id/fate_flow_schedule.log,这个是某个任务的内部调度日志
- fate/logs/$job_id/* 这些是某个任务的所有执行日志
- fate/logs/fate_flow/fate_flow_stat.log,这个是与任务无关的一些日志
- fate/logs/fate_flow/fate_flow_schedule.log,这个是所有任务的整体调度日志
- fate/logs/fate_flow/fate_flow_detect.log,这个是所有任务的整体异常探测日志
- 检查eggroll相关服务是否异常;
- 检查双方rollsite服务是否被kill了
- 提交任务的链路: guest fate_flow -> guest rollsite -> host rollsite -> host fate_flow
- 检查上面的链路中的每个服务是否挂了,必须保证每个节点都正常运行;
- 检查路由表的配置是否正确;
- 数据的分隔符和配置中的分割符不一致
- 任务中有交集组件并且交集匹配率为0,需要检查guest和host的输出数据id是否能匹配上;
- 没有部署fate-servings;
- flow没有获取到fate-servings的地址;flow读取fate-servings的地址的优先级排序: ①从zk读取;②没有打开zk的话,会从fate的服务配置文件读取,配置路径在/data/projects/fate/conf/service_conf.yaml(1.5.x) || /data/projects/fate/arch/conf/server_conf.json(1.4.x)
- 1.4.x配置路径:/data/projects/fate/arch/conf/server_conf.json
{
"servers": {
"servings": ["127.0.0.1:8000"]
}
}
- 1.5.x配置路径:/data/projects/fate/conf/service_conf.yaml
servings:
hosts:
- 127.0.0.1:8000
- 模型信息有误;
- 此错误码是fate-servings没有找到模型而抛出的;
- 在bind配置中自定义service_id