Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

数据集及其划分 #11

Open
skro123 opened this issue Apr 3, 2023 · 11 comments
Open

数据集及其划分 #11

skro123 opened this issue Apr 3, 2023 · 11 comments

Comments

@skro123
Copy link

skro123 commented Apr 3, 2023

您好,这篇工作非常有意思,我想问一下,这个数据集是水下目标检测比赛2020年的训练集吗? 是总共6461张图片,然后手动划分的验证集5168张和验证集1293张吗?

@mousecpn
Copy link
Owner

mousecpn commented Apr 3, 2023

您好,这篇工作非常有意思,我想问一下,这个数据集是水下目标检测比赛2020年的训练集吗? 是总共6461张图片,然后手动划分的验证集5168张和验证集1293张吗?

是的

@skro123
Copy link
Author

skro123 commented Apr 3, 2023

谢谢,您回复的好快,我逐渐意识到水下目标检测的难点是在这些难分样本的处理,另外您是否注意到了这个数据集中有大量的漏标样本?

@mousecpn
Copy link
Owner

mousecpn commented Apr 3, 2023

是的,噪声很多。
有一篇水下的工作就是解决这个问题的,好像叫SWIPENET。
虽然我觉得最好的办法就是人手工重新标过。

@skro123
Copy link
Author

skro123 commented Apr 3, 2023

是的,我看到了这篇工作,同样是re-weight,不同之处是在后者需要重复迭代很多次,看起来更像是对数据集的修改,并且我看到超过两次迭代后再训练模型,精度会下降。额,我刚才又去看了一下,貌似最新版的22年的第三版和20年的第一版不太一样了。
在这个数据集上人工标注的话感觉过于费眼^-^

@mousecpn
Copy link
Owner

mousecpn commented Apr 3, 2023

是的,我看到了这篇工作,同样是re-weight,不同之处是在后者需要重复迭代很多次,看起来更像是对数据集的修改,并且我看到超过两次迭代后再训练模型,精度会下降。额,我刚才又去看了一下,貌似最新版的22年的第三版和20年的第一版不太一样了。 在这个数据集上人工标注的话感觉过于费眼^-^

也就6000多张图片 其实要标真的很快的····

@skro123
Copy link
Author

skro123 commented Apr 3, 2023

不清楚这些漏标的对学习的影响有多大,也许我应该做一个实验,故意删除一些标注。

@skro123
Copy link
Author

skro123 commented Apr 9, 2023

大佬,我看到当年比赛官网关于数据集大小的描述是5543张训练集,800张TestA,1200张TestB。您这里用的是6461张,请问您中间是进行了去重还是什么其他操作?比赛官网:https://www.heywhale.com/home/competition/5e535a612537a0002ca864ac/content/2

@mousecpn
Copy link
Owner

mousecpn commented Apr 9, 2023

我也给忘了QvQ。
我应该也只有5543张吧。

@skro123
Copy link
Author

skro123 commented Apr 9, 2023

我发现这些都是视频切帧的,如果直接均匀划分为训练集和验证集,也就是从视频抽一些帧作为验证集,这是不是会存在过拟合风险?还有大佬你为何回复的如此之快

@mousecpn
Copy link
Owner

mousecpn commented Apr 9, 2023

是有过拟合风险。但好像这个数据集22年的量上来之后感觉还行。
我github接入了邮箱,所以我看到邮箱提醒我就回了

@skro123
Copy link
Author

skro123 commented Apr 9, 2023

好的,谢谢您了!

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants