新闻资讯
别让数据坑了你!模型效果不好可能是这些原因

还在为模型效果头痛?

留意!这可能是数据标注的“锅”

错误的数据标注会极大削弱训练效果

为解决此类问题,提高模型效果

【漏误标诊断】应需而生

自动进行数据“质检”

帮您事半功倍!

1

为什么数据“质检”很重要?

想要效果良好的模型需要高质量的标注数据,即使是少量的错误也会使模型的效果下降,如果您的数据标注中出现了大量的错误,模型也将学习到错误的样本而在日后的使用过程中产生严重的错误。


举个简单的例子:如果我们在图片中标注“猫”时,标注框框到了其它内容,机器在学习后可能会“认错猫”;在标注“猫”时标注成“狗”,那机器学习后很可能会“猫狗不分”。



1690166538128

错误的数据标注,

会导致多严重的模型性能下降?

为了检验错误的数据标注会对模型效果产生多大的影响,我们进行了专门的集中测试,分别测试了训练集在错误数据修正前后所训练的模型效果。测试集不变的情况下,对比测试多组错误数据占比不同的任务,可以发现 在错误数据标注修正前后,原始标注质量差的数据集修正效果平均可提升30%-40%,如测试集A和B,原始标注质量高的数据集修正后也有一定的提升效果,如测试集C。总体而言,模型性能平均可以提升20%左右。

3

处理错误的标注数据,

我们有什么好办法?

当然有!我们提供了一种好用的功能,专门诊断“脏数据”。简单地说,它主要通过大量已有知识的学习对待诊断数据的预测,并与待诊断数据已标注的目标进行比对,它能自动找出已标注数据中存在的漏标、误标图片并进行标识,我们只需要根据诊断结果进行人工修正即可,我们称它为【漏误标诊断】。


比如:下图中的人体为人工遗漏标注的目标框,通过漏误标诊断后会给该目标附上【疑似漏标】、【人体】的标签,你只需要按照预测的结果框选这个目标框,并给他附上【人体】标签即可。


4

同样:下图中人工标注时将人体附上了错误的标签【防护靴】,您只需要将错误的标签【防护靴】修正为【人体】即可。

5

这样的工具不仅能帮助提升模型性能,而且大大降低了人工质检和审核的成本。通常,人工质检1张图片需要3~5秒,1万张图片就需要6~8个小时, 而采用【漏误标诊断】工具,1万张图片只需要40分钟左右,大大提升了质检效果。

返回
列表
上一条云眸社区综合管理解决方案
下一条 新品 | 海康威视SSD硬盘录像机,固态存储,免装硬盘