别让数据坑了你！模型效果不好可能是这些原因-华安瑞成

新闻资讯

别让数据坑了你！模型效果不好可能是这些原因

还在为模型效果头痛？

留意！这可能是数据标注的“锅”

错误的数据标注会极大削弱训练效果

为解决此类问题，提高模型效果

【漏误标诊断】应需而生

自动进行数据“质检”

帮您事半功倍！

为什么数据“质检”很重要？

想要效果良好的模型需要高质量的标注数据，即使是少量的错误也会使模型的效果下降，如果您的数据标注中出现了大量的错误，模型也将学习到错误的样本而在日后的使用过程中产生严重的错误。

举个简单的例子：如果我们在图片中标注“猫”时，标注框框到了其它内容，机器在学习后可能会“认错猫”；在标注“猫”时标注成“狗”，那机器学习后很可能会“猫狗不分”。

1690166538128

错误的数据标注，

会导致多严重的模型性能下降？

为了检验错误的数据标注会对模型效果产生多大的影响，我们进行了专门的集中测试，分别测试了训练集在错误数据修正前后所训练的模型效果。测试集不变的情况下，对比测试多组错误数据占比不同的任务，可以发现在错误数据标注修正前后，原始标注质量差的数据集修正效果平均可提升３０％－４０％，如测试集A和B，原始标注质量高的数据集修正后也有一定的提升效果，如测试集C。总体而言，模型性能平均可以提升２0%左右。

处理错误的标注数据，

我们有什么好办法？

当然有！我们提供了一种好用的功能，专门诊断“脏数据”。简单地说，它主要通过大量已有知识的学习对待诊断数据的预测，并与待诊断数据已标注的目标进行比对，它能自动找出已标注数据中存在的漏标、误标图片并进行标识，我们只需要根据诊断结果进行人工修正即可，我们称它为【漏误标诊断】。

比如：下图中的人体为人工遗漏标注的目标框，通过漏误标诊断后会给该目标附上【疑似漏标】、【人体】的标签，你只需要按照预测的结果框选这个目标框，并给他附上【人体】标签即可。

同样：下图中人工标注时将人体附上了错误的标签【防护靴】，您只需要将错误的标签【防护靴】修正为【人体】即可。

这样的工具不仅能帮助提升模型性能，而且大大降低了人工质检和审核的成本。通常，人工质检1张图片需要3~5秒，1万张图片就需要6~8个小时，而采用【漏误标诊断】工具，1万张图片只需要40分钟左右，大大提升了质检效果。