zh

姓名格式错误

公司名称格式错误

数据堂严格遵守用户隐私条款,您所填写的信息我们会严格保密,请放心填写~

AI行业之数据标注

来源: 数据堂

现如今,AI行业发展火热各大巨头都投入巨资在此领域布局,智能驾驶、人脸识别以及近段时间正火的AI养猪都是AI技术应用在实际生活上的体现,毫不夸张的说AI技术正在逐渐改变我们的生活而我们的生活也将因此变得更美好。

AI的发展进步离不开数据的支持,假如把AI技术比如婴孩的话,数据就是食物AI必须依靠这些食物成长,而这些“食物”是不能直接供AI食用的我们必须先对这些食物进行烹饪即“数据标注”。

一、什么是数据标注

确立一个算法模型需要使用大量标注好的数据去训练机器让机器去学习其中的特征以达到“智能”的目的。而数据标注就是帮助机器去学习去认知数据中的特征。比如我们要让机器学习认知汽车,我们直接给机器一个汽车的图片它是无法识别的,我们必须对汽车图片进行标注打上标签注明“这是一个汽车”,当机器获得大量打上标签的汽车图片进行学习之后,我们再给机器一个汽车的图片,机器就能知道这是一个汽车了。

二、常见的数据标注平台

由于数据标注的重要性和高质量标注好数据的稀缺性在催生了一大批专职做数据标注团队的同时也催生了一批数据标注平台,比较有名的有百度众测、京东众智、龙猫数据、数据堂等。在国内的数据标注行业实行这样一套分工流程:上游的科技巨头把任务交给中游的数据标注平台,再由中游众包给下游的小公司、这些小公司再交由自己的专业标注团队或是众包给兼职人员进行标注,一般到了这一步利润就已经非常低了。

数据标注本质上是一个劳动密集型行业,人员主要分布在河南,山东,山西等劳动力密集的地区,这样的选址也因为能够以更加低廉的劳动力成本去完成大量的数据标注工作。

三、数据标注平台的业务模式

1)众包模式:

现在数据标注通常采取众包的模式,众包模式的优点就是成本较低响应较快。这种模式适用较简单的项目如点点拉框等项目。发布者往往将任务详细介绍和题目一同发送到平台上供广大数据标注兼职人员作答。

但众包模式有一个很明显的问题就是质量较难把控,因为众包模式是面向大众的你并不知道在给你做标注的是什么人,他们可能是厨师,是全职太太,是老师每个人对规则的理解不尽相同且不可避免的会有一部分对任务乱答一通影响项目质量。

为此各平台也会使用一些方式减少问题的产生提高项目质量。比如增加改判环节一道题在答完之后会由他人进行改判如若判错则不获得任务报酬,此外为防止错判维护答题人员利益还会设置申诉环节使答题人员对有疑问的题目进行申诉。设置标注人员级别,标注人员任务正确率较高答题数较多则能慢慢提高等级解锁更多任务获得更多的任务报酬且有机会进入改判环节成为改判员。

2)外包模式

外包模式与众包模式相对是将任务外包给专门的数据标注公司和团队,在项目一开始会对项目整体进行评估然后针对项目整体进行报价由数据标注公司自行安排培训安排人手,只需要保证在项目截止日期前保质保量交付数据即可。

这种模式的优势就是数据质量和项目周期有保证。但是响应速度较慢成本较高,因为一开始需要安排竞标且平台需要安排专门的项目人员进行项目对接和项目跟进。

现如今国内专门做数据标注的团队较多,但是大多数只是以工作室和几十人的小团队为主且业务类型集中在简单的拉框图像标注上。也有一些的较大型的公司如贵州的梦动科技已经形成产业化带动了当地的发展。又或者是“点我科技”他们自建有平台可以自研工具同时担任着数据标注平台和数据标注公司两种角色。

四、制约数据标注平台发展的因素

1. 

业务模式

2. 

一个好的业务模式能不断拔高一个平台的业务上限,上面介绍的两种常见的业务模式(众包模式和外包模式)因为他们都有各自的优缺点,所以单一的使用任何一种业务模式都是不可行的。单存使用众包模式会带来项目质量难以把控,风险高的问题,且众包模式只适合承接比较简单的需求。单一使用外包模式则会造成对数据标注团队的过度依赖,降低整个平台的活力,造成平台现有人力资源的浪费。

对此我们需要两种模式兼用初期需要投入一定的资源建立自已平台的众包团队,这个人数一定要多只有这样才能保证有足够的活跃人数能够完成数据标注任务,同时还要一直有众包任务才能保证这些人一直活跃。众包团队建立起来之后我们就可以将简单的任务通过众包模式发放出去,一些复杂专业性比较高的任务则通过外包模式发放出去即可。

2.数据标注团队

一个数据标注平台必须要足够的数据标注团队才能承接更多的需求,为了增加平台上入驻的团队数量我们需要提高平台内部的活跃度同时平台上有足够的任务。每个标注团队往往都有擅长的业务类型,我们也需要根据不同团队的特点发放给他们不同的任务。

3.任务需求

一个平台要想不断发展一定要有足够的任务,增加平台承接的任务则需要提高平台的知名度,提高平台的知名度可以通过广告投放,客户口碑传播,搜索优化等方式。同时还需要一个有力的商务团队。

五、数据标注发展趋势

数据标注现在的市场规模已经达到了300亿元,未来还将随着AI行业的发展而不断壮大。现在中国有大小数据标注公司过千家,还没有任何一个公司占据市场垄断地位,未来在数据标注市场的厮杀将会异常激烈,伴随着竞争数据标注的机制和商业模式也将会日益成熟。

 

本文转载自网络

270

347