zh
姓名格式错误
公司名称格式错误
数据堂严格遵守用户隐私条款,您所填写的信息我们会严格保密,请放心填写~
来源: 数据堂
一、概述
为了满足AI在监督学习和半监督学习的数据需求,需要将无序、混乱的数据进行清洗,同时围绕应用场景对数据进行标注,以提高数据的质量和精度,将规范化数据“喂养”给模型,不断提高AI的使用精度。
当前,数据标注工作还无法完全由机器承担,需要大量的人力对数据进行标注,在AI产业飞速发展,应用场景不断产生的背景下,AI模型也需要大量的标注数据进行训练,因此,也带动了劳动密集型的AI数据标注行业的产生和发展,被称为“数字富士康”的数据标注工厂应运而生。
二、发展历程
AI数据标注的外包市场2011年开启,2015年真正开始,2016年下半年出现收缩,2017年又有了新一轮的爆发。
三、发展现状与格局分析
1.需求端现状及格局概述
当前,BAT和人工智能公司对数据标注的需求最大,学术团体次之,政府、银行等传统机构的需求最小但有不断增长的趋势,数据需求比例大概为7:2:1。[1]
对数据有标注需求的主要应用领域集中在机器视觉、指纹识别、人脸识别、视网膜识别、虹膜识别、掌纹识别、专家系统、智能搜索、自动驾驶等。其中,计算机视觉领域主要涉及的企业有海康威视、宇视、旷视科技、智诺科技、科达、格灵深瞳、依图、商汤、云从科技等;自然语言处理领域主要涉及的企业有科大讯飞、百度、腾讯、三角兽科技、紫东锐意、ImageQ、玻森数据、云之声、思必驰、搜狗、智臻智能、威盛电子、中科信利、和而泰;人机交互领域涉及的主要企业有百度、阿里巴巴、腾讯暴风、极限元、小i机器人、海天智能、数据堂、标贝科技等。
2.数据标注分类
1)图片标注
医疗影像
(1)病理切片标注
(2)病历转录
(3)骨折CT片标注
(4)肺结节CT片标注
(5)CT/MRI片器官/结构标注
(6)TCT检测标注
(7)X-ray光片
自动驾驶
(1)车道线标注
(2)车牌标框与转录入
(3)单个车辆拉框标注
(4)非机动车拉框标注
(5)行人拉框标注
(6)可行驶区域及其附属标注
(7)车辆分类标注
(8)车牌拉框标注
(9)车辆角度标注
(10)车辆关键点标注
(11)两轮车拉框标注
(12)路杆划线标注
(13)交通灯拉框标注
(14)交通牌拉框标注
(15)地库墙体画线标注
(16)防撞条画线标注
生物图片
(1)人脸多点标注
(2)人脸表情标注
(3)跨人种人脸采集、标注
(4)人体关键点标注
(5)人体拉框标注
(6)人体遮挡标注
(7)人体姿态标注
(8)动物相关标注
2)文本标注
(1)文本注音、转录
(2)语句分词标注
(3)情感色彩标注
(4)语义判定标注
(5)命名实体标注
3)音频标注
(1)噪音清洗
(2)语音数据转写
(3)音乐判断转写
(4)多语音
(5)字/词边界标注
(6)发音人标注
(7)多语种TOBI标注
(8)发音人、动作等多层标注
4)视频标注
(1)候选物体标注
(2)视频跟踪标注
(3)视频主体分类标注
(4)对象分割标注
(5)主体朝向标注
(6)视频主体行踪轨迹标注
5)其他标注
(1)内容审核
(2)数据脱敏
(3) 完整性补充
(4) 数据去重
(5)数据逻辑修正
(6) 数据格式转换
(7) 数据压缩
3.基本特点分析
1)劳动密集型
数据标注工作需要大量的人力完成,因此该行业属于标准的劳动密集型产业,其区位分布特点与传统工厂的分布十分相似,国内主要集中在山东、河南、河北等劳动力丰富且环绕中心一线城市的市县。
2)主要分为众包和自建工厂两种模式
其中,众包模式主要包括百度众包、京东众智、龙猫数据、数加加等;工厂模式主要包括贝赛、云测、爱数智慧、海天瑞声、阿里数据标注、元坤智能数据、点我科技等。
3)进入门槛较低
整个市场大大小小共上千家企业和作坊,规模不一;市场竞争激烈,利润薄弱。
4)市场混乱,亟待规范和整治
数据黄牛利用信息差倒卖数据标注资格,从中牟取利益,导致数据标注需求端层层外包,进一步摊薄利润。
5)从业人员学历普遍较低,全职人均工资在4000元左右
数据标注员大多为较低学历者或残疾人,大专为较高学历。
6)标记质量参差不齐
很多作坊无法保证数据标注的质量和时间,不符合精度和质量要求越来越高的发展趋势。
7)专业性标记成本较高
医疗、教育等专业性强的数据要求数据标注员有相应的背景知识,极大增加了这些领域的数据标注成本。
8)从业人员以兼职为主
截至2018年初,国内全职数据标注者达10万人,兼职的数据标注者接近100万人。
9)对上游AI算法的依赖程度较高
在当前主流算法为有监督学习和半监督学习的大背景下,有大量的数据标注需求,但如果主流算法逐渐转向无监督学习,将不需要对数据进行标注。
10)敏感数据存在安全隐患
由于混乱的市场秩序,极易导致敏感数据的泄露,因此,很多需求方会培养内部数据标注员,专门对敏感数据进行标注。
11)很多企业都将数据采集和数据标注业务整合
在较低的行业利润率面前,很多企业不得不将主要重心转到数据采集业务上,以数据采集业务带动数据标注,将主要利润从标注业务转移到采集业务上。
4.竞争能力分析
1)竞争企业数
截至目前,国内以数据标注为核心业务的企业有上千家(大小不一,包括作坊)。
2)行业竞争热点
价格在相对开放的市场里趋于稳定,因此行业的竞争最终将是甲方渠道资源和标注质量与效率的比拼。
3)资源的可得性
大部分众包平台的资源供给无法满足大量的数据标注企业,且很多平台都处于停滞状态(具体原因不明),层层外包也使得数据标注的价格不透明,供求关系极度不平衡,作为数据标注企业对数据标注任务的需求成为了稀缺资源,可得性较低。
4)潜在进入者
位于劳动力成本较低区域且拥有渠道资源的代理商、AI相关企业主、学生等。
5)产品差异化程度
甲方主导并定制验收标准,差异化仅在于价格和完成的质量与效率。
6)顾客稳定性
B2B业务对渠道资源要求较高,企业之间一旦形成合作关系,能长久保持,顾客稳定性较高。
7)议价能力分析
由于产品差异化较低,市场不透明,议价能力主要由甲方控制,数据标注企业多以降低价格的方式争取订单,几乎没有议价能力。
四、发展趋势分析
1. 人工智能行业本身的发展,将进一步带动数据标注行业
目前能被建模量化的数据只占真实世界中的极少一部分。现有的数据标注业务主要集中在安防和自动驾驶领域,未来,随着AI深入更多垂直行业,新需求将不断出现。
2.深度学习对数据有源源不断的需求,但会受到半监督和无监督学习发展的冲击
Google的Jeff Dean给出了下图,可以看到,蓝线的准确率和数据规模及质量持续成正比,并没有出现趋于平滑的拐点。
但是,随着半监督学习和无监督学习的发展,对标注数据的需求量将会下降,甚至不需要标注数据,该趋势取决于上述两种学习方法的发展速度。
3.从感知智能到认知智能的跨越
需要的数据维度会更大,这可能催生更精细的数据标注需求——如对一段对话数据的标注,不仅要知道对话内容、语义,可能还需要标注谈话者身份、情绪变化等。
4.标注质量将成为未来竞争的核心优势
在算法模型不断优化,应用场景要求不断提升的趋势下,机器所需求的数据质量和精度将会越来越高,未来能提供高质量标注数据的公司才是市场真正的核心优势。
5.细分领域专业化程度更高
随着应用的不断落地和普及,涉及到医疗、教育等专业化程度较高的企业将有更多的生存机会。
6.对自身科能力的研依赖程度不断提高,提前布局将影响企业最终的存亡
5年是各数据标注企业的布局转型期,当半监督学习和无监督学习逐渐变为算法主流时,企业的核心业务也将从标注数据转为数据提供端和算法研发端的资源对接;企业自身的研发能力也决定了企业最后的转型和存亡。
7.利润将在白热化竞争中进一步降低,中小型公司面临出清结局
随着2017年数据标注行业的小高潮爆发,将有更多的竞争者入局,整个市场也趋于白热化竞争,如果市场没有进一步的规范,利润将在层层外包和恶性竞争中进一步降低,中小型公司的生存环境堪忧。
五、市场规模
2017年9月19日,在Intel精尖制造大会上,Intel全球副总裁兼中国区总裁杨旭发表了会议前的讲话,同时表达了Intel对于未来全球数据的预测。据英特尔预测,全球数据总量在2020年将达到44ZB(1ZB=10亿TB=1万亿GB),而单单中国产生的数据量将达到8ZB,大约占据全球总数据量的五分之一。
目前,全球产生的数据量中仅有1%左右的数据能够被保存下来,也就是说今天全球能够被保存下来的数据也就是在50EB左右,而其中被标记并用于分析的数据更是不到10%。从现有存储容量看,中国目前可存储数据容量大约在8EB-10EB左右,现有的可以保存下来的数据容量大约在5EB左右,且每两年左右会翻上一倍。
根据上述数据可测算,到2020年,中国能够保存下来的数据大约在10EB左右,其中,大约有90%的数据可用于标记并分析,因此,共有9EB(约19亿GB)的数据;按照标注40元/GB计算,(1G的视频约为30分钟,共1800秒,每秒24帧,共43200帧,按照每帧0.1厘计算,每GB约40元),2020年中国数据标注行业市场规模约为760亿元人民币。
六、盈利水平现状及趋势预测
1.盈利水平现状
利润率约为0.05%。
计算细节:
以200人一天的工作计算:
(1)总营收:
按照一个拉框4分钱计算,一个员工一天能做大约4500个,过关率90%,也就是4000个,一共160块。每天总计营收32000元。
(2)总成本:
①审核成本8000元(40元/4000个)
②工资成本22000元(每人110元/天)
③其他管理及税收成本500元/天
因此,每天总成本约为30500元。
(3)利润率
按照以上计算方式,利润率p`=m/C,其中m代表利润,C代表全部预付资本,即成本。
因此,数据标注行业利润率大约为1500/30500*100%=0.05%。根据国家统计局公布的数据,信息服务业的平均利润率大概在9%左右,因此,0.05%的利润率远远低于行业平均值。
2.趋势预测
在未来几年市场将逐渐进入白热化竞争,本来就已经很低的利润率将继续下降,直至产业头部玩家通过并购及市场规范化后,利润率将会有所回升。
七、可持续发展分析
随着5G及物联网的普及和发展,未来人类产生的数据将以无法想象的速度增长,数据量的增加能极大促进数据标注产业的发展。
同时,伴随着半监督学习和无监督学习在近几年的兴起,算法对数据的标注需求也在不断下降,在实际应用中减少标记样本的使用能够大幅缩减人力、时间和资源的开销,从而降低生产本。同时在标记样本数量减少数十或数百倍(甚至更多)的情况下,算法能够取得与传统量标记样本训练的监督学习算法相近甚至更好的效果,提升了生产效率。
上述因素在未来将会形成对数据标注产业的推拉作用,作用力的平衡能保证数据标注产业的持续发展,但如果在未来几年产生了革命性的算法,将会对数据标注产业造成毁灭性打击。
(部分内容摘自网络,如有侵权,请联系删除。)