zh
姓名格式错误
公司名称格式错误
数据堂严格遵守用户隐私条款,您所填写的信息我们会严格保密,请放心填写~
来源: 数据堂
在人工智能的发展产业链中,数据是基础层的核心部分,但往往采集后的数据都无法直接用于算法训练,必须通过“数据标注”等形式将这些非结构化数据转换成结构化数据才可使用。因此,这也催生出了众多垂直细分衍生领域,“数据采集”和“数据标注”也成为了人工智能技术得以应用于各个领域的前提和基础。
数据堂自主研发数据标注平台——数加加,通过技术创新来提高数据处理行业效率,致力于为业界提供领先的人工智能数据采集和数据标注的多元化解决方案。
在数据采集方面,数据堂提供10万+量级的采集人员快速响应的服务。包括人物表情、车辆、服饰等图片数据采集,外语语音、普通话、方言等语音数据采集,网络文本、商品评论、广告、定制唤醒词等文本数据采集,人像拍摄、道路视频等视频数据采集。
在数据标注方面,数据堂自有独立研发的200多个标注工具,其中有20多个为通用型配置工具,可通过简单配置快速响应需求,工具包括图片标框、图片描点、图片划线等图片数据标注,语音分割转录、语音审核等语音数据标注,内容审核、情绪分析、文本相关性等文本数据标注,视频审核、视频转录、视频分割、跟踪标注等视频数据标注服务。
韵律是句子中字词之间的停顿,可以练习一下平时阅读或说话,大多数情况下,我们不能完全没有停顿的说一句话,总会或长或短的有些停顿,这些停顿就是我们要标注韵律符号的位置,根据停顿长度不同,韵律符号也会相应发生变化。
图表1 韵律标注工具
词性标注是文本标注的一种形式,在数据堂文本标注平台可对文本内容标注实体名称、实体属性、实体关系。
n 自定义标签
图表2 实体标注工具-自定义标签
通俗的讲,就是就是给一个多音字加读音,例如“骈”读音(pián),便(pián)宜的便等。通过音调多音字标注工具,实现快速的标注。
首先在数据堂文本标注平台通过算法把一段文本的多音字识别出来,与原始文本一起导入平台,模板会同时将文本和读音加载显示在标注页面。
标注方式也非常简单,用鼠标点选对应的读音即可。
图表3 多音字标注工具
语义标注是文本标注的一种形式,针对交互的短文本进行理解,标注出文本的意图。
n 自定义标签
图表4 意图标注工具-自定义标签
n 文本爬取
利用Python爬虫框架之一的——Scrapy框架实现网站文本的爬取工作。
在我们要获取目标文本所在的标签时,首先,我们先获取到每一楼的文本标签;获得文本中包含有很多空格和标签,内容杂乱,使用正则进行处理;最后,遍历所有的标签并从中获取文本,利用字符串的拼接将文本都拼接起来。
n 数据清洗脱敏
文本脱敏智能化能力主要用于对涉及含垃圾信息、广告、涉政、恐暴、辱骂、色情、灌水、违禁、无意义以及命中自定义词典中的敏感词的语料进行脱敏。
总共使用了两个API,分别是微软的azure_translate和阿里的文本反垃圾 API;
对需要脱敏的文本先利用azure_translate翻译成中文,然后再利用阿里的文本反垃圾API进行敏感词检测。
在数据堂文本标注平台数据质检完成后,根据标注结果与质检结果比对情况,计算标注的准确率,标注人员和质检人员均可以在任务执行情况页面查看实时的准确率。
图表5 准确率计算