zh

姓名格式错误

公司名称格式错误

数据堂严格遵守用户隐私条款,您所填写的信息我们会严格保密,请放心填写~

文本数据集标注爬坑

来源: 数据堂


. 数据标注方式

目前,常用的序列标注方式有BIOBIOES,两者形式上比较相近。

 

1. BIO标注

BIO方式主要将实体X标注为B-X,I-X,O的格式,B-表示实体的起始位置,I-表示实体的中间或结尾,O-表示不属于实体。

 

2. BIOES

BIOES近似于BIO的改进,主要将多元实体X标注为B-X,I-X,E-X的格式,B-表示实体的起始位置,I-表示实体的中间或结尾;一元实体则标记为S-X,O-X表示X不属于实体。

 

. NER数据标注工具推荐

这里推荐两个标注工具,一个是Brat,另一个是YEDDA。两个工具各有所长,可以按需选择。

 

1. Brat

Brat安装配置方式在我之前的博客( 标注工具Brat安装(本地) )中有讲过。

Brat的优点是可以在其可视化界面上对所需的实体类别及实体间关系进行标注,操作方便,标注快捷。但是,不足之处是,Brat仅支持Linux系统,该工具只能生成.ann后缀的标注文件,如需转换为上述常用的两种标注格式,则需要自己通过代码得到。

 

2. YEDDA

YEDDA(以前的SUTDAnnotator)开发用于在文本(几乎所有语言,包括英语,中文)快捷方式注释,可以非常有效地手动注释文本。用户只需选择文本范围并按快捷键,跨度将自动注释。它还支持命令注释模型,该模型批量注释多个实体。

个人觉得最方便的地方是YEDDA不仅可以导出如Brat中的.ann文件,而且默认支持将带注释的文本直接导出为BIO格式的序列文本,还可以通过配置导出其他标注格式的文本。而且该工具兼容所有主流操作系统,包括WindowsLinuxMacOS

 

更多标注工具

见《推荐 | 中文文本标注工具Chinese-Annotator(内附多个开源文本标注工具)》,这篇文章附录提供了多种标注工具。

 

注意

不论哪种标注工具,导出的格式文档中难免会有一些错误,如标点符号的分割,换行的位置等。所以,大家在标注一部分数据后尽量都先冷静地检查一下数据中的错误,避免数据导入模型后效果不理想或出现未知的错误!

————————————————

本文转载自:CSDN博主「Growing_Snake」的原创文章

原文链接:https://blog.csdn.net/nc514819873/article/details/92846243

60

236