数据标注大总结(更新中)

时间:2022-10-24 12:31:42

作者:星辉注册科技

浏览: 次

数据标注总结(一)

1、在有监督学习下,需要大量经过( 标注)的数据。

2、造成数据噪声的原因:

数据收集工具的问题

数据输入、传输错误

技术限制

3、在导入的基础上,针对缺失信息、不一致信息与冗余信息等,完成(数据清洗)和预处理工作。

4、在拉框标注中,要将框的边缘紧贴被标物体的( 边缘 ),同时务必注明每一个框的属性。

5、在进行切割标注时,需要格外注意标注的边框需要与被标物体的边缘(相切 )

6、 文字错误率是指语音内容方面的标注错误。只要有一个字错了,该条语音就算错,一般要控制在(3% )以内;其他错误率是指除了语音内容以外的其他标注项错误。只要有一项错了,该条语音也算错,一般应控制在(5% )以内。

7、实时检验是现场检验和流动检验的一种方式,一般安排在数据标注任务( 进行过程中 ),能够及时发现问题并解决问题。

8、由于(商务办公区域、综合办公区域、数据采集区域)的计算机能够连接互联网,为了保证数据清洗和数据标注区域内的数据安全,此区域不能够与数据清洗和数据标注区域安排在一起。

9、 抽样检验是产品生产中一种辅助性检验方法。在数据标注中,为了保证数据标注的准确性,会将抽样检验方式进行叠加,形成(多重抽样检验)方法,此方法可以辅助实时检验或全样检验,以提高数据标注质量检验的准确性。

 

10、常见的噪声包括:

主体人物以外其他人的说话声

雨声、动物叫声

背景音乐声

骑车滴答声、明显的电流声

11、以图像标注为例,计算数据标注所需人工数量包括:

计算单张图片工时

计算数据标注预处理人工数量及时间

计算数据标注质检人工数量及时间

计算数据标注员数量及时间

12、数据标注工厂想要成功实施客户关系管理需要做好以下工作:

确立业务计划

组建客户关系管理团队

客户信息管理

客户关系管理的分析

13、目前数据标注的应用已经涵盖了各行各业,不同的行业也衍生出各种不同数据标注需求,这些需求对人工智能的发展起到了关键作用。

交通

安防

家居

医疗

14、多重抽样检验方法的优点:

能够合理调配质检员的工作重心。

有效地弥补其他检验方法的疏漏

提高数据标注质量检验的准确性

15、语音标注,基于 (语音识别、声纹识别、语音合成) 等建模与测试需要,需要对数据进行发音人角色标注、环境情景标注、多语种标注、韵律标注体系标注、噪声标注等。

16、文本标注,通过(语句分词标注、语义判定标注、文本翻译标注)情感色彩标注、拼音标注、多音字标注、数字符号标注等,可提供高准确率的文本语料。

17、数据变换是通过(平滑聚集、数据概化、规范化)等方式将数据转换成适用于数据挖掘的形式。

18、 多元线性回归则是涉及的属性多于两个,并且数据拟合到一个(多维)曲面。

19、在数据库中,对于属性值相同的记录,可以将其看作是(重复记录)。

20、作为车辆车牌领域中非常重要的自动驾驶,其标注方式主要有两种,其一为 (拉框)标注;其二为精细的 (切割)标注。

21、车道线标注是一种对 (道路地面标线)进行的综合标注,标注包括了区域标注、分类标注以及语义标注,应用于训练自动驾驶根据车道规则进行行驶。

22、 指示牌/信号灯标注是一种对道路悬挂指示牌/信号灯进行的综合标,标注包括区域标注、分类标注以及语义标注,应用于训练自动驾驶根据 (交通规则)进行行驶。

23、视频跟踪标注主要是用于训练自动驾驶对识别目标的(移动跟踪能力) ,让自动驾驶在移动过程中更好地识别目标。

24、表情分析是一种 (分类)标注,一般需要配合人脸标注进行。



数据标注总结(二)

1、按照产生数据的主体,具体可细分为以下来源:

少量企业应用产生的数据,如关系型数据库中的数据和数据仓库中的数据等。

大量人产生的数据如推特、微博、通信软件、移动通信数据、电子商务在线交易日志数据、企业应用的相关评论数据等。

巨量机器产生的数据如应用服务器日志、各类传感器数据、图像和视频监控数据、二维码和条形码(条码)扫描数据等。

2、在有监督学习的过程中,输入的数据样本越(精确 ),量越(大 ),其处理效率与运作效率也越(高 ),而数据处理的量级与质量又直接关系到机器的智能程度,这就是我们所说的“有多少智能,就有多少人工”。

3、在导入的基础上,针对缺失信息、不一致信息与冗余信息等,完成(数据清洗)和预处理工作。

4、( 线性回归)涉及找出拟合两个属性(或变量)的“最佳”直线,使得一个属性可以用来预测另一个。

5、在客服行业,文本标注主要集中在(场景识别和应答识别)。

6、语义标注的质量标准是标注词语或语句的语义,在检验中需要:

针对单独词语或语句进行检验

针对上下文的情景环境进行检验

针对语音数据中的语音语调进行检验。

7、当标注员完成第一个阶段数据标注任务后,质检员会对其第一阶段标注的数据进行检验,如果标注数据全部合格,在第二阶段实时检验时,质检员只需对标注数据的(50%)进行检验。

8、数据标注项目评估流程为:

验收标准确认、试标、试标验收、计算数据标注所需人工数量、综合评估项目成本、综合报价。

9、为了保护(数据清洗区域、数据标注区域)内计算机中数据的安全,只能够连接局域网服务器,并且禁止通过外接设备进行拷贝。

10、图像标注主流的应用领域有:

自动驾驶

人像识别

医疗影像

机械影像

11、数据清洗包括以下几种应用方法:

处理缺失值

处理噪声数据

处理重复数据

12、常见的噪声包括:

主体人物以外其他人的说话声

雨声、动物叫声

背景音乐声

骑车滴答声、明显的电流声。

13、无效语音包含以下类型( )

语音不是普通话,而是方言,并且方言口音很重,造成听不清或听不懂

音频背景噪声过大,影响说话内容识别;

语音只有“嗯”“啊”“呃”的语气词。

14、行为标注是对特定行为进行区域标注和分类标注,主要应用于对(危险行为)的监控,例如打架、晕倒、车祸、轻生、偷盗等。

15、 行人标注是对行人进行标框标注,主要应用于(进出人数的统计) ,一般在商场、超市、市中心、车站、学校、工厂等人员容易密集的场所需要通过进出人数的统计来判断容纳人员是否已经饱和,可以有效地防范因为人员过于密集而造成危险。

16、表情分析是一种(分类) 标注,一般需要配合人脸标注进行。

17、最初的人脸标注是通过对人脸进行 (标框)标注,训练人工智能进行人脸判定,后期伴随着人脸识别算法技术的发展,开始使用(描点) 标注,训练人工智能进行人脸识别。

18、视频跟踪标注主要是用于训练自动驾驶对识别目标的(移动跟踪能力) ,让自动驾驶在移动过程中更好地识别目标。

19、3D 车辆标注是将2D图片中的车辆进行 (3D)标注,主要应用于训练自动驾驶对会车或超车车辆的体积判断。

20、(车辆多变形标注) 是对车辆进行区域标注以及分类标注,主要应用于对车辆类型的识别,例如面包车、卡车、大客车、小轿车等,训练自动驾驶在道路行驶时选择性跟车或者变道操作。

21、数据清洗组业务模式分为原始数据的 (质量检验) 工作以及(敏感隐私数据) 的清洗工作。

22、文本标注是一类较为特殊的标注,它并不单单有基础的标框标注,还需要根据不同需求进行 (多音字标注)、(语义标注) 等。

23、对街景中 (红绿灯)、(车辆)、(高架桥等道路标志) 的画框标注,可用于帮助自动驾驶车辆识别道路物体。


做AI行业客户的数据参谋