人工智能是研究如何通过机器来模拟人类认知能力的科学,目前人工智能应用最广泛的计算机视觉与语音交互依赖于监督学习下的深度学习方式,而监督学习下的深度学习算法训练则十分依赖人工标注数据。
相关数据显示,目前一个新研发的计算机视觉算法需要上万张到数十万张不等的标注图片训练,新功能的开发需要近万张标注图片训练,而定期优化算法也有上千张图片的需求。
这些海量训练数据集的背后是无数标注员共同努力的成果,正如著名科幻作家刘慈欣所言,“现在的人工智能,前面有多少智能后面就有多少人工。”
不过,随着人工智能落地进程的加快,这种过于依赖人力的方式也暴露出很多弊端。
首先,AI商业化对数据标注行业提出了新的要求,想要更加契合落地需求、解决垂直场景具体痛点,还需要海量且优质的标注数据做支撑,这在无形中增加了数据服务供应商的管理以及人力成本。
此外,数据需求量的提升对服务商的交付能力也提出了新的要求,容易造成项目延期等连锁反应。
为了解决这些问题,通过在数据标注以及质检的环节中应用AI辅助,进行人机协作,可以有效提高标注效率,充分发挥AI对于数据标注行业的反哺作用。
1.AI预标注
在语音转写类标注项目中,数据标注员需要仔细聆听每一个词语的发音,判断并转写其语义,这对于标注员的听写能力以及在长时间多任务下的专注力有着极高要求。
通过在此环节应用AI辅助,对语音数据进行语音识别、文字转写和自然语言理解的预处理操作,自动完成标注后,再由人工进行校对,不仅降低了标注难度还可以有效提高标注效率。
以曼孚科技语音标注工具为例,预标注技术加持下,标注工具会自动识别转写语音数据,标注员只需要在预标注的结果上略作修改即可,相比于传统转写操作,AI辅助可以成倍提高标注效率,实现更少的人力完成更多的项目。
2.AI质检
一个完整的标注流程,需要经历标注-审核-质检等多个流程,其中质检在标注的过程中发挥着查缺补漏、提高整体标注质量的关键性作用。
目前,数据质检主要以人工质检为主,通过抽查的方式发现标注数据集中的重复样本和不合格样本。然而,人工抽查的方式校验,在准确率和时效性方面都大有不足,很容易忽视错误样本,遍查的方式在成本上又难以接受。
通过在质检过程中引入AI辅助可以有效解决这些问题。相比于人力质检,机器质检无论是在效率还是执行力上都更具优势,且可以做到覆盖全部数据,有效发现各种问题,提高数据质量。
经过曼孚科技的实际测试,相比于传统的人力抽检,AI辅助质检平均可以提升5%以上的数据准确率。
目前,标注与质检是AI辅助应用效果最好的两个环节,未来在标注方案创立到交付的全工作流过程中,都可以引入AI辅助,充分发挥AI对于数据标注行业的反哺作用,实现效率与质量的双重提升。