很多人对“数据标注”这个概念比较陌生,我先通过我的职业经历告诉你什么叫“数据标注”?
20年前人们对互联网的理解就是网站,比如搜狐、新浪、网易等,后来人们又知道了微博、微信,再后来电子商务已经在年轻人当中“家喻户晓”了。你在网站上看到的内容,在电商平台上看到的商品,在后台需要有专门的人做“编辑”工作的,这个编辑过程就是数据标注。
再以我所在的公司上海钢联(300226)为例,它有若干工作交互平台,最有名的平台叫www.mysteel.com,后台有上千名编辑,他(她)们每天通过电话采集全国分地区、品种、分规格的钢材价格数据、库存数据、产量数据、产能利用率数据、进出口数据等。为了保证采集数据的准确性,他们需要先前对采集对象进行标准化认证,只有认证后的数据供应商才能作为采集对象。这些被采集来的数据要按照一定的字段、表格、统计图、文字等形式在网站上进行显示,这些被加工、清洗后的数据要放进数据库以备用,或者通过API连接给有关用户,这个过程就叫数据标注。
当然,因为大宗商品的周期性比较强,价格波动频繁、波动幅度大,因此,用绝对数据有时不好做分析比较,于是就需要对这些原始数据进行指数化处理,这个过程就叫数据增强。更进一步的应用体现在数据对企业的辅助决策支持,原始数据都是历史上发生的交易,是过去的数据,而用这些数据模型来预测将来的不确定性就要用到概率论,这些概率数据也可以称为数据的增强。
讲到这里,我们就会逐渐明白了数据在被互联网加载之前,需要经过采集、标注和标准化等步骤。同样道理,现在比较热门的人工智能在数据被大模型采用之前,也需要经过采集、标注和标准化步骤。
数据标注就是为原始数据添加标签或注释的过程,这对于训练、监督、学习模型至关重要。标注可以帮助模型学习数据中的特征和模式,从而提高模型的准确性和性能。最近在上海召开的世界人工智能大会,那些大模型之所以给人一种千篇一律的“相似”感觉,就是因为当深入到传统制造业、深入到厂矿车间的时候,大模型没有可以用来训练的标准化数据。所以若要让大模型AI从有趣走到有价值,就需要补上数据标注这一课。
这就是我为什么说数据标注可能形成一个新兴产业的背景和原因,我们还可以从以下几个方面加深理解。
一是需求的增长。随着人工智能和机器学习技术的快速发展,对于高质量标注数据的需求也不断的增长。同时,数据标注往往需要专业知识和技能,以确保标注的准确性和一致性。
二是数据标注是一个劳动密集型的过程,需要大量的人力来完成。随着自动化标注工具和平台的发展,数据标注产业也在不断的进步,效率也会大幅度提高,用工成本也会降低。
第三是数据标注工作可以远程完成,促进了全球化的劳动力市场。当然,随着行业标准的建立和监管的加强,数据标注产业也将更加规范和专业。