近期,有着25+年经验的数据服务商澳鹏Appen,在不断助力其自动驾驶客户构建数据资产时发现:如今,企业的数据科学和开发所需机器学习 (ML) 模型的能力已经成熟。然而,他们中的许多人开始意识到真正的挑战在于整个 AI 生命周期中的数据。
过去几年,尽管自动驾驶的技术迭代速度不断加快,但商业化一直是横亘在所有自动驾驶从业者面前的一座大山。而在商业化落地的阶段中,自动驾驶面临的挑战往往不是自动驾驶技术本身,而是客户要求自动驾驶公司能够快速适配各种车型的同时,还要快速适配多种应用场景。由此,自动驾驶公司则需要更多数据燃料来不断地进行产品迭代。相应地,行业对于数据标注与处理的需求量也在水涨船高。
另一方面,随着大算力智驾平台在未来几年的规模化落地以及辅助驾驶普及的加快,配套的车载传感器市场也进入了一个高增长周期。尤其是4D毫米波雷达以及激光雷达的搭载也正处于最关键的导入期,这带来了一个全新的市场:多传感器感知的数据融合。此外,舱内人机交互的体验升级,也同样需要数据迭代支持。这也再次表明,无论是在自动驾驶还是辅助驾驶领域,数据标注的需求量都将迎来增长的高峰期。
数据生产瓶颈
众所周知,自动驾驶想要真正落地,就需要大量高质量的、安全无偏差的数据。与此同时,下游企业对数据也在不断地提出更高的要求。获取低成本、高质量的数据依然是当前行业发展的一大痛点。普遍而言,企业并没有过多的资源投入数据标注工作。因此,全球绝大多数企业都在某种程度上采用了专业数据供应商的服务——这也意味着数据采集、分析处理和管理是AI面临的首要挑战。
另一方面,在与诸多客户对接的过程中,数据标注公司也逐渐发现,自动驾驶公司对于数据服务强有力的诉求便是随着算法的调整,标注公司可以实现灵活配合。例如,随着算法的更迭与进步,下游客户对于数据标注的准确度会由原来的90%提升至95%,甚至99.99%。
此外,自动驾驶在不同细分场景的快速开拓意味着下游客户的研发势必会出现波峰与波谷,这也就需要数据标注公司提供持续稳定的产能来应对客户的弹性需求。而对于多数数据服务商而言,这势必带来了更高难度的挑战。
针对上述痛点,业内有着超过25年历史的人工智能训练数据服务的"尖子生"——澳鹏Appen给出了自己的答案:由于深度学习算法是算力与大数据的产物,因此深度学习算法模型的工业化优化,也就需要AI数据供应链的工业化。
澳鹏Appen以高质量数据为AI部署全生命周期赋能
"工业化即以自动化、标准化和规模化可扩展方式为标志。此前,AI标注数据的供应基本以作坊式为主,难以保证AI标注数据的高质量供给,接下来AI标注数据的供给将迎来工业化爆发。"澳鹏数据科技(上海)有限公司产品及研发总监钱程表示。
钱程介绍,在数据的整个生产环节中,数据获取、数据准备和模型评估最为费力并涉及海量数据。如果处理不当,可能会导致项目质量问题和项目启动延迟。AI从业者将80%以上的时间都花在数据管理上,因此他们需要最佳的工具和服务来完成这一过程中极其关键的部分。澳鹏专注研究这三个阶段,并与专业从事模型训练和部署的供应商建立战略合作伙伴关系。
澳鹏数据科技(上海)有限公司销售副总裁马冀表示:"毫米波和4D代表了未来的标注方向,对服务商的标注能力以及研发能力都有很高的要求。澳鹏会陪伴客户共同探索和发展高精尖标注诉求。目前我们已经有毫米波、4D点云标注等项目正在和客户积极研讨中,期待在今年第三季度会有不错的进展。"
,难题有解
此外,在自动驾驶领域,仅仅根据已知的场景、障碍和潜在事故原因来部署联网自动驾驶车辆还远远不够。谁能够实现准确预测,并对不寻常的情况做出反应,将是接下来自动驾驶技术落地的争夺焦点。
如今业界推动的"数据驱动闭环迭代",都在强化对于不确定性事件的预测和规避、学习能力。当下的一个行业共识是:在数据方面,自动驾驶面临的,痛点便是corner case的积累。然而,由于不同公司数据采集车的传感器安装位置、采集标准各有不同,下游公司通常只能亲自下场采集各种极限工况,"一步一个脚印地"完成更多的数据积累。
针对上述问题,澳鹏提出了"合成数据"解决方案,可以模拟不同的场景并安全高效地完成数据采集,实现对于极限工况的有效补充。其具体优势为:改进模型的可靠性、比"真实"数据获取更快、可用于边缘案例的补充,并可有效保护用户隐私安全。
此前,澳鹏Appen曾收购人工智能数据平台Mindtech的少数股权,双方将开展深度合作,提升为客户提供合成数据的能力。
"我们对与澳鹏的战略合作感到兴奋,"Mindtech 首席执行官史蒂夫哈里斯分享道。"这将使更多客户能够使用高质量、精确注释的合成数据快速训练他们的人工智能系统,同时补充 Appen 现有的真实世界数据收集、管理和注释产品。通过合作,我们将加速人工智能系统的开发,更好地了解人类如何与彼此以及周围的世界互动。"
迎接数据服务的2.0时代
总结这家"尖子生"的成绩,作为澳大利亚证交所上市的科技公司,澳鹏Appen已拥有25+年行业积累与广泛的全球客户基础。
在服务方面,公司拥有一支过硬的数据科学家团队,可以在服务企业之前了解场景,设计如何采集数据/标注数据能真正帮助到企业成功训练模型, 以结果导向。
此外,澳鹏还拥有,的众包资源,能够提供全球数据采集和标注服务。其在自动驾驶领域月收入额可达上千万以上,在中国市场覆盖30+个自动驾驶客户。
在澳鹏看来,数据服务赋能行业的关键就在于整合资源,并与客户深度绑定。例如提供技术接口,让客户参与到标注过程中,可实时反馈(API集成),或对自有平台的功能进行改造和匹配;帮助客户将,放在模型开发上,降低数据成本,提升算法效率。
最重要的是,公司拥有完整的数据流转系统,可以不断迭代优化数据与服务工具,并以低成本、高灵活的服务配合客户需求。可以说,在自动驾驶领域,澳鹏高精度高性能的自动驾驶工具套装也是其为客户构筑海量数据资产的利器,这是澳鹏的核心优势之一,也是公司迎接"数据服务2.0时代"的不二法门。
澳鹏MatrixGo人工智能辅助数据标注平台
何谓"数据服务2.0时代"?过去,数据标注多数只服务于自动驾驶POC项目,属于"一锤子买卖"。而在2.0时代,软件定义汽车带来了对功能迭代升级频率的高要求,背后则是每家车企积累的数据资产的价值竞争,并直接影响汽车智能化的功能优化和体验升级能力。
据高工智能汽车研究院监测数据显示,2021年中国市场(不含进出口)乘用车前装标配搭载OTA功能上险量为748.41万辆,同比增长65.99%,前装搭载率已经提升至36.7%。而软件召回也已经成为目前汽车召回的主要因素之一。
相应的,从整体行业来看,数据标注正从简单、重复的拉框标注向精细化方向发展,也就是说数据标注行业正从简单的劳动力密集型向专业型数据服务过渡。
以澳鹏自主研发的人工智能辅助数据标注平台MatrixGo为例,可支持像素级语义分割、2D图像复合标注、3D点云拉框及语义分割等功能;
采标一体的任务能够实现采集-质检-标注-质检-客户验收的双向协同流程,让整个数据生产线上的各个环节实现无缝衔接;内置的多轮质检模块可以按需配置,满足不同复杂度项目的需求;2D图像复合标注是全结构化的模型训练利器,支持点、线、框、多边型融合标注(常见工具是单模式的,点、线or折线,多边形)与连续帧;
另外,此工具还支持像素级语义分割,可将图片中目标对象实例标记出来,并保证像素级的质量。其中丰富的可配置选项可灵活进行ID处理,实战中可以做到10分钟/张图。
钱程介绍,澳鹏利用ML辅助标注等技术手段提高数据质量,通过预识别系统,让算法先进行预识别,再根据结果进行人为调整,最终在成本控制和质量上实现显著提升。
总体上,其标注工具可实现99.9%的准确率,并达到5分钟一张、1秒一帧极速质检,在交互、超大数据加载、实时切帧进行渲染等方面都达到了行业第一。
澳鹏Appen认为,进入数据服务2.0时代,有能力深度绑定汽车全生命周期、并提供完整且高质量的数据供应服务,在行业转型的当下至关重要。