百度智能云全周期数据运营服务

来源:盖世直播时间:2023-03-30 17:24:55

大规模高质量样本数据、快速迭代优化的算法模型、高性能存储和算力资源正成为自动驾驶技术研发的核心三要素。

2023年3月15日,百度智能云数据应用业务部解决方案总监曾虹云在2023第四届软件定义汽车论坛暨AUTOSAR中国日上介绍了百度智能云自动驾驶数据闭环方案,针对原始数据获取、场景数据处理、算法训练评测等方面,分别提供车辆改装、路采、数据清洗筛选、数据标注、仿真评测等全周期的数据运营服务,助力自动驾驶技术研发。


(资料图)

百度智能云数据应用业务部解决方案总监曾虹云

内容根据曾虹云《百度智能云全周期数据运营服务》主题演讲整理:

自动驾驶的研发涉及三个关键要素:大规模高质量样本数据,快速迭代的算法模型,高性能存储和算力资源。百度智能云数据团队致力于为企业和算法团队提供整体的底层数据解决方案。

通常而言,数据服务过程中有三个重要环节:获取有效数据、根据需求加工数据、高效使用数据,且在实际操作中会遇到许多现实问题。例如,在数据获取阶段,国家对道路数据的采集、存储、运输和加工都有严格的资质要求,业务门槛高;对于数据的加工,目前大部分数据仍然依靠人工处理和标注,标注规则不明确导致的产能低效、质量不高等问题,影响研发进度;在使用数据时,也会遇到“如何找到有价值的数据?”“如何通过自动化的方式自驱形成闭环,并指导下一步寻找数据?”等问题,效率低下。

我们绘制了一个数据闭环图,较为详尽地呈现了数据在整个自动驾驶研发过程中扮演的角色:从车端部署环节开始,首先要对车辆进行传感器标定、真值系统等改装,获取所需的场景数据;再根据需求对数据进行筛选和标注,用于算法训练;然后对算法的表现进行评测和仿真,从而推动软件迭代。

图片来源:嘉宾演讲材料

接下来我会对各个板块进行展开,介绍百度智能云自动驾驶数据闭环方案提供的自动驾驶数据运营服务与自动驾驶工具链平台。百度智能云数据运营服务包括数据脱敏脱密、数据清洗、数据挖掘、数据标注、数据管理、模型训练评测、仿真测评等,自动驾驶工具链平台将这些服务整合,通过智驾数据管理平台、智能标注平台、智驾研发平台以及云仿真平台的形式为车企提供。

数据采集:法律法规限制严格

首先,如何合规合法地获取道路数据是许多企业面临的核心问题。这需要很高的门槛。因为国家对道路数据信息的采集、传输和管理都有明确的要求。我简单介绍一些数据采集的流程规定:

第一,数据处理必须在完全物理隔绝且不能上网、上云端的合规编译室内进行。 第二,合规编译室必须由具有甲级测绘资质的图商负责运营和监管。 第三,在使用数据时,必须经过脱密和脱敏处理。

百度作为一家拥有甲级资质的图商,可以提供数据采集流程建议,并帮助客户在中国境内合法合规地获取算法研发所需要的道路数据。

数据管理:高效挖掘、调取数据是关键

数据应用过程的主要问题在于数据的清晰化管理,比如百度采取的就是分场景存储的方式,方便调取不同数据。我们观察到,其实包括百度在内的很多企业已有大量数据(如百度已有3000万公里),问题就在于如何在已有数据中高效找到所需数据。

百度会提供大量筛选模型和技术人员,帮助客户根据各自场景化要求筛选合适数据。我介绍两个百度智能云自动驾驶工具链智驾管理平台,使用实现最多的两个功能——数据处理工艺和场景挖掘能力。

图片来源:嘉宾演讲材料

覆盖多场景的数据处理工艺包括数据清洗、数据处理和挖掘三大环节。首先将实现原始采集数据的清洗,包括但不限于图像/点云模糊、内容失真等图片或点云进行清洗剔除;支持自定义传感器类型的数据处理流程,如2D相机的前视角、纯激光雷达点云数据、2D&3D融合数据;利用AI算法,实现在线目标检测、场景挖掘等,深度挖掘高价值数据标签。

接下来是场景挖掘中的静态动态全栈能力,百度支持20大类场景算法挖掘,上千种小类的场景算法挖掘,满足多数算法团队和主机厂提出的诉求,希望以更高效、低成本方式持续找到所需数据。

数据标注:面临高效、高质、安全三大痛点

对于筛选到的数据,需要进行大量标注。尽管自动化标注和无监督学习技术正在应用于数据标注行业,但由于目前各家的传感器系统、训练场景、标注规则差异较大,仍需依赖大量的人工标注作业,这就对人力的充裕程度和操作经验提出了很高的要求。

“效率是否够快,质量是否够好,数据是否安全”是所有客户都会担忧的三大痛点,针对这三个痛点,百度智能云也给出了相应的解决方案:

第一,在全国各地与政府共建数据标注基地,使人力资源可控、可培训、可管理。第二,通过内部自动化流程和算法技术支持,确保数据标注质量。第三,提供网络安全和私有化部署,确保客户数据不出服务器,把好安全关。

除了提供专业、稳定的人工数据标注服务,百度智能云也为客户提供一套完整的数据标注平台,能够进行点云、图片等多类型数据标注,实时评估标注质量。其中的智能标注工具链可平均提高20-40%标注效率,若基于稳定的感知系统和标注规则,标准效率和准确率都会大幅提升。

仿真评测:海量场景库支撑算法验证

百度智能云自动驾驶数据闭环方案也提供模型训练调优服务,包括资源调度+评测方法,提供各个维度的报告,可以帮助客户定位当前模型优劣。最后是仿真场景库建设服务,百度不提供仿真引擎,但基于积累的海量场景库和不同算法模型,帮助客户根据规则和场景信息构建大量仿真数据,进行仿真应用验证和数据迭代。

以上就是百度智能云自动驾驶数据闭环方案,包括我们为企业提供的自动驾驶数据运营服务,以及自动驾驶工具链平台,帮助企业建立一套自动驾驶的数据闭环,助力企业加速自动驾驶研发进程。

关键词:

相关阅读

推荐阅读

百度智能云全周期数据运营服务

百度智能云全周期数据运营服务

百度智能云全周期数据运营服务大规模高质量样本数据、快速迭代优化的算法模型、高性能存储和算力资源正成为自动驾驶技术研发的核心三要素更多

2023-03-30 17:24:55
今日精选:等等再加油,95号汽油价格或将重回“7元时代”

今日精选:等等再加油,95号汽油价格或将重回“7

等等再加油,95号汽油价格或将重回“7元时代”3月30日消息,按照国内成品油价格调整机制,国内新一轮成品油调价窗口将于3月31日24时开启。继上更多

2023-03-30 17:43:16
【世界报资讯】首推两款车型 赛力斯发布新品牌——蓝电

【世界报资讯】首推两款车型 赛力斯发布新品牌—

首推两款车型赛力斯发布新品牌——蓝电3月30日,赛力斯集团旗下重庆赛力斯蓝电汽车有限公司正式发布全新新能源汽车品牌——蓝电。同时,蓝电品更多

2023-03-30 16:30:07
每日视讯:投资160亿,一汽-大众佛山分公司新能源汽车跃阶发展项目落户广东省南海区

每日视讯:投资160亿,一汽-大众佛山分公司新能源

投资160亿,一汽-大众佛山分公司新能源汽车跃阶发展项目落户广东省南海区3月30日消息,一汽-大众汽车有限公司佛山分公司(以下简称“一汽-大众更多

2023-03-30 16:34:43
天天看热讯:坦克品牌回应坦克500川西试驾事故

天天看热讯:坦克品牌回应坦克500川西试驾事故

坦克品牌回应坦克500川西试驾事故3月29日,一则“坦克500川西试驾遭遇事故”的信息在网上流传,并引起了广泛关注。据网传视频显示,在试驾车更多

2023-03-30 15:39:17
天天快消息!汽车流通协会: “国六A”车型销售期或将延长

天天快消息!汽车流通协会: “国六A”车型销售期

汽车流通协会:“国六A”车型销售期或将延长日前,有媒体报道称,在2023汽车流通行业蓝皮书论坛上,中国汽车流通协会(下称协会)会长沈进军表更多

2023-03-30 15:41:50
世界最资讯丨丰田汽车预计今年新车平均交易价格将突破五万美元

世界最资讯丨丰田汽车预计今年新车平均交易价格将

丰田汽车预计今年新车平均交易价格将突破五万美元盖世汽车讯据外媒报道,丰田汽车北美业务高管预计,受供应链及通胀影响,新车平均交易价格将更多

2023-03-30 14:47:32
环球快消息!贾跃亭造车9年终迎量产,FF 91将分三个阶段交付

环球快消息!贾跃亭造车9年终迎量产,FF 91将分

贾跃亭造车9年终迎量产,FF91将分三个阶段交付北京时间3月30日,法拉第未来(FaradayFuture,FF)宣布,在其位于美国加州汉福德的FFieFactory工厂开始更多

2023-03-30 12:43:20
+ 点击查看更多精彩
字节跳动计划投资“大量资金”开发VR领域
    据 Protocol 报道,字节跳动正在认真考虑进入虚拟现实(VR)领域...
任天堂Switch曝光:合作伙伴招聘新游戏机开发工程师
    据外媒报道称,任天堂即将推新一代Switch,其中一个最有力的证据...
途牛发布纳斯达克股价不合规通知函
    4月18日,在途牛收到纳斯达克股价不合规通知函后,途牛方面发布声...
一加新机现身:搭载天玑8100处理器,主打快充和游戏
    今天,一款型号显示为PGKM10的一加新机现身GeekBench,这款新机搭...
紫光国微:预计2022年第一季度净利润同比增长69.9%
    紫光国微发布公告称,预计2022年第一季度归属于上市公司股东的净...
斯坦福大学建造小型太阳能电池板原型
    日前,斯坦福大学的研究人员已经建造了一个小型太阳能电池板原型...
    资讯播报