如何构建自动驾驶数据集(下篇)
自动驾驶时代,训练数据集非常重要,但是成本也比较高。训练数据集的构建分车端、本地端和云端三个环节。训练数据集海量数据的存储和处理是一个非常大的挑战,数据集的“清洗”提纯也是一个挑战。本文由布谷鸟科技-产研首席分析师周彦武老师编写。
数据标注是个麻烦,尤其是配备高精度激光雷达的数据集。通常都采用手工标注和机器标注两种方式,将少量帧用手工标注,且是精细标注。大部分做机器标注,即简化标注。精细标注自然是越多越好,通常都是找上千大学生兼职标注,实际我觉得高中生都可胜任这个任务,最好是退休在家的老人,他们时间充裕,标注的质量很高。即便人工标注,也需要检查质量,有些学生急躁,标注的质量很差。
自建高质量数据集的成本是惊人的,只有大众、奔驰这类级别的厂家才能支撑,当然降低质量,小公司也能做,不过这样恐怕还不如那些免费数据集。
数据集要覆盖范围尽可能地广,这就意味着大量时间投入。搜集数据的时间,空间都要尽量地多样化。
数据搜集完成,处理精选后,就开始训练了,这需要大量的软硬件投入。
京东上的DSS8440顶配价格,94.3万人民币。
数据集最终还是要汇总到总部的机房或云端上,DSS8440这样的服务器可能需要很多,而这仅仅是数据的初步处理,后续真正的训练需要性能更强更昂贵的设备。
想节约时间就用97 个DGX-1集群,一个DGX-1的价格在2016年是12.9万美元。现在还有更强的DGX-2,价格是39.9万美元。
上图为自建数据集时你可能用到的硬件,目前戴尔在这个市场份额最高,提供全套产品。这些都不算什么,固定的人力开支才是惊人的,这个领域人的月薪最低4万起步。
上图为你要用到的工具链软件,投入不比硬件少多少。
IBM也提供全套解决方案,宝马就是采用IBM的全套解决方案。
L4会达到EB级的数据,这意味着数亿乃至十几亿人民币的数据中心的投入。
法律问题也必须考虑,特别是那些合资或外资独资企业。
最后是一些公开数据集
以上为端到端自动驾驶数据集
以上为自动驾驶感知领域数据集。