看航空早读|竖耳朵!来听航空新鲜事儿
此前我们曾报道过,在3月12日,乌克兰国防部宣布,将向合作伙伴开放用于人工智能(AI)模型训练的真实战场数据。 那么,真实战场数据的价值将如何助力AI模型的训练?近日,人工智能(AI)应用方向的资深专家石永亮接受了《中国航空报》记者的采访。他表示,军用AI一般采用三层训练体系:大量的模拟数据+合成数据增强+真实战场数据校准。尽管真实战场数据看似在第三层训练中才出现,但这部分工作会决定模型最终性能。 石永亮指出,真实战场数据的价值可以归纳为这三点:减少仿真与现实差距、提供罕见战术与环境数据、提升模型的环境适应(即“泛化”)与决策能力。 石永亮表示,如果没有战场真实数据,AI模型仍能通过模拟环境、合成数据、演习数据、以往军事行动的数据等进行模拟场景的设计、参数调试、数据增强来完成训练。但存在几个不可避免的问题,包括训练周期更长,成本和风险显著增加,可靠性更低等。 他解释道,这种可靠性是指实战背景下,尤其是遭遇极端环境、新型战术和干扰因素叠加等情况时,容易出现可靠性降低情况,进而导致军用AI在实战应用中暴露出风险增加、误识别率增加、误伤概率上升等缺陷。从技术角度讲,基于实验室数据训练出的AI模型,在真实场景中验证时通常会不可避免地出现“域偏移”情况,这就是因为训练数据与真实数据之间在数据特征分布上存在着差异。 真刀真枪的数据训练让模型更强、更经济 根据对军用AI的研究,石永亮指出,真实的战场数据对AI模型训练效率的提升十分直接,能让模型跳过“实验室仿真-真实场景验证-回炉调优”这样不断试错的环节,直接基于实战验证的特征来训练,让AI模型从一开始就贴合战场环境,后面的试错和调优的环节将被大幅压缩。 同时,因为有了真实的战场数据,也省去了需要投入海量资源来构建“仿真战场”的高成本。一般来说,为了模拟战场的复杂性,需要联合军事专家、AI工程师、数据标注人员等多方人员,耗时数月甚至数年来构建仿真环境、生成合成数据,各方面的成本都极高。 总结来说,真实的战场数据能够大幅降低AI的训练成本、缩短训练周期。同时,这些战场数据还可以用来微调现有数据图像,通过视频生成模型等来可控地生成,大量的更多国别地区、更多场景、更多环境条件(比如,基于采集了晴天乌克兰战场数据来生成雨天的)高保真“类战场”仿真数据,以辅助模型的训练,从而让AI模型对目标的识别能力、决策能力进一步提升,可靠性更高,更具鲁棒性,堪称军用AI部署应用的“加速器”。 训练出更小的AI模型,利于无人装备上部署 石永亮形象地介绍道,对AI模型的训练来说,数据就像人类去图书馆里看书学习,“AI模型看的书就是这些数据集”。如果没有真实战场数据,仅仅依托于仿真数据来训练军用AI模型,就需要AI模型刻意学习各种可能的干扰、极端或罕见情况,这就像是学生“上考场”前要背完所有题型、看完所有书、做完所有模拟练习题——因此,AI模型必须做得很大,用强算力和多参数来保证精度。 他比喻道:“有了真实战场数据,就好比是我们在考前获得了考试重点。对于模型的开发和优化工作来说,真实战场数据就像考前老师给学生们划出的‘考点’。这些信息过滤掉了‘垃圾信息’和‘无效特征’,并针对‘考点’进行了强化,从而让AI模型的训练更加有的放矢。”
567 Folgen
Kommentare
0Sei die erste Person, die kommentiert
Melde dich jetzt an und werde Teil der 看航空早读|竖耳朵!来听航空新鲜事儿-Community!