这个程序员一手抖,停飞全美航班!美国联邦航空局竟甩锅临时工

原创 新智元

操作人员一手抖,数百万美元瞬间蒸发,这件魔幻的事,最近发生在了美国。


1月11日,美国民航史上发生了可以载入史册的一幕:因为NOTAM系统故障,全美航班遭遇大规模停飞。

据ABC采访的知情人士称,这次中断所造成的损失可能会高达数百万美元。

但谁能想到,背后原因,竟然是因为外包程序员手抖了一下。


系统「故障」,全美航班停飞

1月11日周三,美国东部时间凌晨2点左右,飞行任务通知系统NOTAM(Notice to Air Mission Systems)突然下线。

美国联邦航空管理局(FAA)不得发出声明,要求航空公司「停飞全美所有航班」。

与此同时,敦促相关工作人员尽快恢复系统并使其重新上线。

经过通宵排查,FAA在美东时间上午8点50表示,目前美国各地的航班正在逐步恢复,停飞已被解除。


虽然系统故障的时间相对较短,期间正在飞行或降落的航班也没有受到影响。

但是,航班全部停飞所引发的,是一场全国性的空中交通拥堵,而且至少需要一天时间才能疏通。

根据航班跟踪网站FlightAware的数据,由于系统崩溃,到傍晚时分,东海岸有超过1,300架航班被取消,9,000架航班延误,数千名旅客被迫滞留在机场。

毫不夸张地说,这是美国自2001年9月11日以来,首次全国范围内的航班停飞。

然而,经过FAA长达一周的调查之后所发现的原因,却让人有些哭笑不得——

有人不小心删除了一些重要文件。

这个人是谁呢?

注意看报告中对于主语的描述——「contract personnel」。

这……看来全世界出事,都是临时工背锅呀。


总之,这事儿是闹大了。现在这次由NOTAM崩溃导致的大型停飞事故,已经永远记录在了NOTAM的维基百科里。


不是蓄意的,只是手抖了

但是仔细看上面那份声明,我们能发现不少「华点」——

系统中的哪些文件被删除了?是否造成了某些数据永久的丢失?对于运行系统如此重要的文件,为何可以这么轻易地被删除?涉事合同工是如何处理的?


The Register已经向美国联邦航空局提出了上述问题,但美国联邦航空局只以官方声明回应了提问,并没有回答任何具体的问题。

出了这么大事,相关部门却语焉不详,当然引发了极大的舆论风波。

系统故障后,美国的立法者对美国联邦航空局发表了严厉的言论,120名国会代表联名写信,要求航空局给出明确解释。


这些代表们向交通部长Pete Buttigieg告状说,过去一年内,航班延误和大规模取消的情况一直有增无减,并且很多问题明明就在美国联邦航空局的控制范围内。


他们列出了满满两页的问题清单(共14个),要求Pete Buttigieg及其团队必须在1月25日前给出答复。

1. NOTAM系统中断的主要原因是什么?这个主要原因是什么?

2. 系统故障是什么时候发现的?系统错误持续了多长时间?

3. 在发生此类故障的情况下,FAA是否采取了任何预防措施,为NOTAM系统提供弹性和冗余?

4. 如果是这样,为什么这些努力失败了?如果不是,请解释您的系统为什么缺乏冗余,以及为何没有进行必要的分析,以确定此类冗余。

5. 在发现故障之前,系统是否提供了不可靠的信息?如果是这样,请提供不可靠或不正确数据输出实例的列表。

6. 在获悉系统中断后,美国联邦航空局是否进行了安全评估以确定潜在的安全影响,以帮助在主要和次要系统中断期间为决策提供信息?如果有,请提供此类活动的结果评估。如果没有,请提供FAA决策的依据。

7. 在得知NOTAM系统中断后,FAA采取了哪些行动来通知所有受影响的航空业利益相关者?这些流程是否有效且高效地运作?

8. FAA在过去两年中是否对NOTAM系统进行过安全评估?如果是,请提供每次安全评估的日期和结果。

9. 据报道,美国联邦航空局在东部时间上午9点左右开始恢复地面运营。此时,美国联邦航空局是否制定了临时解决方案,或者根本原因是否已完全解决?如果FAA实施了临时解决方案,请提供该计划的副本。

10. 影响范围有多大?有多少商业航班和乘客直接受到航班延误和取消的影响,有多少航班和乘客因连锁反应相关的间接问题而延误?此外,请提供因中断造成的延误给商业航空公司和乘客带来的成本损失。


NOTAM又是个啥?

1947年,负责协调国际航空旅行的联合国机构「国际民用航空公约」同意开始通过电信手段发布NOTAM,以协助保证飞机安全。

最初,系统被称为「飞行员通知」(Notices to Airmen),仿照的是提醒船长注意海上危险的海员通知(Notice to Mariners)。

目的也是为了提醒飞机驾驶员在航线上或特定地点的任何危险,比如大雪、火山灰或机场附近的鸟类等,并且还会提供关于关闭的跑道和临时空中管制的信息。

2021年,系统更名为「飞行任务通知」(Notices to Air Missions, NOTAM)。

总的来说,NOTAM的发布有多种原因,例如:

- 危险,包括航空表演、跳伞、放风筝、激光、火箭发射等

- 国家元首等重要人物的航班(有时涉及临时航班管制,TFR)

- 跑道关闭

- 军事演习导致的空域管制

- 高大障碍物上的灯不亮

- 在机场附近临时放置的障碍物(例如起重机)

- 成群的鸟类通过空域(BIRDTAM)

- 有关雪、冰和积水的跑道/停机坪状态的通知(SNOWTAM)

- 火山灰或其他粉尘污染的操作上的重大变化通知(ASHTAM)

此外,为了使沟通更有效率,NOTAM采用一种「缩写」的形式进行记录,通常使用大写字母发布。

下图就是伦敦希思罗机场的一份NOTAM报告。

在起飞之前,飞行员需要在纸上或iPad上查看NOTAM的信息。

而对于那些长途国际航班, NOTAM所提供的信息,甚至可以多达到200页。

看得出来,如此冗杂的信息,很容易会成为事故的潜在因素。

2017年7月,一架加拿大航空公司的飞机在旧金山机场的错误跑道上降落,在几秒钟内与其他四架飞机相撞。

该机场两条跑道中的一条跑道关闭的通知,已经在飞行前的NOTAM中被标记了出来——在27页的简报中的第8页——但被飞行员忽略了。

对此,美国国家运输安全委员会主席Robert Sumwalt在2018年的事故听证会上怒斥道:「NOTAM就是一堆垃圾,没有人注意到。」

的确,关键信息写在27页简报中的第8页上,确实有些难为飞行员了。

以至于三年后,一项全球运动被发起,旨在通过对具有百年历史的NOTAM系统进行改革,通过减少信息过载来提高航空安全。

以不可预知的顺序显示,并以几十年前构思的电报代码书写,大写的通知充满了拜占庭式的缩写……面对这份文件,即使是经验丰富的飞行员,也难免在过度劳累时出问题,尤其是对于母语非英语的人。


这份警告里说,香港国际机场在5月下旬将有不到两个小时的导航设备不可用,你能看出来吗

在美国,调查人员多年来一直警告说,数据的洪流可能会让飞行员不知所措,或者忽视重要信息。

飞行运营咨询公司OPSGROUP的创始人Mark Zee表示,你可以想象这对机组人员来说是多么令人沮丧:

「这里有200页垃圾。其中一份NOTAM可能会结束你的职业生涯,或者将整个飞机和所有乘客置于危险之中,而且你必须在200页中主动找到它。」

参考资料:

https://www.theregister.com/2023/01/21/faa_outage_reasons/

https://www.cnbc.com/2023/01/11/faa-orders-airlines-to-pause-departures-until-9-am-et-after-system-outage.html

https://www.reuters.com/world/us/why-us-flights-were-grounded-by-faa-system-outage-2023-01-11/

https://www.mysuncoast.com/2023/01/11/abc-news-ground-stoppage-caused-by-engineering-failure/