NASA决定全面转向云端数据存储,此举到底有何利弊?
去年,NASA 选择了亚马逊云服务(AWS)来托管地球科学和 ESDIS 信息系统的数据。
新数据库可方便地整理相关任务信息,预计存储需求会从当前的 32PB 增长到近 250PB 。
然而除了额外的容量需求,该机构似乎忘记了 AWS 的数据访问和检索成本,即所谓的“出口费用”。
【资料图,来自:NASA】
当将数据从云端移动到另一个区域(比如供科学家进行分析的本地工作站)时,NASA 将不得不在按月收取的服务费的基础上,再支付一笔额外的费用。
换言之,检索的数据越多,相关的开销旧越大。目前该机构将数据本地存储在 12 个分布式的活动档案中心(DAAC)中,但希望在未来几年完成全面的云端迁移。
初次转移计划已在今年一季度开展,但相关数据都来自何处、NASA 又是如何精确到 215PB 的呢?
据悉,NASA 是根据该机构即将开展的 15 次访问来估算的,预计每日将产生 100TB 以上的信息。
其中包括 NASA-ISRO 合成孔径雷达(NISAR)和地表水与海洋地形(SWOT)卫星的数据,这部分将率先上传到 Earthdata Cloud 。
若该机构可以负担得起这部分数据出口费用,那将所有这些数据存储在云端(而不是像现在这样分散),将对 NASA 研究人员大有裨益。
【2017 ~ 2025 数据增长量(蓝色)/ 提取速度(橙色)】
遗憾的是,根据 NASA 监察长办公室在今年 3 月份发布的一份审计报告,相关模拟并不能准确地得出 ESDIS 和 EOSDIS 的出口费用将有多高。
若 NASA 出于成本控制的原因而限制数据的输出量,此举也将带来一些潜在的风险,即科学数据对最终用户的可访问性将大大地降低。
基于此,该报告提出了三点建议:
首先,一旦 NISAR 和 SWOT 投入运营并提供了足够的数据,NASA 必须完成独立的分析,以确定云迁移和保障当前 DAAC 运营的长期财务可持续性。
其次,适当纳入机构指导,以在制定数据管理计划的早期阶段,做好 ESDIS 和 OCIO 的协调工作。
第三,确保在 DAAC 分类过程中考虑所有适用的信息类型,在确定影响级别时考虑适当的前提,并对相关流程做到标准化。