数据湖架构面向多数据源的信息存储,包括物联网在内。大数据分析或归档可通过访问数据湖处理或交付数据子集给请求用户。但数据湖架构可不仅仅是一个巨大的磁盘而已。
尽管IT部门起初更多担忧的是数据湖的成本,但数据持久性和安全却是需要优先考虑的因素。很多选择都能交付一个合理的成本,但并非所有都能满足数据湖的长期存储需求。挑战就在于数据湖中很多数据永远不会删除。这种数据的价值在于它要那来分析以及和年复一年的数据进行比对,这将抵消其容量成本。
这就是所谓的数据持久性对于那种一经存储未来5-10年都有价值的数据,它必须是可读的。所有形式的介质都将随时间推移降级。数据湖存储系统必须通过持续的检查避免这种降级。如果发现有损坏或降级的数据集,系统就会利用复制或纠删码制造副本。
在数据湖架构中,信息安全作为另一项挑战往往被人忽视。相比于其它,这种类型的存储安全要更加重要。数据湖架构从定义上看是将所有的鸡蛋放在一个篮子中。而如果其中一个存储库的安全被破坏,那么未知方将可能访问所有数据。很多数据都以已于读取的格式存储,像是JPEG、PDF文件如果你的数据湖架构不够安全,那么信息损失很容易。
因此建议实现多个级别的安全控制,例如:
加密数据湖中所有数据。由数据类别和单独的键值生成的加密将有效的限制数据泄漏,并不影响应用访问。
数据湖中所有数据副本应离线存储于另一位置。
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
声明: 此文观点不代表本站立场;转载须要保留原文链接;版权疑问请联系我们。