大數據安全是指在存儲、處理和分析數據集的過程中,為保護數據免受惡意活動侵害而采取的任何措施,這些數據集太大、太復雜,無法由傳統數據庫應用程序處理。大數據可以采用結構化格式(組織成包含數字、日期等的行和列)或非結構化格式(社交媒體數據PDF 文件電子郵件、圖像等)。不過,據估計,高達90%的大數據是非結構化的。

大數據的力量在于它往往包含隱藏的見解,可以改善業務流程、推動創新或揭示未知的市場趨勢。由于分析這些信息的工作量通常結合了敏感的客戶或專有數據以及第三方數據源,因此適當的數據安全至關重要。聲譽受損和巨額財務損失是大數據泄露和泄露的兩個主要后果。  

在嘗試保護大數據時,實際上有三個關鍵階段需要考慮:

  1. 確保數據從源位置移動到存儲或實時提?。ㄍǔT谠贫耍r的安全傳輸
  2. 保護大數據管道存儲層中的數據(例如 Hadoop 分布式文件系統)
  3. 確保輸出數據(如報告和儀表板)的機密性,這些數據包含通過 Apache Spark 等分析引擎運行數據所收集的信息

這些環境中的安全威脅類型包括不適當的訪問控制、分布式拒絕服務 (DDoS) 攻擊、生成虛假或惡意數據的端點,或大數據工作負載期間使用的?庫、框架和應用程序中的漏洞。

保護大數據的挑戰 

由于涉及的架構和環境復雜性,大數據安全面臨許多挑戰。在大數據環境中,分布式計算環境中存在各種硬件和技術的相互作用。以下是一些挑戰示例:

這些挑戰是對保護任何類型數據所面臨的通常挑戰的補充,而不是替代。 

十大大數據安全最佳實踐 

在了解所涉及的挑戰之后,讓我們繼續討論一些加強大數據安全的最佳實踐。 

1.加密

可擴展的靜態數據和傳輸數據加密對于跨大數據管道實施至關重要??蓴U展性是這里的關鍵點,因為除了 NoSQL 等存儲格式外,您還需要跨分析工具集及其輸出加密數據。加密的強大之處在于,即使威脅行為者設法攔截數據包或訪問敏感文件,實施良好的加密過程也會使數據無法讀取。?

加密

2.用戶訪問控制

正確控制訪問可以有效防范一系列大數據安全問題,例如內部威脅和過度特權。基于角色的訪問有助于控制對大數據管道多層的訪問。例如,數據分析師應該有權訪問 R 等分析工具,但他們可能不應該訪問大數據開發人員使用的工具,例如 ETL 軟件。最小特權原則是訪問控制的一個很好的參考點,它僅將訪問權限限制為執行用戶任務所必需的工具和數據。?

3.云安全監控

大數據工作負載本身就需要巨大的存儲量和處理能力,因此大多數企業都可以使用云計算基礎設施和服務來處理大數據。但是,盡管云計算具有吸引力,但暴露的 API 密鑰、令牌和錯誤配置都是值得認真對待的云風險。如果有人將 S3 中的AWS數據湖完全開放并可供互聯網上的任何人訪問,該怎么辦?使用自動掃描工具可以快速掃描公共云資產以查找安全盲點,從而?更輕松地降低這些風險。

4.集中密鑰管理

在復雜的大數據生態系統中,加密的安全性需要采用集中式密鑰管理方法,以確保有效地以策略驅動的方式處理加密密鑰。集中式密鑰管理還可以控制從創建到密鑰輪換的密鑰治理。對于在云中運行大數據工作負載的企業來說,自帶密鑰 (BYOK) 可能是最佳選擇,它允許集中式密鑰管理,而無需將加密密鑰創建和管理的控制權移交給第三方云提供商。?

5.網絡流量分析

在大數據管道中,數據從許多不同的來源獲取,包括來自社交媒體平臺的流數據和來自用戶終端的數據,因此流量不斷流動。網絡流量分析可以查看網絡流量和任何潛在異常,例如來自物聯網設備的惡意數據或正在使用的未加密通信協議。?

網絡流量分析儀的主要功能

6.內部威脅檢測

2021 年的一份報告發現,98%的組織感到容易受到內部攻擊。在大數據背景下,內部威脅對敏感公司信息的機密性構成嚴重風險。有權訪問分析報告和儀表板的惡意內部人員可能會向競爭對手透露見解,甚至出售其登錄憑據。進行內部威脅檢測的一個好方法是檢查常見業務應用程序(例如 RDP、VPN、Active Directory 和端點)的日志。這些日志可以揭示值得調查的異常情況,例如意外的數據下載或異常的登錄時間。  

7.威脅搜尋

威脅搜尋會主動搜索網絡中未被發現的威脅。此過程需要經驗豐富的網絡安全分析師的技能,利用來自現實世界攻擊、威脅活動的情報或關聯來自不同安全工具的發現來制定有關潛在威脅的假設。具有諷刺意味的是,大數據實際上可以通過揭示大量安全數據中隱藏的見解來幫助改善威脅搜尋工作。但作為提高大數據安全性的一種方式,威脅搜尋會監控數據集和基礎設施,以查找表明大數據環境受到威脅的工件。 

8. 事故調查

出于安全目的監控大數據日志和工具會產生大量信息,這些信息通常會出現在安全信息和事件管理 (SIEM) 解決方案中。鑒于大數據環境中通常會高速生成大量數據,SIEM 解決方案容易出現誤報,分析師會被太多警報淹沒。理想情況下,某種事件響應工具可以提供安全威脅的背景信息,從而實現更快、更高效的事件調查。?

9.用戶行為分析

用戶行為分析比內部威脅檢測更進一步,它提供了一套專用的工具來監控用戶在與之交互的系統上的行為。通常,行為分析使用評分系統來創建正常用戶、應用程序和設備行為的基線,然后在偏離這些基線時向您發出警報。借助用戶行為分析,您可以更好地檢測內部威脅和受損的用戶帳戶,這些威脅到大數據環境中資產的機密性、完整性或可用性。 

對用戶行為的擔憂

10.數據泄露檢測

未經授權的數據傳輸的可能性讓安全主管夜不能寐,尤其是當數據泄露發生在大數據管道中時,因為大數據管道中可能復制大量潛在敏感資產。檢測數據泄露需要深入監控出站流量、IP 地址和流量。首先要防止數據泄露,需要使用能夠發現代碼中的有害安全錯誤和錯誤配置的工具以及數據丟失防護和下一代防火墻。另一個重要方面是教育和提高組織內部的意識。

大數據安全始于代碼層面

框架、庫、軟件實用程序、數據提取、分析工具和自定義應用程序 — 大數據安全始于代碼級別。?無論您是否實施了上述成熟的安全最佳實踐,代碼中的有害安全錯誤都可能導致數據泄露。?

因此,如果您是負責組織大數據管道的開發人員或工程師,您需要一個解決方案來快速準確地掃描專有、自定義和開源代碼,以查找環境中暴露的 API 密鑰、令牌、憑據和錯誤配置。從安全的代碼庫開始,大數據安全的挑戰就變得不那么可怕了。 

文章來源:10 Essentials for Big Data Security

上一篇:

身份和訪問管理的ABC

下一篇:

5 種不良編碼習慣,導致源代碼暴露
#你可能也喜歡這些API文章!

我們有何不同?

API服務商零注冊

多API并行試用

數據驅動選型,提升決策效率

查看全部API→
??

熱門場景實測,選對API

#AI文本生成大模型API

對比大模型API的內容創意新穎性、情感共鳴力、商業轉化潛力

25個渠道
一鍵對比試用API 限時免費

#AI深度推理大模型API

對比大模型API的邏輯推理準確性、分析深度、可視化建議合理性

10個渠道
一鍵對比試用API 限時免費