登陆

章鱼彩票appios-大数据智能管理

admin 2019-05-18 265人围观 ,发现0个评论

数据办理或许很扎手。为了帮助您入门,咱们整理了一系列基础常识。

传统数据仓库中的数据办理一般担任数据的许多方面,例如:

  • 数据质量 - 耗费性数据应该有用。
  • 辨认PII元素。
  • 辨认要害数据元素。
  • 用户人物和拜访权限。

当您具有快速流入生态系统的数据和数据章鱼彩票appios-大数据智能管理时,最大的应战是办理数据。但是在大数据环境中,数据以揣度的运行时形式快速活动,办理数据的需求一般在运行时完成。咱们怎么判别数据是否包括PII,是否为有用数据,是否为要害数据,归于哪个域等?

假如在数据湖中,有来自各种内部或外部运用程序的3,000多个源,均匀每个包括100个元素,这意味着需求界说3 * 10 ^ 5个元素。要手动完成此意图,一般能够运用一些数据办理规矩,例如查找具有SSN信息的元素或检查事务规矩以检查元素的值是否精确。因而,假如章鱼彩票appios-大数据智能管理咱们构建能够智能地辨认数据办理规矩的算法,则能够完成大数据集的数据质量。

让咱们逐个评论怎么智能地构建这些规矩。

  1. 数据质章鱼彩票appios-大数据智能管理量规矩 - 其间一些规矩是:数据有用性,数据格局检查,SLA违规,Feed更改,数据精确性,数据完整性。而关于结构化数据,咱们能够界说数据结构,关于很多生成的数据,咱们需求在数据运动时揣度出值。每次进入时,其特点,类型,格局,抵达时刻(关于SLA)和最小 - 最大均匀值都能够存储在存储库中。数据办理团队能够不断验证成果,而且跟着时刻的推移,能够构建共同的元素存储库。
  2. 辨认PII - 能够预先构建PII或灵敏信息(如SSN,移动号码,邮政编码,州代码,银行帐户,信章鱼彩票appios-大数据智能管理用卡和与事务相关的税号)的一些规范形式,而且当数据处于运动状况时,能够依据这些预界说的形式验证元素。假如将aattern归为PII,则可将其标记为PII。这需求运用机器学习算法在存储库等级进行接连剖析,如线性回归,反常检测和逻辑回归。
  3. 辨认要害数据元素 - 这能够从数据的运用方法中取得。需求剖析构建在Hive,Spark,HBase和Cassandra上的日志并将其存储在存储库中,以构建CDE词汇表。
  4. 用户人物和拜访权限首要取决于数据归于谁。例如,客户数据,方针数据或财务数据?这能够从查找元素的称号(假如它们作为Feed的一部分)中取得。例如,假如元素的称号是“总帐”,那么它首要与财务数据类似。相同,假如数据包括称号,ID和/或地址,则首要是客户数据。能够开发许多方法来查找数据域。相同,需求对成果进行接连剖析和验证,以确认终究的数据域。运用数据域,灵敏信息和CDE的常识,咱们能够依据人物界说运用拜访权限,例如谁能够检查PII数据。

尽管上述理论看起来很简章鱼彩票appios-大数据智能管理单,但它们需求内部的数据常识,主数据,范畴常识和安排中运用的缩写的常识。咱们不需求从所有这些常识开端,咱们能够在辨认它时供给算法数据。要开发此结构,数据办理团队有必要做的仅有工作便是具有安排数据的常识。为了完成更好的数据办理技能,数据科学家和数据工程团队swot分析发挥了重要作用。

在职业层面正在进行许多尽力来构建此类产品并向企业或安排供给服务。

请关注微信公众号
微信二维码
不容错过
Powered By Z-BlogPHP