概念&定义

  • 数据:在系统中以电子形式存储且共享的事实,可以是测量值,被编码的信息,或者对现实的描述
  • 数据仅表示对象,事件和概念被选取的特征
  • 数据是形式化的并具有上下文,其含义取决于他的构成方式
  • 创建数据的过程是透过有关数据创建的决定而产生的;解释数据是透过理解数据创建相关决定的解释。其中包含创建时的噪音和理解时的噪音
  • 数据表示现实的方式直接影响了我们对表示内容的理解,我们对数据质量的期望大多是针对表现方式的
  • 数据 + 上下文(结构,元数据等) 约等于 事实
  • 数据标准是为了使数据在表述上和意义一致
  • 数据质量标准是关于质量维度直接相关的数据预期期望的主张
  • 信息是赋予意义和目的的数据

  • 数据生产者是创建数据的人和系统
  • 数据消费者是在信息生命周期任何时刻使用数据的人员和系统
  • 数据代理是数据管理的中间人,不产生数据,但是使得消费者能使用数据
  • 数据管家&数据管家工作:应当了解数据,帮助他人使用了解数据,并改善数据的状况
  • 数据所有者:知道拥有哪些数据,使用数据推进组织目标,并减少数据使用的相关风险
  • 数据治理的目标包括更好的决策,降低运营摩擦和保护数据的利益相关者的需求
  • 数据质量项目组(DQ组)指正式承担数据质量活动的人员,包括数据评估测量,数据质量问题管理和推动改进数据质量。

  • 数据管理指指定和执行用来获取、控制、保护、提供和增强数据价值的计划、策略、实践和项目的业务职能
  • 数据库:计算机中保存的数据的结构化集合
  • 数据仓库:从公司内部广泛的各种来源累计而成,并用于知道经营决策的数据的大存储库
  • 数据资产:重点在于数据为组织带来的价值
  • 数据集:将被测量的数据集合的一个通用方式
  • 原始系统:最初创建数据的场所
  • 直接源系统:数据仓库从该系统直接接受数据
  • 源数据指尚未在数据仓库中处理的数据,数据指保存在数据库中的数据
  • 记录系统是负责保持一组实体的最完整的 最值得信赖的表示系统,这样的记录被称为黄金记录,系统也被称为事实系统
  • 主数据管理:对主数据值的空值,以便对有关必不可少的业务实体的最准确真实及时,相关版本的跨事实系统进行一致,共享与上下文相关的使用。
  • 数据模型是为理解数据能被如何组织或结构化而创建的,是数据内容和数据实体、属性之间关系的可视化表示
  • 数据模型定义了数据结构和内容,称为了理解数据内容,使数据得以存储和方位的工具,包含数据元数据
  • 概念数据模型:展示实体(观念或逻辑概念),几乎没有属性细节
  • 逻辑数据模型:包括概念所需要的属性细节,并且定义实体内部和相互之间的关系细节
  • 物理数据模型:数据在数据库中的物理存储方式
  • 元数据:关于数据的数据,为了使组织对数据具有共识而记录下来的显性知识
  • 元数据对于数据的管理,使用和质量都很关键,也是测量数据质量的关键。
  • 数据的价值是通过人们可以从中学到的东西,以及他们能够如何使用而提现的。
元数据、风险和数据的投资回报 知识、期望、风险
  • 隐形知识是存在头脑中非正式的知识;显性知识是客观的被记录下来,可分享的知识,如元数据
  • 数据链、信息链指为不同用途将数据从组织内或组织间溢出移动到另一处的流程和系统的集合(数据网)
  • 数据谱系包括原点数据和数据在经过多个系统和用于不同用途时发生的移动和变化

  • 数据质量的高低代表了该数据满足数据消费者期望的程度
  • 数据质量维度:数据拥有的与众不同的特征的通用,可测量的类别
  • 测量基于比较,提供一种表示数量,事务大小或距离的通用语言
  • 数据是物理对象的物理特征的测量结果;维度是一个状况、问题或事务的一个方面或特征
  • 有效测量的特点:
    • 测量必须可理解和可解释
    • 测量必须可重复
    • 测量必须有目的
  • 数据质量评估的目的:找出数据错误和错误的数据元素,并测量各种数据驱动的业务流程的影响。
  • 数据质量评估:针对评估组织内数据的状况和值的一组流程
  • 特定数据质量指标:定义了被测量的特定数据,以及正在测量的是关于它的什么特征
  • 测量类型是数据质量维度内的一个类别,允许针对适合该类型要求的标准的各种数据,执行一种可重复的策略模式
维度【测量的原因】(WHY) 完备性 及时性 有效性 一致性 完整性
测量类型【测量的方法】(HOW) 对数额字段的汇总数据与控制记录提供的汇总数据进行比较 对数据传输的实际时间和计划时间进行比较 对输入数据与有效枚举进行比较 对值的分布于过去的分布进行比较 确认表间记录层次的引用的完整性,找出没有父记录的孤儿记录
特定数据质量指标【测量的内容】(WHAT) 索赔记录的总金额相对控制报表的总额的结余 记录在某个协议中索赔文件传递时间的范围 收入代码针对收入码表的有效性 索赔表中与该字段以往的总体一致的调整代码的百分比分布 所有的有效过程代码都在过程代码表中
  • 数据剖析:用于发现和描述数据集的重要特征的特定数据分析
  • 数据质量问题是数据阻碍消费者使用这个数据的一个状况
  • 数据问题管理是消除或减轻方案有效的利用数据的障碍物的影响的过程
  • 合理性检查:基于我们对它的了解,这个数据是否有意义
  • 数据质量阈值是测量可接受的限度的一个数字表示
  • 过程控制:用来吧流程保持在边界内的方法,使过程的变化最小化的行为
  • 联机数据质量测量:是对数据的持续测量。