数据探索

点击量:76

数据探索过程

  1. 确定目标
  2. 描述问题
  3. 数据分析清洗
  4. 创建数据集
  5. 选择特征、模型测试
  6. 回答问题
  7. 提供解决方案

数据分析步骤

  1. 理解数据来源及结构
  2. 数据检验
    • 数据类型
      包含字符、逻辑、数值(数值有效范围)、特殊数据(电话号码、信用卡号)
    • 数据错误、冗余
    • 缺失值
    • 物理解释
  3. 可视化探索

数据获取、分析和解释过程中存在偏差
来源:

  • 隐私保护所采取的一系列脱敏编码
  • 样本采样偏差(层次结构与源数据不统一)
  • 调查中的被调查人行为偏差
  • 缺失值或错误值的估算偏差

数据噪声

数据噪声并不一定都是无用的,数据的噪声也蕴含信息,需要根据实际的问题解决目标进行分析,通常情况下最好将源数据全部保留

数据检验的四个标准

  • 完整性

是否涵盖了问题中的所有数据

  • 一致性

类似于数据库,多个数据之间是否相互满足约束保证约束的一致性

  • 准确性

是否正确精准地描述

  • 可解释性

是否与物理世界解释相符


知识共享许可协议
本作品采用知识共享署名-非商业性使用-相同方式共享 3.0 中国大陆许可协议进行许可。

发表评论

电子邮件地址不会被公开。 必填项已用*标注