大数据分析遵循以下五个步骤来分析任意大数据集:
数据收集
数据存储
数据处理
数据清洗
数据分析
数据收集
这包括识别数据来源并从中收集数据。数据收集遵循 ETL 或 ELT 流程。
ETL – 提取、转换、加载
在 ETL 流程中,生成的数据首先转换为标准格式,然后加载到存储中。
ELT — 提取、加载、转换
在 ELT 流程中,数据首先加载到存储中,然后转换为所需格式。
数据存储
根据数据的复杂性,可以将其移动到存储,如云数据仓库或数据湖。商业智能工具可以在需要时访问它。
数据湖和数据仓库
数据仓库是一个优化的数据库,用于分析来自事务系统和业务应用程序的关系数据。数据结构和架构已预先定义,以优化进行快速搜索和报告。数据经过了清理、丰富和转换,以充当用户可信任的“单一事实来源”。数据示例包括客户资料和产品信息。
数据湖则不一样,因为它可以存储结构化和非结构化数据,而无需进一步处理。捕获数据时不会定义数据或架构的结构,这意味着您可以存储所有数据,而无需小心设计,这在数据的未来使用情况未知时特别有用。数据示例包括社交媒体内容、物联网设备数据和移动应用程序中的非关系数据。
组织通常需要数据湖和数据仓库来进行数据分析。 AWS Lake Formation 和 Amazon Redshift 可以满足您的数据存储需求。
数据处理
当数据到位时,必须对其进行转换和组织,以便从分析查询中获得准确的结果。有不同的数据处理选项可执行此操作。方法的选择取决于可用于数据处理的计算和分析资源。
集中处理
在托管所有数据的专用中央服务器上执行所有处理工作。
分布式处理
数据分布并存储在不同的服务器上。
批处理
数据会随着时间的推移而累积,并分批处理。
实时处理
数据将持续处理,计算任务将在数秒内完成。
数据清洗
数据清洗涉及清理任何错误,如数据重复、不一致、冗余或格式错误等。 它还用于过滤掉任何不需要的数据,然后进行分析。
数据分析
在这一步,原始数据将转换为可行见解。以下是四种类型的数据分析:
1.描述性分析
数据科学家分析数据以了解数据环境中已发生的事情或正在发生的事情。它的特征是数据的可视化,例如饼图、条形图、折线图、表格或生成的叙述。
2.诊断分析
诊断分析是一种深入或详细的数据分析流程,用于了解某些情况发生的原因。它的特征是技术,例如向下钻取、数据发现、数据挖掘以及关联。在每种技术中,都使用多个数据操作和转换来分析原始数据。
3.预测分析
预测分析使用历史数据准确预测未来趋势。它的特征是技术,例如机器学习、预测、模式匹配和预测建模。在每一种技术中,计算机均经过训练,能对数据中的因果关系进行逆向工程。
4.规范性分析
规范性分析将预测数据提升到新水平。它不仅会预测可能会发生的情况,还能为对结果的最佳响应提供建议。同时可以分析不同选择的潜在影响,并推荐最佳行动方案。它的特征是图形分析、模拟、复杂事件处理、神经网络和建议引擎。