中培IT学院

数据采集方法与建模过程培训方案

浏览:14次 作者:小编

培训背景

在现实世界的复杂情境下,数据集往往并非完美无瑕,它们普遍面临着不完整性、噪声干扰和一致性差的挑战,这使得它们未经处理就无法直接应用于知识挖掘。数据收集过程中,设备可能发生故障,人工录入数据时亦可能发生错误或,而在数据传输过程中出现的失误亦可能导致数据集出现错误的属性值。此外,数据中不同属性间单位的不统一,亦可能在分析过程中以及构建预测模型时造成精度上的损失。鉴于此,我们有必要深入探究和掌握数据采集的先进方法与工具,以确保数据的准确性和有效性。

 

培训收益

1、精通数据采集的多样化技巧

2、熟练掌握数据采集的完整流程及细化步骤

3、深入理解并灵活运用数据预处理的各种方法

4、熟练驾驭各类数据预处理工具,提升数据处理效率

 

培训对象

数据工程师、研发工程师、数据建模师、数据分析师

 

授课形式

体系讲解+经典案例分析+业务结合讨论+实操

 

日程安排

第一部分:数据采集工具与方法

时间

章节

授课内容

第一天

1.数据采集概述

① 数据的类型:结构化,非结构化,本地文件

② 数据的来源:数据库,互联网,本地文件,大数据平台等

③ 数据采集概念

④ 数据采集的方法

2.数据采集的方法及工具

① 爬虫

② 数据库链接器

③ 本地脚本:Python,SQL等

④ 大数据平台数据导出工具:Flume,Sqoop等

3.数据采集的高级工具 - ETL工具

① 免费:Kettle等

②收费:Datastage,Infomatica等

③ 大数据采集工具:Nifi等

4.案例介绍:某证券公司ETL项目

5.案例介绍:某证券公司爬虫项目

6.案例介绍:某证券公司大数据采集项目

部分:数据预处理基础

时间

章节

授课内容

第二天

1、数据预处理简介

① 什么是数据预处理

② 数据预处理的起源

③ 数据预处理的内容

a.数据抽取

b.更新抽取

c.全量抽取

数据转换

d.数据清洗

f.缺失值处理

填充方法:KNN,均值,中位数等方法对比

删除方法

不处理

g.异常值处理

平滑处理

删除处理

2.特征编码

① 二元化

② 独热编码

3.数据标准化

① min-max标准化(归一化)

② z-score标准化(规范化)

③ 正则化

4.数据集成

① Join

② 关联等


5.特征转化

 

① 特征变换

② 特征创建

a数据加载

b增量加载

c全量加载

案例实操:某证券公司数据预处理项目介绍



企业内训1 企业内训1
标签: 建模过程课程 数据采集课程 建模过程 数据采集 数据采集培训 建模过程培训 数据采集方法

上篇: 大数据应用培训方案

下篇: 数据分析赋能的数字化转型培训方案