2021-数据集成-Hw2-第二次作业说明
Hw2-第二次作业说明
- 路线一不建议做,但是也会根据工作量进行评分,自由扩展功能
- 路线二:
- 作业一:批处理集成 + 实时数据集成,批处理数据集成,找到一个简单的规律
- 作业二:
- 电商平台,提供比较丰富的数据源
- 整个业务框架,完成数据集成的部分
- 技术框架,并搭建(大部分工具安装即可)
- 项目提交:PDF
- 路径二提供DEMO
- 成本csv取消掉,log用流(消息中间件)的方式来推送,提交ip + port端口
- sqoop拉取到本地需要持久化。
- 从4月10日开始推,然后拉取数据,只需要拉取下来,然后尝试发现规律即可
- 下下周的时候做交流:包括拉取数据、数据分析找规律过程
- 数据
- 表数据已经发布
- 流式数据明天开始发布
- 核心是拿到数据,数据存储和数据分析
- 作业三:有问题直接问助教,6月份提交,然后要做matplotlib的部分
- 小作业:第一次小作业时将数据文件导入,然后做一个简单的数据分析,主要运行即可
- 路线三:金融知识图谱的构建与应用(4月中旬至少有一次)
1. 各小组分享和交流
- ip地址不一样,重新配置(调为一个网段):将nat修改为桥接
- hive没开启10000端口监听
1.1. 静态数据分析
- 思路
- 2019年基于区段的机器人流量的分段分析(查一些文献来完成)
- 捆绑销售(KNN分析特征相近、aprioir算法)
- 用户画像
- 分析点:
- 某一个商品在某个时间段大量下单
- 某一个时间段有大量商品下单(问题是不是在一个购物车内)
- 购买最多
- 商品复购率、热门产品
- 绘图:
- timestamp和item_id绘图,一个颜色是一个user_id(一个timestamp下单很多,但是可能是一个购物车内的)
- 其他技术点:
- Java:AtomicReference
- Flink:进行实时数据分析
- 问题
- 流数据USER_ID都是6位,静态数据里面USER_ID都是7位需要检查
- 流数据的时间是实际时间,数据库表是时间戳
- 静态数据有脏数据
1.2. 流数据分析
- 撞库机器人:
- 中位数不容易受到异常值影响,取中位数作为真人用户的正常频率
- 单一IP登录的成功率比整体IP登录的成功率低
- 抢单机器人:刷单频率
- 刷单机器人:
- 爬虫机器人:
1.3. 数据可视化
2021-数据集成-Hw2-第二次作业说明
https://spricoder.github.io/2021/05/01/2021-Data-Integration/2021-Data-Integration-Hw2-%E7%AC%AC%E4%BA%8C%E6%AC%A1%E4%BD%9C%E4%B8%9A%E8%AF%B4%E6%98%8E/