数据酷客创造营

最新消息

  • 2020年5月29日16:00 数据可视化学习计划在线交流;17:00 机器学习实践学习计划在线交流

  • 2020年5月22日16:00 数据可视化学习计划在线交流;17:00 机器学习实践学习计划在线交流

  • 2020年5月14日20:00 数据酷客直播机器学习十讲系列:第二讲 回归直播地址】【教室

  • 2020年5月14日20:00 数据酷客直播机器学习十讲系列:第一讲 机器会学习吗?直播地址】【教室

  • 2020年5月13日17:00 在线视频会议

数据酷客直播系列资料

学习计划

数据可视化

高扬( yangg@cookdata.cn) 吴佳佳( jiajiaw@cookdata.cn)

  • 从可视化的概念与简史入手,介绍数据可视化的原理、数据可视化的实践工具与元素,着重介绍标准统计图形的绘制和使用场景、基于算法模型的可视化分析,如何通过图形来获取模型的有效信息以及非结构数据的可视化.
  • 课程安排:
当前状态 时间 进度 内容 学习笔记撰写人 学习笔记截止日期
2020.05.18-2020.05.24 第一周 数据可视化基础 文思舟 2020.05.31 23:59:59
2020.05.25-2020.05.31 第二周 结构数据的基本图形 文思舟 2020.06.07 23:59:59
2020.06.01-2020.06.07 第三周 结构数据的复杂图形 谭世杰 2020.06.14 23:59:59
2020.06.08-2020.06.14 第四周 算法模型的可视化分析part1 李化峰
第五周 算法模型的可视化分析part2 陈红丽
第六周 非结构数据的可视化part1 蔡小秋
第七周 非结构数据的可视化part2 陈然

机器学习实践

张嘉田( jiatianz@cookdata.cn) 刘冬( dongl@cookdata.cn)

  • 课程包含数据预处理、回归模型、分类模型、集成模型、聚类和降维、特征选择和模型选择、机器学习流水线等内容,以Scikit-learn为实践工具,配套了大量数据应用案例。本课程Python版本为3.6,Scikit-learn的版本为0.19.
  • 课程安排:
当前状态 时间 进度 内容 学习笔记撰写人 学习笔记截止时间
2020.05.18-2020.05.24 第一周 机器学习介绍
数据预处理part1
蔡猛&田思云 2020.05.31 23:59:59
2020.05.25-2020.05.31 第二周 数据预处理part2
回归模型part1
李波&张宁宁 2020.06.07 23:59:59
2020.06.01-2020.06.07 第三周 回归模型part2
分类模型part1
蔡猛&田思云 2020.06.14 23:59:59
2020.06.08-2020.06.14 第四周 分类模型part2
聚类模型
李波&张宁宁
第五周 模型评价与参数调优
集成模型part1
蔡猛&田思云
第六周 集成模型part2
特征抽取与特征选择part1
李波&张宁宁
第七周 特征抽取与特征选择part2
降维part1
蔡猛&田思云
第八周 降维part2
机器学习流水线
李波&张宁宁

CapStone项目

  • CapStone项目主题安排表
主题 文思舟 谭世杰 李化锋 陈红丽 蔡小秋 陈然 李波 蔡猛 田思云 张宁宁
数据可视化-分析-Netflix影视节目
数据可视化-分析-食物偏好
数据可视化-分析-酒店预订需求
数据可视化-研究-热力图
机器学习实践-回归主题
机器学习实践-分类主题
  • 数据可视化(主题二选一)

    • 【研究类主题】请选择一种图形,借助学习的理论和实践知识撰写一份报告探索图形的历史起源、组成要素,分析图形的使用场景以及代码实现细节.报告采用Jupyter Notebook的格式,须包含文字和相关代码.

      • 示例:选择热力图,分析热力图的来龙去脉和组成结构,聚焦使用热力图展现机器学习模型评价中的混淆矩阵的使用场景,分析混淆矩阵在Scikit-learn和Yellowbrick两种库中的实现方式,比较绘图源代码的异同.
    • 【分析类主题】请使用数据可视化手段对数据集进行探索性分析,并撰写一份分析报告.报告采用Jupyter Notebook的格式,须包含文字和相关代码.报告的具体要求如下:1,包含结构化数据和非结构数据的可视化内容;2,可视化图形种类不少于4种,为了便于分析,可引用外部数据集;3,阐明使用某种类型图形进行可视化的原因,并对可视化的结果进行分析描述.请从下列数据集中选择一个开展分析:

  • 机器学习实践(主题二选一)

    • 【分类主题】在线广告中,点击率(CTR)是评估广告效果的重要指标,随着机器学习技术的不断发展,通过机器学习方法构建自动广告 点击预测系统也变得越来越普及. 我们收集了 Avazu 公司一段时间内 的广告点击数据,请利用机器学习方法训练CTR预估模型,并完成相应的数据分析报告. 报告采用 Jupyter Notebook 的形式,需要包含 建模流程文字描述和代码.

    • 【回归主题】 汽车是人们常用的交通工具之一,在汽车交易市场中,价 格是买家们最关心的问题,借助于机器学习技术可以帮助人们预测汽 车的交易价格. 我们收集了一家汽车交易平台的交易数据,请利用自 己所学知识对数据做分析,并使用机器学习方法建立汽车价格的预测 模型,完成相应的数据分析报告. 报告采用 Jupyter Notebook 的形式, 需要包含建模流程文字描述和代码.

学习笔记指南

易读性. 在观看学习课程视频的时候,请认真记录老师讲解的内容。在此基础上,组织完整的语句形成学习笔记,杜绝简单的摘抄和罗列. 笔记的内容对于初学者是友好的,容易理解;

完整性. 笔记内容应包含本章节的主要知识点,需要加入自己的阐述和理解,可以做适当的延伸,杜绝机械的重复. 使用多种展现形式(如代码、图片)来丰富学习笔记是欢迎的;

规范性. 学习笔记使用外部的资料需要注明引用来源,学习笔记以Word格式/Markdown格式文档提交. 课程助教会评审提交的学习笔记,反馈评审意见. 学习笔记在数据酷客平台发布前 ,需要根据评审意见进行优化.