Skip to content

重庆大学2024年秋大数据架构与技术课程,本仓库基于学校提供的原开源项目进行了优化和扩展,包含最新的工具版本、简化的环境配置流程、以及对更便捷高效的开发工具(如 Jupyter Notebook)的全面支持。

Notifications You must be signed in to change notification settings

CQULeaf/Big-Data_Course_Resources

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

43 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

重庆大学大数据架构与技术课程

本仓库包含重庆大学2024年秋大数据架构与技术课程的实验资源,基于学校提供的原开源项目进行了优化和扩展,包含最新的工具版本简化的环境配置流程、以及对更便捷高效的开发工具(如 Jupyter Notebook)的全面支持。


快速导航


优化与扩展概要

在本人最初跟着原有开源教程进行实验时,发现原教程因时间久远而普遍出现链接失效版本老旧库包弃用等问题,同时步骤方面也有一些可供改善与优化的地方,故建此仓库解决上述问题。

  1. 最新的工具版本支持

    • 替换原项目中的过时工具,使用最新版本的 Ubuntu (22.04)、Hadoop (3.3.6)、Spark (3.5.1)等,避免兼容性问题。
    • 适配新的开发环境,推荐使用 Ubuntu 22.04 LTS (代替 CentOS)和 OpenJDK 1.8。
  2. 简化环境配置

    • 专门提供更详细的环境配置指南,从学生视角出发帮助同学们更快更好搭建可运行环境。推荐配合原项目操作指南使用。
    • 全程命令行操作,避免使用图形界面引发性能问题。如果对命令行操作不习惯,推荐使用辅助工具:Xshell 7 与 Xftp 7。
  3. 引入更便捷高效的开发工具

    • 全面采用 AnacondaJupyter Notebook,简化开发流程,优化学习体验。
    • 支持交互式编程、数据可视化、Markdown 文档记录等功能。
  4. 逐步优化的实验流程

    • 每个实验均提供对应的详细说明及其相关代码,覆盖从环境搭建到具体应用的完整流程。
    • 最终呈现的所有内容均通过了身边朋友以及同学的验证,可以放心地跟着指南一步步进行操作。

资料分布说明

实验一:搭建分布式环境

主要内容

  1. 完成 Hadoop & Spark 单机版以及分布式环境搭建。

核心文件


实验二:词频统计

主要内容

  1. 配置好 AnacondaJupyter Notebook
  2. 使用 VSCode 远程连接至云服务器进行开发。
  3. 使用单机版 Hadoop & Spark 并结合 Jieba 分词完成词频统计。
  4. 对统计结果可视化呈现。
  5. 换用 Bert 分词完成词频统计并加以对比分析。

核心文件


实验三:手写数字识别

主要内容

  1. 使用分布式 Hadoop & Spark 完成手写数字识别大数据分析任务。
  2. 对于未经预处理的数据使用KNN进行可分性测试
  3. 使用如 OpenCV 等进行数据预处理
  4. 使用机器学习方法如逻辑回归LR随机森林RF进行模型训练并对比分析。
  5. 使用深度学习方法如卷积神经网络CNN进行模型训练以提高准确率。
  6. 导出训练的模型并植入开发的网页中。

核心文件

  • 实验三环境搭建指南
  • 数据集可分性测试:ModelBasedKNN.ipynb
  • 数据预处理:DataPreprocessing.ipynb
  • 机器学习模型训练:LRStandalone.pyRFLocal.ipynb
  • 深度学习模型训练:ModelBasedCNN.ipynb
  • 开发的网页:handwrittenWords_frontend

About

重庆大学2024年秋大数据架构与技术课程,本仓库基于学校提供的原开源项目进行了优化和扩展,包含最新的工具版本、简化的环境配置流程、以及对更便捷高效的开发工具(如 Jupyter Notebook)的全面支持。

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages