[TOC]
本次中期考核为实现一个图数据挖掘算法可视化系统,用直观的方式展现出图拓扑结构,拓扑属性,可能存在的链接关系等。使得用户可以直观地了解已有的拓扑结构和使用的预测算法,发现隐藏的特征,关系等。( ̄y▽, ̄)╭
-
内容一:将提供的数据作为系统的内置数据集,使用类似如节点展开(节点也不一定只有人)的形式,可视化出图拓扑的基本属性 ( o=^•ェ•)o ┏━┓
- 整体属性:节点数,边数,有向图或者无向图,网络密度,连通分支
- 节点属性:邻居数量,社会属性
- 自行拓展,如使用柱状图统计出入度在所有节点中的分布 = ̄ω ̄=
-
内容二:搭建Web服务器与前端组进行交互,使用Python框架搭建后台,要求后台架构合理,鲁棒性高。
- 有用户系统,访问者有游客状态和登陆状态两种模式,后者有全部功能权限,前者有部分功能权限。(ง •_•)ง
- 使用数据库或结构化文件进行数据的存储
- 有初步反爬虫机制,防止恶意爬取数据。同时有外国的ip登陆本系统自动发邮件给管理员。
- 有日志系统,要求将后台的重要信息打印并保存于文件。当系统出现恶性错误,自动发邮件给管理员。
- 考虑网络安全,防止外部攻击,确保服务器稳定性。༼ つ ◕_◕ ༽つ
-
内容三:挖掘图拓扑的隐藏特征关系
-
使用多种算法进行图数据挖掘
-
挖掘内容包括但不限于节点重要性,节点相似性,可能存在的边,可能存在的社区等信息
-
可以根据挖掘出的内容自行进行功能的拓展,例如好友推荐,个人或社区影响力排序榜单,验证六度理论等功能 o(////▽////)q
-
对不同算法所挖掘出的结果尽可能要有多维度的结果评估
-
如有时间,可以将社会属性和拓扑结构结合起来进行挖掘
-
内容四:用户可以自主上传或改变自定义的图拓扑结构 (~o ̄3 ̄)~
- 用户可以按照一定的格式要求,上传数据,进行可视化展现和数据挖掘
- 用户可以使用合理的交互方式,为已有的图拓扑结构进行节点,边,属性的添加和删除
注:
- 标黑内容为进阶内容,根据人员和时间安排灵活处理。
- 最终实现效果可部分参考:https://www.scholat.com/home.html?type=8
- 标准一:项目在开头阶段必需制定相应的文档(10分)
- 数据挖掘在开始阶段需要有相应的开发文档
- 参与总体文档的编写
- 有具体的开发进度文档,必须规定在什么时候完成什么功能
- 标准二:项目开发能力(项目分工、代码实现情况)(10分)
- 功能划分是否明确、代码架构是否冗余混乱
- 变量函数命名是否规范、代码封装性是否合理
- 代码是否具有较强的可移植性
- 标准三:GitHub合作能力(版本管理方式)(10分)
- 远程仓库的代码的克隆
- 多人协作
- 提交代码至远程仓库
- 版本回退
- 注释的合理性
- 标准四:数据库设计(10分)
- 设计数据库存储数据集
- 设计数据库存储数据集
- 表设计需要避免数据冗余
- 标准五:算法设计(15分)
- 算法接口统一(可模仿sklearn的标准)
- 算法实现合理
- 代码实现考虑时空复杂度、可读性、复用性
- 标准六:与前端进行交互(10分)
- 使用python搭建后台
- 设计访问接口,与前端进行合理的交互
- 编写接口文档
- 标准七:可视化的实现(15分)
- 可视化展示效果好,用户交互合理
- 在结果可视化能够针对方法进行可视化,
- 标准八:扩展功能(10分)
- 在完成上述功能的基础上,进行功能的扩展
- 根据扩展的功能给予一定的加分
- 标准九:演讲能力(三分钟演讲)(10分)
- 是否超时
- 演讲内容是否安排合理
- 阐述内容条理是否清晰连贯
- 演讲小动作是否明显
- 演讲是否缺少与听众的交流
20级数据挖掘组全体成员,前端组成员2名,设计组成员1名
请在8.1号晚24: 00前将以下要求的文档打包压缩,命名为"数据挖掘组_中期考核",发送到邮箱zpl010720@qq.com。
文件清单:
- 项目文件一份
- 源代码文档一份
- 答辩ppt一份
- 设计文档一份
- 需求文档一份
- 进度文档一份
- 接口文档一份
- 操作说明书一份
- 演示视频一份
暂定8.2号晚上通过腾讯会议进行答辩,详细时间请留意后续通知。
届时请准备好以下内容:
-
答辩ppt
-
演示视频
-
可运行的系统