Skip to content

KalenGit/ccf2016_sougou

 
 

Repository files navigation

李恒超、李裕礞、王安然、钱凌飞、任璐

大连理工大学信息检索实验室

赛题描述

大数据精准营销中搜狗用户画像挖掘 赛题描述

重现实验

把原始数据 user_tag_query.10W.TRAIN 和 user_tag_query.10W.TEST 放在./data/目录下,然后运行run.sh 最后能生成 tfidf_dm_dbow_20W.csv,为方便大家阅读,代码已整理成最简洁的形式,该结果B榜成绩会在0.724左右。 建议在ubuntu环境下运行,windows环境下,也可以运行run_cv.ipynb

数据下载

https://pan.baidu.com/s/1bpGIfxX 提取码:kcnm

依赖

  • Anaconda 4.2.0(Python 3.5 version)
  • jieba 0.38
  • keras 1.1.0
  • xgboost 0.6
  • gensim 0.13.2

平台

ubuntu 16.04

硬件

本代码是在8core,i7CPU,8gb RAM 的电脑上开发的.总共运行时间大概需要5个小时

其他

如果觉得不错的话,欢迎大家点击右上角的star和fork,谢谢!

算法说明文档下载

我们参加的其他竞赛:

2nd Place Solution for SMP CUP 2016

1st Place Solution for 2016CCF大数据竞赛客户画像赛题(用户画像)

Tsinghua Data Science Winter School 2017 Link Prediction

About

ccf2016 sougou final winner solution

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Jupyter Notebook 91.5%
  • Python 8.4%
  • Shell 0.1%