-
Notifications
You must be signed in to change notification settings - Fork 2
/
Copy pathReadMe.txt
27 lines (16 loc) · 2.04 KB
/
ReadMe.txt
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
测试集以test开头,训练集以train开头。
——————————————————————————————————————————————————————————————————————————————————————————
1. stopword.txt为停用词表
2. test.txt 为测试用的数据
3. words.txt 不论是测试集还是训练集 新闻标题还是新闻正文 所有出现过的词(已去停词 去重 保留了df >= 4 && df <= 500 的词)——————————————————————————————————————————————————————————————————————————————————————————
4. test_body_tf.txt 为测试集新闻正文的词频统计 每一行为一条string 各个词与统计数字以空格分离 与
test_news_ids.txt相对应
5. test_news_ids.txt 为测试集新闻id
6. test_title_tf.txt 测试集新闻标题词频统计 每一行为一条string 各个词与统计数字以空格分离 与
test_news_ids.txt相对应
7. test_user_reads.txt 测试集用户浏览的新闻id 用户与新闻id之间以两个制表符“\t\t”间隔 新闻id之间以空格“ ”间隔
——————————————————————————————————————————————————————————————————————————————————————————
8. train_body_tf.txt 训练集新闻正文的词频统计 每一行为一条string 各个词与统计数字以空格分离 与train_news_ids.txt相对应
9. train_news_ids.txt 训练集新闻id
10. train_title_tf.txt 训练集新闻标题词频统计 每一行为一条string 各个词与统计数字以空格分离 与train_news_ids.txt相对应
11. train_user_reads.txt 训练集用户浏览的新闻id 用户id与新闻id之间以两个“\t\t”间隔 新闻id之间以“ ”间隔