Skip to content

Commit

Permalink
gutenberg files processed for two authors
Browse files Browse the repository at this point in the history
  • Loading branch information
shbhrsaha committed May 10, 2014
1 parent 61b50b7 commit b57cd40
Show file tree
Hide file tree
Showing 85 changed files with 28,585 additions and 2 deletions.
4 changes: 2 additions & 2 deletions pipeline.py
Original file line number Diff line number Diff line change
Expand Up @@ -7,9 +7,9 @@

logging.basicConfig(format='%(levelname)s:%(message)s', level=logging.INFO)

CSV_FILENAMES = {"nweekly" : "data/nweekly.csv"}
CSV_FILENAMES = {"gutenberg" : "data/gutenberg.csv"}
OUTPUT_FOLDER_NAME = "slda_input_files/"
NGRAM_PARSERS = ['pos',"""'etymology',"""'word','word_count','syllable','syllable_count','meter']
NGRAM_PARSERS = ['pos','etymology','word','word_count','syllable','syllable_count','meter']
N_VALUES = [2, 3, 4]


Expand Down
20 changes: 20 additions & 0 deletions slda_input_files/gutenberg_etymology_2_author.txt
Original file line number Diff line number Diff line change
@@ -0,0 +1,20 @@
0
0
0
0
0
0
0
0
0
0
1
1
1
1
1
1
1
1
1
1
2 changes: 2 additions & 0 deletions slda_input_files/gutenberg_etymology_2_author_dict.txt
Original file line number Diff line number Diff line change
@@ -0,0 +1,2 @@
austin
doyle
20 changes: 20 additions & 0 deletions slda_input_files/gutenberg_etymology_2_model.txt
Original file line number Diff line number Diff line change
@@ -0,0 +1,20 @@
21 0:2 1:1 2:27 3:11 4:2 5:2 6:6 7:19 8:12 9:14 10:2 11:1 12:1 13:9 14:15 15:1 16:1 17:2 18:1 19:1 20:26
20 0:1 1:1 20:31 3:14 5:6 6:11 9:23 8:12 7:22 10:2 11:2 12:2 13:6 14:15 15:4 16:2 17:2 18:1 19:3 2:31
21 0:5 20:48 10:7 4:1 5:6 6:28 9:40 15:2 7:37 1:4 11:1 12:3 3:10 14:10 8:28 17:4 18:6 13:10 19:1 21:1 2:24
19 0:2 10:2 2:14 3:11 4:1 5:7 6:15 9:30 15:10 7:36 1:6 11:1 13:9 14:13 8:17 17:1 18:2 19:1 20:50
19 0:1 10:5 22:1 2:22 3:10 5:7 23:1 6:15 7:24 15:6 9:21 1:3 24:1 13:13 14:14 8:18 16:1 18:2 20:30
19 0:2 10:3 20:50 3:9 4:1 5:4 6:17 7:27 8:21 9:23 1:3 11:1 13:8 14:14 15:2 18:2 21:1 19:2 2:14
19 0:6 1:1 2:20 3:16 5:3 6:17 7:31 15:4 9:34 10:3 11:2 12:5 13:9 14:13 8:16 16:1 17:4 18:5 20:54
19 0:3 1:4 20:35 3:21 4:2 5:7 6:16 9:27 8:14 7:23 10:4 11:2 13:13 14:19 15:5 16:1 18:1 19:4 2:21
22 20:37 25:1 6:8 7:44 19:3 8:14 3:21 5:12 9:40 1:4 14:25 17:7 10:7 4:1 12:6 18:9 21:2 0:7 2:47 15:11 11:6 13:13
22 20:22 6:12 7:41 19:2 15:10 3:19 5:12 9:45 1:4 14:17 16:1 17:10 10:9 4:4 12:10 18:3 21:3 0:4 2:57 8:14 11:5 13:8
18 0:4 1:1 2:19 3:9 4:3 5:7 25:1 6:4 9:20 8:5 7:15 10:3 11:1 12:1 13:1 14:5 15:6 20:8
24 26:1 20:19 6:15 7:39 19:3 15:10 3:28 5:9 9:32 1:6 14:34 24:1 16:1 17:3 10:4 4:1 12:4 18:4 21:3 0:3 2:55 8:18 11:2 13:14
21 0:5 10:5 20:39 3:29 4:4 5:6 23:1 6:10 7:44 8:8 9:47 1:8 11:3 12:4 13:3 14:22 15:10 17:5 18:2 19:2 2:61
21 0:3 1:1 2:21 3:9 4:1 5:4 6:17 7:22 15:2 9:21 10:4 11:1 12:2 13:4 14:10 8:19 16:1 17:3 18:4 21:1 20:59
20 0:3 1:6 20:29 3:21 5:10 25:1 6:18 7:33 8:19 9:35 10:9 11:1 13:12 14:24 15:6 16:1 18:4 21:1 19:2 2:30
21 0:4 1:5 20:36 3:12 4:1 5:3 6:16 7:31 8:21 9:28 10:4 11:2 12:5 13:5 14:15 15:5 17:3 18:2 21:1 19:1 2:20
22 20:21 6:17 7:27 19:2 15:3 3:25 5:4 9:32 1:2 14:27 24:1 16:1 17:1 10:3 4:1 12:6 21:3 0:2 2:28 8:16 11:1 13:7
22 26:1 20:25 6:18 7:32 19:4 15:4 3:23 5:5 9:32 1:2 14:19 17:8 10:1 4:2 12:4 18:4 21:1 0:2 2:30 8:14 11:3 13:5
22 26:1 20:15 6:11 7:36 19:1 15:8 3:28 5:5 9:34 1:3 14:26 24:1 17:5 10:2 4:2 12:4 18:2 21:3 2:48 8:11 11:3 13:6
20 0:2 10:3 2:21 3:16 4:1 5:5 6:21 9:31 15:6 7:31 1:2 11:5 12:2 13:6 14:14 8:22 17:2 18:1 19:3 20:35
27 changes: 27 additions & 0 deletions slda_input_files/gutenberg_etymology_2_ngram_dict.txt
Original file line number Diff line number Diff line change
@@ -0,0 +1,27 @@
('OF.', 'OE.')
('OE.', 'F.')
('AS.', 'AS.')
('AS.', 'L.')
('L.', 'OF.')
('AS.', 'F.')
('L.', 'OE.')
('AS.', 'OE.')
('OE.', 'L.')
('OE.', 'AS.')
('F.', 'OE.')
('L.', 'F.')
('AS.', 'OF.')
('L.', 'L.')
('L.', 'AS.')
('F.', 'AS.')
('F.', 'F.')
('OF.', 'AS.')
('OE.', 'OF.')
('F.', 'L.')
('OE.', 'OE.')
('OF.', 'L.')
('NL.', 'AS.')
('AS.', 'NL.')
('OF.', 'F.')
('OF.', 'OF.')
('F.', 'OF.')
20 changes: 20 additions & 0 deletions slda_input_files/gutenberg_etymology_3_author.txt
Original file line number Diff line number Diff line change
@@ -0,0 +1,20 @@
0
0
0
0
0
0
0
0
0
0
1
1
1
1
1
1
1
1
1
1
2 changes: 2 additions & 0 deletions slda_input_files/gutenberg_etymology_3_author_dict.txt
Original file line number Diff line number Diff line change
@@ -0,0 +1,2 @@
austin
doyle
20 changes: 20 additions & 0 deletions slda_input_files/gutenberg_etymology_3_model.txt
Original file line number Diff line number Diff line change
@@ -0,0 +1,20 @@
50 0:5 1:1 2:1 3:1 4:1 5:2 6:2 7:5 8:2 9:2 10:9 11:1 12:5 13:1 14:1 15:1 16:1 17:8 18:1 19:10 20:1 21:1 22:1 23:3 24:1 25:1 26:12 27:5 28:1 29:1 30:1 31:1 32:9 33:1 34:1 35:7 36:2 37:2 38:7 39:3 40:6 41:1 42:1 43:3 44:10 45:1 46:1 47:1 48:6 49:4
55 47:1 3:3 50:1 5:1 6:1 7:4 51:1 9:6 10:8 11:1 2:1 12:3 15:1 16:4 17:6 18:1 52:1 19:14 20:4 21:3 22:1 23:1 24:2 53:1 26:9 54:1 27:4 55:1 56:3 35:10 29:2 57:1 31:1 32:7 33:1 0:8 58:1 36:2 37:1 38:11 39:6 40:3 59:1 60:2 61:1 42:2 62:1 48:9 44:9 63:1 46:2 64:1 65:2 43:10 49:7
59 22:1 66:2 1:1 35:13 3:4 67:1 5:6 6:4 68:1 23:12 8:2 9:11 10:4 11:2 69:3 2:3 70:3 12:2 13:1 16:3 17:15 19:15 20:5 21:5 39:17 4:1 24:1 71:3 7:5 25:1 44:8 27:2 56:1 72:3 73:1 57:2 31:6 32:4 33:3 34:4 0:20 36:6 37:1 38:9 15:2 60:1 74:1 52:3 61:2 41:1 40:4 42:1 43:13 26:14 46:1 47:1 65:1 48:9 49:4
53 53:1 1:2 35:16 3:4 50:2 6:2 23:5 51:1 10:2 9:8 11:1 69:1 2:1 75:1 70:1 12:1 13:5 14:1 16:1 17:8 38:6 20:1 76:1 21:4 22:3 24:3 7:7 25:1 44:3 27:3 5:5 56:1 72:5 31:3 32:2 33:2 34:1 0:18 58:1 36:6 37:2 19:20 39:7 60:3 40:5 61:1 77:2 78:1 43:9 26:20 65:4 48:8 49:5
53 73:1 1:2 0:9 3:2 5:4 7:8 12:3 9:7 79:1 10:2 11:1 69:2 2:2 30:1 13:1 15:1 16:5 17:8 19:12 20:3 76:1 21:3 39:9 23:4 24:3 53:1 36:4 44:10 80:1 27:4 50:2 72:2 31:4 32:2 33:1 34:1 35:6 81:1 37:5 38:8 22:2 82:1 52:2 60:1 61:1 83:1 40:5 62:1 43:10 26:9 65:4 48:5 49:5
53 22:1 1:1 35:12 3:2 4:1 5:3 73:1 68:1 7:8 9:10 19:26 10:4 11:1 2:2 84:1 12:1 13:1 16:2 42:1 17:10 38:9 20:1 76:1 21:5 15:1 23:5 24:1 53:1 25:1 44:1 27:1 50:1 56:1 72:2 6:1 31:3 32:2 33:1 34:2 0:8 36:8 37:4 59:1 39:11 40:6 52:1 85:1 43:5 26:12 47:1 65:1 48:9 49:6
54 86:1 66:2 0:14 3:5 4:1 50:2 6:3 7:4 87:3 9:9 10:4 11:4 2:2 75:1 70:1 12:4 13:1 17:6 19:27 20:2 21:6 39:9 23:6 24:2 71:2 53:2 44:2 54:1 27:3 5:3 88:1 72:1 29:1 57:2 31:3 32:5 89:1 35:14 36:8 37:2 38:12 22:1 40:4 52:3 61:5 77:1 48:12 26:12 63:1 46:3 64:1 65:1 43:11 49:6
56 22:1 35:11 3:4 5:2 6:1 7:4 51:2 87:2 9:9 10:4 11:1 69:2 2:2 75:2 12:5 14:1 16:3 17:7 18:1 52:3 19:13 20:3 76:1 21:6 39:9 23:3 24:9 53:2 25:2 44:6 27:4 50:1 56:1 72:2 30:1 31:3 32:5 33:2 0:11 58:3 36:4 37:3 38:8 15:1 60:3 59:1 40:3 61:1 41:1 85:2 43:9 26:9 45:1 65:3 48:7 49:11
73 90:1 86:2 66:2 2:4 3:3 91:1 4:1 5:4 57:2 68:1 23:3 51:4 8:5 10:8 9:2 11:4 69:2 92:1 75:2 70:4 12:4 13:2 93:1 16:4 77:1 17:5 18:1 19:14 20:1 76:2 21:6 15:3 49:12 39:2 67:1 53:3 7:5 26:17 27:7 50:1 88:2 94:1 35:16 29:3 73:1 31:2 32:7 33:4 34:5 0:17 58:2 36:7 37:2 38:13 22:4 95:1 24:7 96:1 60:4 59:1 52:4 61:2 40:5 97:1 42:2 48:13 44:20 56:2 46:3 98:1 65:5 43:14 87:4
75 90:2 66:2 99:1 35:10 62:1 3:5 4:2 5:2 6:1 50:1 68:1 7:7 51:3 8:4 10:8 19:4 9:4 11:1 100:1 2:5 75:1 1:1 70:1 12:5 13:3 14:1 16:6 69:1 17:7 18:2 59:1 20:1 21:7 15:4 23:7 88:3 24:1 71:5 53:1 25:1 44:24 27:3 30:1 56:2 28:3 29:5 37:1 57:4 97:2 32:9 33:3 0:15 36:5 84:1 38:15 22:2 31:3 39:3 40:7 101:2 98:1 74:1 52:3 61:1 77:1 60:6 78:1 48:12 26:10 63:1 46:6 47:1 65:4 43:24 49:5
38 66:1 35:4 3:2 4:1 6:1 23:4 87:3 10:3 69:1 2:1 102:1 12:1 14:3 17:1 19:2 21:5 39:1 24:2 25:2 26:5 72:1 29:1 31:1 32:2 33:7 0:6 36:4 38:2 15:3 40:2 60:6 42:1 43:6 44:7 94:1 65:6 48:9 49:3
73 53:1 86:2 1:1 2:2 103:1 3:6 91:1 4:1 55:1 6:1 50:3 68:2 23:8 51:1 8:1 9:2 10:19 11:2 87:1 12:7 13:3 14:1 15:2 16:4 85:1 69:1 28:1 17:6 18:2 104:1 19:4 20:3 76:2 21:5 39:5 56:2 67:2 7:6 26:11 80:1 27:9 5:2 88:2 72:2 35:7 29:2 57:1 31:3 32:13 33:1 34:4 0:11 58:1 36:8 105:1 37:2 38:15 22:2 24:6 52:1 59:2 40:11 101:1 77:2 60:3 43:14 44:17 63:1 46:2 64:1 65:4 48:19 49:12
64 73:1 66:2 35:19 3:6 4:2 38:19 57:3 7:5 51:1 87:1 9:5 10:11 11:2 69:1 2:2 12:3 13:6 106:1 14:3 15:2 16:3 17:6 18:3 19:12 76:2 21:5 22:1 23:3 88:3 24:2 71:1 53:1 25:1 44:23 27:2 50:4 56:1 72:2 28:3 29:1 6:2 97:1 32:18 33:1 34:2 0:21 36:1 52:3 59:2 39:3 31:1 60:5 40:4 86:2 8:1 85:1 78:1 48:16 26:16 46:2 98:1 65:3 43:22 49:14
52 66:1 99:1 35:14 3:3 5:2 6:2 68:1 7:6 87:1 9:10 10:3 11:2 69:1 2:3 31:2 70:1 12:2 16:3 17:9 19:31 20:5 21:3 23:2 24:1 71:1 26:12 54:1 27:2 88:1 72:1 28:1 57:1 95:1 32:4 33:1 0:8 36:5 38:8 39:12 97:1 60:1 52:4 61:4 40:4 8:2 48:6 44:8 46:1 64:1 65:1 43:4 49:3
57 22:3 1:2 35:12 3:8 107:1 5:5 6:1 7:10 51:1 87:2 10:7 9:3 11:3 69:4 2:5 12:4 13:1 16:5 42:1 17:7 18:3 19:9 20:4 76:1 21:8 15:3 23:7 24:7 85:1 26:13 27:6 91:1 72:1 108:1 30:1 31:3 32:6 33:4 34:1 0:12 36:5 37:3 38:10 39:6 40:7 59:2 74:1 52:3 77:1 60:2 48:8 44:11 45:1 109:3 65:4 43:11 49:9
62 73:1 66:3 99:1 0:12 3:7 87:1 4:1 5:4 6:1 59:1 7:10 51:1 8:2 10:4 9:5 11:1 69:2 2:1 75:1 70:1 12:1 13:2 15:1 16:3 85:1 17:7 18:2 19:14 20:6 21:2 22:1 23:4 24:1 44:3 27:1 50:3 72:2 28:1 29:3 31:3 32:5 34:1 35:13 36:7 63:1 38:12 39:6 97:1 48:6 40:8 101:1 52:3 42:1 60:1 71:2 26:12 109:1 46:1 98:1 65:2 43:9 49:4
58 0:9 86:4 66:1 2:3 103:1 3:7 50:1 22:1 91:3 73:1 59:2 23:5 51:1 87:1 9:5 10:8 12:2 16:2 17:4 19:4 20:6 76:1 21:8 15:2 24:6 71:1 7:8 110:1 25:1 44:7 27:2 55:1 88:1 72:1 29:1 5:4 31:4 32:9 33:2 35:12 36:5 37:1 38:12 39:3 97:1 40:8 101:3 52:1 85:1 60:1 43:12 26:10 63:1 46:1 64:1 65:1 48:9 49:15
62 86:2 99:1 0:11 3:11 111:1 4:1 5:2 57:2 7:7 51:1 8:3 10:6 19:5 9:9 70:4 12:3 13:1 14:1 16:2 85:1 17:5 18:1 59:3 20:2 76:1 21:7 15:1 23:5 88:1 24:3 71:2 53:1 25:1 26:9 27:3 50:2 56:3 28:1 6:2 31:2 32:7 33:2 34:3 35:15 36:7 105:1 109:1 38:10 39:4 97:1 60:2 101:1 40:5 42:2 43:11 44:10 63:3 46:3 47:1 65:2 48:11 49:7
64 80:1 86:2 99:2 35:9 103:1 3:7 67:1 5:2 57:1 68:1 7:6 51:3 8:4 10:10 9:1 69:1 2:1 1:1 70:1 12:3 13:2 93:1 14:2 16:2 77:1 17:1 18:1 19:4 20:1 76:2 21:11 15:1 23:6 88:1 24:7 53:1 26:9 104:1 27:2 56:1 28:1 29:1 31:4 32:10 112:1 0:12 36:8 38:10 22:1 95:1 113:1 40:8 101:1 60:5 61:1 42:1 33:1 48:13 44:22 109:1 46:2 65:2 43:18 49:14
58 73:1 1:2 35:13 3:6 4:1 50:1 6:1 23:7 51:3 9:9 10:4 11:1 2:2 12:4 13:2 77:2 17:7 18:1 52:1 38:8 20:4 21:5 39:10 56:2 24:4 71:1 7:6 25:1 26:10 27:2 5:1 88:2 72:1 29:1 97:1 32:4 33:2 0:15 36:8 37:1 109:1 19:14 22:2 31:3 60:1 59:1 92:1 40:7 42:3 78:1 43:11 44:8 63:1 46:2 47:2 65:1 48:8 49:4
114 changes: 114 additions & 0 deletions slda_input_files/gutenberg_etymology_3_ngram_dict.txt
Original file line number Diff line number Diff line change
@@ -0,0 +1,114 @@
('OE.', 'AS.', 'OE.')
('F.', 'OE.', 'L.')
('AS.', 'F.', 'OE.')
('AS.', 'L.', 'OE.')
('L.', 'F.', 'OE.')
('OE.', 'L.', 'L.')
('OF.', 'OE.', 'OE.')
('L.', 'AS.', 'OE.')
('OF.', 'AS.', 'OE.')
('L.', 'OE.', 'OE.')
('L.', 'AS.', 'AS.')
('OE.', 'OF.', 'OE.')
('AS.', 'L.', 'L.')
('OE.', 'F.', 'AS.')
('AS.', 'L.', 'OF.')
('F.', 'OE.', 'AS.')
('AS.', 'AS.', 'F.')
('OE.', 'OE.', 'L.')
('AS.', 'OE.', 'F.')
('OE.', 'OE.', 'OE.')
('L.', 'OE.', 'L.')
('OE.', 'AS.', 'L.')
('F.', 'AS.', 'OE.')
('L.', 'OE.', 'AS.')
('L.', 'AS.', 'L.')
('L.', 'OF.', 'OE.')
('AS.', 'OE.', 'OE.')
('L.', 'L.', 'AS.')
('L.', 'OF.', 'AS.')
('AS.', 'AS.', 'OF.')
('AS.', 'F.', 'F.')
('L.', 'L.', 'OE.')
('AS.', 'AS.', 'L.')
('OE.', 'AS.', 'F.')
('AS.', 'OE.', 'OF.')
('OE.', 'OE.', 'AS.')
('AS.', 'OE.', 'L.')
('L.', 'L.', 'L.')
('OE.', 'AS.', 'AS.')
('OE.', 'L.', 'OE.')
('OE.', 'L.', 'AS.')
('L.', 'L.', 'OF.')
('OE.', 'L.', 'F.')
('AS.', 'OE.', 'AS.')
('AS.', 'AS.', 'AS.')
('F.', 'F.', 'L.')
('AS.', 'OF.', 'AS.')
('F.', 'L.', 'OE.')
('AS.', 'AS.', 'OE.')
('AS.', 'L.', 'AS.')
('F.', 'AS.', 'L.')
('L.', 'F.', 'AS.')
('F.', 'OE.', 'OE.')
('L.', 'AS.', 'F.')
('L.', 'F.', 'F.')
('OE.', 'F.', 'F.')
('AS.', 'F.', 'L.')
('OF.', 'AS.', 'AS.')
('F.', 'L.', 'L.')
('F.', 'L.', 'AS.')
('F.', 'AS.', 'AS.')
('OE.', 'OE.', 'OF.')
('F.', 'F.', 'OE.')
('OF.', 'AS.', 'L.')
('F.', 'F.', 'AS.')
('AS.', 'F.', 'AS.')
('AS.', 'OF.', 'OE.')
('OF.', 'L.', 'L.')
('OE.', 'OF.', 'L.')
('OE.', 'F.', 'OE.')
('OE.', 'OF.', 'AS.')
('OE.', 'AS.', 'OF.')
('OE.', 'OE.', 'F.')
('OF.', 'OE.', 'L.')
('F.', 'OE.', 'F.')
('L.', 'L.', 'F.')
('L.', 'OE.', 'F.')
('F.', 'AS.', 'F.')
('OF.', 'AS.', 'F.')
('NL.', 'AS.', 'AS.')
('OF.', 'F.', 'AS.')
('F.', 'AS.', 'NL.')
('AS.', 'NL.', 'AS.')
('OE.', 'OF.', 'F.')
('OF.', 'L.', 'OF.')
('OE.', 'F.', 'L.')
('L.', 'AS.', 'OF.')
('OF.', 'OE.', 'AS.')
('AS.', 'L.', 'F.')
('OF.', 'AS.', 'OF.')
('OF.', 'OE.', 'OF.')
('OF.', 'L.', 'OE.')
('L.', 'F.', 'L.')
('L.', 'OF.', 'L.')
('OF.', 'OF.', 'OE.')
('F.', 'AS.', 'OF.')
('AS.', 'OF.', 'OF.')
('OE.', 'L.', 'OF.')
('OF.', 'OE.', 'F.')
('OF.', 'L.', 'AS.')
('OF.', 'L.', 'F.')
('AS.', 'OF.', 'L.')
('L.', 'OF.', 'OF.')
('AS.', 'OF.', 'F.')
('AS.', 'F.', 'OF.')
('F.', 'OF.', 'OE.')
('L.', 'AS.', 'NL.')
('OF.', 'OF.', 'L.')
('OE.', 'OF.', 'OF.')
('L.', 'OE.', 'OF.')
('OF.', 'F.', 'L.')
('L.', 'F.', 'OF.')
('F.', 'L.', 'F.')
('F.', 'OF.', 'AS.')
20 changes: 20 additions & 0 deletions slda_input_files/gutenberg_etymology_4_author.txt
Original file line number Diff line number Diff line change
@@ -0,0 +1,20 @@
0
0
0
0
0
0
0
0
0
0
1
1
1
1
1
1
1
1
1
1
2 changes: 2 additions & 0 deletions slda_input_files/gutenberg_etymology_4_author_dict.txt
Original file line number Diff line number Diff line change
@@ -0,0 +1,2 @@
austin
doyle
Loading

0 comments on commit b57cd40

Please sign in to comment.