-
Notifications
You must be signed in to change notification settings - Fork 0
/
Copy pathmarkdown.html
109 lines (100 loc) · 6.93 KB
/
markdown.html
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
<!DOCTYPE html>
<html>
<head>
<meta charset="UTF-8">
<title>◆ 所属</title>
<style>
</style>
<link rel="stylesheet"
href="https://cdn.jsdelivr.net/gh/Microsoft/vscode/extensions/markdown-language-features/media/markdown.css">
<link rel="stylesheet"
href="https://cdn.jsdelivr.net/gh/Microsoft/vscode/extensions/markdown-language-features/media/highlight.css">
<style>
body {
font-family: -apple-system, BlinkMacSystemFont, 'Segoe WPC', 'Segoe UI', 'Ubuntu', 'Droid Sans', sans-serif;
font-size: 14px;
line-height: 1.6;
}
</style>
<style>
.task-list-item {
list-style-type: none;
}
.task-list-item-checkbox {
margin-left: -20px;
vertical-align: middle;
}
</style>
</head>
<body class="vscode-light">
<h3 id="-所属">◆ 所属</h3>
<ul>
<li>東京工業大学大学院 工学院経営工学系 経営工学コース <a href="http://www.iee.e.titech.ac.jp/~nakatalab/index.html">中田研究室</a> M1</li>
</ul>
<h3 id="-研究テーマ">◆ 研究テーマ</h3>
<ul>
<li>集団的行列因子分解を用いた不均衡データのリレーショナルデータマイニング</li>
<li>反実仮想機械学習を用いたタクシーの乗車数予測と配置最適化</li>
</ul>
<h3 id="-インターン経歴">◆ インターン経歴</h3>
<h4 id="smn株式会社-ai-lab-データサイエンスインターン"><a href="https://www.slideshare.net/smn-ailab/ai-lab-88097358">SMN株式会社 a.i
lab.</a> データサイエンスインターン</h4>
<p>webマーケターのデータ活用を支援するユーザー行動分析システム VALIS-Cockpit
の改善を行った。特に、顧客の興味を自然言語で捉えるトピック抽出アルゴリズムについて、自然言語処理や数理最適化の技術を応用して貢献を果たした。また、githubの利用やテストコードおよびドキュメント作成などを行い、自らプロダクトにデプロイした。<a
href="./smn.html">...詳細へ</a></p>
<h3 id="-プロダクト">◆ プロダクト</h3>
<ul>
<li><a href="https://ring/enfree-jp.com">感情認識ビデオチャット</a></li>
</ul>
<h3 id="-受賞歴">◆ 受賞歴</h3>
<ul>
<li><a href="https://jasmac-j.jimdofree.com/">経営科学系研究部会連合協議会によるデータ解析コンペティション</a> 優秀賞 (2位/98チーム)</li>
<li><a href="http://www.jimanet.jp/information/awards/gakusei">日本経営工学会 2019年度 優秀学生賞</a></li>
</ul>
<h3 id="-スキル">◆ スキル</h3>
<h4 id="プログラミング言語">プログラミング言語</h4>
<ul>
<li>Python: 3年半</li>
<li>R:1年</li>
<li>javascript:1年</li>
</ul>
<h4 id="機械学習ビッグデータ">機械学習・ビッグデータ</h4>
<ul>
<li>scikit-learn</li>
<li>LigntGBM</li>
<li>Keras</li>
<li>Tensorflow</li>
<li>PySpark</li>
</ul>
<h4 id="web">Web</h4>
<ul>
<li>Nginx</li>
<li>MySQL</li>
<li>Apach</li>
</ul>
<h4 id="その他">その他</h4>
<ul>
<li>Linux</li>
<li>AWS</li>
<li>Docker / Docker-compose</li>
<li>VSCode</li>
</ul>
<h3 id="プロダクトへデプロイされた成果">【プロダクトへデプロイされた成果】</h3>
<p>下記の2つの成果はプロダクトに自らデプロイし、その際にプロダクションコード修正の作法である、gitflow のルールや ドキュメントの記述、単体テストの記述方法も学んだ。</p>
<h4 id="顧客比率の偏りを考慮した学習">・顧客比率の偏りを考慮した学習</h4>
<p>VALIS-Cockpit
では分析対象となる顧客層と比較対象となる顧客層を設定し、分析対象に特有な興味をトピックとして抽出することができる。しかし、分析対象には商品購入などに至った顧客を設定する場合が多く、その人数は比較対象に比べて極端に少なくなる。このように、**顧客数の比に偏りがある場合、分析対象の顧客の興味をトピックとして抽出できないという問題があった。**これを受け、損失関数に顧客数の比を反映させることでこの偏りの影響を是正する手法を考案した。<strong>これによって、分析対象の顧客が興味を持つと考えられるトピックが抽出されるようになった。</strong>
</p>
<h4 id="メモリエラー回避">・メモリエラー回避</h4>
<p>修正前のアルゴリズムは、メモリ使用量の問題で大規模な文書データを扱うことができず、多様なトピックを抽出できなかった。そこで、行列演算における省メモリ化の修正を行い、10万文書 × 10万単語以上でのトピック抽出を可能にした。
</p>
<h3 id="プロダクトへのデプロイが検討されている成果">【プロダクトへのデプロイが検討されている成果】</h3>
<h4 id="トピック数の最適化">・トピック数の最適化</h4>
<p>VALIS-Cockpit
では顧客の興味が複数の「トピック」として可視化されるが、<strong>従来のアルゴリズムでは類似したトピックが頻出し、顧客の志向が考察しにくいという問題が報告されていた。</strong>この問題に対して、ハイパーパラメータとして設定されていたトピック数が抽出すべきトピック数に対して過剰になってしまい、顧客の興味の些末な差異まで抽出してしまっていることに起因すると考えた。この問題はオーバーフィットしないようにトピック数を定める問題なので情報量基準で解決できる。そこで、VALIS-Cockpit
のアルゴリズムに適合するような情報量規準を設計し、トピック数を最適化する手法を考案した。<strong>その結果、適切な数のトピックを与えることができ、マーケターの考察の負担を軽減することができた。</strong></p>
<h4 id="最適化アルゴリズムの高速化">・最適化アルゴリズムの高速化</h4>
<p>VALIS-Cockpit では、損失関数の最適化アルゴリズムとして Adam を用いることを検討していた。しかし既存実装では計算速度が遅く、実用的でなかったためこのアルゴリズムの高速化を行った。具体的には、スパース行列を
scipy.sparse のライブラリを用いて処理し、線形代数演算を scipy.blas.linalg を用いて計算させることで、計算時間を約50%削減することに成功した。</p>
</body>
</html>