Qiita に記事を書いた。
gokart はエムスリーが開発している機械学習パイプラインツール。 Spotify により開発されている luigi のラッパーになっていてより簡単に書くことができる。
NLP の機械学習モデルを開発していると前処理、事前学習、ファインチューニング、可視化などなど工程が多く、管理が大変になる。パイプラインツールを使って楽になりたいということで、言語処理100本ノックの機械学習パートで試してみる (56, 57, 59は gokart 的に新しい操作がないため飛ばす)。
gokart がどんなものかまずは公式ドキュメントで動作を確かめてみると良い。
上記と同じことを簡単にブログにも記録しておいた。
- 機械学習プロジェクト向けPipelineライブラリgokartを用いた開発と運用 - エムスリーテックブログ
エムスリー公式なのでドキュメントとこれをまず読むのが良いと思われる - gokartを使ってみる - Re:ゼロから始めるML生活
題材が NLP (文書分類) なので参考にしやすい - 【Techの道も一歩から】第42回「Luigiとgokartを試用して比べて特徴を掴む」 - Sansan Tech Blog
luigi と gokart の比較が簡潔にまとまっていて分かりやすい - PythonのPipelineパッケージ比較:Airflow, Luigi, Gokart, Metaflow, Kedro, PipelineX - Qiita
Gokart 以外のパイプラインツールもまとめた力作 - gokart, redshellsによるMLOpsへの第一歩 - Qiita
ドキュメントで扱われていない部分のコードの書き方がとても参考になる - 【言語処理100本ノック 2020】第6章: 機械学習【Python】 - Amaru Note
100本ノックのコードを書くにあたり大いに参考にさせて頂いた