最新の日本語Wikipediaのダンプデータから,MeCabを用いてIPA辞書と最新のNeologd辞書の両方で形態素解析を実施し,その結果に基づいた word2vec,fastText,GloVeの単語分散表現を学習するためのスクリプト
取得されたダンプデータと学習された単語ベクトルはdata/YYYYmmddHH
,例:data/2019021212
のような年月日時の名前を持つディレクトリにまとめて保存される.
使用した形態素解析辞書についても再現性確保のために,同様のディレクトリに保存される.
- bash
- git
- diff
- wget
- curl
- python 3.x
./scripts/setup.sh
実行後,下記パッケージがapps
ディレクトリ以下にビルドされる.
./scripts/update.sh
ダンプデータの取得と単語ベクトルの学習を一貫して行うため,実行には多くの時間を要する.家庭用デスクトップPCで実行した場合は1日ほどかかる.
実行後に以下のファイル・ディレクトリがdata/YYYYmmddHH
以下に出力される(中間ファイル等は省略)
jawiki-YYYYmmdd-pages-articles.xml.bz2
: ダウンロードされたWikipedia記事ダンプデータjawiki-latest-pages-articles.xml.bz2-rss.xml
: ダウンロードされたWikipedia記事ダンプデータのRSSipadic
: 形態素解析で使用されたIPA辞書mecab-ipadic-2.7.0-20070801-neologd-YYYYmmdd
: 形態素解析で使用されたNeologdjawiki.gz
: タグなどが除去されたWikipedia記事ダンプデータjawiki.ipa.gz
: IPA辞書による形態素解析実行後のWikipedia記事ダンプデータjawiki.neologd.gz
: Neologd辞書による形態素解析実行後のWikipedia記事ダンプデータjawiki.ipa.w2v.txt
: IPA辞書を用いた形態素解析結果から学習されたword2vecのモデル出力jawiki.ipa.fasttext.vec
: IPA辞書を用いた形態素解析結果から学習されたfastTextのモデル出力jawiki.ipa.fasttext.bin
: IPA辞書を用いた形態素解析結果から学習されたfastTextのモデル出力jawiki.ipa.glove.txt
: IPA辞書を用いた形態素解析結果から学習されたGloVeのモデル出力jawiki.ipa.glove.bin
: IPA辞書を用いた形態素解析結果から学習されたGloVeのモデル出力jawiki.neologd.w2v.txt
: Neologd辞書を用いた形態素解析結果から学習されたword2vecのモデル出力jawiki.neologd.fasttext.vec
: Neologd辞書を用いた形態素解析結果から学習されたfastTextのモデル出力jawiki.neologd.fasttext.bin
: Neologd辞書を用いた形態素解析結果から学習されたfastTextのモデル出力jawiki.neologd.glove.txt
: Neologd辞書を用いた形態素解析結果から学習されたGloVeのモデル出力jawiki.neologd.glove.bin
: Neologd辞書を用いた形態素解析結果から学習されたGloVeのモデル出力jawiki.ipa.category_links.retrofit.w2v.txt
: IPA辞書を用いた形態素解析結果から学習されたword2vecをWikipediaカテゴリでRetrofitしたモデルjawiki.ipa.category_links.retrofit.fasttext.txt
: IPA辞書を用いた形態素解析結果から学習されたfastTextをWikipediaカテゴリでRetrofitしたモデルjawiki.ipa.category_links.retrofit.glove.txt
: IPA辞書を用いた形態素解析結果から学習されたGloVeをWikipediaカテゴリでRetrofitしたモデルjawiki.neologd.category_links.retrofit.w2v.txt
: Neologd辞書を用いた形態素解析結果から学習されたword2vecをWikipediaカテゴリでRetrofitしたモデルjawiki.neologd.category_links.retrofit.fasttext.txt
: Neologd辞書を用いた形態素解析結果から学習されたfastTextをWikipediaカテゴリでRetrofitしたモデルjawiki.neologd.category_links.retrofit.glove.txt
: Neologd辞書を用いた形態素解析結果から学習されたGloVeをWikipediaカテゴリでRetrofitしたモデル
./scripts/rss_check.sh
最新ならばY,最新でなければNが標準出力に表示される.
./scripts/cron.sh
をcronに登録すればよい.
MIT