自然言語処理をする際、トレーニングデータが必要になります。
そこで、私は青空文庫から持ってくるのですが、ルビがあったりなど、少々自然言語処理には使いづらくなっています。
だったら、そういう場所を作ればいい!として、このリポジトリを作りました。
複数の作品をまとめて使う場合、
- リポジトリ(datasフォルダのみでもよい)をクローン
- findなどを組み合わせて結合したり、お好みの言語で追加の処理をする
- 自然言語処理を実行する という手順を踏みます。
特定の作品のみ使う場合は、
- リポジトリのファイル検索で、作品の名前を検索し、作品の情報のJSONを見つける
- JSONの中のpathから、作品自体のファイルを特定する
- 特定したファイルをダウンロードする
- (ある場合は)お好みの言語で追加の処理をする
- 自然言語処理を実行する という手順を踏みます。
このリポジトリは、皆さんにデータを持ってきていただくことで成長します!
ただし、作品の利用しやすさを第一にしたリポジトリであるため、次のことを守ってデータを持ってきてください。
- データを機械的に収集しないこと。 ほかのサイト利用者に迷惑が掛かります。
- 作品自体のファイルには本文のみが書かれるようにすること。 目次やルビなどがあると、自然言語処理の邪魔になります。
- 作品自体のファイルと作品の情報のJSONが必ずリンクされるようにすること。 これをしないと、せっかくクローンしたのに使われない作品が出てきたりします。 また、場合によっては以下のことをしてください
- ファイルサイズが大きくなる場合は、適宜git lfsを使用してください。pushできなくなると、せっかくデータを作った意味すらなくなってしまいます。ただし、git lfsは、push この条件を守ったうえで、このリポジトリを成長させましょう!
このリポジトリは、MITライセンスで公開しています。煮るなり焼くなり自由に使ってください。喜んでいただけると本望です。