textdatas

このリポジトリの目的

自然言語処理をする際、トレーニングデータが必要になります。
そこで、私は青空文庫から持ってくるのですが、ルビがあったりなど、少々自然言語処理には使いづらくなっています。
だったら、そういう場所を作ればいい！として、このリポジトリを作りました。

複数の作品をまとめて使う場合、

特定の作品のみ使う場合は、

このリポジトリは、皆さんにデータを持ってきていただくことで成長します！
ただし、作品の利用しやすさを第一にしたリポジトリであるため、次のことを守ってデータを持ってきてください。

データを機械的に収集しないこと。 ほかのサイト利用者に迷惑が掛かります。
作品自体のファイルには本文のみが書かれるようにすること。 目次やルビなどがあると、自然言語処理の邪魔になります。
作品自体のファイルと作品の情報のJSONが必ずリンクされるようにすること。 これをしないと、せっかくクローンしたのに使われない作品が出てきたりします。また、場合によっては以下のことをしてください
ファイルサイズが大きくなる場合は、適宜git lfsを使用してください。pushできなくなると、せっかくデータを作った意味すらなくなってしまいます。ただし、git lfsは、push この条件を守ったうえで、このリポジトリを成長させましょう！

このリポジトリは、MITライセンスで公開しています。煮るなり焼くなり自由に使ってください。喜んでいただけると本望です。