kato_dbデータセット

加藤純一の書き起こしデータ、その他処理データの格納レポジトリです。
追加・処理・管理はkato_dbのコードによって行われます。

各ファイル

video_links.csv
配信アーカイブ動画の一覧です。他のデータは全てこのデータのインデックスに紐づけて管理されます。下記リストに動画が追加されたら、最下部インデックスの次のインデックスとして追加されますので、一度決まったインデックスは不変です。
transcribed列は書き起こし度合いを表します。数値が高い方が上等な書き起こしモデルが使用されています。
- -1: 未書き起こし
- 0: tinyモデルにより書き起こされた
- 1 baseモデルにより書き起こされた
- 2: smallモデルにより書き起こされた
- 3: mediumモデルにより書き起こされた
- 4: large-v2モデルにより書き起こされた
list_links.csv
書き起こし対象の動画はYoutubeプレイリスト、ニコ動マイリストをベースに取得します。これは、対象となったリストのリンクを格納しています。これは手動で更新されます。
dictionary_adding.csv
自然言語処理の際にUnidicでは足りない加藤さん用語（「はんじょう」「もこう」「ナラントンガラグ」など、特に固有名詞）を手動で格納しています。

Transcription_raw
書き起こしAI「Whisper」により書き起こされた生データです。
start, endは秒単位
Whisperの不備によりときどき連呼しているようなファイルが見られます。対策考案中です。
Transcription_index
全文検索ライブラリwhooshを用いて検索する際のインデックスファイルです。Githubの100MB制限を回避するために、300動画ごとに分割しています。
Transcription_tokenized
書き起こしデータに対して、MeCabにより形態素解析をかけたデータです。辞書は最新話し言葉Unidicにdictionary_adding.csvを追加したものです。

Name		Name	Last commit message	Last commit date
Latest commit History 31 Commits
Transcription_index		Transcription_index
Transcription_raw		Transcription_raw
Transcription_tokenized		Transcription_tokenized
LICENSE		LICENSE
README.md		README.md
dictionary_adding.csv		dictionary_adding.csv
list_links.csv		list_links.csv
video_links.csv		video_links.csv