加藤純一の書き起こしデータ、その他処理データの格納レポジトリです。
追加・処理・管理はkato_dbのコードによって行われます。
-
video_links.csv
配信アーカイブ動画の一覧です。他のデータは全てこのデータのインデックスに紐づけて管理されます。下記リストに動画が追加されたら、最下部インデックスの次のインデックスとして追加されますので、一度決まったインデックスは不変です。
transcribed
列は書き起こし度合いを表します。数値が高い方が上等な書き起こしモデルが使用されています。- -1: 未書き起こし
- 0:
tiny
モデルにより書き起こされた - 1
base
モデルにより書き起こされた - 2:
small
モデルにより書き起こされた - 3:
medium
モデルにより書き起こされた - 4:
large-v2
モデルにより書き起こされた
-
list_links.csv
書き起こし対象の動画はYoutubeプレイリスト、ニコ動マイリストをベースに取得します。これは、対象となったリストのリンクを格納しています。これは手動で更新されます。 -
dictionary_adding.csv
自然言語処理の際にUnidicでは足りない加藤さん用語(「はんじょう」「もこう」「ナラントンガラグ」など、特に固有名詞)を手動で格納しています。
-
Transcription_raw
書き起こしAI「Whisper」により書き起こされた生データです。
start, endは秒単位
Whisperの不備によりときどき連呼しているようなファイルが見られます。対策考案中です。 -
Transcription_index
全文検索ライブラリwhoosh
を用いて検索する際のインデックスファイルです。Githubの100MB制限を回避するために、300動画ごとに分割しています。 -
Transcription_tokenized
書き起こしデータに対して、MeCabにより形態素解析をかけたデータです。辞書は最新話し言葉Unidicにdictionary_adding.csvを追加したものです。