Skip to content

konbraphat51/kato_db_dataset

Repository files navigation

kato_dbデータセット

加藤純一の書き起こしデータ、その他処理データの格納レポジトリです。
追加・処理・管理はkato_dbのコードによって行われます。

各ファイル

  • video_links.csv
    配信アーカイブ動画の一覧です。他のデータは全てこのデータのインデックスに紐づけて管理されます。下記リストに動画が追加されたら、最下部インデックスの次のインデックスとして追加されますので、一度決まったインデックスは不変です。
    transcribed列は書き起こし度合いを表します。数値が高い方が上等な書き起こしモデルが使用されています。

    • -1: 未書き起こし
    • 0: tinyモデルにより書き起こされた
    • 1 baseモデルにより書き起こされた
    • 2: smallモデルにより書き起こされた
    • 3: mediumモデルにより書き起こされた
    • 4: large-v2モデルにより書き起こされた
  • list_links.csv
    書き起こし対象の動画はYoutubeプレイリスト、ニコ動マイリストをベースに取得します。これは、対象となったリストのリンクを格納しています。これは手動で更新されます。

  • dictionary_adding.csv
    自然言語処理の際にUnidicでは足りない加藤さん用語(「はんじょう」「もこう」「ナラントンガラグ」など、特に固有名詞)を手動で格納しています。

各フォルダー

  • Transcription_raw
    書き起こしAI「Whisper」により書き起こされた生データです。
    start, endは秒単位
    Whisperの不備によりときどき連呼しているようなファイルが見られます。対策考案中です。

  • Transcription_index
    全文検索ライブラリwhooshを用いて検索する際のインデックスファイルです。Githubの100MB制限を回避するために、300動画ごとに分割しています。

  • Transcription_tokenized
    書き起こしデータに対して、MeCabにより形態素解析をかけたデータです。辞書は最新話し言葉Unidicにdictionary_adding.csvを追加したものです。

About

K.A.T.O.シリーズのデータセット

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published