Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

VOICEVOXにおける各ドメイン用語の定義書制作がしたい #27

Open
y-chan opened this issue Apr 15, 2023 · 4 comments
Open
Labels
機能向上 要議論 実行する前に議論が必要そうなもの

Comments

@y-chan
Copy link
Member

y-chan commented Apr 15, 2023

内容

  • 題の通り
    • いろいろVOICEVOX独自に策定した言葉が増えつつあるので、そこら辺をちゃんとまとめた文書を作っておきたい

Pros 良くなる点

  • 「この言葉の定義は確かこう!」といったあやふやな議論を行わずに、しっかりとした定義のもとに議論が行える

Cons 悪くなる点

  • 特になし(手間がかかる...)

実現方法

  • VOICEVOXが独自に用意してきたドメイン用語をまとめ、文書化する
    • VOICEVOX/voicevox 上が良さそう...?
@y-chan y-chan added 機能向上 要議論 実行する前に議論が必要そうなもの labels Apr 15, 2023
@Hiroshiba
Copy link
Member

Hiroshiba commented Apr 15, 2023

意味を決めておいたほうが良い用語の候補をあげてみます。

  • 音声エンジン
  • 音声ライブラリ
  • 音声モデル
  • vvlib
  • vvm

discordでの話はこのあたり

@Hiroshiba
Copy link
Member

一番鬼門そうな「音声ライブラリ」について、「キャラクターの声が生成されるなにか」だと思うのですが、用語の歴史をいろいろ調べてみました。

== DTM ==
・「サウンドライブラリ」
・意味は「音源」、wavファイルの一覧
・いろんな楽器の音がある

== VOCALOID ==
・「歌声ライブラリ」
・波形合成ベースらしいので「音源」の意図が強そう
・たぶんキャラの声と一対一対応

== AquesTalk ==
・「音声合成ライブラリ」
・おそらく「動的ライブラリ」の意図が強そう
・たぶん複数の声が出せる

== UTAU ==
・ボカロと同じ「歌声ライブラリ」
・意図も対応もボカロと一緒そう

== VOICEROID ==
・「音声データベース」
・波形合成なのだとしたら「音源」の意図が近そう
・1キャラ内の複数の声と対応

== CeVIO ==
・「ソングボイス」「トークボイス」
・1キャラ内の複数の声と対応

== SynthV ==
・「歌声ライブラリ」「歌声データベース」両方ある
・「音源」の意図じゃない気がする
・1キャラ内の複数の声と対応

== Seiren Voice ==
・「音声ライブラリ」を提唱
・意図は「音声合成バイナリ」
・いまのとこキャラの声と一対一対応

== VOICEVOX ==
・Seiren Voiceと同じ「音声ライブラリ」
・元の意図は「動的ライブラリ」
・複数のキャラの声と対応

まとめるとこうかなと

  • 「ライブラリ」は文脈が3つある
    • ボカロ・UTAUのライブラリ、意図は「音源集」
    • AquesTalk・Seiren Voice・VOICEVOXでのライブラリ、意図は「プログラム」
    • SynthVのライブラリ、音源でもプログラムでもなさそう(?)で、意図は不明

VOICEVOXとして、もともとは動的ライブラリ(つまりコア)を意図してたのですが、最近はいろいろとコアに機能が増えてボカロ文脈での「ライブラリ」からだいぶ離れてきたので、良い機会ですし変えてもいいなと思っています。

エンジンとかモデルとかボイスとは異なる概念で、かつボカロ文脈や元のVOICEVOX文脈と大きく違わないものが良さそうに思いました。
こう・・・?

  • 音声エンジン
    • 1つ以上の音声ライブラリを使って音声を合成するもの
    • 使いやすいAPIを持つ
  • 音声モデル
  • 音声ライブラリ
    • 音声エンジンに抜き差しして声を増やせるファイル群
    • キャラクター情報を持つ
    • 単体で音声合成できるかどうかは定義に入らない

で、これらの定義からVOICEVOXエンジン、VOICEVOXコアを説明するとこうなりそうです。

  • VOICEVOXエンジン
    • 音声エンジン。VOICEVOXコアを音声ライブラリとして扱う。
  • (C++時代の)VOICEVOX コア
    • 音声ライブラリをビルドできるもの。単体で音声合成できなかった。
  • (Rust時代の)VOICEVOX コア
    • 音声エンジン。音声モデルなど(いわゆるVVM)を音声ライブラリとみなせる。

コアは音声エンジンでもあり音声ライブラリにもなるのがややこしいですね・・・。

@sevenc-nanashi
Copy link
Member

VOICEVOX/voicevox 上が良さそう...?

(少しIssueの本題とはそれますが)
開発者用の情報をまとめたポータルみたいなもの(voicevox.github.io/voicevox_dev_docsみたいな?)があるとこういうのに悩む必要もなく、C/Python/HTTP APIのドキュメントのリンクを張るのにも良い感じの場所になると思いました。

@Hiroshiba
Copy link
Member

Hiroshiba commented Apr 15, 2023

あ、まさしく開発者用の情報をこのリポジトリvoicevox_projectdocsにまとめてました。
voicevoxの方にあるのはエディタ用のドキュメントと、移すの大変なのでそのままにしているドキュメントです。
Githubのデフォルトのmarkdownレンダリングだとページングがイマイチなので、良い感じのポータルほしいですね。。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
機能向上 要議論 実行する前に議論が必要そうなもの
Projects
None yet
Development

No branches or pull requests

3 participants