Skip to content

Latest commit

 

History

History
16 lines (11 loc) · 1.45 KB

README_ja.md

File metadata and controls

16 lines (11 loc) · 1.45 KB

ビデオキャプション

通常、ほとんどのビデオデータには対応する説明文が付いていないため、ビデオデータをテキストの説明に変換して、テキストからビデオへのモデルに必要なトレーニングデータを提供する必要があります。

CogVLM2-Video を使用したビデオキャプション

🤗 Hugging Face   |   🤖 ModelScope   |    📑 ブログ    | 💬 オンラインデモ  

CogVLM2-Video は、タイムスタンプベースの質問応答機能を備えた多機能なビデオ理解モデルです。ユーザーは このビデオを詳細に説明してください。 などのプロンプトをモデルに入力して、詳細なビデオキャプションを取得できます:

ユーザーは提供されたコードを使用してモデルをロードするか、RESTful API を構成してビデオキャプションを生成できます。