Important
MediaPipe レガシーソリューションのサポートは、2023年3月1日で終了しています。
従来のソリューションのサンプルは _legacyディレクトリに移動しました。
MediaPipeは後方互換を保っており、現パッケージでもレガシーソリューションのサンプルを実行出来ます。
google-ai-edge/mediapipeのPythonパッケージのサンプルスクリプト集です。
2024/9/1時点でPython実装のある以下15機能について用意しています。
- 物体検出(Object Detection)
- 画像分類(Image Classification)
- 画像セグメンテーション(Image Segmentation)
- インタラクティブ セグメンテーション(Interactive segmentation)
- 手検出(Hand Landmark detection)
- 手のジェスチャー認識(Gesture Recognition)
- 画像の埋め込み表現(Image Embedding)
- 顔検出(Face Detection)
- 顔のランドマーク検出(Face Landmark Detection)
- 顔のスタイル変換(Face Stylization)
- 姿勢推定(Pose Landmark Detection)
- テキスト分類(Text Classification)
- テキストの埋め込み表現(Text Embedding)
- テキスト言語分類(Language Detector)
- 音分類(Audio Classification)
- mediapipe 0.10.14 or later
- opencv-python 4.10.0.84 or later
- tqdm 4.66.5 or later ※重みファイルダウンロードに使用
- requests 2.32.3 or later ※重みファイルダウンロードに使用
- scipy 1.14.1 or later ※音分類(Audio Classification)サンプルを実行する場合のみ
- numpy 1.26.4 ※NumPyは1.x系
pip install -r requirements.txt
デモの実行方法は以下です。
python sample_object_detection.py
コマンドライン引数オプション
- --device
カメラデバイス番号の指定
デフォルト:0 - --video
動画パスの指定 ※指定時はカメラより優先
デフォルト:None - --width
カメラキャプチャ時の横幅
デフォルト:960 - --height
カメラキャプチャ時の縦幅
デフォルト:540 - --model
使用モデル[0, 1, 2, 3, 4, 5, 6, 7] ※対象モデルの重みがmodelディレクトリ内に無い場合ダウンロードを実行
COCOデータセットでトレーニングされた重みで、サポートされているラベルはlabelmap.txt
デフォルト:0
- 0:EfficientDet-Lite0(int8)
- 1:EfficientDet-Lite0(float 16)
- 2:EfficientDet-Lite0(float 32)
- 3:EfficientDet-Lite2(int8)
- 4:EfficientDet-Lite2(float 16)
- 5:EfficientDet-Lite2float 32)
- 6:SSDMobileNet-V2(int8)
- 7:SSDMobileNet-V2(float 32)
- --score_threshold
スコア閾値
デフォルト:0.5
data:image/s3,"s3://crabby-images/a2ff4/a2ff45b877305c3137ca45d64bbbca7104d4a57b" alt=""
python sample_image_classification.py
コマンドライン引数オプション
- --device
カメラデバイス番号の指定
デフォルト:0 - --video
動画パスの指定 ※指定時はカメラより優先
デフォルト:None - --width
カメラキャプチャ時の横幅
デフォルト:960 - --height
カメラキャプチャ時の縦幅
デフォルト:540 - --model
使用モデル[0, 1, 2, 3] ※対象モデルの重みがmodelディレクトリ内に無い場合ダウンロードを実行
ImageNetでトレーニングされた重みで、サポートされているラベルはlabels.txt
デフォルト:0
- 0:EfficientNet-Lite0(int8)
- 1:EfficientNet-Lite0(float 32)
- 2:EfficientNet-Lite2(int8)
- 3:EfficientNet-Lite2(float 32)
- --max_results
結果出力数
デフォルト:5
data:image/s3,"s3://crabby-images/e92c2/e92c268eadc54997956bb927f791b9f0088ce0ea" alt=""
python sample_image_segmentation.py
コマンドライン引数オプション
- --device
カメラデバイス番号の指定
デフォルト:0 - --video
動画パスの指定 ※指定時はカメラより優先
デフォルト:None - --width
カメラキャプチャ時の横幅
デフォルト:960 - --height
カメラキャプチャ時の縦幅
デフォルト:540 - --model
使用モデル[0, 1, 2, 3, 4] ※対象モデルの重みがmodelディレクトリ内に無い場合ダウンロードを実行
デフォルト:0
- 0:SelfieSegmenter(square)
- 1:SelfieSegmenter(landscape)
- 2:HairSegmenter
- 3:SelfieMulticlass(256x256)
- 4:DeepLab-V3
data:image/s3,"s3://crabby-images/64147/6414797d140fa4d8ca2078657bcbb3348648588b" alt=""
data:image/s3,"s3://crabby-images/7c423/7c423d236fd992ed3e815bcd6670e155fac2235c" alt=""
data:image/s3,"s3://crabby-images/6f04b/6f04b5781b447eca190bd5989bbd4cd7479fea14" alt=""
python sample_interactive_image_segmentation.py
コマンドライン引数オプション
- --image
画像パスの指定
デフォルト:asset/hedgehog01.jpg - --model
使用モデル[0] ※対象モデルの重みがmodelディレクトリ内に無い場合ダウンロードを実行
デフォルト:0
- 0:MagicTouch
data:image/s3,"s3://crabby-images/db280/db28000cd8b532a0894797096acc121d49d2c2a8" alt=""
python sample_hand_landmarks_detection.py
コマンドライン引数オプション
- --device
カメラデバイス番号の指定
デフォルト:0 - --video
動画パスの指定 ※指定時はカメラより優先
デフォルト:None - --width
カメラキャプチャ時の横幅
デフォルト:960 - --height
カメラキャプチャ時の縦幅
デフォルト:540 - --unuse_mirror
ミラー表示不使用
デフォルト:指定なし - --model
使用モデル[0] ※対象モデルの重みがmodelディレクトリ内に無い場合ダウンロードを実行
デフォルト:0
- 0:HandLandmarker (full)
- --num_hands
検出数
デフォルト:2 - --use_world_landmark
ワールド座標表示
デフォルト:指定なし
data:image/s3,"s3://crabby-images/bb306/bb306de44fa6ef0a17c98ea37983ddd0b9a32552" alt=""
data:image/s3,"s3://crabby-images/e9986/e9986dfce7b223d33880a299bf8b34bcc37e44dc" alt=""
python sample_hand_gesture_recognition.py
コマンドライン引数オプション
- --device
カメラデバイス番号の指定
デフォルト:0 - --video
動画パスの指定 ※指定時はカメラより優先
デフォルト:None - --width
カメラキャプチャ時の横幅
デフォルト:960 - --height
カメラキャプチャ時の縦幅
デフォルト:540 - --unuse_mirror
ミラー表示不使用
デフォルト:指定なし - --model
使用モデル[0] ※対象モデルの重みがmodelディレクトリ内に無い場合ダウンロードを実行
認識ジェスチャーは「Closed fist」「Open palm」「Pointing up」「Thumbs down」「Thumbs up」「Victory」「Love」「Unknown」
デフォルト:0
- 0:HandGestureClassifier
data:image/s3,"s3://crabby-images/9d477/9d47736480db610561ee4a1e6dfbd106c0ea5ca1" alt=""
python sample_image_embedding.py
コマンドライン引数オプション
- --image01
画像パス1の指定
デフォルト:asset/hedgehog01.jpg - --image02
画像パス2の指定
デフォルト:asset/hedgehog02.jpg - --model
使用モデル[0, 1] ※対象モデルの重みがmodelディレクトリ内に無い場合ダウンロードを実行
デフォルト:0
- 0:MobileNet-V3 (small)
- 1:MobileNet-V3 (large)
- --unuse_l2_normalize
特徴ベクトルを L2 ノルムで正規化しない
デフォルト:指定なし - --unuse_quantize
特徴ベクトルを スカラー量子化によってバイトに量子化しない
デフォルト:指定なし
data:image/s3,"s3://crabby-images/47fb9/47fb91650bfdba669009b5b2e5031b3d2272c7c5" alt=""
data:image/s3,"s3://crabby-images/6b339/6b339499910a3175ea42051c7e7ecf63e1298a2d" alt=""
data:image/s3,"s3://crabby-images/a01c6/a01c6c246d807b4140ff9eaf39abff7f555fa423" alt=""
data:image/s3,"s3://crabby-images/e8364/e83641cd348f8e616777db93cb1c32c1aeeb73b1" alt=""
python sample_face_landmark_detection.py
コマンドライン引数オプション
- --device
カメラデバイス番号の指定
デフォルト:0 - --video
動画パスの指定 ※指定時はカメラより優先
デフォルト:None - --width
カメラキャプチャ時の横幅
デフォルト:960 - --height
カメラキャプチャ時の縦幅
デフォルト:540 - --model
使用モデル[0] ※対象モデルの重みがmodelディレクトリ内に無い場合ダウンロードを実行
デフォルト:0
- 0:BlazeFace (short-range)
data:image/s3,"s3://crabby-images/ed54a/ed54ab33d3162e1542e795ee0c0b35a0cd93809d" alt=""
python sample_face_landmark_detection.py
コマンドライン引数オプション
- --device
カメラデバイス番号の指定
デフォルト:0 - --video
動画パスの指定 ※指定時はカメラより優先
デフォルト:None - --width
カメラキャプチャ時の横幅
デフォルト:960 - --height
カメラキャプチャ時の縦幅
デフォルト:540 - --model
使用モデル[0] ※対象モデルの重みがmodelディレクトリ内に無い場合ダウンロードを実行
デフォルト:0
- 0:FaceLandscapeer
- --num_faces
検出数
デフォルト:1 - --unuse_output_face_blendshapes
顔のブレンドシェイプを出力しない
デフォルト:指定なし - --unuse_output_facial_transformation_matrixes
顔変換行列を出力しない
デフォルト:指定なし
data:image/s3,"s3://crabby-images/625d6/625d6dbc84f3b0fb8e6afa3e7f6320427b0434f3" alt=""
python sample_face_stylization.py
コマンドライン引数オプション
- --device
カメラデバイス番号の指定
デフォルト:0 - --video
動画パスの指定 ※指定時はカメラより優先
デフォルト:None - --width
カメラキャプチャ時の横幅
デフォルト:960 - --height
カメラキャプチャ時の縦幅
デフォルト:540 - --model
使用モデル[0, 1, 2] ※対象モデルの重みがmodelディレクトリ内に無い場合ダウンロードを実行
デフォルト:0
- 0:Color sketch
- 1:Color ink
- 2:Oil painting
data:image/s3,"s3://crabby-images/7967e/7967e05964f3e9890744a8384750ea3561dd9ff9" alt=""
data:image/s3,"s3://crabby-images/62e80/62e801a8654cae95f83028d47a3dc22e22a9d876" alt=""
data:image/s3,"s3://crabby-images/fcf52/fcf52d043532e36af16329d125f2abc01400ecc5" alt=""
python sample_pose_landmark_detection.py
コマンドライン引数オプション
- --device
カメラデバイス番号の指定
デフォルト:0 - --video
動画パスの指定 ※指定時はカメラより優先
デフォルト:None - --width
カメラキャプチャ時の横幅
デフォルト:960 - --height
カメラキャプチャ時の縦幅
デフォルト:540 - --unuse_mirror
ミラー表示不使用
デフォルト:指定なし - --model
使用モデル[0, 1, 2] ※対象モデルの重みがmodelディレクトリ内に無い場合ダウンロードを実行
デフォルト:0
- 0:Pose landmarker(lite)
- 1:Pose landmarker(Full)
- 2:Pose landmarker(Heavy)
- --use_output_segmentation_masks
セグメンテーションを実施
デフォルト:指定なし - --use_world_landmark
ワールド座標表示を実施
デフォルト:指定なし
data:image/s3,"s3://crabby-images/c3341/c3341ea7a8205d785d0c3967e48fb36cf0567b35" alt=""
data:image/s3,"s3://crabby-images/43ed4/43ed418335da0e5498e3d496916f428d3ea5beb9" alt=""
data:image/s3,"s3://crabby-images/89056/89056c376df29cbcee9527709d78edb67a88cb7b" alt=""
python sample_text_classification.py
コマンドライン引数オプション
- --input_text
入力テキスト
デフォルト:I'm looking forward to what will come next. - --model
使用モデル[0, 1] ※対象モデルの重みがmodelディレクトリ内に無い場合ダウンロードを実行
デフォルト:0
- 0:BERT-classifier
- 1:Average word embedding
data:image/s3,"s3://crabby-images/f8608/f8608ee576a5331f62aae4a062a05b3609eabd7d" alt=""
python sample_text_embedding.py
コマンドライン引数オプション
- --input_text01
入力テキスト1
デフォルト:I'm feeling so good - --input_text02
入力テキスト2
デフォルト:I'm okay I guess - --model
使用モデル[0] ※対象モデルの重みがmodelディレクトリ内に無い場合ダウンロードを実行
デフォルト:0
- 0:Universal Sentence Encoder
- --unuse_l2_normalize
特徴ベクトルを L2 ノルムで正規化しない
デフォルト:指定なし - --use_quantize
特徴ベクトルを スカラー量子化によってバイトに量子化する
デフォルト:指定なし
data:image/s3,"s3://crabby-images/33674/336741ccf59846781ddb8e12c02bb3fea2f80450" alt=""
python sample_text_language_detection.py
コマンドライン引数オプション
- --input_text
入力テキスト
デフォルト:分久必合合久必分 - --model
使用モデル[0, 1] ※対象モデルの重みがmodelディレクトリ内に無い場合ダウンロードを実行
デフォルト:0
- 0:Language Detector
data:image/s3,"s3://crabby-images/29132/29132fb1038cf402626e4b1504254f7d73f96fd2" alt=""
python sample_audio_classification.py
コマンドライン引数オプション
- --input_audio
入力音声ファイルのパス
デフォルト:asset/hyakuninisshu_02.wav - --model
使用モデル[0] ※対象モデルの重みがmodelディレクトリ内に無い場合ダウンロードを実行
デフォルト:0
- 0:YamNet
- --max_results
結果出力数
デフォルト:5
data:image/s3,"s3://crabby-images/cf6a1/cf6a13d00b0bd16b3438c6f6b0c0ecc3cd36e1e9" alt=""
高橋かずひと(https://twitter.com/KzhtTkhs)
mediapipe-python-sample is under Apache-2.0 License.
サンプル実行用に格納している画像などは以下を利用しています。