Google MediaPipe快速上手 ━ 浮空手势也能用来当作简报播放器

目前MediaPipe可协助提取手部特徵点(Hand Landmark)共21点，完整的节点及名称如Fig. 2所示[6]，而左手和右手也是可以区分出来的。如果想要练习一下程式但又还没安装开发环的朋友，官方也很贴心的提Colab版本给大家试一下，使用前请先登入自己的Google帐号，点击下列网址开启范例程式，再点击选单「执行阶段」下的「全部执行」便可得到测试结果，看到载入的影像已被绘上手部特徵点及骨架了，如图二左所示。

Google Colab范例程式： https://colab.research.google.com/github/googlesamples/mediapipe/blob/main/examples/hand_landmarker/python/hand_landmarker.ipynb

整个程式架构非常简单，略过下载模型、测试影像及绘制特徵点到影像函式外，只需理解最後一格的「Run inference and visualizing the results」就足够了。大致分为五个动作，如程式注解说明。如果想更完整理解，可叁考官方提供之说明[7]。

# 步骤一：导入必要函式库

import mediapipe as mp

from mediapipe.tasks import python

from mediapipe.tasks.python import vision

# 步骤二：建立手部特徵点物件

# 载入手部特徵点侦测模型

base_options = python.BaseOptions(model_asset_path=’hand_landmarker.task’)

# 建立手部特徵点侦测基本叁数

options = vision.HandLandmarkerOptions(base_options=base_options, num_hands=2)

# 建立手部特徵点侦测器

detector = vision.HandLandmarker.create_from_options(options)

# 步骤三：载入测试影像（可自行修改成待测试影像名称）

image = mp.Image.create_from_file(“image.jpg”)

# 步骤四：侦测手部特徵点

detection_result = detector.detect(image)

# 步骤五：产生结果影像并显示

# 将侦测到的结果（特徵点及连结线）绘制到新影像上

annotated_image = draw_landmarks_on_image(image.numpy_view(), detection_result)

# 显示时需将色彩格式RGB转回BGR才能正确显示。

cv2_imshow(cv2.cvtColor(annotated_image, cv2.COLOR_RGB2BGR))

有了这些手部特徵点後，还可以更进一步把特定形状解读为有意义的静态手势，但如果要自己解读21个特徵点的相对位置来辨识手势，可能不是这麽容易，所以MediaPipe提供了七种常见手势辨识[8]，以便大家直接使用，包括：

https://colab.research.google.com/github/googlesamples/mediapipe/blob/main/examples/gesture_recognizer/python/gesture_recognizer.ipynb#scrollTo=Iy4r2_ePylIa

而程式的内容和手部特徵点侦测类似，只是换了模型档「gesture_recognizer.task」和绘制结果影像的函式和输出辨识结果及置信度，这里就略过说明，如果想更完整理解，可叁考官方提供之说明[9]。

接下来为了让手势（影像）能取代手按键盘及移动滑鼠，这里使用了一个常见的Python套件包PyAutoGUI[5]。我们可以透过它来操作一些滑鼠及键盘动作，如下几个范例。

import pyautogui as ag

ag.PAUSE=3 # 延迟3秒，方便切换工作视窗

ag.position() # 读取目前滑鼠游标位置并输出

ag.moveTo(x,y,n) # 用n秒把滑鼠座标移到(x,y)位置

ag.click() # 模拟滑鼠点击

# 按住滑鼠 key 再拖曳到座标 x,y 位置，key 可为滑鼠三个按键 ‘left’, ‘middle’, ‘right’

ag.dragTo(x, y, button=’key’)

# 模拟按下 key 键，如’1′, ‘k’, ‘f1’, ‘shift’ 等

# 更多按键（key）的名称可叁考 https://pyautogui.readthedocs.io/en/latest/keyboard.html#keyboard-keys

ag.keyDown(‘key’) # 按下 key

ag.keyUp(‘key’) # 放开 key

ag.press(‘key’) # 点击 key, 包括 keyDown, keyUp

ag.press(‘key’, presses=n) # 按下 key n秒後再放开

# 同时按下 ctrl, shift, esc ，相当於执行下面六个动作

# ag.keyDown(‘ctrl’)

# ag.keyDown(‘shift’)

# ag.keyDown(‘esc’)

# ag.keyUp(‘esc’)

# ag.keyUp(‘shift’)

# ag.keyUp(‘ctrl’)

ag.hotkey(‘ctrl’, ‘shift’, ‘esc’)

一般我们在使用Microsoft PowerPoint进行简报时常会搭配一组无线的简报操作遥控器，方便我们控制下一页的播放。这里我们将利用网路摄影机作为影像输入装置，并采用 MediaPipe 的手势辨识套件来侦测控制播放的手势，最後使用PyAutoGUI来控制滑鼠、键盘，取代简报遥控器播放简报。

接下来的范例中，我们仅简单定义使用「打开手掌」的手势代替【Page Down】按键按下，作为播放下一页的动作。当然大家可自行选用比较好操作的手势并修改相关程式，也可以自行增加其它手势来控制其它动作。

另外由於以上章节的范例都必须在云端Google Colab上运行，不方便控制本地（电脑）端 PowerPoint的播放，所以这里要改用Python程式来运行。运行前请先确认已依第一节文章所述，将开发环境建置好并依下列步骤启动及运行程式，如图四所示。

# ppt_gesture_demo.py

# 利用网路摄影机作为影像输入装置，并采用 MediaPipe 的手势辨识套件来侦测控制播放的手势，最後使用 PyAutoGUI 来控制滑鼠、键盘，取代简报遥控器播放简报。

# 作者：Jack OmniXRI, 2023/05/15

# 引入必要函式库

import mediapipe as mp

from mediapipe.tasks import python

from mediapipe.tasks.python import vision

from mediapipe.framework.formats import landmark_pb2

from matplotlib import pyplot as plt

import cv2 # 引入 OpenCV 函式库

import numpy # 引入numpy函式库

import pyautogui as ag # 引入PyAutoGui函式库

# 宣告绘制手势相关物件

mp_hands = mp.solutions.hands

mp_drawing = mp.solutions.drawing_utils

mp_drawing_styles = mp.solutions.drawing_styles

# 定义显示手势及手部特徵点函式 display_gesture_and_hand_landmarks

# 输入原始影像、手势及手部特徵点资料

# 输出绘制好手部特徵点及连结之影像及手势名称

def display_gesture_and_hand_landmarks(images, gestures, hand_landmarks):

image = images.numpy_view() # 将numpy格式影像转回opencv格式影像

top_gestures = [gestures for gestures in gestures] # 取得手势资料阵列

hand_landmarks_list = [hand_landmarks for hand_landmarks in hand_landmarks] # 取得手部21个特徵点资料

title = ” # 存放手势名称及置信度字串

gesture_name = ” #存放手势名称

# 若手势内容不空则产生「手势名称加置信度」字串

if numpy.size(top_gestures) != 0:

gesture_name = top_gestures[0][0].category_name

gesture_score = top_gestures[0][0].score

title = f”{gesture_name}({gesture_score:.2f})”

annotated_image = image.copy() # 复制一份影像再开始绘制内容

# 若手部特徵点座标不空则绘制点及线於影像上

if numpy.size(hand_landmarks_list) != 0:

# 逐点绘制手部特徵点及连结线段

for hand_landmarks in hand_landmarks_list:

hand_landmarks_proto = landmark_pb2.NormalizedLandmarkList()

hand_landmarks_proto.landmark.extend([

landmark_pb2.NormalizedLandmark(x=landmark.x, y=landmark.y, z=landmark.z) for landmark in hand_landmarks

])

mp_drawing.draw_landmarks(

annotated_image,

hand_landmarks_proto,

mp_hands.HAND_CONNECTIONS,

mp_drawing_styles.get_default_hand_landmarks_style(),

mp_drawing_styles.get_default_hand_connections_style())

# 绘制手势名称及置信度字串到影像左上角

cv2.putText(annotated_image, f”{title}”,

(20, 30), cv2.FONT_HERSHEY_DUPLEX,

1, (0, 0, 255), 1, cv2.LINE_AA)

# 回传结果影像及手势名称

return annotated_image, gesture_name

# 先开启PowerPoint 并最大化等待启动（F5键）及操作命令

# 令滑鼠移到PowerPoint视窗位置并点击

ag.moveTo(960, 10, 1)

ag.click()

ag.press(‘f5′)

# 宣告手势辨识器及初使化相关叁数

base_options = python.BaseOptions(model_asset_path=’gesture_recognizer.task’)

options = vision.GestureRecognizerOptions(base_options=base_options)

recognizer = vision.GestureRecognizer.create_from_options(options)

# 开启网路摄影机撷取影像

cap = cv2.VideoCapture(0)

# 开始连续取像并推论及控制简报播放

while(True):

# 从网路摄影机撷取一张影像

ret, frame = cap.read()

# 转换影像格式以满足 MediaPipe

mp_image = mp.Image(image_format=mp.ImageFormat.SRGB, data=frame)

# 进行手势辨识并取得手势及手部特徵资料

recognition_result = recognizer.recognize(mp_image)

top_gesture = recognition_result.gestures

hand_landmarks = recognition_result.hand_landmarks

# 呼叫显示手势及手部特徵点函式并取得结果影像及手势名称

annotated_image, gesture_name = display_gesture_and_hand_landmarks(mp_image, top_gesture, hand_landmarks)

cv2.imshow(‘frame’, annotated_image)

# 若侦测到「打开手掌」手势则模拟「Page Down」按键按下，令简报往下一页播放。

# 模拟按键按下後，等待1秒，再继续侦测手势，以免重覆触发。

# 这里的手势可换成其它手势，如 “Closed_Fist”, “Open_Palm”, “Pointing_Up”, “Thumb_Down”, “Thumb_Up”, “Victory”等。

if gesture_name == “Open_Palm”:

ag.press(‘pagedown’)

ag.PAUSE = 1

# 当按下 q 或 ESC 键则离开??圈

key = cv2.waitKey(1)

if key == ord(‘q’) or key == 27:

break

# 释放网路摄影机

cap.release()

# 关闭所有 OpenCV 视窗

cv2.destroyAllWindows()

Google MediaPipe是一种很轻量的AI人机互动工具函式库，此次更新版让大家很容易上手及应用。本文范例只是牛刀小试了一下手势辨识，让播放简报瞬间就变得很神奇，只需挥挥手就能切换页面，不用再拿着简报播放遥控器。相信在大家的巧思下，未来一定可以开发出更多不一样的用法，打造人机互动新境界。

https://developers.google.com/mediapipe/solutions/vision/gesture_recognizer/python

[A] CAVEDU 教育团队，Python程式打造Google MediaPipe 深蹲侦测互动游戏

[B] CAVEDU 教育团队，Google Mediapipe 深蹲侦测结合 Arduino 首次接触就上手

https://makerpro.cc/2022/03/use-google-mediapipe-to-make-a-gesture-recognition-control-led-light/

[D] CAVEDU 教育团队，在Jetson Nano上执行Google Mediapipe 立即可用的辨识方案超好用！