如何获取文字对应的mask，不是需要区域的，而是要精确到汉字，最后得到的遮罩是可以读出汉字的 #14539

hjj-lmx · 2025-01-14T02:04:17Z

hjj-lmx
Jan 14, 2025

最后得到的遮罩是可以读出汉字的

GreatV · 2025-01-14T02:06:36Z

GreatV
Jan 14, 2025
Maintainer

要实现获取文字对应的精准汉字遮罩（mask），并且最终生成的遮罩可以清晰地读出汉字，以下是一个可行的解决方案和方法：

1. 使用OCR工具识别文字区域

首先需要使用OCR工具（如PaddleOCR）对图片中的文字进行识别。这一步会输出文字的位置信息（bounding box）以及识别的文字内容。具体流程如下：

输入图片到OCR模型。
获取OCR模型输出的文字检测框（文本区域的四边形坐标）和对应的文字识别结果。

注意：
如果你遇到花体字、艺术字等复杂字体，普通OCR模型可能无法识别完整或准确。可以参考以下优化方法：

使用PaddleOCR的PP-OCRv4或PP-ChatOCRv2，并尝试训练定制模型（Finetune）以适配你的特殊字体。
如果需要识别特殊字体，可以使用相关讨论中的建议，例如通过训练特定样本集优化OCR模型性能：讨论链接。

2. 提取每个汉字的精确mask

为了生成每个汉字的遮罩，可以按照以下步骤：

（1）基于检测框裁剪区域

对于OCR输出的每个文字检测框，使用图像处理工具（如OpenCV或Pillow）裁剪出对应的图像区域。这样可以得到每个文字所在的独立图像。

（2）二值化处理

对裁剪出的文字区域进行图像预处理（如灰度化、二值化），提取文字的精确轮廓。以下是具体操作：

转换为灰度图：cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
应用二值化：_, binary = cv2.threshold(gray_image, threshold_value, 255, cv2.THRESH_BINARY)

（3）生成每个汉字的mask

使用二值化后的图像，提取文字轮廓并生成遮罩。可以使用OpenCV的findContours()方法提取文字轮廓：

contours, _ = cv2.findContours(binary, cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_SIMPLE)
mask = np.zeros_like(binary)
cv2.drawContours(mask, contours, -1, (255), thickness=cv2.FILLED)

这样可以得到一个只包含文字部分的遮罩。

3. 确保遮罩可“读出汉字”

为了确保生成的mask可以通过OCR重新识别出对应的汉字，可以进行以下验证步骤：

将生成的遮罩图像重新输入OCR模型，确认其识别结果是否与原始文字匹配。
如果OCR无法正确识别，可以通过调整二值化参数或轮廓提取算法来优化遮罩的精确度。

4. 总结与注意事项

识别花体字或艺术字时，普通OCR模型可能效果有限，需要通过训练自定义模型进行优化。
遮罩生成过程中，二值化参数和轮廓提取方法对最终结果影响较大，需要根据具体图片调整。
如果你需要代码实现或详细指导，可以参考PaddleOCR的官方文档或其讨论区的解决方案：PaddleOCR讨论社区。

希望以上方法能帮助你实现目标！如果需要更多具体指导，可以进一步讨论。

Response generated by feifei-bot | chatgpt-4o-latest

2 replies

hjj-lmx Jan 14, 2025
Author

我现在就是这么写的，但是拿到的结果不理想，因为图片中文字的字体、颜色、大小、笔画粗细等都会影响，下面是我的代码

def get_mask_from_ocr(image_np, mask_array, text_regions):
    image_bgr = cv2.cvtColor(image_np, cv2.COLOR_RGB2BGR)
    # 创建一个黑色背景的mask，用于存储蓝色的笔画
    mask = np.zeros_like(image_bgr, dtype=np.uint8)
    if mask_array is not None:
        # 遍历每个检测到的文字
        for line in text_regions:
            for word_info in line:
                # 获取每个文字区域的四个角点
                points = np.array(word_info[0], dtype=np.int32)

                # 获取文字区域的最小外接矩形
                x, y, w, h = cv2.boundingRect(points)
                # 容差值
                margin = 5
                for itm in mask_array:
                    rx1, ry1 = int(itm["x"]), int(itm["y"])
                    rx2, ry2 = rx1 + int(itm["width"]), ry1 + int(itm["height"])

                    if (x >= rx1 - margin and y >= ry1 - margin and (x + w) <= rx2 + margin and (
                            y + h) <= ry2 + margin):
                        # 提取文字区域
                        text_roi = image_bgr[y:y + h, x:x + w]
                        # 转换为灰度图像
                        gray = cv2.cvtColor(text_roi, cv2.COLOR_BGR2GRAY)
                        # 使用自适应阈值处理，生成白底黑字的二值图像
                        binary = cv2.adaptiveThreshold(
                            gray, 255, cv2.ADAPTIVE_THRESH_GAUSSIAN_C, cv2.THRESH_BINARY, 15, 10
                        )
                        # 检测文字区域是否为白底黑字，否则进行反转
                        if np.mean(binary) > 175:  # 如果文字区域偏亮，反转为白底黑字
                            binary = cv2.bitwise_not(binary)

                        # 膨胀以连接笔画缺口
                        kernel = cv2.getStructuringElement(cv2.MORPH_RECT, (7, 7))  # 调整核大小
                        binary_dilated = cv2.dilate(binary, kernel, iterations=1)
                        # 使用轮廓检测，将每个轮廓填充为白色
                        contours, _ = cv2.findContours(binary_dilated, cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_SIMPLE)
                        filled_text = np.zeros_like(binary_dilated, dtype=np.uint8)
                        cv2.drawContours(filled_text, contours, -1, 255, thickness=cv2.FILLED)
                        # 将填充后的文字笔画合并到 mask，确保填充区域是白色
                        mask[y:y + h, x:x + w, 0] = cv2.bitwise_or(mask[y:y + h, x:x + w, 0], filled_text)
    else:
        # 遍历每个检测到的文字
        for line in text_regions:
            for word_info in line:
                # 获取每个文字区域的四个角点
                points = np.array(word_info, dtype=np.int32)

                # 获取文字区域的最小外接矩形并扩展边界
                x, y, w, h = cv2.boundingRect(points)
                margin = 1  # 扩展边界
                x = max(0, x - margin)
                y = max(0, y - margin)
                w = min(image_bgr.shape[1] - x, w + 2 * margin)
                h = min(image_bgr.shape[0] - y, h + 2 * margin)

                # 提取文字区域
                text_roi = image_bgr[y:y + h, x:x + w]

                # 转换为灰度图像
                gray = cv2.cvtColor(text_roi, cv2.COLOR_BGR2GRAY)

                # 自适应二值化，将文字区域提取为白底黑字
                binary = cv2.adaptiveThreshold(
                    gray, 255, cv2.ADAPTIVE_THRESH_GAUSSIAN_C, cv2.THRESH_BINARY, 15, 10
                )

                # 如果平均亮度高于阈值，说明是黑底白字，需反转
                if np.mean(binary) > 175:
                    binary = cv2.bitwise_not(binary)

                # 膨胀以连接笔画缺口
                kernel = cv2.getStructuringElement(cv2.MORPH_RECT, (7, 7))  # 调整核大小
                binary_dilated = cv2.dilate(binary, kernel, iterations=1)

                # 查找轮廓并填充
                contours, _ = cv2.findContours(binary_dilated, cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_SIMPLE)
                filled_text = np.zeros_like(binary_dilated, dtype=np.uint8)
                cv2.drawContours(filled_text, contours, -1, 255, thickness=cv2.FILLED)

                # 将填充后的文字笔画合并到 mask，确保填充区域是白色
                mask[y:y + h, x:x + w, 0] = cv2.bitwise_or(mask[y:y + h, x:x + w, 0], filled_text)
    # 提取mask的单通道，并确保背景黑色，前景为白色
    mask_single_channel = cv2.cvtColor(mask, cv2.COLOR_BGR2GRAY)
    _, dilated_mask = cv2.threshold(mask_single_channel, 1, 255, cv2.THRESH_BINARY)
    return dilated_mask

GreatV Jan 15, 2025
Maintainer

现在是按行识别的，没有办法精确得到每个字的位置。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

如何获取文字对应的mask，不是需要区域的，而是要精确到汉字，最后得到的遮罩是可以读出汉字的 #14539

Uh oh!

{{title}}

Uh oh!

Replies: 1 comment 2 replies

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{editor}}'s edit

{{editor}}'s edit

Uh oh!

Uh oh!

{{title}}

Uh oh!

Select a reply

Uh oh!

如何获取文字对应的mask，不是需要区域的，而是要精确到汉字，最后得到的遮罩是可以读出汉字的 #14539

Uh oh!

hjj-lmx Jan 14, 2025

Replies: 1 comment · 2 replies

Uh oh!

GreatV Jan 14, 2025 Maintainer

1. 使用OCR工具识别文字区域

2. 提取每个汉字的精确mask

（1）基于检测框裁剪区域

（2）二值化处理

（3）生成每个汉字的mask

3. 确保遮罩可“读出汉字”

4. 总结与注意事项

Uh oh!

Uh oh!

hjj-lmx Jan 14, 2025 Author

Uh oh!

GreatV Jan 15, 2025 Maintainer

hjj-lmx
Jan 14, 2025

Replies: 1 comment 2 replies

GreatV
Jan 14, 2025
Maintainer

hjj-lmx Jan 14, 2025
Author

GreatV Jan 15, 2025
Maintainer