国产欧美久久久精品,中文字幕1区2区,日韩欧美亚洲综合久久影院d3

一、項目背景與目標

隨著數(shù)字化辦公的普及，紙質文檔的處理需求日益增加。傳統(tǒng)的手動輸入方式不僅耗時費力，還容易出錯。而OCR技術則能夠自動從圖像中提取文字信息，極大地提高了工作效率。本項目旨在通過OpenCV進行圖像處理，結合百度OCR API的文字識別能力，實現(xiàn)一個簡單、實用且高效的文檔OCR識別系統(tǒng)。

二、技術選型與工具介紹

1. OpenCV：OpenCV是一個開源的計算機視覺庫，提供了豐富的圖像處理與分析功能。在本項目中，我們將利用OpenCV進行圖像的預處理，包括灰度轉換、邊緣檢測、輪廓提取以及透射變換等，以提取出文檔的有效區(qū)域。
2.?百度OCR API：百度OCR API是百度提供的一項高性能文字識別服務，支持多種語言與字符集的識別。通過調用百度OCR API，我們可以輕松實現(xiàn)圖像中文字的自動提取與轉換。

三、項目實現(xiàn)步驟

1. 圖像預處理

圖像預處理是OCR識別的關鍵步驟之一。為了獲得更好的識別效果，我們需要對原始圖像進行一系列處理，以提取出文檔的有效區(qū)域。

? 讀取圖像：首先，我們使用OpenCV讀取原始圖像，并進行縮放處理以適應后續(xù)處理。
? 灰度轉換：將彩色圖像轉換為灰度圖像，以減少計算量并突出圖像中的邊緣信息。
? 邊緣檢測：利用Canny邊緣檢測算法檢測圖像中的邊緣信息。
? 輪廓提取：通過輪廓檢測算法提取出圖像中的閉合輪廓，并選擇面積最大的閉合輪廓作為文檔的邊緣。

import cv2 as cv

import numpy as np



# 讀取圖像

img = cv.imread('document.jpg', cv.IMREAD_COLOR)

org = img.copy()

ratio =0.4# 縮放比例

img = cv.resize(img, dsize=None, fx=ratio, fy=ratio)



# 灰度轉換

gray = cv.cvtColor(img, cv.COLOR_BGR2GRAY)



# 邊緣檢測

edged = cv.Canny(gray,75,200)



# 輪廓提取

cnts, hierarchy = cv.findContours(edged.copy(), cv.RETR_LIST, cv.CHAIN_APPROX_SIMPLE)

cnt =sorted(cnts, key=cv.contourArea, reverse=True)[0]# 面積最大的輪廓

peri = cv.arcLength(cnt,True)# 計算周長

approx = cv.approxPolyDP(cnt,0.1* peri,True)  # 輪廓近似

2. 文檔區(qū)域確定與透射變換

在確定了文檔的邊緣后，我們需要根據(jù)邊緣的四點確定文檔的區(qū)域，并利用透射變換將文檔視角轉換為正視圖。

? 排序輪廓點：通過計算x+y的最小值和最大值來確定A、C點，通過計算y-x的最小值和最大值來確定B、D點。然后，將這四個點按照順時針或逆時針順序排列。
? 透射變換：利用排列好的四個點進行透射變換，將文檔區(qū)域轉換為正視圖。

def order_points(pts):

    rect = np.zeros((4,2), dtype="float32")

    s = pts.sum(axis=1)

    rect[0]= pts[np.argmin(s)]

    rect[2]= pts[np.argmax(s)]

    diff = np.diff(pts, n=1, axis=1)

    rect[1]= pts[np.argmin(diff)]

    rect[3]= pts[np.argmax(diff)]

return rect



deffour_point_transform(image, pts):

    rect = order_points(pts)

len= np.zeros((4,1))

for i, p inenumerate(rect):

if i !=3:

            x = rect[i:(i +2),0]

            y = rect[i:(i +2),1]

else:

            x =[rect[3,0], rect[0,0]]

            y =[rect[3,1], rect[0,1]]

len[i]= np.sqrt(((x[0]- x[1])**2+(y[0]- y[1])**2))

    maxWidth =int(max(len[0],len[2]))

    maxHight =int(max(len[1],len[3]))

    dst = np.array([[0,0],[maxWidth -1,0],[maxWidth -1, maxHight -1],[0, maxHight -1]], dtype="float32")

    M = cv.getPerspectiveTransform(rect, dst)

    warped = cv.warpPerspective(image, M,(maxWidth, maxHight))

return warped



warped = four_point_transform(org, approx.reshape(4,2)/ ratio)

（注：此時代碼執(zhí)行后，將得到一個透視變換后的圖像。由于文本限制，無法直接展示圖片，但讀者可以在本地運行代碼并查看結果。）

3. 文字識別

在完成圖像預處理和文檔區(qū)域確定后，我們調用百度OCR API進行文字識別。

??申請OCR API密鑰：首先，我們需要在百度智能云平臺上申請OCR API的AppID、API Key和Secret Key。
? 創(chuàng)建AipOcr客戶端：利用申請到的密鑰創(chuàng)建一個AipOcr客戶端實例。
? 讀取預處理后的圖像：將預處理后的圖像轉換為字節(jié)流，以便上傳給百度OCR API進行識別。
? 調用OCR API：設置識別參數(shù)（如語言類型、檢測方向等），并調用百度OCR API進行文字識別。
? 處理識別結果：接收并處理OCR API返回的識別結果，提取出文檔中的文字信息。

from aip importAipOcr



# 初始化AipOcr

APP_ID ='你的AppID'

API_KEY ='你的API_Key'

SECRET_KEY ='你的Secret_Key'

client =AipOcr(APP_ID, API_KEY, SECRET_KEY)



# 讀取圖像并轉換為字節(jié)流

defget_file_content(filepath):

withopen(filepath,'rb')as fp:

return fp.read()



image_path ='預處理后的圖像路徑'# 注意替換為實際路徑

image = get_file_content(image_path)



# 調用OCR API進行文字識別

options ={}

options["language_type"]="CHN_ENG"# 中英文識別

options["detect_direction"]="true"# 檢測圖像方向

options["detect_language"]="true"# 檢測語言

options["probability"]="true"# 返回識別概率



res = client.basicGeneral(image, options)



# 打印識別結果

if'words_result'in res:

for item in res['words_result']:

print(f"識別出的文字: {item['words']}, 置信度: {item['confidence']}")

else:

print("未識別到文字")