
IT咨詢顧問的關鍵抓手-DeepSeek+企業架構-快速的熟悉和洞察一個新的行業
文檔解析技術是從這些海量且復雜的數據中高效準確地提取有價值信息的關鍵。它從輸入文檔圖像開始,經過圖像處理、版面分析、內容識別和語義理解等流程,最終輸出結構化電子文檔或語義信息。通過文檔解析技術,我們能夠深入理解文檔的結構、內容和主題,使得信息更易于檢索、分析和利用。其中:
現如今,以ChatGPT為代表的先進大語言模型(LLM)已經能夠勝任復雜的自然語言處理任務。將LLM與文檔解析技術相結合,不僅能夠顯著提升文檔解析的準確性和效率,還能挖掘出更廣闊的應用場景,降低文檔理解的門檻,從而有力推動自然語言處理領域的蓬勃發展。盡管當前國內外的大模型紛紛加入了文檔解析功能,然而,在對照文檔解析的四個關鍵步驟(圖像處理、版面分析、內容識別、語義理解)時,這些大模型并未展現出無懈可擊的解決能力。
它們在實際應用中仍然面臨著一定的挑戰和限制,下面我們使用LLM對文檔解析中的一些經典問題進行分析:
圖像處理難題——圖像傾斜矯正
下面,我們嘗試將一段具有傾斜角度的文檔圖片輸入到LLM中,如下圖所示,由于文檔圖像存在顯著的傾斜度,LLM在自動進行圖像傾斜矯正時遇到了困難,導致了內容解析的失敗。這一挑戰凸顯了當前LLM在圖像預處理和矯正方面仍面臨一定的困難。
版面分析難題——邏輯結構識別
在下圖所示的示例中,我們嘗試將一篇具有無線有線混排的表格文檔輸入給LLM中,并就其中的“AdaBoost需要使用到的特征”進行提問,可以發現,在使用大模型自帶的解析時,找到的信息與原始文檔相悖,這一錯誤信息無疑給用戶帶來嚴重的誤導。
內容識別難題——公式識別解析
數學公式,作為文本中獨特的元素,通常融合了文字和符號,呈現出復雜的二維結構關系。在識別這些公式時,不僅需要對構成其基礎的文字和符號進行精確識別,還需深入分析這些元素之間的二維結構,準確描述它們之間的關系。在如下圖示的案例中,我們將一篇包含中等難度公式的文檔輸入到LLM中,希望它能協助總結節點定位誤差的公式。盡管LLM輸出了相應的公式,但仔細觀察后不難發現,該公式明顯缺少一個關鍵的根號,產生一定的誤導。這一疏忽表明,LLM在結構化符號和圖形識別方面仍有待提高,在處理數學公式這類具有嚴格結構和邏輯的文本元素時,其準確性和完整性仍需進一步加強。
語義理解難題——閱讀順序推斷
語義理解階段的核心任務是識別并理解文檔中不同部分之間的內在關聯和邏輯關系。在原始文檔中,“把握跨境支付數據取得與流量數據價值定位的主動權”這一關鍵論點與第⑦篇《大力增強支付產業國際競爭力》之間存在明確的對應關系。而當我們將此文檔輸入到LLM系統時,它未能按照人類的思維邏輯來正確解析和展示文檔內容。相反,其錯誤地編造了一篇文獻作為回應,這凸顯了當前LLM在語義理解,尤其是閱讀順序與邏輯關聯推斷方面的不足。
針對以上痛點,合合信息憑借其強大的研發實力,成功自研出TextIn文檔解析技術。該技術深度融合了文字識別、計算機圖形圖像技術以及智能圖像處理引擎,使得紙質文檔或圖片中的文字信息能夠迅速、精準地轉化為計算機易于處理的文本格式。目前,TextIn平臺已經開放了通用文檔解析的試用權限和API調試接口,任何開發者都可以注冊賬號并開通使用。
首先進入TextIn官網:https://www.textin.com/console/recognition/robot_struct?service=pdf_to_markdown選擇1千頁的套餐進行試用。
點擊開通試用,然后進入工作臺,找到已開通機器人-公有云API-通用文檔解析-在線使用。
進入網頁后,上傳一份檢索報告的掃描件,可以看到,TextIn通用文檔解析能夠精準地識別掃描件中的表格元素。不論是簡單的單行表格還是復雜的跨頁表格,它都能準確地捕捉并創建出結構清晰、布局合理的電子表格,還能將單元格的內容一一對應解析,確保數據項都被準確無誤地提取。
不僅如此,它還能夠將解析結果導出為Markdown或JSON格式。Markdown格式的輸出具有直觀性和編輯便捷性,特別適用于解析結果的查看、修改及后續處理。而JSON格式在數據交換中具有相當的通用性和易用性,它能夠與主流數據處理軟件或平臺無縫對接,確保數據的流暢交換和共享。通過這兩種格式的輸出選項,我們可以將解析結果直接應用于數據分析和處理,并且能夠輕松實現與其他系統的數據交換和集成。
除了在線調用,TextIn通用文檔解析還提供了API調試與示例代碼,首先點擊API集成,進入API文檔。
API文檔給出了請求頭、URL參數、請求體說明、響應體說明和錯誤碼說明,包括必要的認證信息、內容類型、清晰的示例和說明、字段的含義和格式。這里我使用JS設計一個簡單的demo,其中onload事件處理函數用于獲取讀取到的文件數據(ArrayBuffer),XMLHttpRequest對象向服務器發送數據后,onreadystatechange事件處理函數檢查請求的readyState屬性并對返回內容進行解析,主要核心代碼如下:
// 示例代碼
實際使用時,只需要點擊選擇文件,然后上傳需要解析的PDF或圖片,在右側就會打印出對應的解析結果。
文檔解析技術以其精湛的技能,致力于將多樣化格式的文檔轉化為計算機易于理解和操作的文本格式。而強大的大型語言模型則以其卓越的能力,能夠深入理解和把握不同文本格式的上下文脈絡,精準捕捉文本中蘊含的深層語義,從而生成更加貼合用戶需求的下游任務輸出。那么,我不禁思考:是否有可能將TextIn文檔解析API與LLM的語言理解能力巧妙結合,打造出一個高效且強大的文檔處理流程?話不多說,讓我們立即付諸實踐。
首先,我們調用TextIn文檔解析API,將原本難以直接使用的文檔(如PDF和圖片格式)轉化為計算機易于理解的信息,選擇輸出Markdown或JSON格式的文檔內容,為后續的數據分析和處理提供清晰、結構化的數據支持。
接下來,我們將TextIn API生成的Markdown數據或JSON數據作為輸入傳遞給LLM,本次實踐選用了moonshot的Kimi。通過這一步驟,我們為Kimi提供了豐富的結構化數據,使其能夠深入分析文檔內容,并為后續處理提供更為全面和準確的上下文支持。
最后利用LLM的能力,對輸入的JSON數據進行處理,根據特定的業務場景和用戶需求,我們可以讓LLM執行一系列高級任務,如生成摘要、提取關鍵信息、分類總結等。以下圖的鄉村旅游熱度季節變化規律為例,我們可以將包含鄉村旅游數據的JSON文件輸入給LLM。LLM會利用其深度學習和自然語言處理的能力,分析這些數據,識別出鄉村旅游熱度的季節性趨勢和變化規律,基于這些分析,生成一份詳盡的分析報告,包含鄉村旅游熱度的季節分析、未來趨勢預測以及相應的建議或策略,從而為鄉村旅游的決策者提供有價值的參考,幫助規劃和管理鄉村旅游資源,提升游客的滿意度和體驗。
通過以上體驗,可以看到,TextIn文檔解析API以其卓越的性能為我們提供了強大的文檔解析工具,而Kimi智能文檔助手則以其對文本深層語義的精準捕捉和理解能力,進一步提升了文檔內容的下游任務處理水平,結合兩者,不僅打破了傳統文檔處理的局限,還可以實現對文檔更深層次的理解和處理,并且能夠應對各種類型文檔處理需求。想象一下,當你面對一堆繁雜的PDF文件、圖片或掃描件時,你不再需要逐頁翻閱、手動輸入或依賴低效的OCR工具,而是可以借助TextIn文檔解析 + LLM將其迅速轉化為結構化的文本數據,進而提取關鍵信息、生成摘要、分類歸檔,甚至進行更復雜的文本挖掘和數據分析。
如果你對智能圖像處理、文字表格識別、文檔內容提取感興趣,那么我強烈推薦你前往TextIn的官方網站進行親身體驗。讓TextIn成為你文檔處理的得力助手,讓智能化、高效化的文檔解析成為你工作的新常態吧!
原文轉載自:https://mp.weixin.qq.com/s/J-msYAYwSymRTZvLVgHnXw
IT咨詢顧問的關鍵抓手-DeepSeek+企業架構-快速的熟悉和洞察一個新的行業
基于Ollama與AnythingLLM的DeepSeek-R1本地RAG應用實踐
模型引擎的技術債務?一個Deepseek三種API引發的連鎖反應
Windows 上快速部署.NET Core Web 項目
.NET開發者看過來!DeepSeek SDK 集成
LangChain4j實戰-Java AI應用開源框架之LangChain4j和Spring AI
后端開發人員Docker快速入門
生產級滿血版Deepseek-r1 671B部署實例
生產級滿血版Deepseek-r1 671B部署后續問題、調優以及壓測