使用 Marker 將 PDF 轉換為 Markdown 格式的 LLM 就緒資料

輕鬆將複雜的 PDF 轉換為結構化的 Markdown 檔案,以供大型語言模型使用。了解開源工具 Marker 如何相比其他選擇(如 Nougat)提高您的 PDF 到 Markdown 的轉換準確性和速度。使用這個高效的工作流程優化您的資料集,以供語言模型使用。

2025年2月24日

party-gif

使用 Marker 這個開源工具,輕鬆將複雜的 PDF 文件轉換為結構良好的 Markdown 檔案,為您的語言模型解鎖 PDF 文件的強大功能。簡化您的資料準備過程,發揮語言模型的全部潛力,不受原始素材格式的限制。

使用 PDF 進行 LLM 工作的挑戰

使用大型語言模型(LLM)應用程式處理PDF檔案可能會非常具有挑戰性。PDF檔案本質上是一種「破碎」的格式,因為它們通常具有複雜的結構,包含不同資料類型的嵌套元素,而且沒有標準的版面配置,這使得從中提取資料變得很麻煩。

一些主要的挑戰包括:

  • 複雜的結構: PDF檔案可能具有嵌套結構,包含文字、表格、圖像和方程式等不同資料類型,這使得解析和提取相關資訊變得很困難。

  • 缺乏標準化: PDF檔案沒有標準的版面配置,這意味著資料可以以各種方式組織,這使得開發一種適用於所有情況的資料提取解決方案變得很困難。

  • 編碼和格式問題: PDF檔案可能具有不同的編碼和格式,如不同的字型和版面配置,這可能進一步複雜化資料提取過程。

  • 表格和圖像: 從PDF檔案中的表格和圖像提取資料特別具有挑戰性,因為這些元素的版面配置和格式可能會有很大差異。

  • 錯誤和不準確性: 從PDF檔案中提取資料的過程容易出現錯誤和不準確,這可能會對LLM應用程式的性能產生負面影響。

為了使PDF檔案更適合LLM,已經探索了各種方法,如將PDF轉換為純文本、使用機器學習模型檢測版面配置,以及採用光學字元識別(OCR)技術。然而,這些方法可能很麻煩,而且仍然容易出現錯誤。

相比之下,使用Markdown這種輕量級標記語言可能更容易用於LLM應用程式。Markdown可以保留原始格式,包括標題、標頭、圖像、表格和方程式,這些都可以被LLM有效地處理。

使用 Markdown 進行 LLM 的好處

Markdown是一種輕量級標記語言,在與大型語言模型(LLM)合作時提供了多項優勢:

  1. 結構化資料: Markdown保留了文件的原始格式,包括標題、標頭、圖像、表格和方程式。這種結構化資料可以被LLM有效地處理,使它們能夠理解內容中的上下文和關係。

  2. 轉換容易: 將通常是文本資料主要來源的PDF檔案轉換為純文本可能是一項繁瑣的任務,因為PDF的結構和格式很複雜。而Markdown則可以很容易地轉換為純文本,使其成為更適合LLM的格式。

  3. 一致性: Markdown提供了一種一致且標準化的文本格式化方式,這在處理大型資料集或多個文件時特別有用。這種一致性可以提高LLM應用程式的性能和可靠性。

  4. 可讀性: Markdown簡單的語法和清晰的格式使文本更具可讀性和可訪問性,對於人類和機器來說都是如此。這可以促進LLM對內容的更好理解和解釋。

  5. 可攜性: Markdown檔案輕量,可以輕易地共享、存儲和版本控制,使其成為需要資料可攜性和協作的LLM應用程式的理想選擇。

  6. 靈活性: Markdown可以輕易地與各種工具和工作流程整合,允許與LLM管線和其他資料處理任務無縫整合。

通過利用Markdown的優勢,您可以提高LLM應用程式的質量和性能,使其成為資料準備和管理的有價值選擇。

介紹 Marker:一個開源工具,用於將 PDF 轉換為 Markdown

Marker是一個開源工具,可以讓您快速準確地將複雜的PDF檔案轉換為結構良好的Markdown。這在使用大型語言模型(LLM)時特別有用,因為Markdown提供了一種比PDF所面臨的挑戰更加乾淨和易於處理的格式。

Marker支援各種文件類型,包括書籍、科學論文和簡歷。它經過優化,可以處理PDF結構的複雜性,移除標頭、頁腳和其他工件,以提取核心內容。此外,Marker會格式化表格、程式碼塊和方程式(將大部分轉換為LaTeX),並保存原始文件中找到的任何圖像。

Marker的一個關鍵優勢是其性能。與另一個開源工具Nougat相比,Marker的速度快得多,處理一頁文字大約需要100秒,而Nougat需要400秒。Marker的準確性也更高,能更有效地保留原始文件的結構和版面配置。

雖然Marker並非完美,在處理複雜方程式或表格格式時可能會遇到一些限制,但它提供了一個強大可靠的解決方案,用於將PDF轉換為Markdown。該工具是開源的,可供使用,但對於收入或資金較高的組織有一些商業使用限制。

要開始使用Marker,您可以按照安裝說明操作,包括設置新的Conda環境並安裝PyTorch。安裝完成後,您可以使用提供的命令轉換單個PDF檔案或批量轉換多個檔案。Marker將處理版面分析、文本提取和Markdown格式化,使其成為任何需要處理大量PDF資料的LLM工作者的有價值工具。

Marker 與其他 PDF 到 Markdown 工具的比較

Marker是一個開源工具,相比其他PDF到Markdown轉換工具,它提供了幾項優勢。與另一個流行的開源選擇Nuget相比,Marker的速度快得多,處理一頁文字大約需要100秒,而Nuget需要400秒。此外,Marker的準確性也接近Nuget的兩倍。

作者提供了一個具體的例子,使用「Think Python」一書來說明兩者的差異。Nuget完全忽略了前幾頁和目錄,而Marker能夠保留整本書的完整結構,包括前幾頁、目錄和第一章。

Marker支援各種文件類型,包括書籍和科學論文,並可處理多種語言的文件。它會移除標頭、頁腳和其他工件,並準確地格式化表格和程式碼塊。Marker還會提取和保存圖像,並將大部分方程式轉換為LaTeX格式。

然而,Marker也有一些限制。它可能無法將100%的方程式轉換為LaTeX,表格的格式化也不總是完美。此外,空白和行跨度可能也無法完全保留。儘管存在這些限制,Marker在大多數PDF檔案上都能很好地運作,是一個有價值的開源工具,用於將PDF文件轉換為結構化的Markdown。

如何安裝和使用 Marker

要安裝和使用Marker工具,請按照以下步驟操作:

  1. 創建一個新的Conda環境,並將其命名為marker:

    conda create -n marker python=3.9
    conda activate marker
    
  2. 安裝PyTorch,這是Marker所需的:

    # 對於Mac
    pip install torch torchvision torchaudio
    
    # 對於Linux
    # 使用PyTorch網站上的適當命令
    
    # 對於Windows
    # 使用PyTorch網站上的適當命令
    
  3. 使用pip安裝Marker套件:

    pip install marker-pdf
    
  4. 要將單個PDF檔案轉換為Markdown,請使用以下命令:

    marker-single <path_to_pdf_file> <output_directory>
    

    您也可以指定可選參數,如批量乘數和文件的語言。

  5. 要將多個PDF檔案轉換為Markdown,請使用以下命令:

    marker-multi <directory_with_pdf_files> <output_directory>
    

Marker工具將首先下載必要的OCR模型,然後處理PDF檔案並生成包含提取內容(包括文本、圖像、表格和方程式(如果可能))的Markdown檔案。輸出將存儲在指定的輸出目錄中。

請注意,Marker有一些限制,例如無法始終正確格式化表格,以及無法將100%的方程式轉換為LaTeX。但是,它提供了一種快速準確的方式將PDF檔案轉換為結構化的Markdown,這對於在LLM應用程式中使用PDF資料非常有用。

Marker 的功能和局限性

Marker是一個開源工具,可以有效地將複雜的PDF檔案轉換為結構良好的Markdown格式。它的一些主要功能包括:

  • 支援各種文件類型,包括書籍、科學論文和簡歷。
  • 針對從PDF中提取內容進行了優化,移除標頭、頁腳和其他工件。
  • 格式化表格和程式碼塊,提取並保存圖像,並將大部分方程式轉換為LaTeX。
  • 可在GPU、CPU或Apple的MPS上運行,並支援可選的OCR。

然而,Marker也有一些限制:

  • 並非所有方程式都能100%準確地轉換為LaTeX。
  • 表格的格式化並非總是完美,某些行間距和跨度可能無法正確合併。
  • 對於超過某些收入或資金門檻的商業項目,存在使用限制。

儘管存在這些限制,Marker仍然是一個強大的工具,可以大大簡化使用PDF資料進行語言模型和其他應用程式的過程。它的開源性質和出色的性能使其成為那些希望簡化PDF到Markdown轉換工作流程的人的寶貴資源。

結論

良好的資料可用性對LLM應用程式的成功至關重要。雖然PDF檔案是用於存儲文本資料的常見方式,但由於其複雜的結構和缺乏標準化,使用它們可能會非常具有挑戰性。

Marker,一個開源工具,提供了一個解決方案,通過將PDF檔案有效地轉換為結構良好的Markdown格式。與其他工具如Nuget相比,Marker的速度更快,在保留原始文件結構(包括標頭、表格、圖像和方程式等元素)方面也更準確。

該工具支援各種文件類型,包括書籍、科學論文和簡歷。它會移除標頭、頁腳和其他工件,並有效地格式化表格和程式碼塊。雖然它可能無法完美地處理100%的方程式或表格格式,但Marker仍然是一個有價值的工具,可以大大簡化為LLM應用程式準備PDF資料的過程。

總的來說,Marker是一個強大的開源解決方案,可以幫助克服使用PDF資料的挑戰,並提高LLM應用程式所使用資料的質量。

常問問題