olmOCR: 科学論文PDF処理

+------------------------------------------------------------------+
|                      olmOCR science PDFs                         |
+------------------------------------------------------------------+

概要

olmOCR science PDFs は、学術 PDF 文書から構築された新しいデータソースである。

  • peS2o の代替: Semantic Scholar の既存データセット peS2o を置き換えるために開発
  • AI2Bot クローラー: robots.txt に準拠した独自のウェブクローラーを使用
  • 規模: 初期収集で 238M(2億3800万)の PDF 文書を取得

olmOCR テキスト抽出プロセス

PDF からプレーンテキストへの変換には、以下の 2 段階のアプローチを採用している。

  • 第 1 段階: olmOCR(AI2 の OCR モデル)による PDF → プレーンテキスト変換
  • 第 2 段階: Poppler の pdftotext をフォールバックとして使用
  • 言語検出: Lingua による言語識別(英語文書のみを抽出)

データ処理パイプライン

olmOCR science PDFs は、複数段階のフィルタリングプロセスを経て構築されている。

Initial Collection:     238M PDF documents
         |
         v
Language Detection &    160M documents
Spam Filtering
         |
         v
Fuzzy Deduplication:    156M documents (2.3% reduction)
         |
         v
PII Filtering:          148M documents (4.9% reduction)
         |
         v
Heuristic Filtering:    108M documents (final)

各段階での削減率は以下の通りである。

  • 言語検出・スパムフィルタ: 238M → 160M(約 33% 削減)
  • Fuzzy deduplication: 160M → 156M(2.3% 削減)
  • PII フィルタリング: 156M → 148M(4.9% 削減)
  • ヒューリスティックフィルタ: 148M → 108M(約 27% 削減)

PII フィルタリング

個人情報(PII: Personally Identifiable Information)を含む文書を除外するため、文書タイプごとの判定を実施した。

  • 使用モデル: Gemma 3 12B および Gemma 3 4B
  • 判定基準: 公開意図のない文書かどうかを分類
  • 対象例: 個人の医療記録、学生の成績表、履歴書など
  • 削減効果: 4.9% の文書を除外

このフィルタリングにより、プライバシーを尊重したデータセットを構築している。

データ規模と特徴

olmOCR science PDFs は、長文脈研究のための最大のオープンコレクションである。

文書長別の統計は以下の通りである。

  • 8K+ トークン: 22.3M 文書(640B トークン)
  • 32K+ トークン: 4.5M 文書(380B トークン)

これらの長文文書は、長文脈モデリングの研究に特に有用である。

Note長文脈データの重要性

8K トークン以上の文書が 22.3M、32K トークン以上の文書が 4.5M も含まれており、長文脈を扱う言語モデルのトレーニングに最適なデータセットとなっている。

WebOrganizer による分類

最終的な文書コレクションは、WebOrganizer を用いて 24 の学術トピック に分類されている。

  • 分類手法: WebOrganizer(AI2 のドメイン分類器)
  • トピック数: 24 カテゴリ
  • 用途: データ分析、トピック別のサンプリング、ドメイン適応研究
TippeS2o との違い

olmOCR science PDFs は、peS2o と比較して以下の利点がある。

  • より新しいクローリングデータ
  • より厳格な PII フィルタリング
  • 長文文書が豊富
  • robots.txt に準拠した倫理的なクローリング