olmOCR: 科学論文PDF処理
+------------------------------------------------------------------+
| olmOCR science PDFs |
+------------------------------------------------------------------+
概要
olmOCR science PDFs は、学術 PDF 文書から構築された新しいデータソースである。
- peS2o の代替: Semantic Scholar の既存データセット peS2o を置き換えるために開発
- AI2Bot クローラー: robots.txt に準拠した独自のウェブクローラーを使用
- 規模: 初期収集で 238M(2億3800万)の PDF 文書を取得
olmOCR テキスト抽出プロセス
PDF からプレーンテキストへの変換には、以下の 2 段階のアプローチを採用している。
- 第 1 段階: olmOCR(AI2 の OCR モデル)による PDF → プレーンテキスト変換
- 第 2 段階: Poppler の pdftotext をフォールバックとして使用
- 言語検出: Lingua による言語識別(英語文書のみを抽出)
データ処理パイプライン
olmOCR science PDFs は、複数段階のフィルタリングプロセスを経て構築されている。
Initial Collection: 238M PDF documents
|
v
Language Detection & 160M documents
Spam Filtering
|
v
Fuzzy Deduplication: 156M documents (2.3% reduction)
|
v
PII Filtering: 148M documents (4.9% reduction)
|
v
Heuristic Filtering: 108M documents (final)
各段階での削減率は以下の通りである。
- 言語検出・スパムフィルタ: 238M → 160M(約 33% 削減)
- Fuzzy deduplication: 160M → 156M(2.3% 削減)
- PII フィルタリング: 156M → 148M(4.9% 削減)
- ヒューリスティックフィルタ: 148M → 108M(約 27% 削減)
PII フィルタリング
個人情報(PII: Personally Identifiable Information)を含む文書を除外するため、文書タイプごとの判定を実施した。
- 使用モデル: Gemma 3 12B および Gemma 3 4B
- 判定基準: 公開意図のない文書かどうかを分類
- 対象例: 個人の医療記録、学生の成績表、履歴書など
- 削減効果: 4.9% の文書を除外
このフィルタリングにより、プライバシーを尊重したデータセットを構築している。
データ規模と特徴
olmOCR science PDFs は、長文脈研究のための最大のオープンコレクションである。
文書長別の統計は以下の通りである。
- 8K+ トークン: 22.3M 文書(640B トークン)
- 32K+ トークン: 4.5M 文書(380B トークン)
これらの長文文書は、長文脈モデリングの研究に特に有用である。
Note長文脈データの重要性
8K トークン以上の文書が 22.3M、32K トークン以上の文書が 4.5M も含まれており、長文脈を扱う言語モデルのトレーニングに最適なデータセットとなっている。
WebOrganizer による分類
最終的な文書コレクションは、WebOrganizer を用いて 24 の学術トピック に分類されている。
- 分類手法: WebOrganizer(AI2 のドメイン分類器)
- トピック数: 24 カテゴリ
- 用途: データ分析、トピック別のサンプリング、ドメイン適応研究
TippeS2o との違い
olmOCR science PDFs は、peS2o と比較して以下の利点がある。
- より新しいクローリングデータ
- より厳格な PII フィルタリング
- 長文文書が豊富
- robots.txt に準拠した倫理的なクローリング