📊

Dataset

Findoc Robust

Name: Findoc Robust
Creator: Arcolab Dev
License: Apache-2.0

by Arcolab Dev arcolab-dev/findoc-robust

Free2AITools Nexus Index

60.1

S: Semantic 50

Query-time baseline · scored live at search

A: Authority 61

P: Popularity 51

R: Recency 78

Q: Quality 50

Tech Context

Vital Performance —

Source →

Data Integrity 60.1 FNI Score

- Size

- Rows

- Tokens

Dataset Information Summary
Entity Passport
Registry ID	arcolab-dev/findoc-robust
License	Apache-2.0
Provider	huggingface

📜

Cite this dataset

Academic & Research Attribution

BibTeX

@misc{hf_dataset_arcolab_dev_findoc_robust,
  author = {Arcolab Dev},
  title = {Findoc Robust Dataset},
  year = {2026},
  howpublished = {\url{https://huggingface.co/datasets/arcolab-dev/FinDoc-Robust}},
  note = {Accessed via Free2AITools.}
}

APA Style

Arcolab Dev. (2026). Findoc Robust [Dataset]. Free2AITools. https://huggingface.co/datasets/arcolab-dev/FinDoc-Robust

🔬Technical Deep Dive

Full Specifications [+]

⚖️ Free2AITools Nexus Index V2.0

Methodology How FNI works

Semantic (S) 50

Query-time baseline · scored live at search

Authority (A) 61

Popularity (P) 51

Recency (R) 78

Quality (Q) 50

💬 Index Insight

FNI V2.0 for Findoc Robust: Authority (A:61), Popularity (P:51), Recency (R:78), Quality (Q:50). Semantic (S) is a query-time baseline scored live at search.

Free2AITools Nexus Index

Data Sources / Provenance

HuggingFace API GitHub Metadata Arxiv Citation DB Methodology

Open data Updated: Live data

⬇️

Downloads

30,879

🎯 Task Categories

object-detection

👁️ Data Preview

📊

Row-level preview not available for this dataset.

Schema structure is shown in the Field Logic panel when available.

🔗 Explore Full Dataset ↗

🧬 Field Logic

🧬

Schema not yet indexed for this dataset.

Dataset Specification

Financial Document Extraction & Robustness Dataset (FinDoc-Robust)

Dataset Description

FinDoc-Robust is a multimodal, benchmark-grade dataset designed for Document Layout Analysis (DLA), Visual Information Extraction (VIE), and evaluating model robustness against real-world degradation.

The dataset contains financial reports across 5 distinct document categories (e.g., cash flow statements, balance sheets, trial balances, shareholders' equity, corporate income statements). For every document, it provides perfect digital vectors, tabular ground truths, pixel-level bounding boxes, and 5 structurally degraded ("dirty") variants simulating camera captures, scans, and physical artifacts.

Key Applications

Robust Document AI: Training models to resist geometric distortions, noise, and blur.
Table Reconstruction: Benchmarking end-to-end Image-to-Excel/HTML/Markdown pipelines.
Multimodal Alignment: Fine-tuning models like LayoutLMv3, Donut, or proprietary Vision-LLMs on complex financial structures.

Social Proof

HuggingFace Hub

30.9KDownloads

Hub Discussions

🤗 Data Source: Hugging Face ↗

🔄 Updated daily

Source summary: Based on Hugging Face metadata. Not a recommendation.

📊 FNI Methodology 📚 Knowledge Baseℹ️ Verify with original source

🛡️ Dataset Transparency Report

Technical metadata sourced from upstream repositories.

Open Metadata

🆔 Identity & Source

id: hf-dataset--arcolab-dev--findoc-robust
slug: arcolab-dev--findoc-robust
source: huggingface
author: Arcolab Dev
license: Apache-2.0
tags: task_categories:object-detection, language:en, license:apache-2.0, size_categories:1k<n<10k, format:csv, modality:image, modality:text, library:datasets, library:pandas, library:polars, library:mlcroissant, region:us, financial, document-ai, multimodal

⚙️ Technical Specs

architecture: null
params billions: null
context length: null
pipeline tag

📊 Engagement & Metrics

downloads: 30,879
stars: null
forks: null

Data indexed from public sources. Updated daily.