📊

Dataset

Honey Data 15m

by Open Bee hf-dataset--open-bee--honey-data-15m

Nexus Index

43.0 Top 0%

P / V / C / U Breakdown Calibration Pending

Pillar scores are computed during the next indexing cycle.

Tech Context

Vital Performance

0 DL / 30D

0.0%

--- configs: - config_name: COYO-Recaption data_files: - split: train path: Caption/COYO-Recaption/train-* - config_name: PixMo-Cap data_files: - split: train path: Caption/PixMo-Cap/train-* - config_name: ST-VQA data_files: - split: train path: Caption/ST-VQA/train-* - config_name: Sherlock data_files: - split: train path: Caption/Sherlock/train-* - config_name: WIT_Part00 data_files: - split: train path: Caption/WIT_Part00/train-* - config_name: WIT_Part01 data_files: - split: train path: C...

Source →

Data Integrity 43 FNI Score

- Size

- Rows

Parquet Format

- Tokens

Dataset Information Summary
Entity Passport
Registry ID	hf-dataset--open-bee--honey-data-15m
Provider	huggingface

📜

Cite this dataset

Academic & Research Attribution

BibTeX

@misc{hf_dataset__open_bee__honey_data_15m,
  author = {Open Bee},
  title = {Honey Data 15m Dataset},
  year = {2026},
  howpublished = {\url{https://huggingface.co/datasets/Open-Bee/Honey-Data-15M}},
  note = {Accessed via Free2AITools Knowledge Fortress}
}

APA Style

Open Bee. (2026). Honey Data 15m [Dataset]. Free2AITools. https://huggingface.co/datasets/Open-Bee/Honey-Data-15M

🔬Technical Deep Dive

Full Specifications [+]

⚖️ Nexus Index V16.5

Methodology Index Protocol

43.0

ESTIMATED IMPACT TIER

Popularity (P) 0

Freshness (F) 0

Completeness (C) 0

Utility (U) 0

💬 Index Insight

The Free2AITools Nexus Index for Honey Data 15m aggregates Popularity (P:0), Freshness (F:0), and Completeness (C:0). The Utility score (U:0) represents deployment readiness and ecosystem adoption.

Free2AITools Nexus Index

Verification Authority

HuggingFace API GitHub Metadata Arxiv Citation DB System Audit

Unbiased Data Node Refresh: VFS Live

⬇️

Downloads

31,791

❤️

Likes

109

👁️ Data Preview

📊

Row-level preview not available for this dataset.

Schema structure is shown in the Field Logic panel when available.

🔗 Explore Full Dataset ↗

🧬 Field Logic

🧬

Schema not yet indexed for this dataset.

Dataset Specification

configs:

config_name: COYO-Recaption
data_files:
- split: train
  path: Caption/COYO-Recaption/train-*
config_name: PixMo-Cap
data_files:
- split: train
  path: Caption/PixMo-Cap/train-*
config_name: ST-VQA
data_files:
- split: train
  path: Caption/ST-VQA/train-*
config_name: Sherlock
data_files:
- split: train
  path: Caption/Sherlock/train-*
config_name: WIT_Part00
data_files:
- split: train
  path: Caption/WIT_Part00/train-*
config_name: WIT_Part01
data_files:
- split: train
  path: Caption/WIT_Part01/train-*
config_name: WIT_Part02
data_files:
- split: train
  path: Caption/WIT_Part02/train-*
config_name: WIT_Part03
data_files:
- split: train
  path: Caption/WIT_Part03/train-*
config_name: WIT_Part04
data_files:
- split: train
  path: Caption/WIT_Part04/train-*
config_name: WIT_Part05
data_files:
- split: train
  path: Caption/WIT_Part05/train-*
config_name: WIT_Part06
data_files:
- split: train
  path: Caption/WIT_Part06/train-*
config_name: WIT_Part07
data_files:
- split: train
  path: Caption/WIT_Part07/train-*
config_name: WIT_Part08
data_files:
- split: train
  path: Caption/WIT_Part08/train-*
config_name: WIT_Part09
data_files:
- split: train
  path: Caption/WIT_Part09/train-*
config_name: WIT_Part10
data_files:
- split: train
  path: Caption/WIT_Part10/train-*
config_name: WIT_Part11
data_files:
- split: train
  path: Caption/WIT_Part11/train-*
config_name: WIT_Part12
data_files:
- split: train
  path: Caption/WIT_Part12/train-*
config_name: WIT_Part13
data_files:
- split: train
  path: Caption/WIT_Part13/train-*
config_name: WIT_Part14
data_files:
- split: train
  path: Caption/WIT_Part14/train-*
config_name: WIT_Part15
data_files:
- split: train
  path: Caption/WIT_Part15/train-*
config_name: WIT_Part16
data_files:
- split: train
  path: Caption/WIT_Part16/train-*
config_name: WIT_Part17
data_files:
- split: train
  path: Caption/WIT_Part17/train-*
config_name: WIT_Part18
data_files:
- split: train
  path: Caption/WIT_Part18/train-*
config_name: WIT_Part19
data_files:
- split: train
  path: Caption/WIT_Part19/train-*
config_name: other_Caption
data_files:
- split: train
  path: Caption/other/train-*
config_name: ArxivQA
data_files:
- split: train
  path: Chart/ArxivQA/train-*
config_name: Chart2Text
data_files:
- split: train
  path: Chart/Chart2Text/train-*
config_name: ChartQA
data_files:
- split: train
  path: Chart/ChartQA/train-*
config_name: CoSyn_Chart
data_files:
- split: train
  path: Chart/CoSyn_Chart/train-*
config_name: CoSyn_Diagram
data_files:
- split: train
  path: Chart/CoSyn_Diagram/train-*
config_name: CoSyn_Graphic
data_files:
- split: train
  path: Chart/CoSyn_Graphic/train-*
config_name: CoSyn_Table
data_files:
- split: train
  path: Chart/CoSyn_Table/train-*
config_name: DVQA
data_files:
- split: train
  path: Chart/DVQA/train-*
config_name: FigureQA
data_files:
- split: train
  path: Chart/FigureQA/train-*
config_name: HiTab
data_files:
- split: train
  path: Chart/HiTab/train-*
config_name: Infographic
data_files:
- split: train
  path: Chart/Infographic/train-*
config_name: LRV_Chart
data_files:
- split: train
  path: Chart/LRV_Chart/train-*
config_name: MAVIS_Function
data_files:
- split: train
  path: Chart/MAVIS_Function/train-*
config_name: MMC_Instruction
data_files:
- split: train
  path: Chart/MMC_Instruction/train-*
config_name: MMTab
data_files:
- split: train
  path: Chart/MMTab/train-*
config_name: MultiHiertt
data_files:
- split: train
  path: Chart/MultiHiertt/train-*
config_name: PlotQA
data_files:
- split: train
  path: Chart/PlotQA/train-*
config_name: RobuT_SQA
data_files:
- split: train
  path: Chart/RobuT_SQA/train-*
config_name: RobuT_WTQ
data_files:
- split: train
  path: Chart/RobuT_WTQ/train-*
config_name: RobuT_WikiSQL
data_files:
- split: train
  path: Chart/RobuT_WikiSQL/train-*
config_name: SciTSR
data_files:
- split: train
  path: Chart/SciTSR/train-*
config_name: SimChart9K
data_files:
- split: train
  path: Chart/SimChart9K/train-*
config_name: TabMWP
data_files:
- split: train
  path: Chart/TabMWP/train-*
config_name: TinyChart
data_files:
- split: train
  path: Chart/TinyChart/train-*
config_name: UReader_KG
data_files:
- split: train
  path: Chart/UReader_KG/train-*
config_name: UReader_QA
data_files:
- split: train
  path: Chart/UReader_QA/train-*
config_name: UniChart
data_files:
- split: train
  path: Chart/UniChart/train-*
config_name: VisText
data_files:
- split: train
  path: Chart/VisText/train-*
config_name: other_Chart
data_files:
- split: train
  path: Chart/other/train-*
config_name: CoSyn_document
data_files:
- split: train
  path: Document/CoSyn_document/train-*
config_name: CoSyn_nutrition
data_files:
- split: train
  path: Document/CoSyn_nutrition/train-*
config_name: DocReason
data_files:
- split: train
  path: Document/DocReason/train-*
config_name: DocVQA
data_files:
- split: train
  path: Document/DocVQA/train-*
config_name: Docmatix
data_files:
- split: train
  path: Document/Docmatix/train-*
config_name: EATEN
data_files:
- split: train
  path: Document/EATEN/train-*
config_name: FinTabNet
data_files:
- split: train
  path: Document/FinTabNet/train-*
config_name: InfoVQA
data_files:
- split: train
  path: Document/InfoVQA/train-*
config_name: InfographicVQA
data_files:
- split: train
  path: Document/InfographicVQA/train-*
config_name: LLaVAR_GPT4
data_files:
- split: train
  path: Document/LLaVAR_GPT4/train-*
config_name: OCR-VQA
data_files:
- split: train
  path: Document/OCR-VQA/train-*
config_name: POIE
data_files:
- split: train
  path: Document/POIE/train-*
config_name: ScreenQA
data_files:
- split: train
  path: Document/ScreenQA/train-*
config_name: TextVQA
data_files:
- split: train
  path: Document/TextVQA/train-*
config_name: UreaderOCR
data_files:
- split: train
  path: Document/UreaderOCR/train-*
config_name: Ureader_Chart
data_files:
- split: train
  path: Document/Ureader_Chart/train-*
config_name: VisualMRC
data_files:
- split: train
  path: Document/VisualMRC/train-*
config_name: other_Document
data_files:
- split: train
  path: Document/other/train-*
config_name: A-OKVQA
data_files:
- split: train
  path: General/A-OKVQA/train-*
config_name: ALFWorld
data_files:
- split: train
  path: General/ALFWorld/train-*
config_name: ALLaVA
data_files:
- split: train
  path: General/ALLaVA/train-*
config_name: ART500K
data_files:
- split: train
  path: General/ART500K/train-*
config_name: Birds-to-Words
data_files:
- split: train
  path: General/Birds-to-Words/train-*
config_name: COCO
data_files:
- split: train
  path: General/COCO/train-*
config_name: Cambrian
data_files:
- split: train
  path: General/Cambrian/train-*
config_name: Cambrian_Filter
data_files:
- split: train
  path: General/Cambrian_Filter/train-*
config_name: Cauldron_mulberry
data_files:
- split: train
  path: General/Cauldron_mulberry/train-*
config_name: Co-Instruct
data_files:
- split: train
  path: General/Co-Instruct/train-*
config_name: ContrastiveCaption
data_files:
- split: train
  path: General/ContrastiveCaption/train-*
config_name: DreamSim
data_files:
- split: train
  path: General/DreamSim/train-*
config_name: EST-VQA
data_files:
- split: train
  path: General/EST-VQA/train-*
config_name: FlintstonesSV
data_files:
- split: train
  path: General/FlintstonesSV/train-*
config_name: GQA
data_files:
- split: train
  path: General/GQA/train-*
config_name: HQ-Edit
data_files:
- split: train
  path: General/HQ-Edit/train-*
config_name: Hateful_Memes
data_files:
- split: train
  path: General/Hateful_Memes/train-*
config_name: IDK
data_files:
- split: train
  path: General/IDK/train-*
config_name: IconQA
data_files:
- split: train
  path: General/IconQA/train-*
config_name: InternVL-SA-1B-Caption
data_files:
- split: train
  path: General/InternVL-SA-1B-Caption/train-*
config_name: KVQA
data_files:
- split: train
  path: General/KVQA/train-*
config_name: KonIQ-10k
data_files:
- split: train
  path: General/KonIQ-10k/train-*
config_name: LLaVA-Instruct-300k
data_files:
- split: train
  path: General/LLaVA-Instruct-300k/train-*
config_name: LLaVA-NeXT-Data
data_files:
- split: train
  path: General/LLaVA-NeXT-Data/train-*
config_name: LRV_Normal
data_files:
- split: train
  path: General/LRV_Normal/train-*
config_name: LVIS-InstructV4
data_files:
- split: train
  path: General/LVIS-InstructV4/train-*
config_name: MMChat-Twitter-Post
data_files:
- split: train
  path: General/MMChat-Twitter-Post/train-*
config_name: MagicBrush
data_files:
- split: train
  path: General/MagicBrush/train-*
config_name: NLVR2
data_files:
- split: train
  path: General/NLVR2/train-*
config_name: NewYorker_Caption
data_files:
- split: train
  path: General/NewYorker_Caption/train-*
config_name: NextQA
data_files:
- split: train
  path: General/NextQA/train-*
config_name: Objects365
data_files:
- split: train
  path: General/Objects365/train-*
config_name: PixMo-AskModelAnything
data_files:
- split: train
  path: General/PixMo-AskModelAnything/train-*
config_name: PixMo-CapQA
data_files:
- split: train
  path: General/PixMo-CapQA/train-*
config_name: PixMo-Points-Explanations
data_files:
- split: train
  path: General/PixMo-Points-Explanations/train-*
config_name: SVIT-core-150K
data_files:
- split: train
  path: General/SVIT-core-150K/train-*
config_name: SVIT-mix-665K
data_files:
- split: train
  path: General/SVIT-mix-665K/train-*
config_name: ScanQA
data_files:
- split: train
  path: General/ScanQA/train-*
config_name: ShareGPT4V_Knowledge
data_files:
- split: train
  path: General/ShareGPT4V_Knowledge/train-*
config_name: ShareGPT4V_SAM
data_files:
- split: train
  path: General/ShareGPT4V_SAM/train-*
config_name: ShareGPT4o
data_files:
- split: train
  path: General/ShareGPT4o/train-*
config_name: TQA
data_files:
- split: train
  path: General/TQA/train-*
config_name: VIST
data_files:
- split: train
  path: General/VIST/train-*
config_name: VSR
data_files:
- split: train
  path: General/VSR/train-*
config_name: ViQuAE
data_files:
- split: train
  path: General/ViQuAE/train-*
config_name: Vision_FLAN
data_files:
- split: train
  path: General/Vision_FLAN/train-*
config_name: Visual7W
data_files:
- split: train
  path: General/Visual7W/train-*
config_name: WebQA
data_files:
- split: train
  path: General/WebQA/train-*
config_name: WildVision
data_files:
- split: train
  path: General/WildVision/train-*
config_name: idefics375k
data_files:
- split: train
  path: General/idefics375k/train-*
config_name: nuScenes
data_files:
- split: train
  path: General/nuScenes/train-*
config_name: other_General
data_files:
- split: train
  path: General/other/train-*
config_name: CLEVR
data_files:
- split: train
  path: Grounding&Counting/CLEVR/train-*
config_name: CLEVR-Change
data_files:
- split: train
  path: Grounding&Counting/CLEVR-Change/train-*
config_name: CLEVR_Math
data_files:
- split: train
  path: Grounding&Counting/CLEVR_Math/train-*
config_name: IconQA
data_files:
- split: train
  path: Grounding&Counting/IconQA/train-*
config_name: MathV360K_VQA-AS
data_files:
- split: train
  path: Grounding&Counting/MathV360K_VQA-AS/train-*
config_name: MovieNet
data_files:
- split: train
  path: Grounding&Counting/MovieNet/train-*
config_name: Super-CLEVR
data_files:
- split: train
  path: Grounding&Counting/Super-CLEVR/train-*
config_name: TQA
data_files:
- split: train
  path: Grounding&Counting/TQA/train-*
config_name: TallyQA
data_files:
- split: train
  path: Grounding&Counting/TallyQA/train-*
config_name: VisualGenome
data_files:
- split: train
  path: Grounding&Counting/VisualGenome/train-*
config_name: other_Grounding&Counting
data_files:
- split: train
  path: Grounding&Counting/other/train-*
config_name: ArXiv_OCR
data_files:
- split: train
  path: OCR/ArXiv_OCR/train-*
config_name: CTW
data_files:
- split: train
  path: OCR/CTW/train-*
config_name: Chrome-Writing
data_files:
- split: train
  path: OCR/Chrome-Writing/train-*
config_name: HME
data_files:
- split: train
  path: OCR/HME/train-*
config_name: IAM
data_files:
- split: train
  path: OCR/IAM/train-*
config_name: ICDAR-LSVT-zh
data_files:
- split: train
  path: OCR/ICDAR-LSVT-zh/train-*
config_name: ICDAR2017
data_files:
- split: train
  path: OCR/ICDAR2017/train-*
config_name: ICDAR2019
data_files:
- split: train
  path: OCR/ICDAR2019/train-*
config_name: IIIT_5K
data_files:
- split: train
  path: OCR/IIIT_5K/train-*
config_name: K12_Printing
data_files:
- split: train
  path: OCR/K12_Printing/train-*
config_name: MTWI_zh
data_files:
- split: train
  path: OCR/MTWI_zh/train-*
config_name: Orand-Car-A
data_files:
- split: train
  path: OCR/Orand-Car-A/train-*
config_name: ReCTs
data_files:
- split: train
  path: OCR/ReCTs/train-*
config_name: Rendered_Text
data_files:
- split: train
  path: OCR/Rendered_Text/train-*
config_name: Sroie
data_files:
- split: train
  path: OCR/Sroie/train-*
config_name: TextOCR
data_files:
- split: train
  path: OCR/TextOCR/train-*
config_name: VCR-Wiki
data_files:
- split: train
  path: OCR/VCR-Wiki/train-*
config_name: AI2D
data_files:
- split: train
  path: STEM/AI2D/train-*
config_name: AI2D_GPT4V
data_files:
- split: train
  path: STEM/AI2D_GPT4V/train-*
config_name: AI2D_InternVL
data_files:
- split: train
  path: STEM/AI2D_InternVL/train-*
config_name: CMM-Math
data_files:
- split: train
  path: STEM/CMM-Math/train-*
config_name: CoSyn_Chemical
data_files:
- split: train
  path: STEM/CoSyn_Chemical/train-*
config_name: CoSyn_Circuit
data_files:
- split: train
  path: STEM/CoSyn_Circuit/train-*
config_name: CoSyn_Math
data_files:
- split: train
  path: STEM/CoSyn_Math/train-*
config_name: CoSyn_Music
data_files:
- split: train
  path: STEM/CoSyn_Music/train-*
config_name: Geo170K
data_files:
- split: train
  path: STEM/Geo170K/train-*
config_name: GeoQA+
data_files:
- split: train
  path: STEM/GeoQA+/train-*
config_name: GeomVerse
data_files:
- split: train
  path: STEM/GeomVerse/train-*
config_name: Geometry3K
data_files:
- split: train
  path: STEM/Geometry3K/train-*
config_name: InterGPS
data_files:
- split: train
  path: STEM/InterGPS/train-*
config_name: MAVIS-Geo
data_files:
- split: train
  path: STEM/MAVIS-Geo/train-*
config_name: MAVIS-Metagen
data_files:
- split: train
  path: STEM/MAVIS-Metagen/train-*
config_name: MMChem
data_files:
- split: train
  path: STEM/MMChem/train-*
config_name: MapQA
data_files:
- split: train
  path: STEM/MapQA/train-*
config_name: MathV360K_TQA
data_files:
- split: train
  path: STEM/MathV360K_TQA/train-*
config_name: MetaMathQA
data_files:
- split: train
  path: STEM/MetaMathQA/train-*
config_name: PMC-VQA
data_files:
- split: train
  path: STEM/PMC-VQA/train-*
config_name: PathVQA
data_files:
- split: train
  path: STEM/PathVQA/train-*
config_name: RAVEN
data_files:
- split: train
  path: STEM/RAVEN/train-*
config_name: ScienceQA
data_files:
- split: train
  path: STEM/ScienceQA/train-*
config_name: UniGeo
data_files:
- split: train
  path: STEM/UniGeo/train-*
config_name: VQA-RAD
data_files:
- split: train
  path: STEM/VQA-RAD/train-*
config_name: VisualWebInstruct
data_files:
- split: train
  path: STEM/VisualWebInstruct/train-*
config_name: VisualWebInstruct_filtered
data_files:
- split: train
  path: STEM/VisualWebInstruct_filtered/train-*
config_name: VizWiz
data_files:
- split: train
  path: STEM/VizWiz/train-*
config_name: WebSight
data_files:
- split: train
  path: STEM/WebSight/train-*
config_name: other_STEM
data_files:
- split: train
  path: STEM/other/train-*
  size_categories:
10M<n<100M
language:
en
tags:
Bee-8B
Honey-Data-15M
pretty_name: Honey-Data-15M
task_categories:
image-text-to-text

Bee: A High-Quality Corpus and Full-Stack Suite to Unlock Advanced Fully Open MLLMs

[🏠 Homepage] [📖 Arxiv Paper] [🤗 Models & Datasets] [💻 Code(coming soon)]

Introduction

We introduce Bee-8B, a new state-of-the-art, fully open 8B Multimodal Large Language Model (MLLM) designed to close the performance gap with proprietary models by focusing on data quality.

Bee-8B is trained on our new Honey-Data-15M corpus, a high-quality supervised fine-tuning (SFT) dataset of approximately 15 million samples. This dataset was meticulously created with our transparent, adaptable, and open-source data curation pipeline, HoneyPipe, which systematically cleans noisy data and enriches it with a novel dual-level (short and long) Chain-of-Thought (CoT) strategy.

This dataset enables Bee-8B to achieve exceptional performance, particularly in complex reasoning, establishing a new standard for fully open MLLMs.

Key Features

High-Quality, Large-Scale Dataset: We release Honey-Data-15M, a new 15M-sample SFT corpus. It has undergone extensive cleaning to remove widespread noise and has been enriched with dual-level CoT reasoning to enhance advanced problem-solving capabilities.
Fully Open-Source Data Curation Suite: We provide not just the data, but the entire methodology. HoneyPipe and its underlying framework DataStudio offer the community a transparent and reproducible pipeline, moving beyond static dataset releases.
State-of-the-Art Open Model: Our model, Bee-8B, achieves state-of-the-art performance among fully open MLLMs and is highly competitive with recent semi-open models like InternVL3.5-8B, demonstrating the power of high-quality data.

Honey-Data-15M

[!NOTE]
The dataset's responses adhere to two specific tag structures: Short CoT responses are formatted as <think>\n\n</think>\n\n{short CoT Response}, while Long CoT responses follow the format <think>\n{Long CoT Reasoning}\n</think>\n\n. More details about the dataset can be found in the Paper.

[!NOTE]
The complete data is 4.71 T and has been completely transmitted. Due to a bug in the dataviewer, the size and number of items displayed by huggingface are inaccurate.

Honey-Data-15M is a large-scale, high-quality supervised fine-tuning (SFT) dataset containing approximately 15 million meticulously curated samples. We built this dataset with the core objective of addressing the quality bottleneck in current open-source data by systematically cleaning widespread data noise and enriching the data with an innovative "Dual-Level Chain-of-Thought (CoT)" strategy.

The dataset's composition is as follows:

Approximately 12.2 million short CoT samples: Designed to instill foundational, step-by-step logical inference in the model.
Approximately 2.7 million long CoT samples: Focused on more intricate, multi-step reasoning problems that challenge and enhance the model's advanced cognitive abilities.

Usage

To load the dataset, you can refer to the following code:

from PIL import Image
from datasets import load_dataset

Load dataset (using CoSyn_Math subset as example)
item = load_dataset("Open-Bee/Honey-Data-15M",
                    split="train",
                    name="CoSyn_Math")[0]
Extract data fields
item_id = item['id']
conversations = item['conversations']
images_data = item.get('images', [])
source = item.get('source', None)
img_phash = item.get('img_phash', None)
img_size = item.get('img_size', None)
Save images and record paths
image_paths = []
for img_idx, image_data in enumerate(images_data):
    image_filename = f"{item_id}_{img_idx}.jpg"
    image_path = image_filename

    
      
        text
        
      
      # Save image (datasets automatically converts to PIL Image object)
if isinstance(image_data, Image.Image):
    # JPEG format requires RGB mode
    if image_data.mode in ('RGBA', 'LA', 'P'):
        image_data = image_data.convert('RGB')
    image_data.save(image_path, format='JPEG')
    image_paths.append(image_path)
    
  Build sample
sample = {
    'id': item_id,
    'conversations': conversations,
    'image': image_paths[0] if len(image_paths) == 1 else image_paths,
    'source': source,
    'img_phash': img_phash,
    'img_size': img_size,
}
Print resultprint(sample)

Licensing Information

The Honey-Data-15M dataset is a collection composed of multiple publicly available sub-datasets. Each of these sub-datasets is governed by its own original license.

Sub-dataset Licenses: Users of Honey-Data-15M must strictly adhere to the specific licensing terms and conditions of each original sub-dataset included in this collection. We recommend you carefully review the original license for each sub-dataset before use.
Prompts and Responses: To the extent that we hold any intellectual property rights in the modified prompts and newly generated responses created for this project, these contributions are made available under the Creative Commons Attribution-NonCommercial 4.0 International (CC-BY-NC-4.0) license.
Copyright Concerns: This dataset is compiled for academic research purposes. If you believe any content within Honey-Data-15M infringes upon your copyright, please contact us immediately at yi.zhang.4096[at]gmail.com. We will promptly review and address the matter, including the removal of concerned content upon verification.

Acknowledgements

[!NOTE]
If you believe we have missed acknowledging any important data source that should be explicitly mentioned here, please contact us.

Honey-Data-15M is built upon a large collection of publicly available datasets. We extend our deepest gratitude to the creators and maintainers of the following major datasets.

LLaVA-OneVision-Data: A comprehensive multimodal instruction tuning dataset
MAmmoTH-VL-Instruct-12M: A large-scale vision-language instruction dataset for mathematical reasoning
VisualWebInstruct: A dataset for web-based visual instruction following
ArXiv-OCR-v0.2: OCR data from ArXiv papers for document understanding
CoSyn-400K: Synthetic data for visual reasoning across multiple domains
PixMo Collection: A collection of high-quality vision-language datasets
And many other datasets including Cauldron, Cambrian, and numerous individual datasets across VQA, OCR, Charts, STEM, and other domains.

Citation

If you use our dataset in your research, please cite our paper:

@misc{zhang2025beehighqualitycorpusfullstack,
      title={Bee: A High-Quality Corpus and Full-Stack Suite to Unlock Advanced Fully Open MLLMs}, 
      author={Yi Zhang and Bolin Ni and Xin-Sheng Chen and Heng-Rui Zhang and Yongming Rao and Houwen Peng and Qinglin Lu and Han Hu and Meng-Hao Guo and Shi-Min Hu},
      year={2025},
      eprint={2510.13795},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2510.13795}, 
}

Top Tier

Social Proof

HuggingFace Hub

109Likes

31.8KDownloads

Hub Discussions

🤗 Data Source: Hugging Face ↗

🔄 Daily sync (03:00 UTC)

AI Summary: Based on Hugging Face metadata. Not a recommendation.

📊 FNI Methodology 📚 Knowledge Baseℹ️ Verify with original source

🛡️ Dataset Transparency Report

Verified data manifest for traceability and transparency.

100% Data Disclosure Active

🆔 Identity & Source

id: hf-dataset--open-bee--honey-data-15m
source: huggingface
author: Open Bee
tags: task_categories:image-text-to-textlanguage:ensize_categories:10mformat:parquetmodality:imagemodality:textlibrary:datasetslibrary:dasklibrary:mlcroissantlibrary:polarsarxiv:2510.13795region:usbee-8bhoney-data-15m

⚙️ Technical Specs

architecture: GQA
params billions: 0.015
context length: null

📊 Engagement & Metrics

likes: 109
downloads: 31,791

Free2AITools Constitutional Data Pipeline: Curated disclosure mode active. (V15.x Standard)

Welcome to Free2AI Tools!

Smart Search

FNI Score

You're All Set!