So Combined Ru
Pillar scores are computed during the next indexing cycle.
Датасет создан при помощи библиотеки LeRobot. Русскоязычная версия данного датасета объединяет **598 открытых датасетов сообщества** в единый унифицированный корпус, включающий **22 709 эпизодов** и примерно **9,4 миллиона кадров** по **563 различным задачам**. Для обеспечения стандартизации и качества данных были выполнены следующие преобразовани...
| Entity Passport | |
| Registry ID | hf-dataset--dunnolab--so-combined-ru |
| Provider | huggingface |
Cite this dataset
Academic & Research Attribution
@misc{hf_dataset__dunnolab__so_combined_ru,
author = {dunnolab},
title = {So Combined Ru Dataset},
year = {2026},
howpublished = {\url{https://huggingface.co/datasets/dunnolab/so-combined-ru}},
note = {Accessed via Free2AITools Knowledge Fortress}
} 🔬Technical Deep Dive
Full Specifications [+]▾
⚖️ Nexus Index V2.0
💬 Index Insight
FNI V2.0 for So Combined Ru: Semantic (S:50), Authority (A:0), Popularity (P:0), Recency (R:0), Quality (Q:0).
Verification Authority
👁️ Data Preview
Row-level preview not available for this dataset.
Schema structure is shown in the Field Logic panel when available.
🔗 Explore Full Dataset ↗🧬 Field Logic
Schema not yet indexed for this dataset.
Dataset Specification
license: apache-2.0
task_categories:
- robotics
tags: - LeRobot
configs: - config_name: default
data_files: data//.parquet
language: - ru
Датасет создан при помощи библиотеки LeRobot.
Описание датасета
Русскоязычная версия данного датасета объединяет 598 открытых датасетов сообщества в единый унифицированный корпус, включающий 22 709 эпизодов и примерно 9,4 миллиона кадров по 563 различным задачам. Для обеспечения стандартизации и качества данных были выполнены следующие преобразования:
Нормализация ракурсов камеры
Поскольку датасеты сообщества не используют общепринятую схему именования ракурсов камеры, мы применили модель Qwen3-VL-8B-Instruct для классификации всех изображений по одной из трех категорий: TOP, GRIPPER или SIDE. Все датасеты содержат ракурсы TOP и GRIPPER. Датасеты, в которых отсутствовал ракурс SIDE, были дополнены нулевым изображением.
Переаннотирование задач
Мы использовали Qwen3-VL-8B-Instruct для улучшения аннотаций задач там, где это было необходимо. Процесс переразметки учитывал как видеоданные, так и исходные описания задач, когда они были доступны. Для русскоязычной версии датасета все описания задач были переведены на русский язык.
Стандартизация видео
Для обеспечения корректного объединения датасетов все видеоролики были перекодированы с использованием единого кодека (H.264), частоты кадров (30 FPS) и разрешения (480×640).
Удаление no-op действий
Мы удалили no-op сегменты в начале и конце эпизодов, а также полностью исключили эпизоды, состоящие только из no-op состояний. Соответствующие видео и parquet файлы были обрезаны. В результате, из исходного датасета было удалено 12,7% no-op данных.
- Лицензия: Apache-2.0
Сообщество-участники
Мы выражаем благодарность всем участникам сообщества, чьи датасеты были использованы в данном репозитории:
- 00ri
- 1zzx23
- 356c
- AndrejOrsula
- Askel1419
- BobBobbson
- CSCSXX
- CnLori
- Congying1112
- DGEs
- Daiki127
- Dangvi
- DanqingZ
- DorayakiLin
- EGLima
- Evelynix
- EverNorif
- Gano007
- Haribot099
- HarrisonLee24
- Hennadiy
- Jiangeng
- Kazu1232
- KeerthanKrish
- Killian74
- Kimz1
- LeRobot-worldwide-hackathon
- LemonadeDai
- LightwheelAI
- LittleFire99
- Loki0929
- Mazytomo
- Micksavioz
- Mwuqiu
- NeilKim
- Odog16
- Pi-robot
- Qiushuang
- RASPIAUDIO
- RaulSaya
- Rayenghali
- ReubenLim
- Revilo7
- RickRain
- Rorschach4153
- SahilChande
- SeanLMH
- SharkDan
- ShockleyWong
- Stevenyu8888
- SurajChess
- Thorns07
- Trelis
- TzuShian
- UN-kk
- VoicAndrei
- Xiewei1211
- YSanYi
- Yanis7777
- ZGGZZG
- Zak-Y
- ZibinDong
- aaron-ser
- aaronsu11
- abhiloiwal2
- abhisb
- abokinala
- acyanbird
- aiden-li
- alexis779
- allenchienxxx
- amrltqt
- andy309
- apayan
- aractingi
- arulloomba
- avea-robotics
- badwolf256
- bap13
- bensprenger
- boyangs235
- brcg3
- budinggou
- cHemingway
- cezarsolo
- cjlqwe
- cyoung96
- danaaubakirova
- davidgoss
- dc2ac
- demon-zozo
- desroziers
- dleon23
- dongseon
- drjaisree25
- dsfsg
- duthvik
- easonjcc
- edgarkim
- emmanuel-v
- enpeicv
- fbeltrao
- francescocrivelli
- frk2
- ganondorofu
- gmm0820
- guanfengliu
- gxy1111
- haijunsu-osu
- hannb
- hoon-shin
- howld
- hrhraj
- huyouare
- jchun
- jcsux
- jiajun001
- jlesein
- jmendoza-10
- jpizarrom
- juni3227
- jyang-ca
- k1000dai
- kagyvro48
- kaiserbuffle
- kaiyuwu010
- karimnihal
- kivod
- kkurzweil
- kristaqp
- legion1581
- leolin6
- lerobot
- lerobot-edinburgh-white-team
- liamlau
- lijinghai
- lime66
- littledragon
- liyitenga
- ljw1105
- love3165303
- lucasfv
- luriss
- maitereo
- masakinoda
- masato-ka
- mathieutk
- nbirukov
- northhycao
- nuoyihan
- omkarmayekar555
- opan08
- oretti
- orsoromeo
- pandaRQ
- paultr
- pbvr
- pdd46465
- pr0tos
- pranavsaroha
- psavnani5
- ptizzza
- puneetpanwar
- reeced
- ricky0526
- roboticshack
- rowb1
- rs545837
- ryanpennings
- s-higurashi
- samanthalhy
- samsam0510
- samsitol
- seonixx
- seunghoney
- shylee
- slowturtle99
- sshh11
- strainflow
- suessmann
- sunq
- szfforever
- taiobot
- targabor
- tfoldi
- therarelab
- thimble
- tinkhireeva
- tkc79
- tlf123
- tobdeu
- triton7777
- un1c0rnio
- uuysi
- vednot25t
- wangranryan
- weblucas
- weiye11
- wvangils
- y1y2y3
- yingliu-data
- yinxinyuchen
- yo-michi22
- youliangtan
- yuk6ra
- yunhezhui123
- yuto083
- yuz1wan
- zacapa
- zaringleb
- zheng6677
- zlj666
- zonglin1104
Структура Данных
{
"codebase_version": "v2.1",
"robot_type": "so100",
"total_episodes": 22709,
"total_frames": 9443507,
"total_tasks": 563,
"total_videos": 68127,
"total_chunks": 23,
"chunks_size": 1000,
"fps": 30,
"splits": {
"train": "0:22709"
},
"data_path": "data/chunk-{episode_chunk:03d}/episode_{episode_index:06d}.parquet",
"video_path": "videos/chunk-{episode_chunk:03d}/{video_key}/episode_{episode_index:06d}.mp4",
"features": {
"action": {
"dtype": "float32",
"shape": [
6
],
"names": [
"main_shoulder_pan",
"main_shoulder_lift",
"main_elbow_flex",
"main_wrist_flex",
"main_wrist_roll",
"main_gripper"
]
},
"observation.state": {
"dtype": "float32",
"shape": [
6
],
"names": [
"main_shoulder_pan",
"main_shoulder_lift",
"main_elbow_flex",
"main_wrist_flex",
"main_wrist_roll",
"main_gripper"
]
},
"observation.images.gripper": {
"dtype": "video",
"shape": [
480,
640,
3
],
"names": [
"height",
"width",
"channels"
],
"info": {
"video.height": 480,
"video.width": 640,
"video.codec": "h264",
"video.pix_fmt": "yuv420p",
"video.is_depth_map": false,
"video.fps": 30,
"video.channels": 3,
"has_audio": false
}
},
"observation.images.top": {
"dtype": "video",
"shape": [
480,
640,
3
],
"names": [
"height",
"width",
"channels"
],
"info": {
"video.height": 480,
"video.width": 640,
"video.codec": "h264",
"video.pix_fmt": "yuv420p",
"video.is_depth_map": false,
"video.fps": 30,
"video.channels": 3,
"has_audio": false
}
},
"observation.images.side": {
"dtype": "video",
"shape": [
480,
640,
3
],
"names": [
"height",
"width",
"channels"
],
"info": {
"video.height": 480,
"video.width": 640,
"video.codec": "h264",
"video.pix_fmt": "yuv420p",
"video.is_depth_map": false,
"video.fps": 30,
"video.channels": 3,
"has_audio": false
}
},
"timestamp": {
"dtype": "float32",
"shape": [
1
],
"names": null
},
"frame_index": {
"dtype": "int64",
"shape": [
1
],
"names": null
},
"episode_index": {
"dtype": "int64",
"shape": [
1
],
"names": null
},
"index": {
"dtype": "int64",
"shape": [
1
],
"names": null
},
"task_index": {
"dtype": "int64",
"shape": [
1
],
"names": null
}
},
"repo_id": "dunno/merged"
}
Social Proof
AI Summary: Based on Hugging Face metadata. Not a recommendation.
🛡️ Dataset Transparency Report
Verified data manifest for traceability and transparency.
🆔 Identity & Source
- id
- hf-dataset--dunnolab--so-combined-ru
- source
- huggingface
- author
- dunnolab
- tags
- task_categories:roboticslanguage:rulicense:apache-2.0size_categories:1m
format:parquetmodality:tabularmodality:timeseriesmodality:videolibrary:datasetslibrary:dasklibrary:mlcroissantlibrary:polarsregion:uslerobot
⚙️ Technical Specs
- architecture
- null
- params billions
- null
- context length
- null
📊 Engagement & Metrics
- likes
- 1
- downloads
- 27,458
Free2AITools Constitutional Data Pipeline: Curated disclosure mode active. (V15.x Standard)