From Bits to the Physical World

A Full-Stack Robotics Guide for AI and Software Developers

01The Big Picture

What Is a Robot, Really?The Full-Stack Map of RoboticsWho's Who in the Industry?

02Hardware

SensorsActuatorsCompute Platforms

03Operating System

ROS 2DDS Deep Dive

04Algorithms

SLAMNav2MoveIt 2PerceptionBehavior Trees

05Simulation & Training

Why Simulation?NVIDIA Isaac Sim

06AI Meets Robotics

Reinforcement LearningImitation LearningFoundation Models

07Toolchain

Visualization & DebuggingDev Environment & DevOps

08The Harsh Reality of Deployment

Real-Robot DeploymentReliability EngineeringFleet Management

09Industry Reality

Business ModelsChina vs. GlobalCareer Advice

Part 1: The Big Picture · See the whole mountain first

Chapter 3

买了机器人,然后呢?

你决定做一个机器人应用。花了几万块买了一台回来,拆箱,通电,然后……它站在那里看着你。

它不会去货架拿水瓶。它不会避开路上的纸箱。它甚至不知道自己在哪。

你买到的不是一个产品,是一堆原材料。OEM(造机器人的公司)给你的是食材 - 硬件、传感器、基础 SDK。你要自己搭厨房(软件框架)、选刀具(开发工具)、做一桌菜(完成具体的业务任务)。这个过程在行业里叫“二次开发”,也是你作为 AI/软件开发者在这个领域最核心的价值所在。

理解了这一点,你再看这个行业的公司和项目,视角就完全不同了 - 不是“谁最厉害”,而是“谁能帮我从原材料变成一桌菜”。


食材:谁在造机器人

你想买一台机器人回来写代码。第一个问题:买谁家的?

这取决于你想做什么,以及你的预算。但比规格参数更重要的是一件事:这家厂商对开发者的态度。有些厂商真的想让你在他的平台上开发 - SDK 开源、文档完整、社区活跃、ROS 2 支持到位。有些厂商卖的是整套解决方案,你能对接的只是一层薄薄的 API。区别很大。

目前对开发者最友好的是 宇树(Unitree)。Go2 机器狗一万多人民币(EDU 版),是很多人的第一台真机。SDK 开源,Python/C++ 接口,支持关节级控制,有 ROS 2 包装和 Isaac Gym 的 RL 训练环境。如果你就是想”买一台回来写代码”,它是目前性价比最高的入口。

另一个极端是 Boston Dynamics。Spot 的 SDK 是行业标杆 - 文档最好、功能最完整(自主导航、机械臂操控、在机器人上跑自定义 ML 模型)。问题是七八万美元起步。你可能买不起,但如果有机会用一台 Spot,它会帮你建立”好的开发者体验应该长什么样”的标准。

中间地带有 Fourier(傅利叶) 的 GR 系列人形(ROS 2 + Jetson,执行器有积累)、银河通用(Galbot) 专注商业场景落地。Figure AI 和 1X Technologies 融资规模大、技术路线前沿,但目前开发者能直接用的硬件和 SDK 很有限 - 更多在内部研发阶段。优必选(UBTECH) 偏企业交付,不太适合”买一台回来自己玩”。

如果你做的是移动底盘和仓储场景,快仓、海柔创新、Locus Robotics 这些 AGV/AMR 厂商更成熟,但它们卖的多是整套方案 - “SDK”更像是调度系统的 API,不是让你控制底层行为。

不管你买了谁家的,拆箱之后拿到的东西都差不多:一台物理机器、一套基础 SDK、也许有 ROS 2 支持和仿真模型(URDF/USD),以及一份质量参差不齐的文档。你拿不到的是一个能执行任务的系统 - “去货架拿水瓶”这种端到端的能力,感知、导航、抓取、调度,全部要你自己搭。


厨房:软件框架和平台

有了食材,你需要厨房 - 锅、灶、刀具。在机器人开发里,这就是中间件和平台层。

ROS 2 生态 是目前整个行业的事实标准。几乎所有主流机器人的 SDK 都提供 ROS 2 接口,几乎所有算法框架(Nav2、MoveIt、slam_toolbox)都是 ROS 2 包。你可以不喜欢 ROS 2 的某些设计决策,但你几乎绕不开它。详细内容在第 7 章展开。

NVIDIA Isaac 是 NVIDIA 在机器人领域的完整布局,包含好几个产品:

  • Isaac Sim:高保真仿真平台,基于 Omniverse,能模拟真实的物理、传感器、光照。是目前 sim-to-real 工作流的主力工具
  • Isaac ROS:GPU 加速的 ROS 2 包(品牌名叫 NITROS),专为 Jetson 优化,覆盖立体视觉、视觉 SLAM、物体检测等
  • Isaac Lab:强化学习训练平台,能在 GPU 上并行跑几千个仿真实例

如果你用 Jetson 做计算平台(大概率你会),Isaac 生态几乎是必经之路。

MoveIt Pro(PickNik Robotics)是 MoveIt 2 的商业版本。PickNik 就是 MoveIt 开源项目的核心维护者。MoveIt Pro 加了可视化行为树编辑器和企业级部署工具。面向的是需要把 MoveIt 用在生产环境里的公司。

DimOS(Dimensional OS) 走了一条不同的路:Python-first,pip install,不强制依赖 ROS 2。开发者用 Module + Blueprint 的模式组装机器人应用,内置了 LLM agent 集成(通过 MCP 协议让大模型直接调用机器人技能)。目前支持宇树 Go2/G1、Xarm 机械臂等,还在 pre-release 阶段。利益相关声明:本书作者在这家公司工作。后面涉及 DimOS 的地方会如实描述能力和局限,但选用什么平台永远是你自己的决定。


刀具:日常开发工具

厨房搭好了,你还需要趁手的刀具。这些工具不分你用什么硬件、什么框架,几乎所有机器人开发者都会用到。

Foxglove 是机器人领域的可观测性平台。你可以把它理解成“机器人的 Datadog”。它能可视化 ROS 2 话题数据(3D 点云、相机画面、TF 变换树、状态曲线),支持录制数据的回放分析,而且是 web-based 的,远程调试不需要 ssh 进机器人跑 RViz。它推出的 MCAP 格式正在成为 rosbag 的现代化替代。

Rerun 是另一个值得关注的可视化工具,开源,专门为多模态数据流设计 - 点云、图像、时间序列可以在同一个界面里同步查看。比 RViz 现代,比 Foxglove 更偏向开发者调试而非运维监控。如果你习惯了 TensorBoard 的开发体验,Rerun 会让你觉得很亲切。

Docker 在机器人开发中的重要性远超你的想象。ROS 2 跟 Ubuntu 版本强绑定(比如 Humble 绑 22.04,Jazzy 绑 24.04),加上各种依赖包的版本冲突,环境管理是真正的噩梦。容器化几乎是唯一的解决方案。很多团队的工作流是:仿真容器、感知容器、导航容器各跑各的,通过 ROS 2 的 DDS 通信层互相连接。

Gazebo(现在叫 Gz)是 ROS 生态的默认仿真器 - 比 Isaac Sim 轻量很多,适合快速原型验证和 CI 跑自动化测试。保真度不如 Isaac Sim,但启动快、资源占用小,很多团队日常开发用 Gazebo,需要高保真训练时再切 Isaac Sim。

Weights & Biases / MLflow 等 ML 实验追踪工具在机器人感知和 RL 训练中同样适用。如果你做过 ML 开发,这些工具你应该已经很熟了。


计算平台(你的机器人跑什么芯片)是另一个重要选择,但它值得单独讲 - 第 6 章会详细展开 Jetson 系列的选型和使用。


开源社区:这个行业真正的基础设施

机器人行业的开源生态跟 AI/ML 社区有一个很大的不同:它更碎片化,维护者更少,很多重要的包就靠一两个人在撑。

Open Robotics 是 ROS 和 Gazebo 的创建者,2022 年被 Google 旗下的 Intrinsic 收购。为了确保 ROS 的社区治理不因收购而受影响,OSRA(Open Source Robotics Alliance) 在 Linux Foundation 下成立,负责 ROS 2 的长期维护和演进。ROS 2 的最新 LTS 版本是 Jazzy Jalisco(2024 年 5 月发布)。

ROS-Industrial 是一个联盟,专注于把 ROS 应用到工业制造场景。提供了一系列工业机器人(UR、FANUC、ABB、KUKA)的 ROS 2 驱动包。如果你的项目涉及工业机械臂,这是第一个要看的地方。

LeRobot(Hugging Face) 是最近两年冒出来的明星项目。它想做“机器人学习领域的 Hugging Face Transformers” - 统一的数据集格式、预训练策略模型(ACT、Diffusion Policy 等)、标准化的训练流水线。更重要的是它支持低成本硬件(几百块的桌面机械臂),让个人开发者也能玩真机器人学习。宇树也发布了 unitree_lerobot 做官方集成。如果你的方向是模仿学习或 RL,LeRobot 是目前最活跃的开源入口。


你在这张地图上的位置

回到开头的类比:OEM 给你食材,框架和工具是你的厨房,而你是厨师。

展会上那些看起来很酷的 demo - 机器人自己走到货架、拿起水瓶、送到打包台 - 背后是一个团队花几个月做感知调参、导航调优、异常处理、边界情况覆盖的结果。这些”做菜”的环节,恰好是你作为 AI/软件开发者最值钱的地方:你不需要会设计电机,但你需要知道怎么在 Jetson 上高效跑检测模型,怎么用行为树编排任务流程,怎么用 RL 训练一个比手调参数更鲁棒的控制策略。

这张地图会随时间变化 - 新公司出现,有些消失,生态位重新洗牌。但食材、厨房、刀具这个结构是稳定的。新出现的任何玩家,你都能快速归到其中一层。

← Previous02. The Full-Stack Map of RoboticsNext→04. Sensors