[2604.07430] HY-Embodied-0.5: Embodied Foundation Models for Real-World Agents

논문 정보

날짜: 2026-04-12
카테고리: -
우선순위 점수: 4.6

핵심 요약

HY-Embodied-0.5는 실세계 로봇 에이전트를 위해 설계된 파운데이션 모델로, 2B와 32B 두 가지 파라미터 규모로 제공됩니다. MoT(Mixture-of-Transformers) 아키텍처와 잠재 토큰을 활용하여 공간 및 시각적 지각 능력을 강화하였으며, 반복적인 자기 진화 학습 패러다임을 도입했습니다. 22개의 벤치마크와 실제 로봇 제어 실험을 통해 시각-언어-행동(VLA) 모델로서의 성능을 입증했습니다.

학습자 관점 포인트

우리 팀 영향: 엣지 디바이스용 2B 모델과 고성능 32B 모델의 조합은 온디바이스 로봇 제어 및 복잡한 추론 시스템 설계에 직접적인 참고가 될 수 있습니다.
권장 액션: 실험
액션 근거: 오픈 소스로 공개된 MoT 아키텍처와 VLA 모델의 실제 물리 환경 성능이 우수하여 내부 로봇 제어 로직에 적용 가능성을 테스트할 가치가 높습니다.

원문 링크

arXiv: https://arxiv.org/abs/2604.07430
Hugging Face Papers: https://huggingface.co/papers/2604.07430

학습자는 이 문서를 읽고 실험 여부를 바로 결정하세요.

[2604.08523] ClawBench: Can AI Agents Complete Everyday Online Tasks?[2604.08546] When Numbers Speak: Aligning Textual Numerals and Visual Instances in Text-to-Video Diffusion Models

​논문 정보

​핵심 요약

​학습자 관점 포인트

​원문 링크

논문 정보

핵심 요약

학습자 관점 포인트

원문 링크