[2604.08362] Towards Real-world Human Behavior Simulation: Benchmarking Large Language Models on Long-horizon, Cross-scenario, Heterogeneous Behavior Traces

OmniBehavior는 실제 데이터를 기반으로 장기적이고 다양한 시나리오를 통합한 최초의 사용자 행동 시뮬레이션 벤치마크입니다. 실험 결과 기존 LLM은 장기적 인과 관계 파악에 어려움을 겪으며, 문맥 창이 커져도 성능이 정체되는 현상을 보였습니다…

논문 정보

날짜: 2026-04-10
카테고리: -
우선순위 점수: 0.267

핵심 요약

OmniBehavior는 실제 데이터를 기반으로 장기적이고 다양한 시나리오를 통합한 최초의 사용자 행동 시뮬레이션 벤치마크입니다. 실험 결과 기존 LLM은 장기적 인과 관계 파악에 어려움을 겪으며, 문맥 창이 커져도 성능이 정체되는 현상을 보였습니다. 특히 LLM이 평균적이고 긍정적인 성향으로 수렴하며 개별적 특성과 롱테일 행동을 상실하는 ‘유토피아적 편향’이 발견되었습니다.

학습자 관점 포인트

우리 팀 영향: 실제 사용자 데이터를 활용한 정밀한 행동 시뮬레이션 구축 시 LLM의 구조적 편향성과 한계를 극복하기 위한 가이드라인으로 활용할 수 있습니다.
권장 액션: 실험
액션 근거: LLM 기반 사용자 시뮬레이션의 페르소나 균질화 문제를 해결하고 실제 데이터와의 간극을 측정하기 위한 벤치마크 프레임워크 도입이 필요합니다.

원문 링크

arXiv: https://arxiv.org/abs/2604.08362
Hugging Face Papers: https://huggingface.co/papers/2604.08362

학습자는 이 문서를 읽고 실험 여부를 바로 결정하세요.

[2604.08544] SIM1: Physics-Aligned Simulator as Zero-Shot Data Scaler in Deformable Worlds [2604.08120] Small Vision-Language Models are Smart Compressors for Long Video Understanding

​논문 정보

​핵심 요약

​학습자 관점 포인트

​원문 링크

논문 정보

핵심 요약

학습자 관점 포인트

원문 링크