[2604.08362] Towards Real-world Human Behavior Simulation: Benchmarking Large Language Models on Long-horizon, Cross-scenario, Heterogeneous Behavior Traces

OmniBehavior는 실제 데이터를 기반으로 구축된 최초의 사용자 시뮬레이션 벤치마크로, 장기적이고 교차 시나리오적인 이질적 행동 패턴을 통합합니다. 실험 결과 기존 LLM은 복잡한 행동 시뮬레이션에 어려움을 겪으며, 특히 긍정적인 평균인으로 수…

논문 정보

날짜: 2026-04-12
카테고리: -
우선순위 점수: 0.367

핵심 요약

OmniBehavior는 실제 데이터를 기반으로 구축된 최초의 사용자 시뮬레이션 벤치마크로, 장기적이고 교차 시나리오적인 이질적 행동 패턴을 통합합니다. 실험 결과 기존 LLM은 복잡한 행동 시뮬레이션에 어려움을 겪으며, 특히 긍정적인 평균인으로 수렴하는 ‘유토피아적 편향’과 페르소나 균질화 문제를 보였습니다. 이는 모델의 컨텍스트 윈도우가 확장되더라도 실제 인간의 개별적 특성과 롱테일 행동을 재현하는 데 한계가 있음을 시사합니다.

학습자 관점 포인트

우리 팀 영향: 실제 사용자 데이터를 활용한 서비스 시뮬레이션 시 LLM이 가질 수 있는 구조적 편향과 행동 균질화 문제를 사전에 인지하고 대응 전략을 세우는 데 참고할 수 있습니다.
권장 액션: 보류
액션 근거: 현재 LLM의 시뮬레이션 성능이 실제 인간의 복잡한 행동을 완벽히 대체하기에는 편향성 문제가 크며, 우선순위 점수가 낮아 즉각적인 도입보다는 연구 동향 파악이 적절합니다.

원문 링크

arXiv: https://arxiv.org/abs/2604.08362
Hugging Face Papers: https://huggingface.co/papers/2604.08362

학습자는 이 문서를 읽고 실험 여부를 바로 결정하세요.

[2604.08544] SIM1: Physics-Aligned Simulator as Zero-Shot Data Scaler in Deformable Worlds [2604.03841] Training a Student Expert via Semi-Supervised Foundation Model Distillation

​논문 정보

​핵심 요약

​학습자 관점 포인트

​원문 링크

논문 정보

핵심 요약

학습자 관점 포인트

원문 링크