[2604.08362] Towards Real-world Human Behavior Simulation: Benchmarking Large Language Models on Long-horizon, Cross-scenario, Heterogeneous Behavior Traces

실제 데이터를 기반으로 장기적이고 다양한 시나리오를 통합한 사용자 행동 시뮬레이션 벤치마크인 OmniBehavior를 제안합니다. 실험 결과 기존 LLM은 문맥 창이 확장되어도 복잡한 행동 시뮬레이션에 한계를 보였으며, 개인의 특성이 사라지고 긍정적…

논문 정보

날짜: 2026-04-11
카테고리: -
우선순위 점수: 0.267

핵심 요약

실제 데이터를 기반으로 장기적이고 다양한 시나리오를 통합한 사용자 행동 시뮬레이션 벤치마크인 OmniBehavior를 제안합니다. 실험 결과 기존 LLM은 문맥 창이 확장되어도 복잡한 행동 시뮬레이션에 한계를 보였으며, 개인의 특성이 사라지고 긍정적인 평균치로 수렴하는 편향이 발견되었습니다. 이는 실제 인간의 행동이 고립된 시나리오가 아닌 장기적이고 교차적인 인과 관계에 기반함을 시사합니다.

학습자 관점 포인트

우리 팀 영향: LLM 기반 사용자 시뮬레이션 구축 시 발생할 수 있는 페르소나 균질화 및 유토피아적 편향 문제를 인지하고 이를 개선하기 위한 평가 지표로 활용할 수 있습니다.
권장 액션: 실험
액션 근거: 실제 데이터를 활용한 벤치마크를 통해 현재 모델의 시뮬레이션 한계와 편향성을 정량적으로 확인해볼 가치가 있습니다.

원문 링크

arXiv: https://arxiv.org/abs/2604.08362
Hugging Face Papers: https://huggingface.co/papers/2604.08362

학습자는 이 문서를 읽고 실험 여부를 바로 결정하세요.

[2604.08120] Small Vision-Language Models are Smart Compressors for Long Video Understanding [2601.20524] AnomalyVFM -- Transforming Vision Foundation Models into Zero-Shot Anomaly Detectors

​논문 정보

​핵심 요약

​학습자 관점 포인트

​원문 링크

논문 정보

핵심 요약

학습자 관점 포인트

원문 링크