Skip to main content

논문 정보

  • 날짜: 2026-03-01
  • 카테고리: -
  • 우선순위 점수: 0.067

핵심 요약

분산 원장 기술(DLT) 분야를 위해 2212만 개의 문서와 29.8억 개의 토큰으로 구성된 대규모 도메인 특화 데이터셋인 DLT-Corpus를 공개했습니다. 과학 문헌, 특허, 소셜 미디어 데이터를 포함하며, 이를 통해 기술 출현 패턴과 시장-혁신 간의 상관관계를 분석했습니다. 또한 BERT 대비 NER 성능이 23% 향상된 도메인 적응 모델인 LedgerBERT와 관련 도구를 함께 제공합니다.

학습자 관점 포인트

  • 우리 팀 영향: DLT 도메인에 특화된 대규모 말뭉치와 사전 학습 모델을 활용하여 블록체인 및 관련 기술 연구의 데이터 부족 문제를 해결할 수 있습니다.
  • 권장 액션: 도입 검토
  • 액션 근거: 특정 도메인에 특화된 대규모 데이터셋과 성능이 검증된 LedgerBERT 모델은 관련 연구 및 서비스 개발 시 기초 자산으로 가치가 높습니다.

원문 링크

학습자는 이 문서를 읽고 실험 여부를 바로 결정하세요.