논문 정보
- 날짜:
2026-02-28
- 카테고리: -
- 우선순위 점수: 0.067
핵심 요약
분산 원장 기술(DLT) 분야를 위해 과학 문헌, 특허, 소셜 미디어 등 2,212만 개의 문서에서 추출한 29.8억 토큰 규모의 대규모 말뭉치 DLT-Corpus를 공개했습니다. 연구 결과 기술은 과학 문헌에서 시작하여 특허와 소셜 미디어로 전이되는 양상을 보이며, 연구 활동은 시장 변동성과 무관하게 지속적으로 성장함을 확인했습니다. 또한 도메인 특화 모델인 LedgerBERT를 통해 NER 작업에서 기존 BERT 대비 23% 향상된 성능을 입증했습니다.
학습자 관점 포인트
- 우리 팀 영향: DLT 도메인 특화 데이터셋과 LedgerBERT 모델을 활용하여 블록체인 및 분산 원장 관련 텍스트 분석 및 개체명 인식 성능을 크게 개선할 수 있습니다.
- 권장 액션: 도입 검토
- 액션 근거: 특정 도메인에 특화된 대규모 데이터셋과 성능이 검증된 사전 학습 모델을 제공하므로 관련 연구 및 서비스 개발에 즉시 활용 가치가 높습니다.
원문 링크
학습자는 이 문서를 읽고 실험 여부를 바로 결정하세요.