한국전자통신연구원(ETRI)은 한국어 특화 딥러닝 언어모델 ‘코버트(KorBERT)’를 홈페이지에 공개

기술과 유행/인공지능-2

구글보다 뛰어난 한국어 특화 AI 언어모델 나왔다

동아사이언스 2019.06.11.

ETRI, 구글 버트(BERT) 개선한 '코버트' 공개

- 구글 버트를 기반으로 개발한 것.

- 최근 10년간 신문기사와 백과사전 데이터 23기가를 머신러닝. 45억 개 형태소 학습.

- 버트를 이용한 언어모델은 512개 이상의 단어가 들어간 문서를 한 번에 처리하지 못하는 한계가 있고 이것은 코버트도 마찬가지. 향후 개선할 것.

언어모델은 AI가 언어를 학습할 수 있도록 구축한 일종의 데이터베이스다. 언어를 숫자로 표현한 뒤 AI 기술의 일종인 딥러닝을 이용해 학습을 한다. 이 과정에서 어떤 단어가 특정 조건에서 얼마나 많이, 자주 나타나는지를 확률로 계산해 언어와 함께 모았다.

예를 들어 “날씨” 다음에는 “어때”가 올 확률, 그 뒤 대답에 “좋아”가 올 확률 등을 단어와 함께 기록한 데이터다. “날씨 어때”라는 질문에 “맛있어”라고 답하지 않고 “좋아”라고 답해야 맞다는 사실을 딥러닝을 이용해 학습하려면 이런 언어모델이 필수다.


전혀 모르고, 기사를 읽고 바로 해본 생각

  • 만연체로 글쓰거나 늘려 말하면 잘 못알아먹는다는 이야기? ^^
  • 구글 버트가 뭐지? 


기사 자체는 ETRI 홈페이지 보도자료와 같다. 


구글에 BERT를 넣어 나온 링크 몇 가지. 목록에 별 의미없음.

https://medium.com/ai-networkkr/최첨단-인공지능-솔루션들-1-구글-bert-인간보다-언어를-더-잘-이해하는-ai-모델-9704ebc016c4

https://github.com/google-research/bert

https://www.youtube.com/results?search_query=GOOGLE+BERT

https://nlp.stanford.edu/seminar/details/jdevlin.pdf


인공지능(AI) 언어모델 ‘BERT(버트)'는 무엇인가 - 인공지능신문 2019.1.13

http://docs.likejazz.com/bert/?fbclid=IwAR0ZL9_KSMzIAEjrM8sHy66uZ7KbsA0NPWr9h2ktxjqMRbXPYjialqppqo4

http://aidev.co.kr/chatbotdeeplearning/6717




이 글과 같은 분류 글목록으로 가기 / 최신글목록으로 가기
☞ 링크/트랙백관련

댓글을 달아 주세요

 

최근 올라온 글 (목록 보기)