반응형

skip-gram 모델 2

[밑시딥2] Chapter 4. word2vec 속도 개선

본 포스팅은 '밑바닥부터 시작하는 딥러닝2'를 읽고 공부 및 학습 내용을 정리한 글입니다. 언제든지 다시 참고할 수 있도록, 지식 공유보단 개인적인 복습을 목적으로 포스팅하였습니다.  4.1 word2vec 개선 ①   3장에서 구현한 CBOW모델은 단어 2개를 맥락으로 이용해 하나의 단어(target)을 추측했다. 그러나 이 때에는 말뭉치를 7개만 사용했는데 실제로는 더 거대한 말뭉치를 사용하게 되는데 이 때 문제가 발생한다.   만약 100만개의 말뭉치 데이터를 사용한다고 하면 많은 뉴련으로 인해 두 계산의 병목 현상이 생긴다. 1. 입력층의 원핫 표현과 가중치 행렬 Win의 곱 계산2. 은닉층과 가중치 행렬 Wout의 곱 및 Softmax 계층의 계산 1번은 입력층의 원핫 표현과 관련된 문제이며, ..

[밑시딥2] Chapter 3. word2vec

본 포스팅은 '밑바닥부터 시작하는 딥러닝2'를 읽고 공부 및 학습 내용을 정리한 글입니다. 언제든지 다시 참고할 수 있도록, 지식 공유보단 개인적인 복습을 목적으로 포스팅하였습니다.  3.1 추론 기반 기법과 신경망 단어를 벡터로 표현하는 방법은 크게 두 부류로 나눌 수 있다. 하나는 '통계 기반 기법' 이하 A와 나머지는 '추론 기반 기법' 이하 B라 한다. 이번 장에서는 이전 시간에 학습했던 A의 문제를 지적하고 그 대안으로서 사용하는 B의 이점을 알아보자. 3.1.1 통계 기반 기법의 문제점 A의 문제점은 대규모 말뭉치를 다룰 때 발생한다. 기존까지는 적은 말뭉치를 통해 A를 처리했지만, 현업에서 쓰는 말뭉치는 100만이라는 수를 훌쩍 넘는다고 한다. 만약 어휘가 100만 개라면, A는 100만 *..

반응형