tokenizer에 vocab추가 하면 왜 pretrained model의 token embedding 사이즈를 변경해야하는가? #11

woowonjin · 2021-10-15T09:38:45Z

woowonjin
Oct 15, 2021
Maintainer

tokenizer에 vocab을 추가하면 pretrained model의 token embedding 사이즈를 변경해야한다고 하는데 왜 변경하나요?? 여기서 token_embedding_size가 단어를 벡터로 바꿨을때 그 dimension을 말하는거 아닌가요?

Answered by woowonjin

셀프 답변이지만 ㅋㅋㅋㅋㅋ

여기 그림처럼 단어가 임베딩될때 one-hot이 encoding이 되는데 여기서 one-hot의 차원은 vocab의 크기이기 떄문에 이부분을 수정해주는게 아닌가 하는 생각이네요.
혹시 다른 답변 있으신분은 말씀해주세요 !! 🙏🙏🙏

woowonjin · 2021-10-16T07:39:46Z

셀프 답변이지만 ㅋㅋㅋㅋㅋ

여기 그림처럼 단어가 임베딩될때 one-hot이 encoding이 되는데 여기서 one-hot의 차원은 vocab의 크기이기 떄문에 이부분을 수정해주는게 아닌가 하는 생각이네요.
혹시 다른 답변 있으신분은 말씀해주세요 !! 🙏🙏🙏

0 replies