ViT에 관한 논문을 리뷰해보도록 하겠습니다. 오늘 소개해드릴 논문으로는 Attention인데요. 흔히 Bahdanau Attention이라고도 불리는 논문입니다.
이 논문에 대해 간략히 소개를 해보자면, Encoder-Decoder구조의 문제점인 Bottleneck문제를 해결하는 것을 목표로 작성된 논문이며, 이를 통해 성능 향상을 이끌어내는 논문이라고 볼 수 있습니다.
Main idea
- Neural Machine Translation(NMT)
- Attention
- Luong Attention
Neural Machine Translation(NMT)
Encoder-Decoder구조이며, 모델을 학습하기 위해서는 데이터 쌍(pair)만을 필요로 한다는 장점을 가지고 있다.
Encoder-Decoder구조의 문제점
고정된 크기의 벡터가 갖는 bottleneck문제
- source sentense에 대한 충분한 정보를 담을 수 없는 점
- 성능향상에 대해 방해가 되는 점
해결 방법
→ 입력 시퀀스를 벡터 시퀀스로 인코딩 후, 매 디코딩 step마다 벡터 시퀀스의 subset을 adaptive하게 선택하여 해결
즉, 다시 말해 모델의 source의 시퀀스 일부를 자동을 탐색
Attention
Encoder
- 소스 시퀀스가 rnn 기반 인코더로 들어옴
- 소스 시퀀스가 forward방향, backward방향 모두 가능
- 이를 통해 소스토큰에 대한 Representation이 나옴
Decoder
- 일반적인 인코더,디코더방식을 마침( t-1과정)
- t를 구하기 위해 t-1 FC Layer 를 거쳐서 각 인코더 의 FC Layer를 거쳐서 더한 후 tahn를 적용한 후, 마지막으로 FC Layer 을 적용하여 입력 시퀀스와 동일한 길이의 score를 산출
Attention Dustribution
- score를 softmax를 거쳐서 하나의 분포를 만들어 줌(Attention Dustribution )
- 모든 가중치에 관해 Weighted Sum진행을 통해 Context를 뽑아냄
prediction
Context와 t-1시점의 output과 concat을 진행하여 t시점에서의 입력으로 들어감
t 시점의 hidden state가 나오게 되면서 t 시점의 output을 예측
results
WNT14는 데이터 셋을 사용했고, 영어를 불어로 번역하는 데이터 셋이다.
All은 모든 sentence에 관해 실험을 한 결과이고, No UNK는 unknown이 없는 sentence 를실험을 한 결과이다.
뒤에 숫자는 고정된 크기를 말하며, *은 기존의 시간보다 더 많은 학습을 진행했다는 표시이다.
이를 통해, RNNsearch-50*이 학습과정에서 매우 강건한 성능을 보여주는 것을 알 수 있다.
원 문장과 전의 문장이 잘 align되어 있는지를 평가한 지표이다.
영어와 프랑스어와의 어순의 차이가 있는걸 감안해서도 잘 align 된 것을 알 수 있다.
Luong Attention
Attention이라 하면, 크게 Bahdanau Attention과 Luong Attention을 떠올리게 되는데, 이 둘의 차이점이 있다.
Bahdanau Attention은 context Vector를 t의 input으로 넣어 예측을 하는 반면, Luong Attention는 t를 구하고 context Vector를 구해서 예측한다는 차이점이 있습니다.
conclusion
지금까지 Attention에 대한 논문 리뷰를 진행해보았다. 인코더와 디코더의 병목현상을 해결하기 위해 모델의 source의 시퀀스 일부를 자동을 탐색하는 방법에서 상당히 인상깊었다. 앞으로도 더 많은 ViT논문에 대해 리뷰를 진행해보도록 하겠다.
reference
'논문 리뷰' 카테고리의 다른 글
BERT 논문 리뷰 (0) | 2024.07.23 |
---|---|
Transformer 논문 리뷰 (0) | 2024.07.22 |
Alex-Net 논문 리뷰 (0) | 2024.07.16 |
U-Net 논문리뷰 (0) | 2024.07.15 |
YOLO v3 논문리뷰 (0) | 2024.06.26 |