$U^2PL$ : Semi-supervised Semantic Segmentation Using Unreliable Pseudo Label ( CVPR 2022 )

기존 방식들이 logit 값이 높은 예측들을 pseudo ground truth label로 선택하는데 이로인해 대부분의 픽셀들이 사용되지 않아버리는 문제가 생긴다.

논문의 주장 : 예측값이 모호하더라도 모든 픽셀은 training에 영향을 미친다.

Untitled

예를 들어 이런 상황이라면 높은 logit값을 갖는 클래스들 사이에서는 혼동이 되지만 person과 airplane이 아니라는 사실은 너무나 명확하게 나타나기 때문이다. → 이 클래스에는 속하지 않는다는 것이 confident!

따라서 이러한 샘플들은 negative sample로써 활용되어야한다고 주장한다.

이를 위해 entropy를 기준으로 하여 reliable / unreliable pixels를 분리하고 unreliable pixels를 category-wise queue에 넣어 negative samples로 관리한다. 여기서 reliable/unreliable 분류 위한 threshold는 training 진행 과정에서 adaptively적용한다.
또한 unreliable pseudo labels의 정보를 잘 이용하기 위해 contrastive loss를 활용한다.

[전체 모델 흐름도]

Untitled

[total loss function]

Untitled

Untitled

entropy $\mathcal{H}$ 를 기준으로 \gamma_t보다 작으면 reliable하다고 판단하는데,

$\\gamma_t$는 np.percentile($\\mathcal{H}$.flatten(), 100*(1-$\\alpha_t$)) 로 정의 → $\mathcal{H}$ 가 전체 상위 $\alpha_t$ 만큼의 비율이면 unreliable로 분류되게 된다.

여기서 $\alpha_t$는 epoch에 따라서 다음과 같이 정의된다. $\alpha_0 = 0.2$ , $t$ : current training epoch

Untitled

unsupervised loss의 비율인 $\lambda_u$의 경우에는 reliable pixels의 수에 따라서 적응적으로 계산된다. $\eta=1$

Untitled