[논문리뷰] Enhancing Spatial Understanding in Image Generation via Reward Modeling
논문 정보
- 제목: Enhancing Spatial Understanding in Image Generation via Reward Modeling
- 저자: Zhenyu Tang 외
- 연도: 2026
- 링크: https://arxiv.org/abs/2602.24233
Introduction (배경/문제의식)
텍스트‑투‑이미지 모델은 화질과 창의성은 좋아졌지만, 복잡한 공간 관계를 제대로 이해하지 못해 여러 번 샘플링해야 하는 문제가 있다. 논문은 공간 관계 자체를 평가하는 보상 모델을 도입해 이 문제를 해결한다.
핵심 아이디어 요약
- SpatialReward‑Dataset(8만+ 선호 쌍) 구축
- 공간 관계를 평가하는 SpatialScore 보상 모델 제안
- 보상 모델 기반 온라인 강화학습으로 공간 이해 향상
- 여러 벤치마크에서 일관된 성능 개선 보고
Section 1: SpatialReward Dataset
Figure 1
Figure 2
Figure 3
Figure 4
Figure 5
Figure 6
Figure 7
Figure 8
Figure 9
Figure 10
Figure 11
Figure 12
Figure 13
Figure 14
Figure 15
Figure 16
Figure 17
Figure 18
Figure 19
Figure 20
Figure 21
Figure 22
Figure 23
Figure 24
Figure 25
Figure 26
Figure 27
Figure 28
Figure 29
Figure 30
Figure 31
Figure 32
Figure 33
Figure 34
Figure 35
Figure 36
Figure 37
Figure 38
Figure 39
Figure 40
Figure 41
Figure 42
Figure 43
Figure 44
Figure 45
Figure 46
Figure 47
Figure 48
Figure 49
Figure 50
Figure 51
Figure 52
Figure 53
Figure 54
Figure 55
Figure 56
Figure 57
Figure 58
Figure 59
Figure 60
Figure 61
Figure 62
Figure 63
Figure 64
Figure 65
Figure 66
Figure 67
Figure 68
Figure 69
Figure 70
Figure 71
Figure 72
Figure 73
Section 2: SpatialScore Reward ModelSection 3: Online RL for Spatial Generation
SpatialScore를 보상으로 사용하는 RL을 통해, 복잡한 공간 지시가 들어간 생성에서도 정확성을 향상시킨다. 이는 반복 샘플링 비용을 줄이고, 사용자 의도에 더 잘 맞는 이미지를 만든다.
Results & Discussion (논문 요약 기반)
Figure 147
Figure 148
Figure 149
Figure 150
Figure 151
Figure 152
Figure 153
Figure 154
Figure 155
Figure 156
Figure 157
Figure 158
Figure 159
Figure 160
Figure 161
Figure 162
Figure 163
Figure 164
Figure 165
Figure 166
Figure 167
Figure 168
Figure 169
Figure 170
Figure 171
Figure 172
Figure 173
Figure 174
Figure 175
Figure 176
Figure 177
Figure 178
Figure 179
Figure 180
Figure 181
Figure 182
Figure 183
Figure 184
Figure 185
Figure 186
Figure 187
Figure 188
Figure 189
Figure 190
Figure 191
Figure 192
Figure 193
Figure 194
Figure 195
Figure 196
Figure 197
Figure 198
Figure 199
Figure 200
Figure 201
Figure 202
Figure 203
Figure 204
Figure 205
Figure 206
Figure 207
Figure 208
Figure 209
Figure 210
Figure 211
Figure 212
Figure 213
Figure 214
Figure 215
Figure 216
Figure 217
Figure 218
Figure 219
Limitations (한계)**
보상 모델이 공간 관계에 집중하는 만큼, **다른 속성(색감/스타일 등)**과의 균형 문제가 발생할 수 있다. 또한 선호 데이터 구축 비용이 크다.
도비의 의견
이미지 생성에서 공간 관계는 사용자 경험에 직결되는 문제다. SpatialScore는 “정확한 배치”를 직접 보상으로 삼는 점에서 실용적이고, RL과 결합해 효율 개선 가능성이 크다.
참고