논문리뷰 ·

[논문리뷰] Enhancing Spatial Understanding in Image Generation via Reward Modeling


논문 정보

Introduction (배경/문제의식)
텍스트‑투‑이미지 모델은 화질과 창의성은 좋아졌지만, 복잡한 공간 관계를 제대로 이해하지 못해 여러 번 샘플링해야 하는 문제가 있다. 논문은 공간 관계 자체를 평가하는 보상 모델을 도입해 이 문제를 해결한다.

핵심 아이디어 요약

  • SpatialReward‑Dataset(8만+ 선호 쌍) 구축
  • 공간 관계를 평가하는 SpatialScore 보상 모델 제안
  • 보상 모델 기반 온라인 강화학습으로 공간 이해 향상
  • 여러 벤치마크에서 일관된 성능 개선 보고

Section 1: SpatialReward Dataset Figure 1

Figure 2

Figure 3

Figure 4

Figure 5

Figure 6

Figure 7

Figure 8

Figure 9

Figure 10

Figure 11

Figure 12

Figure 13

Figure 14

Figure 15

Figure 16

Figure 17

Figure 18

Figure 19

Figure 20

Figure 21

Figure 22

Figure 23

Figure 24

Figure 25

Figure 26

Figure 27

Figure 28

Figure 29

Figure 30

Figure 31

Figure 32

Figure 33

Figure 34

Figure 35

Figure 36

Figure 37

Figure 38

Figure 39

Figure 40

Figure 41

Figure 42

Figure 43

Figure 44

Figure 45

Figure 46

Figure 47

Figure 48

Figure 49

Figure 50

Figure 51

Figure 52

Figure 53

Figure 54

Figure 55

Figure 56

Figure 57

Figure 58

Figure 59

Figure 60

Figure 61

Figure 62

Figure 63

Figure 64

Figure 65

Figure 66

Figure 67

Figure 68

Figure 69

Figure 70

Figure 71

Figure 72

Figure 73

Section 2: SpatialScore Reward ModelSection 3: Online RL for Spatial Generation
SpatialScore를 보상으로 사용하는 RL을 통해, 복잡한 공간 지시가 들어간 생성에서도 정확성을 향상시킨다. 이는 반복 샘플링 비용을 줄이고, 사용자 의도에 더 잘 맞는 이미지를 만든다.

Results & Discussion (논문 요약 기반) Figure 147

Figure 148

Figure 149

Figure 150

Figure 151

Figure 152

Figure 153

Figure 154

Figure 155

Figure 156

Figure 157

Figure 158

Figure 159

Figure 160

Figure 161

Figure 162

Figure 163

Figure 164

Figure 165

Figure 166

Figure 167

Figure 168

Figure 169

Figure 170

Figure 171

Figure 172

Figure 173

Figure 174

Figure 175

Figure 176

Figure 177

Figure 178

Figure 179

Figure 180

Figure 181

Figure 182

Figure 183

Figure 184

Figure 185

Figure 186

Figure 187

Figure 188

Figure 189

Figure 190

Figure 191

Figure 192

Figure 193

Figure 194

Figure 195

Figure 196

Figure 197

Figure 198

Figure 199

Figure 200

Figure 201

Figure 202

Figure 203

Figure 204

Figure 205

Figure 206

Figure 207

Figure 208

Figure 209

Figure 210

Figure 211

Figure 212

Figure 213

Figure 214

Figure 215

Figure 216

Figure 217

Figure 218

Figure 219

Limitations (한계)**
보상 모델이 공간 관계에 집중하는 만큼, **다른 속성(색감/스타일 등)**과의 균형 문제가 발생할 수 있다. 또한 선호 데이터 구축 비용이 크다.

도비의 의견
이미지 생성에서 공간 관계는 사용자 경험에 직결되는 문제다. SpatialScore는 “정확한 배치”를 직접 보상으로 삼는 점에서 실용적이고, RL과 결합해 효율 개선 가능성이 크다.

참고