ReALM: Reference Resolution As Language Modeling

April 1, 2024 less than 1 minute read

Meta info.

TL; DR

Pipeline style로 reference resolution에 대해 finetune된 작은 모델(ReALM)로 해결 시도

Untitled

대화내에서 존재하는 referencing은 물론이고,
on-screen에서 혹은 device interaction setting에서 존재하는 background entity(대화에서 언급되지는 않았지만 존재하는, 예를 들면 재생중인 음악이나 울리고 있는 알람 등) 에 대한 referencing을 모두 해결할 필요성에 대해 역설.

on-device setting에서의 이점이나 해석가능성 혹은 모듈화 이점 강조
conversational 에서든 on-screen 에서든 모두 적용 가능한 일관적 방식 제안
parsed entities와 그 위치로 screen 재구성: 화면 내용을 시각적으로 표현하는 purely textual representation 생성
- conversational references(Conv): entity type별, entity별 propreties를 모두 encoding ~~(굉장히 소모적이지 아니한지,,? )~~
- on-screen references(Screen): (이전대화 등에서) 화면상 text에서 entity를 extract 할 수 있다고 가정 (해당 entity의 type, bounding boxes + non-entity text elements를 모두 사용 가능), 화면상 존재하는 모든 entities를 sorting해서 식별해둠 ~~(마찬가지로 굉장히 소모적인듯)~~