Home » Hacker News » New top story on Hacker News: Vid2Seq: A pretrained visual language model for describing multi-event videos

New top story on Hacker News: Vid2Seq: A pretrained visual language model for describing multi-event videos