Abbiamo addestrato questo modello per ribaltare l'economia unitaria della didascalia dei frame, dell'etichettatura e della ricerca video. L'elaborazione di 1 miliardo di frame costava milioni, ma ora è fattibile per team che non sono le aziende più grandi. Vediamo questo sbloccare biblioteche video di oltre un petabyte, che in precedenza erano impossibili da cercare, categorizzare o estrarre clip. Abbiamo già implementato questo modello su scala internet in collaborazione con @grass. Se hai un caso d'uso per questo modello, inviaci un dm. Ci muoviamo estremamente velocemente.
Inference
Inference15 ago, 02:02
Presentiamo ClipTagger-12b. Un modello di annotazione video all'avanguardia, addestrato in collaborazione con @grass. ClipTagger-12b offre capacità di annotazione video paragonabili a Claude 4 e GPT-4.1 a un costo 17 volte inferiore. Scopri di più:
4,98K