Opis javnega naročila
V okviru projekta so načrtovane naslednje aktivnosti*:
A. Razvoj ozadnjega dela (back-end):
- razvoj CRUD baze;
- moduli za administracijo uporabnikov in upravljanje s podatki;
- podpora za vektorske vložitve LLM in LMM, ki bodo omogočale avtomatsko anotacijo in generiranje metapodatkov na podlagi analize videa in fotografij;
- izvoz baze v standardiziranem formatu (json, xml, xlsx/csv), glede na podane kriterije s strani administratorja.
B. Razvoj osprednjega dela (front-end):
B.1 Vmesniki za anotacijo avdiovizualnega gradiva:
- vmesnik za časovno anotacijo vizualnih vsebin (video posnetkov);
- podpora za avtomatsko anotacijo vizualnih vsebin na podlagi LLM oz. LMM (večjezični modeli in modeli optimizirani za slovenščino in narečja);
- možnost ročne anotacije vizualnih vsebin.
B.2 Vmesniki za iskanje in predvajanje:
- mehko (fuzzy oz. Fusion rank) iskanje, preko več kategorij in z logičnimi operaterji;
- iskanje po času;
- iskanje po geolokaciji;
- tematsko iskanje;
- semantično iskanje po videu in fotografijah: besedilni opisi generativne AI (na podlagi vektorskih vložitev LMM in LLM);
- hibridno iskanje po videu in fotografijah (kombinacija fuzzy in semantičnega iskanja);
- vmesnik za predvajanje vizualnih vsebin.
B.3 Vmesniki in mehanizem interakcije z LMM:
- vmesnik za komunikacijo z generativno AI, ki bo uporabniku generirala anotacije (prompt inženiring, primer komunikacije s ChatGPT).
C. Procesiranje podatkov, strojno učenje in generativna AI
C.1 Procesiranje podatkov:
- procesiranje imen krajev za generiranje geolokacij (long, lat);
- procesiranje videa za pripravo vektorskih vložitev (segmentacija, formatiranje);
- procesiranje besedil za pripravo vektorskih vložitev (lematizacija, tokenizacija).
C. 2 Strojno učenje in generativna AI:
Vizualno gradivo
- Segmentacija videa na podlagi strojnega učenja: razvoj algoritmov segmentacije videa, za npr. zajem relevantnih prehodov in aktivnosti znotraj videa, tudi na podlagi vizualnih značilk MPEG (e. g., Color Structure Descriptor (CSD), Edge Histogram Descriptor (EHD), fast scene change detection algorithm);
- Implementacija velikih multimodalnih modelov (LMM) z namenom avtomatskega anotiranja in semantičnega iskanja po vektorskih vložitvah vizualnih vsebin;
- Optimizacija modelov (fine-tunning) na vizualnih vsebinah in kontekstih ter s pomočjo taksonomij ljudskih pojavov;
- Izračun vektorskih vložitev LMM in vnos v bazo;
Besedilo
- Implementacija velikih jezikovnih modelov (LLM) za slovenščino z namenom semantičnega iskanja po vektorskih vložitvah;
- Optimizacija modela (fine-tunning) na konkretnih besedilih;
- Izračun vektorskih vložitev LMM in vnos v bazo.
D. Oblikovanje:
- UX flow (načrt izgleda aplikacije, funkcionalnosti in interakcij);
- oblikovanje aplikacije, iskalnikov in posameznih elementov za prikaz vsebin;
- odzivno oblikovanje (prilagajanje različnim zaslonom/napravam);
- podpora glavnim brskalnikom (Firefox, Safari, Chome).
E. Postavitev na virtualno spletno stran ZRC SAZU
- preferenčno Docker/Microservice rešitev.
F. Vzdrževanje aplikacije po zaključku projekta do konca leta 2024.