Hrvatski podcast korpus za AI agente
Otvorena platforma za semantičko pretraživanje transkripata hrvatskih podcasta. Pristupa se preko MCP poslužitelja iz Claude.ai, Claude Desktopa i drugih AI alata koji podržavaju Model Context Protocol.
na mrežiŠto je DOMOVINA.ai?
DOMOVINA.ai prikuplja, transkribira i vektorizira hrvatski govoreni sadržaj — trenutno katoličke i političke podcaste — te ga čini dostupnim AI alatima kao kontekst za odgovaranje. Cilj je da pitanja o hrvatskim temama dobiju odgovore utemeljene na hrvatskim izvorima, a ne na engleskim sažetcima.
Korpus se gradi otvoreno: kod, sheme baze i ETL pipeline su javni pod AGPL-3.0 licencom u repozitoriju domovinatv/domovina-rag.
Pristup preko MCP-a
Glavna ulazna točka je MCP poslužitelj na
mcp.domovina.link.
U Claude.ai sučelju otvorite Profil → Custom Integrations,
dodajte novi konektor i upišite URL — autentifikacija se obavlja automatski
preko OAuth-a, bez ručnog API ključa.
Kako je napravljeno
Transkripcija: NVIDIA Canary ASR model + pyannote dijarizacija. Vektorizacija: bge-m3 (1024 dimenzije, multilingual). Spremnik: ClickHouse s HNSW indeksom + PostgreSQL za metapodatke. Pipeline za prikupljanje je u sestrinskom repozitoriju fetch.domovina.tv.
Dostupnost i licenca
Servis je javno dostupan kao MVP — bez registracije, bez plaćanja. Ograničenja korištenja po klijentu opisana su na stranici Ograničenja zahtjeva. Cijeli kod platforme je otvoren pod AGPL-3.0 licencom.