Pāriet uz saturu

Digitāli radīto objektu vākšanas vadlīnijas

No ''Latvijas Nacionālā bibliotēka''

Aktualizēts 20.05.2026skatīt izmaiņu vēsturi

⚠️ Šī lapa joprojām ir izstrādes stadijā.

Šis šķirklis sniedz vadlīnijas atmiņas institūciju speciālistiem par tiešsaistē un digitālos nesējos radīta kultūras mantojuma (born-digital) apzināšanu, centralizētu vākšanu (tīmekļa rasmošanu), pēcapstrādi un ilglaicīgu saglabāšanu digitālajos arhīvos.

1. Objektu veidi un klasifikācija

Latvijas kultūras telpā radīto digitālo mantojumu ir iespējams pakāpeniski savākt, strukturēt un nodrošināt tā ilgtspējīgu saglabāšanu valsts nozīmes ilglaicīgās saglabāšanas IKT sistēmās. Digitāli radītos objektus klasificē pēc to satura veida un tehniskā formāta.

1.1. Tehniskie formāti

Kultūras mantojuma institūcijas digitālos objektus saglabā, izmantojot atvērtus un standartizētus formātus, kas mazina tehnoloģiskās novecošanās riskus:

  • Digitālie teksta dokumenti un e-izdevumi: .pdf (īpaši PDF/A), .epub, .csv, .html, .xml, kā arī atvērtie biroja dokumentu formāti (ODF).
  • Digitālie attēli: .tiff (master formātam), .dng, .jp2 (JPEG 2000), .png un .jpeg.
  • Digitālie video dokumenti: DPX, JPEG2000, MPEG-4 (pamatā H.264 vai H.265 kodeki un MXF/MP4 konteineri).
  • Digitālie audio dokumenti: BWF (Broadcast Wave Format), WAV (bezzudumu master formātam), FLAC, AIFF un izplatīšanas formāti (MPEG-4 AAC, MP3).
  • Tīmekļa saturs un sociālie mediji: Tīmekļa vietņu arhīvdatnes .warc (Web ARCive — ISO standarts) un .arc formātā, aptverot Latvijas un saistīto kopienu domēnus (piemēram, .lv un valsts pārvaldes .gov.lv).
  • Ģeotelpiskie un specifiskie dati: GeoTIFF, GML, KML, datubāzu izvades (piemēram, SQL, SIARD), pētniecības datu kopas (SPSS, JSON).
  • Digitālie multimediji: Digitālā māksla, interaktīvās datorspēles, digitālās animācijas un e-pastu/ziņapmaiņu sarakstes ar vēsturisku vērtību.

1.2. Satura jomas un autori

Objekti aptver plašu satura tēmu loku: kultūru, vēsturi, mākslu, zinātni, izglītību un sabiedriski politiskos procesus.

Kā digitālā mantojuma radītāji un avoti darbojas:

  • Valsts un pašvaldību iestādes un kultūras institūcijas;
  • Nevalstiskās organizācijas (NVO);
  • Komersanti (mediji, digitālie izdevēji) un privātpersonas.

Tehniskā piezīme: Vēsturiskie digitālie dati bieži ir izvietoti uz nestabiliem fiziskajiem nesējiem (novecojuši serveri, lokālie cietie diski, atmiņas kartes, CD, DVD). Lai nodrošinātu to pārnešanu uz centralizētajiem digitālajiem arhīviem, sagatavošanas posmā ir jāveic datu masīvu tehniskā restaurācija un jānodrošina droši tīkla pieslēgumi un datu pārneses protokoli.

2. Procesu organizācija (Četri darba posmi)

Digitāli radīto objektu vākšana un saglabāšana tiek organizēta četros pēctecīgos posmos, nodrošinot pilnu dzīves cikla pārvaldību.

  1. Plānošana (Satura atlase un prioritātes)
    Balstoties uz nacionālajiem kultūras mantojuma digitalizācijas un ilglaicīgas saglabāšanas plāniem, tiek izveidoti prioritārie digitālo objektu un avotu saraksti. Tiek aprēķināti nepieciešamie finanšu un infrastruktūras resursi (terabaitu apjoms gadā) un iniciēts vākšanas projekts.
  2. Sagatavošana (Tehniskais un juridiskais audits)
    Tiek apkopoti mērķa objektu fiziskie un saturiskie parametri: datņu formāti, apjomi, domēni un serveru adreses. Šajā posmā obligāti veic juridisko izvērtēšanu (autortiesības, izplatīšanas tiesības un Vispārīgās datu aizsardzības regulas / GDPR prasības). Tiek sagatavota saņēmēja IKT infrastruktūra (datu centri, serveri, glabātuves) un identificēti tie objekti, kam nepieciešama iepriekšēja tehniskā restaurācija.
  3. Kopēšana un vākšana (Datu migrācija un rasmošana)
    Tiek veikta serveru darbības atjaunošana un tiešo datu pieslēgumu izveide. Automatizētas vākšanas gadījumā (tīmekļa rasmošanā) sistēmās tiek konfigurēti mērķa domēni, dziļuma līmeņi un filtri. Tiek veikta fiziskā datu kopēšana un sākotnējo arhīvdatņu un metadatu reģistrācija pagaidu masīvos.
  4. Pēcapstrāde un saglabāšana (Formātu konvertācija un nodošana arhīvam)
    Oriģinālās master arhīvdatnes tiek saglabātas nemainīgas. Ja nepieciešams, tiek veidotas atvasinātās arhīvdatnes ilgtspējīgos formātos un ģenerētas vieglākas lietotājdatnes publiskajai piekļuvei. Tiek aizpildīti un paplašināti aprakstošie un tehniskie metadati. Lietotājdatnes tiek publicētas izplatīšanas platformās, bet master pakotnes tiek nosūtītas uz ilglaicīgās saglabāšanas sistēmām.

3. Tīmekļa rasmošana un automatizētā vākšana

Tīmekļa satura automatizētu vākšanu un arhivēšanu (rasmošanu) Latvijā kopš 2008. gada regulāri veic Latvijas Nacionālā bibliotēka (LNB), uzturot Latvijas Tīmekļa arhīvu. Paralēli Latvijas Nacionālais arhīvs (LNA) pieņem glabāšanā institūciju un privātpersonu elektroniskos dokumentus un multimedijus, kam ir arhīviska vērtība.

3.1. Tehnoloģiskā nodrošinājuma prasības

Automatizētai vākšanai izmanto specializētu rasmošanas programmatūru (piemēram, Heritrix, Web Curator Tool u.c.). Profesionālai tīmekļa arhivēšanas sistēmai jānodrošina šāda funkciju kopa:

  • Universāls atbalsts: HTML lapu, skriptu, stilu lapu un specifisku iegulto datņu formātu automatizēta lejupielāde, saglabājot vietnes sākotnējo saišu struktūru.
  • Mērķtiecīga lejupielāde: Spēja automatizēti rasmot datus no NIC.lv reģistrētajiem IP adrešu apgabaliem un domēniem, filtrējot un indeksējot izplatītākos formātus (.pdf, .doc, .xls, .docx, .xlsx, .eml, .zip, .rar).
  • Indeksēšana un meklēšana: Regulāra datu avotu atjaunināšana un ātras pilnteksta meklēšanas nodrošināšana lietotājam draudzīgā tīmekļa saskarnē.
  • Standartu saderība: Tīmekļa datu saglabāšana standartizētās WARC (ISO 28500:2017) datnēs un integrēts pārlūkošanas dzinējs (piemēram, *Wayback Machine* tehnoloģija) vēsturiskā satura korektai attēlošanai.
  • Infrastruktūra: Sistēmas arhitektūrai jābūt mērogojamai un izvietotai drošos institucionālos resursos (LNB datu centrā, virtualizētos serveros).

3.2. Nepieciešamās kompetences un lomas

Vākšanas procesa nodrošināšanai ir nepieciešama starpdisciplināra komanda ar trīs galvenajām lomām:

  1. Satura vadītājs (kolekcijas kurators): Nosaka saturiskos atlases kritērijus, prioritātes, tiesisko regulējumu un definē mērķa objektus un vietnes.
  2. IT sistēmu inženieris / tehniskais speciālists: Pārvalda rasmošanas programmatūru (*web crawlers*), datubāzes, tīkla infrastruktūru, drošības protokolus un nodrošina tehnisko piekļuvi avotiem.
  3. IT grafiskās apstrādes un restaurācijas speciālists: Veic bojātu tīmekļa lapu struktūru, datņu un vēsturiskā digitālā satura tehniskās atjaunošanas un integrācijas darbus.

4. Metadati un datņu struktūras

4.1. Metadatu standarti

Katram digitālajam objektam vai tīmekļa vākumam ir jāpievieno strukturēti mašīnlasāmi metadati, nodrošinot to savietojamību ar nacionālo digitālo mantojumu un LNB Digitālā mantojuma platformas (DOM) sistēmu:

  • Aprakstošajiem un struktūrmetadatiem ieteicams izmantot nacionāli pielāgoto Dublin Core vai METS/ALTO shēmu.
  • Metadatu datne tiek saglabāta kā elektronisks dokuments (XML vai JSON formātā) tajā pašā mapē, kurā atrodas digitālie objekti.

4.2. Datņu un mapju nosaukumu noteikumi

Datņu un mapju nosaukumiem jābūt konsekventiem, unikāliem un piemērotiem automatizētai apstrādei.

Svarīgi nosacījumi: Nosaukumos drīkst izmantot tikai mazos latīņu alfabēta burtus, ciparus un apakšsvītru (_). Ir kategoriski aizliegts izmantot atstarpes, diakritiskās zīmes (garumzīmes, mīkstinājumus) un speciālos simbolus (izņemot apakšsvītru).

Datnes nosaukuma struktūra

[iestade]_[zanra_kods]_[saturisks_nosaukums]_[gads_vai_datums].[paplasinajums]

  • Žanra kodi pēc konsekventas sistēmas, piemēram: w — tīmekļa vietne, e — elektroniskais izdevums, m — digitālā māksla.
  • Pareizas prakses piemērs: lnb_m_rixcdigmaksla_2005.html

Mapes komplektācija un struktūra

Glabāšanas mapes (pakotnes) tiek strukturētas hierarhiski: pēc iestādes koda un tēmas/kolekcijas unikālā identifikatora. Katrā kolekcijas gala mapē obligāti jābūt šādam datņu komplektam:

  1. Arhīvdatnes: nemainīti oriģinālie digitālie objekti vai master materiāli.
  2. Lietotājdatnes: publiskai izplatīšanai un ātrai pārlūkošanai optimizēti formāti.
  3. Metadatu datne: XML/JSON datne ar objekta un tiesību aprakstu.
  4. Kontrolsummu datne: .sha256 vai .md5 datne, kas garantē datu integritāti un aizsargā pret datņu bojājumiem pārsūtīšanas laikā.

5. Kvalitātes kontroles (KK) matrica

Lai nodrošinātu savāktā mantojuma ilgtspēju, kvalitātes kontrole tiek veikta visos procesos:

Pārbaudes objekts Kvalitātes kontroles pasākumi un kritēriji Metode
Tehniskā pieejamība un atveide Pārbauda, vai digitālais objekts ir sekmīgi atverams, nav bojāts un tīmekļa saturs korekti vizualizējas arhivēšanas pārlūkā. Automatizēta validācija un vizuāla izlases kontrole.
Saturiskā kvalitāte Izvērtē objekta atbilstību definētajiem atlases kritērijiem, satura prioritātēm un krājuma komplektēšanas politikai. Ekspertu (kolekcijas kuratora) pārbaude.
Kopas pilnīgums Pārbauda, vai ir savāktas visas saistītās datnes un struktūras elementi (multimediju sastāvdaļas) un vai tie atbilst dokumentācijas aprakstam. Automatizēta apjoma un failu saraksta salīdzināšana.
Tehniskie parametri Kontrolē datņu formātu saderību ar ilglaicīgās saglabāšanas prasībām un validē datņu struktūru korektumu. Programmatūras validācija (piemēram, ar JHOVE vai līdzīgiem rīkiem).
Struktūras un metadatu kvalitāte Pārbauda datņu/mapju nosaukumu atbilstību sintakses noteikumiem, kontrolsummu (SHA-256) sakritību un metadatu obligāto lauku aizpildījumu. Automatizēta skriptu pārbaude pirms datu galīgās arhivēšanas.

Skatīt arī