Pāriet uz saturu

Digitāli radīto objektu vākšanas vadlīnijas: Atšķirības starp versijām

No ''Latvijas Nacionālā bibliotēka''
Azogla (diskusija | devums)
Jauna lapa: <big>''<span style="color:#d00000; font-weight:bold; font-size:120%;">Aktualizēts <u>{{REVISIONDAY2}}.{{REVISIONMONTH}}.{{REVISIONYEAR}}</u></span>'' — [{{fullurl:Digitāli radīto objektu vākšanas vadlīnijas|action=history}} skatīt izmaiņu vēsturi]''</big> <div style="border: 2px solid #d33; background-color: #fee; padding: 0.8em; border-radius: 6px;">'''⚠️ Šī lapa joprojām ir izstrādes stadijā.'''</div> === Objektu veidi === Latvijas kultūras telpā vēsturi...
 
Azogla (diskusija | devums)
 
(2 starpversijas, ko mainījis tas pats dalībnieks, nav parādītas)
1. rindiņa: 1. rindiņa:
<big>''<span style="color:#d00000; font-weight:bold; font-size:120%;">Aktualizēts <u>{{REVISIONDAY2}}.{{REVISIONMONTH}}.{{REVISIONYEAR}}</u></span>'' — [{{fullurl:Digitāli radīto objektu vākšanas vadlīnijas|action=history}} skatīt izmaiņu vēsturi]''</big>
<big>''<span style="color:#d00000; font-weight:bold; font-size:120%;">Aktualizēts <u>{{REVISIONDAY2}}.{{REVISIONMONTH}}.{{REVISIONYEAR}}</u></span>'' — [{{fullurl:Digitāli radīto objektu vākšanas vadlīnijas|action=history}} skatīt izmaiņu vēsturi]''</big>
<div style="border: 2px solid #d33; background-color: #fee; padding: 0.8em; border-radius: 6px;">'''⚠️ Šī lapa joprojām ir izstrādes stadijā.'''</div>
<div style="border: 2px solid #d33; background-color: #fee; padding: 0.8em; border-radius: 6px;">'''⚠️ Šī lapa joprojām ir izstrādes stadijā.'''</div>
=== Objektu veidi ===
Šis šķirklis sniedz vadlīnijas atmiņas institūciju speciālistiem par tiešsaistē un digitālos nesējos radīta kultūras mantojuma (''born-digital'') apzināšanu, centralizētu vākšanu (tīmekļa rasmošanu), pēcapstrādi un ilglaicīgu saglabāšanu digitālajos arhīvos.
Latvijas kultūras telpā vēsturiski jau sākotnēji digitālā formātā radītos digitālos objektus (kādu būtisku daļu no tiem) ir iespējams pakāpeniski savākt un ilgtermiņā uzglabāt centralizēti digitālos arhīvos, kā arī tos ir iespējams pārveidot modernos digitālos formātos un izplatīt dažādās kultūras mantojuma institūciju IKT platformās. Digitāli radītos objektus ir iespējams dalīt gan pēc satura veida, gan pēc [[Digitālais objekts|digitālo objektu]] formātiem, piemēram:
* digitālie teksta dokumenti (elektroniskie dokumenti, e-grāmatas, e-izdevumi) (.csv, .html, .odf, .pdf, citi Microsoft formāti);
* digitālie attēli (.dng, .jpeg, .jp2, .png, .tiff);
* digitālie video dokumenti (DPX, JPEG2000, MPEG-4);
* digitālie audio dokumenti (AIFF, BWF, FLAC, MPEG-4, WAV, MP3);
* sociālie mediji un oficiālās publikācijas - WEB (HTML tīmekļa lapas) .lv un .gov.lv domēni;
* digitālie multimediji: digitālā māksla, datorspēles, digitālās animācijas;
* e-pasti, ziņapmaiņas platformas sarakstes;
* citi digitālie formāti: datu bāzes, WARC, ARC, GeoTiff, GML, KML, SPSS.
Digitāli radītos objektus var dalīt arī pēc satura tēmām, piemēram, kultūra, vēsture, izglītība, māksla, zinātne, likumdošana, veselība, informāciju tehnoloģijas, dabas zinības, mediji, izdevēji, sabiedrība, valdība, pašvaldības, profesionālās organizācijas. [[Digitālais objekts|Digitālo objektu]] skaits ir liels, un datņu formāti ļoti dažādi, skatīt https://www.loc.gov/preservation/digital/formats/fdd/browse_list.shtml. Digitāli radītiem objektiem ir dažādi autori - gan valsts iestādes, institūcijas, organizācijas, gan nevalstiskās organizācijas, gan komersanti un privātpersonas. Digitāli radītie objekti ir izvietoti uz dažādiem nesējiem: serveri ar interneta pieslēgumiem, bez interneta pieslēgumiem datoru cietie diski, dažādas pārnēsājamās atmiņu kartes, CD, DVD u.c.. Lai šos digitālos objektus pārkopētu uz digitāliem arhīviem ([[Īslaicīgas un ilglaicīgas saglabāšanas vadlīnijas|ilglaicīgas saglabāšanas]] IKT sistēmas), tiem digitalizācijas laikā ir jābūt tehniski pieejamiem (datu vai interneta pieslēgumi).


=== Organizatoriskie jautājumi ===
== 1. Objektu veidi un klasifikācija ==
Digitāli radīto objektu kopēšanu ir iespējams veikt 3 veidos: a) manuāla kopēšana, b) automatizēta kopēšana, c) daļēji manuāla un automatizēta. Lai definētu vēlamo kopēšanas metodi, ir jāapzina mērķa [[Digitālais objekts|digitālo objektu]] skaits, tehniskie parametri (operētājsistēmas, datu bāzes, datņu formāti, datu pieslēgumi u.c.) un organizatoriskie jautājumi (tai skaitā [[Autortiesības|autortiesības]], izplatīšanas tiesības).
Latvijas kultūras telpā radīto digitālo mantojumu ir iespējams pakāpeniski savākt, strukturēt un nodrošināt tā ilgtspējīgu saglabāšanu valsts nozīmes ilglaicīgās saglabāšanas IKT sistēmās. Digitāli radītos objektus klasificē pēc to satura veida un tehniskā formāta.
Kopš 2008.g. LNB regulāri veic Latvijas tīmekļa satura vākšanu jeb rasmošanu (automatizēta kopēšanas sistēma), vairāk informācijas: https://www.lnb.lv/lv/izdevejiem/rasmosana, un jau savākto saturu ir iespējams aplūkot: http://webarhivs.lndb.lv/. LNB arī turpmāk var nodrošināt centralizētu [[Digitālais objekts|digitālo objektu]] pakāpenisku vākšanu, katru gadu nosakot kopējamo mērķa digitālo objektu apjomu (TB), jo tas prasa papildus jaunus IKT un finanšu resursus. Jāņem vērā, ka LNA pieņem glabāšanā valsts un pašvaldību institūciju, kā arī privātpersonu radītos elektroniskos dokumentus, digitāli radītās fotogrāfijas, audiovizuālos dokumentus un skaņas dokumentus, kuriem ir arhīviskā vērtība. Ja šiem digitālajiem objektiem ir kultūrvēsturiska vērtība, tad to vākšanai un ilglaicīgai saglabāšanai būtu vēlams izmantot šajās vadlīnijās definētos dažādo digitālo objektu datņu tehniskos parametrus un [[Metadati|metadatu]] struktūras.
Digitāli radīto objektu vākšanu var iedalīt četros būtiskos posmos: plānošana, sagatavošana, kopēšana, pēcapstrāde. Katrā posmā ir ieteicams ņemt vērā tālāk uzskaitītos ieteikumus:
Plānošana
* Ņemot vērā Kultūras mantojuma digitalizācijas, [[Īslaicīgas un ilglaicīgas saglabāšanas vadlīnijas|ilglaicīgas saglabāšanas]] un pieejamības nodrošināšanas plānus, satura prioritātes un atlases kritērijus, tiek izveidoti [[Digitālais objekts|digitālo objektu]] saraksti.
* Tiek apkopoti vākšanai nepieciešamie resursi.
* Tiek atvērts [[Digitālais objekts|digitālo objektu]] vākšanas projekts.
Sagatavošana
* Tiek apkopoti [[Digitālais objekts|digitālo objektu]] fiziskie un saturiskie parametri (datņu formāti, apjomi, serveri, domēni, piederība kolekcijām, minimālie [[Metadati|metadati]], [[Autortiesības|autortiesības]], īpašumtiesības, [[Personas dati|personas datu]] aizsardzības rādītāji).
* Tiek noteikta kopēšanas tehnoloģija (manuāli, automātiski) un laika grafiks.
* Tiek sagatavoti mērķa kopēšanas resursi (IKT sistēmas, datu bāzes, serveri, datu centri, datu nesēji). 4.Tiek definēts, kuriem digitālajiem objektiem būs nepieciešama saturiskā un tehniskā restaurācija.
Kopēšana
* Sākumā tiek veikta [[Digitālais objekts|digitālo objektu]] restaurācija (tai skaitā serveru darbības atjaunošana, datu pieslēgumu izveide).
* Ja notiek automatizēta kopēšana, tad ar atbilstošu IKT sistēmu palīdzību tiek definēti mērķa kopējamie objekti (domēni, web lapu līmeņi, objekti) un kopēšanas fiziskās adreses.
* Kad sagatavošanas darbi ir pabeigti, tiek uzsākta fiziskā kopēšana.
* Arhīvdatnes un [[Metadati|metadati]] tiek saglabāti [[Īslaicīgas un ilglaicīgas saglabāšanas vadlīnijas|ilglaicīgas saglabāšanas]] IKT sistēmās.
Pēcapstrāde
* Tiek veikta datņu konvertācija. Pēc tam, kad digitālajiem objektiem ir pārkopētas oriģinālās arhīvdatnes, tās ir iespējams uzlabot, izveidojot jaunas atvasinātās arhīvdatnes modernākos formātos, kā arī tiek izveidotas jaunas lietotājdatnes.
* Jaunām arhīvdatnēm un lietotājdatnēm tiek papildināti [[Metadati|metadati]].
* Tiek pārbaudīta [[Digitālais objekts|digitālā objekta]] datu aizsardzība un tehniskā kvalitāte.
* Jaunās lietotājdatnes tiek izvietotas izplatīšanas IKT sistēmās.


=== Tehnoloģiskās un kompetenču vadlīnijas ===
=== 1.1. Tehniskie formāti ===
Digitāli radīto objektu kopēšanu ir iespējams veikt, ja ir definēts kopēšanas process, piesaistīti atbilstošie IKT speciālisti, specializēta programmatūra un IKT iekārtas. Kopēšanas procesa nodrošināšanai ir nepieciešami satura vadības speciālisti, kuri nosaka saturiskos [[Digitālais objekts|digitālo objektu]] atlases kritērijus, prioritātes un pašus mērķa objektus. Tālāk kopēšanas funkcijas pārvalda IT speciālisti, kuri, pirms tiek uzsākta kopēšana, tehniski sagatavo oriģinālos digitāli radītos objektus kopēšanai (vietne, serveris, iespējams, jāveic tehniskā restaurācija) un sagatavo kopēšanas IKT sistēmas (programmatūras, datu pieslēgumu, serveri) darbam. Ja tiek izmantotas automatizētas kopēšanas programmatūras, IT speciālisti nodrošina programmatūras darbības vadību un uzraudzību.
Kultūras mantojuma institūcijas digitālos objektus saglabā, izmantojot atvērtus un standartizētus formātus, kas mazina tehnoloģiskās novecošanās riskus:
[[Digitālais objekts|Digitālo objektu]] vākšanai un kopēšanai ir nepieciešami speciālisti ar šādām kompetencēm:
* Satura vadītājs;
* IT tehniskais speciālists (WEB crawler programmatūras, datu bāzes, serveri, datu tīkli, drošība);
* IT grafiskās apstrādes speciālists (HTML web lapu un [[Digitālais objekts|digitālo objektu]] restaurācijas darbi).
Tīmekļa rasmošana
Automatizētai datņu vākšanai un kopēšanai ir iespējams izmantot WEB crawler programmatūras, piemēram, Heritrix, Spider, WEB Curator vai citas. Vairāk informāciju par WEB crawler ir iespējams iegūt dažādos interneta avotos, piemēram: https://en.wikipedia.org/wiki/Web_crawler, vai http://bigdata-madesimple.com/top-50-open-source-web-crawlers-for-data-mining/. Ir pieejamas dažādas kvalitātes bezmaksas un maksas WEB crawler programmatūras. LNB rasmošanas funkcijām pamatā izmanto profesionālas starptautiskas programmatūras un papildina to ar vietējo IKT sistēmu izstrādātāju veidotu papildu funkcionalitāti. Svarīgi, lai šāda WEB crawler programmatūra nodrošina šādu funkcionalitāti:
* WEB tīmekļa (HTML lapu, specifisku [[Arhīvdatņu veidošana|arhīvdatņu]] un to struktūras informācijas vākšana), arhivēšana un attēlošana;
* sistēmai jāspēj automatizēti savākt no NIC.lv IP adrešu apgabaliem dažādu datņu formātus, piemēram: pdf, ppt, doc, xls, ps, rtf, eml, arj, gz, rar, tar, zip;
* norādīto informācijas avotu automatizēta vākšana un ielāde, regulāra to indeksēšana, atjaunināšana no oriģinālajiem datu avotiem, ātra informācijas sameklēšanas sistēma pēc jebkuram lietotājam zināma dokumentu datu satura un attēlošana lietotājam draudzīgā Web tehnoloģiju formātā;
* sistēmai jāspēj izveidot ARC/WARC tīmekļa arhīva datnes un jānodrošina web aplikācija vākumu pārskatam. Sistēmas arhitektūrai ir jābūt būvētai tā, lai tā būtu spējīga apstrādāt lielus datu apjomus, kā arī lai būtu ērti integrējama un papildināma nākotnē;
* sistēmai ir jābūt izvietotai uz LNB IKT sistēmām (virtuālie serveri, datu centrs).


=== Digitālo objektu formāti un metadati ===
* '''Digitālie teksta dokumenti un e-izdevumi:''' <code>.pdf</code> (īpaši PDF/A), <code>.epub</code>, <code>.csv</code>, <code>.html</code>, <code>.xml</code>, kā arī atvērtie biroja dokumentu formāti (ODF).
Digitālo teksta dokumentu, attēlu, video un audio objektiem ieteicams izmantot [[Digitālais objekts|Digitālo objektu]] datņu tehniskie parametri. (https://lnb.lv/sites/default/files/media/bibliotekariem/Digitalizacijas_vadlinijas_A_pielikums_datnu_tehniskie_formati_v1.1_280518.xlsx) specificēto [[Arhīvdatņu veidošana|arhīvdatņu]] un [[Lietotājdatņu veidošana|lietotājdatņu]] formātus un parametrus. Nestandarta digitāli radīto objektu kopijām ir jāizstrādā individuāli datņu tehniskie formāti. Video, audio, attēlu, tekstu un HTML digitālajam objektam ir jāizveido atsevišķa [[Arhīvdatņu veidošana|arhīvdatne]], no kuras vēlāk var tikt izveidota [[Lietotājdatņu veidošana|lietotājdatne]]. [[Digitālais objekts|Digitālo objektu]] izveidotājs sagatavo digitālo objektu metadatus. [[Metadati|Metadatu]] datnes nosaukumu izvēlas atbilstoši attiecīgā [[Digitālais objekts|digitālā objekta]] datnes nosaukumam, saglabājot to kā elektronisku dokumentu. Metadatu struktūra ir jāveido, lai nodrošinātu ērtāku objektu meklēšanu potenciālajiem publisko izplatīšanas platformu lietotājiem. Digitāli radīto objektu metadatiem ieteicams izmantot atbilstošo https://dom.lndb.lv/data/type/interactiveresource.html specificēto struktūru.
* '''Digitālie attēli:''' <code>.tiff</code> (master formātam), <code>.dng</code>, <code>.jp2</code> (JPEG 2000), <code>.png</code> un <code>.jpeg</code>.
* '''Digitālie video dokumenti:''' DPX, JPEG2000, MPEG-4 (pamatā H.264 vai H.265 kodeki un MXF/MP4 konteineri).
* '''Digitālie audio dokumenti:''' BWF (Broadcast Wave Format), WAV (bezzudumu master formātam), FLAC, AIFF un izplatīšanas formāti (MPEG-4 AAC, MP3).
* '''Tīmekļa saturs un sociālie mediji:''' Tīmekļa vietņu arhīvdatnes <code>.warc</code> (Web ARCive — ISO standarts) un <code>.arc</code> formātā, aptverot Latvijas un saistīto kopienu domēnus (piemēram, <code>.lv</code> un valsts pārvaldes <code>.gov.lv</code>).
* '''Ģeotelpiskie un specifiskie dati:''' GeoTIFF, GML, KML, datubāzu izvades (piemēram, SQL, SIARD), pētniecības datu kopas (SPSS, JSON).
* '''Digitālie multimediji:''' Digitālā māksla, interaktīvās datorspēles, digitālās animācijas un e-pastu/ziņapmaiņu sarakstes ar vēsturisku vērtību.


=== Datņu un mapju nosaukumu veidošanas vadlīnijas ===
=== 1.2. Satura jomas un autori ===
Veidojot digitāli radīto objektu datņu nosaukumus, vēlams ņemt vērā šādas norādes:
Objekti aptver plašu satura tēmu loku: kultūru, vēsturi, mākslu, zinātni, izglītību un sabiedriski politiskos procesus.  
* Iestādes apzīmējums. Piemēram, LNB. Iestādes nosaukums var būt ar pilniem vārdiem.
* [[Digitālais objekts|Digitālā objekta]] žanra apzīmējums vai nosaukums. Parasti viens burts, piemēram, “w”– web lapa, “e”– elektronisks izdevums, vai kādu citu pēc izvēles, ar nosacījumu, ka tas tiek lietots konsekventi.
* [[Digitālais objekts|Digitālā objekta]] apzīmējums. Saturisks identifikators, piemēram, vērtības vai elementa nosaukums, vietas nosaukums vai personas vārds, iespējams saīsināts, kombinācijā ar digitālā objekta izveides gadu un datumu.
* Datnes tehniskais formāts. Datnes nosaukuma paplašinājums ir rakstzīmju kopa, kas pievienota datnes nosaukuma beigās un nosaka, ar kādā programmatūru datne var tikt atvērta. Pēc noklusējuma daudzas programmatūras paslēpj datnes nosaukumu paplašinājumus. Tomēr ir iespējams padarīt datnes nosaukumu paplašinājumus redzamus.
Piemērs: LNB_RIXC_Digitala_maksla_2005_12345.html
Veidojot [[Digitālais objekts|digitālo objektu]] mapju nosaukumus, vēlams ņemt vērā turpmāk rakstīto:
* pēc iestādes koda, kurā materiāls digitāli radīts, piemēram: LNB, RIXC,...;
* pēc objekta tēmas nosaukuma, piemēram, satura kolekcijas. Ja gari nosaukumi, tie ir jāsaīsina uz atslēgvārdiem;
* pēc citiem identifikatoriem, piemēram, RIXC uzskaites saraksta numurs, datums.
Mapēs jāveido šāds datņu komplekts:
* visas [[Digitālais objekts|digitālo objektu]] arhīvdatnes;
* visas [[Digitālais objekts|digitālo objektu]] lietotājdatnes;
* [[Metadati|metadatu]] datne.


=== Kvalitātes kontroles pasākumi ===
Kā digitālā mantojuma radītāji un avoti darbojas:
Digitāli radītiem digitālajiem objektiem ir iespējams veikt šādu kvalitātes kontroli:
* Valsts un pašvaldību iestādes un kultūras institūcijas;
* [[Digitālais objekts|Digitālo objektu]] atrādīšanas kvalitāte (vai objekts ir atverams, apskatāms, nav bojāts).
* Nevalstiskās organizācijas (NVO);
* [[Digitālais objekts|Digitālo objektu]] saturiskā kvalitāte, atbilstība definētājiem normatīviem un standartiem.
* Komersanti (mediji, digitālie izdevēji) un privātpersonas.
* [[Digitālais objekts|Digitālo objektu]] kopas pilnīgums (video, audio, attēli, teksti), atbilstība aprakstiem.
 
* [[Digitālais objekts|Digitālo objektu]] atbilstība tehniskajiem parametriem (attēli, teksti, video, audio).
<blockquote>'''Tehniskā piezīme:''' Vēsturiskie digitālie dati bieži ir izvietoti uz nestabiliem fiziskajiem nesējiem (novecojuši serveri, lokālie cietie diski, atmiņas kartes, CD, DVD). Lai nodrošinātu to pārnešanu uz centralizētajiem digitālajiem arhīviem, sagatavošanas posmā ir jāveic datu masīvu tehniskā restaurācija un jānodrošina droši tīkla pieslēgumi un datu pārneses protokoli.</blockquote>
* [[Digitālais objekts|Digitālo objektu]] nosaukumu, mapju un [[Metadati|metadatu]] kvalitāte un digitālo nesēju kvalitāte.
 
== 2. Procesu organizācija (Četri darba posmi) ==
Digitāli radīto objektu vākšana un saglabāšana tiek organizēta četros pēctecīgos posmos, nodrošinot pilnu dzīves cikla pārvaldību.
 
# '''Plānošana''' (Satura atlase un prioritātes)
#: Balstoties uz nacionālajiem kultūras mantojuma digitalizācijas un ilglaicīgas saglabāšanas plāniem, tiek izveidoti prioritārie digitālo objektu un avotu saraksti. Tiek aprēķināti nepieciešamie finanšu un infrastruktūras resursi (terabaitu apjoms gadā) un iniciēts vākšanas projekts.
# '''Sagatavošana''' (Tehniskais un juridiskais audits)
#: Tiek apkopoti mērķa objektu fiziskie un saturiskie parametri: datņu formāti, apjomi, domēni un serveru adreses. Šajā posmā obligāti veic juridisko izvērtēšanu (autortiesības, izplatīšanas tiesības un Vispārīgās datu aizsardzības regulas / GDPR prasības). Tiek sagatavota saņēmēja IKT infrastruktūra (datu centri, serveri, glabātuves) un identificēti tie objekti, kam nepieciešama iepriekšēja tehniskā restaurācija.
# '''Kopēšana un vākšana''' (Datu migrācija un rasmošana)
#: Tiek veikta serveru darbības atjaunošana un tiešo datu pieslēgumu izveide. Automatizētas vākšanas gadījumā (tīmekļa rasmošanā) sistēmās tiek konfigurēti mērķa domēni, dziļuma līmeņi un filtri. Tiek veikta fiziskā datu kopēšana un sākotnējo arhīvdatņu un metadatu reģistrācija pagaidu masīvos.
# '''Pēcapstrāde un saglabāšana''' (Formātu konvertācija un nodošana arhīvam)
#: Oriģinālās master arhīvdatnes tiek saglabātas nemainīgas. Ja nepieciešams, tiek veidotas atvasinātās arhīvdatnes ilgtspējīgos formātos un ģenerētas vieglākas lietotājdatnes publiskajai piekļuvei. Tiek aizpildīti un paplašināti aprakstošie un tehniskie metadati. Lietotājdatnes tiek publicētas izplatīšanas platformās, bet master pakotnes tiek nosūtītas uz ilglaicīgās saglabāšanas sistēmām.
 
== 3. Tīmekļa rasmošana un automatizētā vākšana ==
Tīmekļa satura automatizētu vākšanu un arhivēšanu (rasmošanu) Latvijā kopš 2008. gada regulāri veic Latvijas Nacionālā bibliotēka (LNB), uzturot [http://webarhivs.lndb.lv/ Latvijas Tīmekļa arhīvu]. Paralēli Latvijas Nacionālais arhīvs (LNA) pieņem glabāšanā institūciju un privātpersonu elektroniskos dokumentus un multimedijus, kam ir arhīviska vērtība.
 
=== 3.1. Tehnoloģiskā nodrošinājuma prasības ===
Automatizētai vākšanai izmanto specializētu rasmošanas programmatūru (piemēram, ''Heritrix'', ''Web Curator Tool'' u.c.). Profesionālai tīmekļa arhivēšanas sistēmai jānodrošina šāda funkciju kopa:
 
* '''Universāls atbalsts:''' HTML lapu, skriptu, stilu lapu un specifisku iegulto datņu formātu automatizēta lejupielāde, saglabājot vietnes sākotnējo saišu struktūru.
* '''Mērķtiecīga lejupielāde:''' Spēja automatizēti rasmot datus no NIC.lv reģistrētajiem IP adrešu apgabaliem un domēniem, filtrējot un indeksējot izplatītākos formātus (<code>.pdf</code>, <code>.doc</code>, <code>.xls</code>, <code>.docx</code>, <code>.xlsx</code>, <code>.eml</code>, <code>.zip</code>, <code>.rar</code>).
* '''Indeksēšana un meklēšana:''' Regulāra datu avotu atjaunināšana un ātras pilnteksta meklēšanas nodrošināšana lietotājam draudzīgā tīmekļa saskarnē.
* '''Standartu saderība:''' Tīmekļa datu saglabāšana standartizētās '''WARC''' (ISO 28500:2017) datnēs un integrēts pārlūkošanas dzinējs (piemēram, *Wayback Machine* tehnoloģija) vēsturiskā satura korektai attēlošanai.
* '''Infrastruktūra:''' Sistēmas arhitektūrai jābūt mērogojamai un izvietotai drošos institucionālos resursos (LNB datu centrā, virtualizētos serveros).
 
=== 3.2. Nepieciešamās kompetences un lomas ===
Vākšanas procesa nodrošināšanai ir nepieciešama starpdisciplināra komanda ar trīs galvenajām lomām:
 
# '''Satura vadītājs (kolekcijas kurators):''' Nosaka saturiskos atlases kritērijus, prioritātes, tiesisko regulējumu un definē mērķa objektus un vietnes.
# '''IT sistēmu inženieris / tehniskais speciālists:''' Pārvalda rasmošanas programmatūru (*web crawlers*), datubāzes, tīkla infrastruktūru, drošības protokolus un nodrošina tehnisko piekļuvi avotiem.
# '''IT grafiskās apstrādes un restaurācijas speciālists:''' Veic bojātu tīmekļa lapu struktūru, datņu un vēsturiskā digitālā satura tehniskās atjaunošanas un integrācijas darbus.
 
== 4. Metadati un datņu struktūras ==
 
=== 4.1. Metadatu standarti ===
Katram digitālajam objektam vai tīmekļa vākumam ir jāpievieno strukturēti mašīnlasāmi metadati, nodrošinot to savietojamību ar nacionālo digitālo mantojumu un [https://dom.lndb.lv/ LNB Digitālā mantojuma platformas (DOM)] sistēmu:
* Aprakstošajiem un struktūrmetadatiem ieteicams izmantot nacionāli pielāgoto Dublin Core vai METS/ALTO shēmu.
* Metadatu datne tiek saglabāta kā elektronisks dokuments (XML vai JSON formātā) tajā pašā mapē, kurā atrodas digitālie objekti.
 
=== 4.2. Datņu un mapju nosaukumu noteikumi ===
Datņu un mapju nosaukumiem jābūt konsekventiem, unikāliem un piemērotiem automatizētai apstrādei.
 
<blockquote>'''Svarīgi nosacījumi:''' Nosaukumos drīkst izmantot tikai '''mazos latīņu alfabēta burtus''', ciparus un apakšsvītru (<code>_</code>). Ir kategoriski aizliegts izmantot atstarpes, diakritiskās zīmes (garumzīmes, mīkstinājumus) un speciālos simbolus (izņemot apakšsvītru).</blockquote>
 
==== Datnes nosaukuma struktūra ====
<code>[iestade]_[zanra_kods]_[saturisks_nosaukums]_[gads_vai_datums].[paplasinajums]</code>
* ''Žanra kodi pēc konsekventas sistēmas, piemēram:'' <code>w</code> — tīmekļa vietne, <code>e</code> — elektroniskais izdevums, <code>m</code> — digitālā māksla.
* ''Pareizas prakses piemērs:'' <code>lnb_m_rixcdigmaksla_2005.html</code>
 
==== Mapes komplektācija un struktūra ====
Glabāšanas mapes (pakotnes) tiek strukturētas hierarhiski: pēc iestādes koda un tēmas/kolekcijas unikālā identifikatora. Katrā kolekcijas gala mapē obligāti jābūt šādam datņu komplektam:
# '''Arhīvdatnes:''' nemainīti oriģinālie digitālie objekti vai master materiāli.
# '''Lietotājdatnes:''' publiskai izplatīšanai un ātrai pārlūkošanai optimizēti formāti.
# '''Metadatu datne:''' XML/JSON datne ar objekta un tiesību aprakstu.
# '''Kontrolsummu datne:''' <code>.sha256</code> vai <code>.md5</code> datne, kas garantē datu integritāti un aizsargā pret datņu bojājumiem pārsūtīšanas laikā.
 
== 5. Kvalitātes kontroles (KK) matrica ==
 
Lai nodrošinātu savāktā mantojuma ilgtspēju, kvalitātes kontrole tiek veikta visos procesos:
 
{| class="wikitable" style="width:100%;"
! Pārbaudes objekts !! Kvalitātes kontroles pasākumi un kritēriji !! Metode
|-
| '''Tehniskā pieejamība un atveide''' || Pārbauda, vai digitālais objekts ir sekmīgi atverams, nav bojāts un tīmekļa saturs korekti vizualizējas arhivēšanas pārlūkā. || Automatizēta validācija un vizuāla izlases kontrole.
|-
| '''Saturiskā kvalitāte''' || Izvērtē objekta atbilstību definētajiem atlases kritērijiem, satura prioritātēm un krājuma komplektēšanas politikai. || Ekspertu (kolekcijas kuratora) pārbaude.
|-
| '''Kopas pilnīgums''' || Pārbauda, vai ir savāktas visas saistītās datnes un struktūras elementi (multimediju sastāvdaļas) un vai tie atbilst dokumentācijas aprakstam. || Automatizēta apjoma un failu saraksta salīdzināšana.
|-
| '''Tehniskie parametri''' || Kontrolē datņu formātu saderību ar ilglaicīgās saglabāšanas prasībām un validē datņu struktūru korektumu. || Programmatūras validācija (piemēram, ar ''JHOVE'' vai līdzīgiem rīkiem).
|-
| '''Struktūras un metadatu kvalitāte''' || Pārbauda datņu/mapju nosaukumu atbilstību sintakses noteikumiem, kontrolsummu (SHA-256) sakritību un metadatu obligāto lauku aizpildījumu. || Automatizēta skriptu pārbaude pirms datu galīgās arhivēšanas.
|}
 
[[Kategorija:Digitalizācija]] [[Kategorija:Digitālais mantojums]] [[Kategorija:Tīmekļa arhivēšana]]


== Skatīt arī ==
== Skatīt arī ==

Pašreizējā versija, 2026. gada 20. maijs, plkst. 23.10

Aktualizēts 20.05.2026skatīt izmaiņu vēsturi

⚠️ Šī lapa joprojām ir izstrādes stadijā.

Šis šķirklis sniedz vadlīnijas atmiņas institūciju speciālistiem par tiešsaistē un digitālos nesējos radīta kultūras mantojuma (born-digital) apzināšanu, centralizētu vākšanu (tīmekļa rasmošanu), pēcapstrādi un ilglaicīgu saglabāšanu digitālajos arhīvos.

1. Objektu veidi un klasifikācija

Latvijas kultūras telpā radīto digitālo mantojumu ir iespējams pakāpeniski savākt, strukturēt un nodrošināt tā ilgtspējīgu saglabāšanu valsts nozīmes ilglaicīgās saglabāšanas IKT sistēmās. Digitāli radītos objektus klasificē pēc to satura veida un tehniskā formāta.

1.1. Tehniskie formāti

Kultūras mantojuma institūcijas digitālos objektus saglabā, izmantojot atvērtus un standartizētus formātus, kas mazina tehnoloģiskās novecošanās riskus:

  • Digitālie teksta dokumenti un e-izdevumi: .pdf (īpaši PDF/A), .epub, .csv, .html, .xml, kā arī atvērtie biroja dokumentu formāti (ODF).
  • Digitālie attēli: .tiff (master formātam), .dng, .jp2 (JPEG 2000), .png un .jpeg.
  • Digitālie video dokumenti: DPX, JPEG2000, MPEG-4 (pamatā H.264 vai H.265 kodeki un MXF/MP4 konteineri).
  • Digitālie audio dokumenti: BWF (Broadcast Wave Format), WAV (bezzudumu master formātam), FLAC, AIFF un izplatīšanas formāti (MPEG-4 AAC, MP3).
  • Tīmekļa saturs un sociālie mediji: Tīmekļa vietņu arhīvdatnes .warc (Web ARCive — ISO standarts) un .arc formātā, aptverot Latvijas un saistīto kopienu domēnus (piemēram, .lv un valsts pārvaldes .gov.lv).
  • Ģeotelpiskie un specifiskie dati: GeoTIFF, GML, KML, datubāzu izvades (piemēram, SQL, SIARD), pētniecības datu kopas (SPSS, JSON).
  • Digitālie multimediji: Digitālā māksla, interaktīvās datorspēles, digitālās animācijas un e-pastu/ziņapmaiņu sarakstes ar vēsturisku vērtību.

1.2. Satura jomas un autori

Objekti aptver plašu satura tēmu loku: kultūru, vēsturi, mākslu, zinātni, izglītību un sabiedriski politiskos procesus.

Kā digitālā mantojuma radītāji un avoti darbojas:

  • Valsts un pašvaldību iestādes un kultūras institūcijas;
  • Nevalstiskās organizācijas (NVO);
  • Komersanti (mediji, digitālie izdevēji) un privātpersonas.

Tehniskā piezīme: Vēsturiskie digitālie dati bieži ir izvietoti uz nestabiliem fiziskajiem nesējiem (novecojuši serveri, lokālie cietie diski, atmiņas kartes, CD, DVD). Lai nodrošinātu to pārnešanu uz centralizētajiem digitālajiem arhīviem, sagatavošanas posmā ir jāveic datu masīvu tehniskā restaurācija un jānodrošina droši tīkla pieslēgumi un datu pārneses protokoli.

2. Procesu organizācija (Četri darba posmi)

Digitāli radīto objektu vākšana un saglabāšana tiek organizēta četros pēctecīgos posmos, nodrošinot pilnu dzīves cikla pārvaldību.

  1. Plānošana (Satura atlase un prioritātes)
    Balstoties uz nacionālajiem kultūras mantojuma digitalizācijas un ilglaicīgas saglabāšanas plāniem, tiek izveidoti prioritārie digitālo objektu un avotu saraksti. Tiek aprēķināti nepieciešamie finanšu un infrastruktūras resursi (terabaitu apjoms gadā) un iniciēts vākšanas projekts.
  2. Sagatavošana (Tehniskais un juridiskais audits)
    Tiek apkopoti mērķa objektu fiziskie un saturiskie parametri: datņu formāti, apjomi, domēni un serveru adreses. Šajā posmā obligāti veic juridisko izvērtēšanu (autortiesības, izplatīšanas tiesības un Vispārīgās datu aizsardzības regulas / GDPR prasības). Tiek sagatavota saņēmēja IKT infrastruktūra (datu centri, serveri, glabātuves) un identificēti tie objekti, kam nepieciešama iepriekšēja tehniskā restaurācija.
  3. Kopēšana un vākšana (Datu migrācija un rasmošana)
    Tiek veikta serveru darbības atjaunošana un tiešo datu pieslēgumu izveide. Automatizētas vākšanas gadījumā (tīmekļa rasmošanā) sistēmās tiek konfigurēti mērķa domēni, dziļuma līmeņi un filtri. Tiek veikta fiziskā datu kopēšana un sākotnējo arhīvdatņu un metadatu reģistrācija pagaidu masīvos.
  4. Pēcapstrāde un saglabāšana (Formātu konvertācija un nodošana arhīvam)
    Oriģinālās master arhīvdatnes tiek saglabātas nemainīgas. Ja nepieciešams, tiek veidotas atvasinātās arhīvdatnes ilgtspējīgos formātos un ģenerētas vieglākas lietotājdatnes publiskajai piekļuvei. Tiek aizpildīti un paplašināti aprakstošie un tehniskie metadati. Lietotājdatnes tiek publicētas izplatīšanas platformās, bet master pakotnes tiek nosūtītas uz ilglaicīgās saglabāšanas sistēmām.

3. Tīmekļa rasmošana un automatizētā vākšana

Tīmekļa satura automatizētu vākšanu un arhivēšanu (rasmošanu) Latvijā kopš 2008. gada regulāri veic Latvijas Nacionālā bibliotēka (LNB), uzturot Latvijas Tīmekļa arhīvu. Paralēli Latvijas Nacionālais arhīvs (LNA) pieņem glabāšanā institūciju un privātpersonu elektroniskos dokumentus un multimedijus, kam ir arhīviska vērtība.

3.1. Tehnoloģiskā nodrošinājuma prasības

Automatizētai vākšanai izmanto specializētu rasmošanas programmatūru (piemēram, Heritrix, Web Curator Tool u.c.). Profesionālai tīmekļa arhivēšanas sistēmai jānodrošina šāda funkciju kopa:

  • Universāls atbalsts: HTML lapu, skriptu, stilu lapu un specifisku iegulto datņu formātu automatizēta lejupielāde, saglabājot vietnes sākotnējo saišu struktūru.
  • Mērķtiecīga lejupielāde: Spēja automatizēti rasmot datus no NIC.lv reģistrētajiem IP adrešu apgabaliem un domēniem, filtrējot un indeksējot izplatītākos formātus (.pdf, .doc, .xls, .docx, .xlsx, .eml, .zip, .rar).
  • Indeksēšana un meklēšana: Regulāra datu avotu atjaunināšana un ātras pilnteksta meklēšanas nodrošināšana lietotājam draudzīgā tīmekļa saskarnē.
  • Standartu saderība: Tīmekļa datu saglabāšana standartizētās WARC (ISO 28500:2017) datnēs un integrēts pārlūkošanas dzinējs (piemēram, *Wayback Machine* tehnoloģija) vēsturiskā satura korektai attēlošanai.
  • Infrastruktūra: Sistēmas arhitektūrai jābūt mērogojamai un izvietotai drošos institucionālos resursos (LNB datu centrā, virtualizētos serveros).

3.2. Nepieciešamās kompetences un lomas

Vākšanas procesa nodrošināšanai ir nepieciešama starpdisciplināra komanda ar trīs galvenajām lomām:

  1. Satura vadītājs (kolekcijas kurators): Nosaka saturiskos atlases kritērijus, prioritātes, tiesisko regulējumu un definē mērķa objektus un vietnes.
  2. IT sistēmu inženieris / tehniskais speciālists: Pārvalda rasmošanas programmatūru (*web crawlers*), datubāzes, tīkla infrastruktūru, drošības protokolus un nodrošina tehnisko piekļuvi avotiem.
  3. IT grafiskās apstrādes un restaurācijas speciālists: Veic bojātu tīmekļa lapu struktūru, datņu un vēsturiskā digitālā satura tehniskās atjaunošanas un integrācijas darbus.

4. Metadati un datņu struktūras

4.1. Metadatu standarti

Katram digitālajam objektam vai tīmekļa vākumam ir jāpievieno strukturēti mašīnlasāmi metadati, nodrošinot to savietojamību ar nacionālo digitālo mantojumu un LNB Digitālā mantojuma platformas (DOM) sistēmu:

  • Aprakstošajiem un struktūrmetadatiem ieteicams izmantot nacionāli pielāgoto Dublin Core vai METS/ALTO shēmu.
  • Metadatu datne tiek saglabāta kā elektronisks dokuments (XML vai JSON formātā) tajā pašā mapē, kurā atrodas digitālie objekti.

4.2. Datņu un mapju nosaukumu noteikumi

Datņu un mapju nosaukumiem jābūt konsekventiem, unikāliem un piemērotiem automatizētai apstrādei.

Svarīgi nosacījumi: Nosaukumos drīkst izmantot tikai mazos latīņu alfabēta burtus, ciparus un apakšsvītru (_). Ir kategoriski aizliegts izmantot atstarpes, diakritiskās zīmes (garumzīmes, mīkstinājumus) un speciālos simbolus (izņemot apakšsvītru).

Datnes nosaukuma struktūra

[iestade]_[zanra_kods]_[saturisks_nosaukums]_[gads_vai_datums].[paplasinajums]

  • Žanra kodi pēc konsekventas sistēmas, piemēram: w — tīmekļa vietne, e — elektroniskais izdevums, m — digitālā māksla.
  • Pareizas prakses piemērs: lnb_m_rixcdigmaksla_2005.html

Mapes komplektācija un struktūra

Glabāšanas mapes (pakotnes) tiek strukturētas hierarhiski: pēc iestādes koda un tēmas/kolekcijas unikālā identifikatora. Katrā kolekcijas gala mapē obligāti jābūt šādam datņu komplektam:

  1. Arhīvdatnes: nemainīti oriģinālie digitālie objekti vai master materiāli.
  2. Lietotājdatnes: publiskai izplatīšanai un ātrai pārlūkošanai optimizēti formāti.
  3. Metadatu datne: XML/JSON datne ar objekta un tiesību aprakstu.
  4. Kontrolsummu datne: .sha256 vai .md5 datne, kas garantē datu integritāti un aizsargā pret datņu bojājumiem pārsūtīšanas laikā.

5. Kvalitātes kontroles (KK) matrica

Lai nodrošinātu savāktā mantojuma ilgtspēju, kvalitātes kontrole tiek veikta visos procesos:

Pārbaudes objekts Kvalitātes kontroles pasākumi un kritēriji Metode
Tehniskā pieejamība un atveide Pārbauda, vai digitālais objekts ir sekmīgi atverams, nav bojāts un tīmekļa saturs korekti vizualizējas arhivēšanas pārlūkā. Automatizēta validācija un vizuāla izlases kontrole.
Saturiskā kvalitāte Izvērtē objekta atbilstību definētajiem atlases kritērijiem, satura prioritātēm un krājuma komplektēšanas politikai. Ekspertu (kolekcijas kuratora) pārbaude.
Kopas pilnīgums Pārbauda, vai ir savāktas visas saistītās datnes un struktūras elementi (multimediju sastāvdaļas) un vai tie atbilst dokumentācijas aprakstam. Automatizēta apjoma un failu saraksta salīdzināšana.
Tehniskie parametri Kontrolē datņu formātu saderību ar ilglaicīgās saglabāšanas prasībām un validē datņu struktūru korektumu. Programmatūras validācija (piemēram, ar JHOVE vai līdzīgiem rīkiem).
Struktūras un metadatu kvalitāte Pārbauda datņu/mapju nosaukumu atbilstību sintakses noteikumiem, kontrolsummu (SHA-256) sakritību un metadatu obligāto lauku aizpildījumu. Automatizēta skriptu pārbaude pirms datu galīgās arhivēšanas.

Skatīt arī