Pāriet uz saturu

Teksta dokumentu digitalizācijas vadlīnijas

No ''Latvijas Nacionālā bibliotēka''

Aktualizēts 20.05.2026skatīt izmaiņu vēsturi

⚠️ Šī lapa joprojām ir izstrādes stadijā.

Šajā šķirklī apkopotas organizatoriskās, tehnoloģiskās un procesuālās vadlīnijas teksta dokumentu un iespieddarbu digitalizācijai kultūras mantojuma institūcijās (bibliotēkās, arhīvos, muzejos).

1. Dokumentu veidi un fiziskā stāvokļa novērtējums

Teksta dokumentus pēc to digitalizācijas īpatnībām iedala šādās grupās:

  • Seriālizdevumi un periodika: Avīzes, žurnāli, biļeteni u.c.
  • Grāmatas: Iesieti dažāda biezuma un formāta izdevumi.
  • Nošu sējumi: Specifiska grafiskā izpilde, bieži nestandarta formāti.
  • Manuskripti un pergamenti: Unikāli rokraksta dokumenti, vēsturiski avoti.
  • Citi teksta dokumenti: Kartotēkas, efemēras, izklaidus lapas, tehniski zīmējumi ar tekstu.

Fiziskie un tehniskie parametri

Pirms digitalizācijas uzsākšanas jāveic dokumentu ekspertīze pēc šādiem kritērijiem:

  • Izmēri: No maza formāta (zem A5) līdz lielformātam (A1, A0 un vairāk).
  • Sējuma veids: Iesiets, iešūts, brošēts, ierāmēts, izklaidus lapas.
  • Drukas un teksta veids: Rokraksts, mašīnraksts, iespieddruka, jaukts teksts.
  • Burtu šrifts: Vecā druka (fraktūra), jaunā druka (antīkva), specifiski fonti.
  • Krāsu forma: Melnbalts, pelēkskala, krāsains.
Dokumentu fiziskā stāvokļa riski un defekti
Bojājuma tips Apraksts / Ietekme uz procesu Nepieciešamā rīcība
Mehāniski bojājumi Plīsumi, zudumi, deformācija, trauslums, salipušas lapas Pirmsapstrāde, konservācija vai manuāla skenēšana.
Vizuāli defekti Dziestošs teksts, dzeltējums, bioloģiski bojājumi (pelējums), plankumi Digitālā restaurācija pēcapstrādē, specializēti filtri.
Konstruktīvi ierobežojumi Ļoti ciešs iesējums, teksts tuvu atvēruma viduslīnijai V-veida skeneru, grāmatu šūpuļu vai stikla piespiedēju izmantošana.

Svarīgs noteikums: Ja digitalizācijai ir pieejami vairāki viena izdevuma oriģināla eksemplāri, vienmēr jāizvēlas fiziski un vizuāli vislabāk saglabājies eksemplārs. Pieļaujama arī lappušu kombinēšana no dažādiem eksemplāriem, lai izveidotu pilnīgu virtuālo izdevumu.

2. Organizatoriskie jautājumi un procesa posmi

Liela apjoma digitalizāciju ieteicams organizēt centralizēti un kampaņveidīgi, apvienojot vairāku institūciju resursus, piesaistot mērķtiecīgu finansējumu vai izmantojot profesionālus ārpakalpojumus.

Digitalizācijas process sastāv no četriem secīgiem posmiem (detalizēti aprakstīti vadlīnijās "Digitālā kultūras mantojuma procesu apraksts"):

1. Plānošana (Satura un resursu audits)

  • Digitālā satura prioritāšu un atlases kritēriju noteikšana.
  • Sarakstu izveide, lappušu un vienību skaita aplēse.
  • Dokumentu grupēšana pēc izmēra, sējuma un nepieciešamās pēcapstrādes (piemēram, OCR vajadzībām).
  • Tehniskās kapacitātes un personāla kompetenču apzināšana.

2. Sagatavošana (Loģistika un tehniskā priekšapstrāde)

  • Fiziskā stāvokļa un pilnības pārbaude (lapu numerācija, iztrūkumu fiksēšana).
  • Sākotnējo aprakstošo metadatu sagatavošana vai precizēšana.
  • Fiziskā tīrīšana (putekļu noņemšana, locījumu iztaisnošana).
  • Atstarojošu elementu (līmlenšu) izvērtēšana un droša noņemšana, ja iespējams.
  • Ieliktņu apstrāde (mazākiem ieliktņiem aizmugurē novieto baltu lapu, lai nespīdētu cauri fons).
  • Dokumentu iepakošana drošās, identificējamās transportēšanas kastēs ar svītrukodiem/uzlīmēm.

3. Digitalizācija (Skenēšana un primārā tveršana)

  • Iekārtu kalibrēšana (krāsu profili, apgaismojums, izšķirtspēja).
  • Skenēšana atbilstoši definētajiem tehniskajiem parametriem.
  • Skenētā materiāla fiziska pārvietošana atpakaļ transportēšanas kastēs saskaņā ar pavaddokumentiem.

4. Pēcapstrāde un saglabāšana (Kvalitātes kontrole un datu nodošana)

  • Masterdatņu un atvasināto lietotājdatņu izveide.
  • Digitālā attēla uzlabošana (iztaisnošana, apgriešana, krāsu korekcija).
  • Teksta atpazīšana (OCR/HTR) un segmentēšana.
  • Tehnisko un administratīvo metadatu strukturēšana.
  • Datu pakotņu (SIP) imports ilglaicīgās saglabāšanas sistēmās.

3. Tehnoloģiskās un kompetenču vadlīnijas

Digitalizācijas procesā jāizmanto modernākās pieejamās tehnoloģijas, kas nodrošina FADGI (Technical Guidelines for Digitizing Cultural Heritage Materials) standartu izpildi. Iekārtas nedrīkst bojāt oriģinālu.

Skeneru izvēles matrica

Dokumenta tips Fiziskās īpatnības Rekomendētais iekārtas tips
Periodika (liels formāts) Neizjaucami plāni sējumi (A4 līdz A0) Plakanvirsmas vai planetārie lielformāta skeneri
Periodika (izklaidus) Pieļaujama lapu izjaukšana Ātrgaitas lapu skeneri, ruļļu skeneri
Grāmatas (līdz A4) Biezi sējumi bez smagas deformācijas Automatizētie grāmatu roboti (saudzē sējumu, jo neatver par 180°)
Grāmatas (deformētas, vērtīgas) Trausli, cieši vai bojāti sējumi Planetārie skeneri, V-veida šūpuļskeneri, digitālās kameras uz statīva
Manuskripti, pergamenti Unikāli, fiziski jutīgi dokumenti Augstas izšķirtspējas digitālās fotokameras uz statīva, bezkontakta skeneri
Kartotēkas (līdz A4) Nelielas, izklaidus lapas/kartītes Ātrgaitas dokumentu skeneri ar saudzīgu padevi, plakanvirsmas skeneri

Tehniskie pamatprincipi skenēšanas laikā

  • Vienotība: Viens dokumenta sējums vai kolekcijas daļa jāskenē uz vienas un tās pašas iekārtas ar identiskiem uzstādījumiem, lai izvairītos no krāsu un kontrasta atšķirībām. Automātiskie uzstādījumi (piemēram, Auto-contrast) ir jāizslēdz.
  • Atvērumu skenēšana: Ja programmatūra atļauj, var skenēt pilnu atvērumu un pēcapstrādē to automatizēti sadalīt divās lappusēs. Izņēmums: ja attēls vai tabula stiepjas pāri viduslīnijai, datne paliek kā pilns atvērums. Skenēšanas roboti pilnu atvērumu nenodrošina – šādas lapas pārskenē manuāli.
  • Tukšās lapas un starplapas:
    • Grāmatas priekšlapas, ilustrāciju otras puses: Jāskenē.
    • Secīgas tukšas lapas tekstā: Skenē, ja to skaits nepārsniedz 3 (vai atzīmē metadatos).
    • Vienpusēja druka: Tukšās aizmugures parasti neskenē.
    • Caurspīdīgas starplapas: Neskenē, ja vien tām nav mākslinieciskas vērtības (ornamenti, reljefi). Ilustrācijas skenē bez tām.
  • Higiena: Strādājot ar oriģināliem, operatoriem jālieto tīri, balti kokvilnas vai nitrila cimdi.

Projekta komandas lomas

Veiksmīgai liela apjoma projekta realizācijai nepieciešams šāds lomu sadalījums:

  1. Projekta vadītājs – kopējā laika, budžeta un rezultātu kontrole.
  2. Skenēšanas procesa vadītājs – atbildīgais par iekārtu darbību un tveršanas kvalitāti.
  3. Segmentēšanas un OCR procesa vadītājs – datu apstrādes un teksta kvalitātes uzraugs.
  4. Kvalitātes procesa vadītājs – veic izlases vai pilnu vizuālo un tehnisko kontroli.
  5. Skenēšanas operatori – veic fizisko skenēšanu.
  6. Metadatu apstrādes operatori – veido un precizē mašīnlasāmos aprakstus.

4. Teksta automatizētā atpazīšana (OCR / HTR) un segmentācija

Teksta atpazīšana ir kritiska dokumentu pieejamības nodrošināšanai. Mūsdienās procesā izmanto gan tradicionālo OCR (drukātam tekstam), gan modernākos AI/HTR (Handwritten Text Recognition) rīkus vēsturiskiem rokrakstiem (piemēram, Transkribus platformu).

Tehnoloģiskie rīki un kvalitātes rādītāji

  • Komerciālie risinājumi: ABBYY FineReader (efektīvs latīņu, kirilicas un vecās drukas/fraktūras atpazīšanai).
  • Atvērtā pirmkoda dzinēji: Google Tesseract (pieejams un integrējams automatizētos procesos).
  • Mērķis: Masu digitalizācijas projektos jātcas uz vismaz 80% pareizi atpazītu vārdu apjomu.
Paredzamā OCR kvalitāte pēc teksta veida
Teksta veids Pareizi atpazītu simbolu īpatsvars
Jaunā druka (antīkva) no labas kvalitātes attēla (≥300/400 dpi) 99% – 100%
Mašīnraksts (neizbalējis, skaidrs) 95% – 99%
Vecā druka (fraktūra) no labas kvalitātes attēla 90% – 95%
Mašīnraksts (izbalējis, zems kontrasts) < 90%

Rekomendācijas OCR/OLR apstrādei

  • Simboli vs. Vārdi: Augsts atpazīto simbolu skaits negarantē augstu pareizu vārdu skaitu (vārds ir pareizs tikai tad, ja visi tā burti ir korekti).
  • Manuālais kļūdu labojums (OLR līmenī): Ja resursi ir ierobežoti, manuālu teksta korekciju rekomendē veikt tikai svarīgākajos loģiskajos elementos: virsrakstos, attēlu parakstos, tabulu nosaukumos un autoru laukos, kā arī šajos elementos esošajos īpašvārdos (personvārdi, vietvārdi).
  • Vārdnīcu izmantošana: Nav ieteicams akli izmantot automātiskās vārdnīcu korekcijas vēsturiskiem tekstiem, jo tā var tikt pazaudēta oriģinālā ortogrāfija (rakstības stils) vai autoru pieļautās kļūdas.

5. Digitālo objektu formāti un metadati

Datņu formātu scenāriji

Arhīvdatnes (Master) tiek saglabātas nekompresētā krāsainā (RGB) formātā (parasti TIFF), lai saglabātu fiziskā objekta autentiskuma pierādījumus (arī melnbaltiem dokumentiem). Apjoma ekonomijai kā alternatīvu var izmantot JPEG2000 (bez zudumu kompresijas).

Lietotājdatnēm izšķir četrus galvenos strukturālos scenārijus:

Scenārijs Tehniskais izpildījums Funkcionalitāte lietotājam
1. Atsevišķas lapas Katrai lappusei sava lietotājdatne (JPG/WebP) Pārlūkošana dokumentu un lappušu līmenī.
2. Apvienots dokuments Kombinēts daudzlappušu PDF Pārlūkošana dokumenta līmenī (lineāra šķirstīšana).
3. Dokumenta PDF + OCR Daudzlappušu PDF ar tekstveida slāni Pilna teksta meklēšana visā dokumentā.
4. PDF + OCR + OLR (Izkārtojums) PDF/A ar strukturētiem loģiskajiem elementiem Meklēšana un navigācija konkrētās nodaļās, rakstos vai virsrakstos.

Ilglaicīgā saglabāšana: Lietotājdatņu gala formātam ilglaicīgai saglabāšanai un pieejamībai jābūt PDF/A, kas nodrošina fontu un struktūras autonomiju neatkarīgi no operētājsistēmas. Ūdenszīmes drīkst izmantot tikai saskaņojot ar pasūtītāju, un tās nedrīkst traucēt OCR procesu.

Metadatu standarti

Metadati jāsagatavo mašīnlasāmā formātā (XML/JSON), ievērojot starptautiskos standartus:

  • Dublin Core (pamatapraksts)
  • EDM (Europeana Data Model - integrācijai starptautiskajās platformās)
  • METS/ALTO (struktūras un OCR teksta pozicionēšanas saderībai)

Struktūrai jābūt saderīgai ar Digitālo objektu pārvaldības sistēmām (piemēram, LNB DOM vadlīnijām: https://dom.lndb.lv/data/type/text.html) automatizētam datu importam.

6. Datņu un mapju nosaukumu veidošanas vadlīnijas

Datņu un mapju nosaukumiem jābūt unikāliem, loģiskiem un konsekventiem visā kolekcijā.

Nosaukuma struktūras elementi

Ieteicamā shēma individuālai datnei: `[Iestādes_kods]_[Formāta_tips]_[Identifikators]_[Lappuses_numurs].[paplašinājums]`

  • Iestādes kods: Saīsinājums vai skaitlisks ID (piemēram, `lnb`, `lvva`, `mnm`), lai novērstu datņu pārrakstīšanu, apvienojot krājumus.
  • Formāta tips: Viens burts konsekvencei: `g` (grāmata), `p` (periodika), `t` (teksta dokuments).
  • Identifikators: ISBN, svītrukods, inventāra numurs vai arhīva fonda/lietas kods.
  • Lappuses numurs: Jālieto fiksēts zīmju skaits ar vadošajām nullēm (piemēram, `004` nevis `4`), nodrošinot pareizu hronoloģisku kārtošanu sistēmā.

Praktiski piemēri

  • Grāmata: `lnb_g_0910300131_001.tif` (LNB grāmata, svītrukods 0910300131, 1. lappuse).
  • Laikraksts (Atvērums): `p_003_dien1991n017_002-003.tif` (Laikraksta "Diena" 1991. gada 17. numura 2. un 3. lappuse, skenēta vienā atvēruma datnē).
  • Ielikums: `g_lnb_0910300131_017a.tif` (Ielikums vai nenumurēta lapa, kas seko tūlīt pēc 17. lappuses).
  • Arhīva lieta: `LVVA_F1307_US1_GV2_071.tif` (LVVA, Fonds 1307, Uzskaites saraksts 1, Glabājamā vienība 2, datnes kārtas numurs 71).

Ieteikums par lappusēm: Ja oriģinālam ir kļūdaina numerācija vai iztrūkumi, datņu nosaukumos ir pilnībā pieļaujams izmantot fiziskās skenēšanas secības kārtas numurus, reālo situāciju fiksējot metadatos. Kopīgos izdevumos par iestādes kodu visam sējumam izvēlas to iestādi, no kuras nāk lielākā lappušu daļa.

Mapju struktūra un komplektācija

Lielām kolekcijām veido hierarhisku mapju sistēmu, grupējot pēc iestādes -> objekta tipa -> digitalizācijas gada/sūtījuma numura -> kolekcijas ID.

Katrā gala mapē (kas pārstāv vienu objektu/sējumu) jābūt šādam komplektam:

  1. Visas objekta arhīvdatnes (TIFF/JPEG2000 masteri pa lapām).
  2. Atbilstošās lietotājdatnes (PDF vai optimizēti attēli).
  3. Metadatu datne (XML/JSON), kas satur sasaisti starp struktūru un datnēm.

7. Kvalitātes kontroles (QA) pasākumi

Kvalitātes kontrole tiek veikta katrā digitalizācijas posmā pēc fiksētiem parametriem:

Digitalizācijas posms Kontroles parametri Pieļaujamā pielaide / Rīcība
1. Sagatavošana Apjoma un lapu secības atbilstība sarakstiem; metadatu esamība. 0% pielaide kļūdām. Neatbilstības tiek labotas pirms skenēšanas.
2. Digitalizācija (Tveršana) Attēla asums, fokuss, ģeometriskie kropļojumi, krāsu atbilstība (pēc kalibrēšanas tabulām), artefaktu un atspīdumu neesamība. Izlases veida kontrole (5-10% apjomam) vai 100% kontrole unikāliem materiāliem. Brāķis tiek pārskenēts.
3. Pēcapstrāde Failu nosaukumu atbilstība shēmai; PDF/A validācija; OCR precizitāte (vārdu atpazīstamības slieksnis ≥80%). Automatizēta validācija visām datnēm; manuāla OCR paraugu pārbaude.
4. Nodošana Datu pakotnes integritāte (Checksum pārbaude); veiksmīgs imports DOM sistēmā. 100% atbilstība. Ja imports neizdodas, pakotne tiek pārstrādāta.

Skatīt arī