Pāriet uz saturu

Teksta dokumentu digitalizācijas vadlīnijas: Atšķirības starp versijām

No ''Latvijas Nacionālā bibliotēka''
Azogla (diskusija | devums)
Jauna lapa: <big>''<span style="color:#d00000; font-weight:bold; font-size:120%;">Aktualizēts <u>{{REVISIONDAY2}}.{{REVISIONMONTH}}.{{REVISIONYEAR}}</u></span>'' — [{{fullurl:Teksta dokumentu digitalizācijas vadlīnijas|action=history}} skatīt izmaiņu vēsturi]''</big> <div style="border: 2px solid #d33; background-color: #fee; padding: 0.8em; border-radius: 6px;">'''⚠️ Šī lapa joprojām ir izstrādes stadijā.'''</div> === Dokumentu veidi === Digitalizācijas procesos teksta do...
 
Azogla (diskusija | devums)
Nav labojuma kopsavilkuma
 
1. rindiņa: 1. rindiņa:
<big>''<span style="color:#d00000; font-weight:bold; font-size:120%;">Aktualizēts <u>{{REVISIONDAY2}}.{{REVISIONMONTH}}.{{REVISIONYEAR}}</u></span>'' — [{{fullurl:Teksta dokumentu digitalizācijas vadlīnijas|action=history}} skatīt izmaiņu vēsturi]''</big>
<big>''<span style="color:#d00000; font-weight:bold; font-size:120%;">Aktualizēts <u>{{REVISIONDAY2}}.{{REVISIONMONTH}}.{{REVISIONYEAR}}</u></span>'' — [{{fullurl:Teksta dokumentu digitalizācijas vadlīnijas|action=history}} skatīt izmaiņu vēsturi]''</big>
<div style="border: 2px solid #d33; background-color: #fee; padding: 0.8em; border-radius: 6px;">'''⚠️ Šī lapa joprojām ir izstrādes stadijā.'''</div>
<div style="border: 2px solid #d33; background-color: #fee; padding: 0.8em; border-radius: 6px;">'''⚠️ Šī lapa joprojām ir izstrādes stadijā.'''</div>
=== Dokumentu veidi ===
Šajā šķirklī apkopotas organizatoriskās, tehnoloģiskās un procesuālās vadlīnijas teksta dokumentu un iespieddarbu digitalizācijai kultūras mantojuma institūcijās (bibliotēkās, arhīvos, muzejos).
Digitalizācijas procesos teksta dokumentus pēc digitalizācijas īpatnībām ir iespējams iedalīt šādās grupās:
* seriālizdevumi, periodika (avīzes, žurnāli);
* grāmatas;
* nošu sējumi;
* manuskripti, pergamenti;
* citi teksta dokumenti.
Teksta dokumentiem ir dažādi fiziskie izmēri (lielākie apjomi arhīvos un bibliotēkās ir sākot no A5 līdz A0), dažādi sējuma veidi (iesiets, iešūts, brošēts, ierāmēts, izklaidu), dažādi drukas veidi (rokraksts, mašīnraksts, druka, jauktā tipa), dažādi burtu šriftu veidi (vecā un jaunā druka) un dažādas krāsu formas (melnbalts, krāsains). Plānojot teksta dokumentu digitalizāciju, svarīgi sākumā novērtēt to fizisko stāvokli (papīra kvalitāte, vecums, nolietojums, teksta izmēri, krāsu kvalitāte, mapju pilnība, bojājumu un defektu pakāpes, piemēram, netīrs, putekļains, plīsumi, zudumi, deformācija, dziestošs teksts, dzeltējis, bioloģiski bojājumi, salipis, salūzis, trausls. Tas palīdzēs izvēlēties atbilstošāko digitalizācijas tehnoloģiju un digitalizācijas darbu procesu un tam nepieciešamo personāla pieredzi un kvalifikāciju. Ja pieejami vairāki oriģināli, tad digitalizācijai svarīgi izvēlēties labākos eksemplārus.


=== Organizatoriskie jautājumi ===
== 1. Dokumentu veidi un fiziskā stāvokļa novērtējums ==
Teksta dokumentu digitalizācija var būt gan ikdienas plānveida darbs ar dokumentu ilglaicīgu saglabāšanu, gan arī digitalizācijas projekti lielos apjomos. Ieteicams šādu projektu realizāciju organizēt centralizēti un kampaņveidīgi (vairāku institūciju sadarbība, kopīgu resursu piesaiste, finansējums, [[Ārpakalpojumu organizācija|ārpakalpojumu]] piesaiste, tehnika, speciālisti, IKT sistēmas). Ja atsevišķas kultūras mantojuma institūcijas plāno saviem spēkiem veikt liela apjoma papīra dokumentu digitalizāciju, tad digitalizācijas darbos vēlams izmantot šajā dokumentā definētās organizatoriskās un tehniskās vadlīnijas.
Teksta dokumentu digitalizācija ir tehnoloģiski sarežģīts uzdevums (specifiskas iekārtas un speciālistu kompetences). Iekārtām (tehnikai un programmatūrai) ir jāspēj noskenēt dažādus papīra dokumentus (piemēram, žurnāli, avīzes, grāmatas, rokraksti, mašīnraksti) un saglabāt to kopijas mūsdienīgos digitālos formātos (augstas kvalitātes jaunākie TIFF, JPEG2000, PDF formāti). Uzsākot digitalizāciju, dokumenti bieži vien ir sliktā tehniskā stāvoklī, tiem ir jāveic atbilstoši sagatavošanas darbi. Digitālajiem teksta un attēlu objektiem ir jāveic pēcapstrāde (kvalitātes restaurācija, [[Metadati|metadatu]] aprakstīšana, teksta atpazīšana (OCR), segmentācija (OCR ar izdevuma loģisko daļu identificēšanu). Šādus digitalizācijas darbus kvalitatīvi un lielos apjomos spēj paveikt tikai pieredzējušas un atbilstoši apmācītas speciālistu komandas.
Svarīgi, lai liela apjoma digitalizācijas darbu veikšanai būtu augsta automatizācijas pakāpe (liels apjoms īsā laika periodā, ātrums, produktivitāte un atbilstošas kvalitātes procedūras) un pieejami lieli datu glabāšanas resursi. Plānojot teksta dokumentu digitalizāciju, nepieciešams definēt, kuriem dokumentiem būs nepieciešama digitālā restaurācija, kas ir dārgāks un ilgāks process, kura laikā jānodrošina oriģinālu nesabojāšana un [[Digitālais objekts|digitālo objektu]] teksta un attēla būtiski uzlabojumi.
Ņemot vērā, ka liela apjoma digitalizācijas gadījumā digitalizējamo objektu apjomi ir lieli un to pastāvīga uzglabāšana digitalizācijas darba vietā nav vēlama, digitalizāciju ieteicams veikt, sadalot apjomus pa daļām (ceturksnis, mēnesis, nedēļa, diena).
Teksta dokumentu digitalizāciju var iedalīt četros būtiskos posmos: plānošana; sagatavošana; digitalizācija un pēcapstrāde, un detalizēts procesa norises darbību apraksts pieejams dokumentā “Digitālā kultūras mantojuma procesu apraksts.”.
Tālāk uzskaitīti ieteikumi, kurus vēlams ņemt vērā katrā no minētajiem posmiem:
Plānošana
* Tiek definēts digitalizācijas projekta plāns (dokumentu veidi, apjomi, partneri, laiks, budžets).
* Ņemot vērā Kultūras mantojuma digitalizācijas, [[Īslaicīgas un ilglaicīgas saglabāšanas vadlīnijas|ilglaicīgas saglabāšanas]] un pieejamības nodrošināšanas plānus, satura prioritātes un atlases kritērijus, tiek atlasīti digitalizējamie teksta dokumenti (saskaitīti kopējie digitalizējamo objektu apjomi - vienības un lappuses, definētas glabāšanas vietas), tiek izveidoti digitalizācijas saraksti.
* Dokumenti tiek sadalīti loģiskās grupās (dalot, piemēram, pēc satura, izmēriem, sējuma veidiem, drukas veidiem u.tml.).
* Tiek atzīmēti tie dokumenti, kuriem pirms digitalizācijas būs nepieciešama restaurācija vai pēc digitalizācijas segmentācija vai automatizēta tekstu atpazīšana (OCR).
* Tiek apzināti digitalizācijas resursi (tehnikas, telpas, speciālisti).
Sagatavošana
* Pirms teksta dokumentu skenēšanas jāpārliecinās gan par to fizisko stāvokli, gan par to pilnību, respektīvi, vai dokumentam ir visas lappuses, pēc nepieciešamības tiek veikta lapu numerācija.
* Teksta dokumentiem tiek sagatavoti, pārbaudīti un precizēti [[Metadati|metadati]].
* Teksta dokumenti tiek sagatavoti skenēšanai (notīra putekļus, salabo plīsumus, locījumus, atbrīvo no sējumiem, uzlīmēm), ja nepieciešams, saudzējot oriģinālus, tiem tiek pievienotas speciālas uzlīmes ar norādēm.
* Ja pieejami vairāki teksta dokumenta eksemplāri, jāizvēlas tas, kurš ir fiziski vislabāk saglabājies un kurā nav acīmredzamu defektu.
* Ja uz teksta dokumenta ir uzlīmēts gaismu atstarojošs elements (piemēram, līmlentes gabaliņš), jāizvērtē, vai to ir iespējams noņemt, nesabojājot pašu teksta dokumentu. Gaismu atstarojoši elementi skenēšanas procesā var radīt nevēlamus artefaktus digitālajā objektā.
* Iespieddarbu teksta dokumentu gadījumā ir iespējama digitalizēto lappušu kombinēšana no dažādiem eksemplāriem, iegūstot virtuālu izdevumu, kas ir augstākā kvalitātē nekā katrs individuālais teksta dokumenta eksemplārs.
* Atsevišķiem teksta dokumentiem var būt ļoti ciešs iesējums, dokumenta teksts var būt ļoti tuvu atvērumam, tāpēc ir risks, ka skenēšanas procesā tas tiks optiski kropļots vai pat netiks ieskenēts vispār. Šādos gadījumos jāizvērtē iespēja izjaukt teksta dokumentu un skenēt lappuses individuāli, izvērtējot, vai tas neietekmēs dokumenta autentiskumu. Jāņem vērā, ka parasti nav pieļaujama juridisku (piemēram, notariāli apstiprinātu un iešūtu), kā arī vēsturiski vērtīgu vai unikālu dokumentu izjaukšana.
* Ņemot vērā, ka daļa no teksta dokumentiem varbūt sliktā tehniskā stāvoklī (plēsumi, plankumi, netīrumi, izbalējusi druka un caurredzama druka no lapas otras puses), tiem sākumā iespēju robežās nepieciešams veikt restaurāciju.
* Trauslu, vairāku lappušu teksta dokumentu (piemēram, avīžu) gadījumā var būt nepieciešama to iepriekšēja konservācija, novēršot lappušu mehāniskus bojājumus, lai skenēšanas gaitā, pāršķirot lapas, tās netiktu nejauši pārplēstas.
* Ja teksta dokumentā ir atšķirīga izmēra ielikumi, tad jāizvērtē iespēja tos izņemt no iesējuma un skenēt atsevišķi no pārējā dokumenta. Ja ielikums izmēru ziņā ir mazāks par pamatdokumentu, tad pirms skenēšanas aiz tā novieto baltu lapu, lai iegūtajā attēlā aiz ielikuma attēla nebūtu redzams fona lapas saturs.
* Ja paredzēts digitalizēto teksta dokumentu tālāk apstrādāt, piemēram, ar teksta atpazīšanas programmatūru, tad jau dokumenta priekšapstrādes laikā ir svarīgi atzīmēt svarīgākos parametrus par dokumenta saturu: tekstā sastopamo druku, valodu, lappuses formātu u.c.
* Ja no lielāka teksta dokumenta (piemēram, grāmatas) paredzēts digitalizēt tikai fragmentu, tad jāizvērtē iespēja tomēr skenēt visu dokumentu, jo pēc tā nodošanas krātuvē vai atdošanas īpašniekam var būt ierobežotas iespējas to digitalizēt atkārtoti. Turklāt, skenējot teksta dokumentu tikai vienreiz, tas netiks atkārtoti pakļauts ārējas gaismas iedarbībai, un tādējādi tiks saudzēts oriģināls.
* Dokumentu transportēšanai jāizvēlas atbilstoša izmēra un stiprības transportēšanas kastes. Dokumentu kastēm nepieciešams uzlīmēt identifikācijas uzlīmes. Ja dokumenti ir mapēs, tad arī mapēm ir nepieciešamas identifikācijas uzlīmes atbilstoši transportēšanas un nodevumu pavaddokumentiem.
* Par teksta dokumentu oriģināliem atbildīgā institūcija veic visus sagatavošanas darbus, materiāli tiek sapakoti loģistikai nepieciešamajos formātos (kastes, mapes) un tiek nosūtīti uz digitalizācijas vietu un telpu.
Digitalizācija
* Digitalizācijai saņemtie teksta dokumenti tiek sagatavoti skenēšanai (atbrīvo no sējumiem, uzlīmēm, pārbauda, vai ir pieejami [[Metadati|metadati]] un identifikatori, pārbauda atbilstību sūtījumu dokumentācijai).
* Tiek sagatavotas skenēšanas iekārtas (kalibrēšana, krāsas, apgaismojums, datorprogrammas uzstādījumi atbilstoši datņu kvalitātes parametriem).
* Teksta dokumenti tiek skenēti un novietoti atpakaļ pareizās transportēšanas kastēs atbilstoši transportēšanas un nodevumu pavaddokumentiem.
* Teksta dokumentus digitalizē, skenējot katru lappusi atsevišķi un iegūstot vienu attēla arhīvdatni katrai teksta dokumenta lappusei. Individuālu lappušu līmenī uz teksta dokumentu skenēšanu var attiecināt principus, ko lieto attēlu skenēšanai.
* Ja paredzēts skenēt vienotu teksta dokumentu un ir pieejami vairāki skeneri, tad vēlams visu teksta dokumenta kopumu skenēt uz vienas iekārtas, jo var atšķirties dažādu skeneru radītais digitālais attēls, kā rezultātā teksta dokumentiem var iegūt dažāda spilgtuma, krāsu gammas vai kontrasta attēlus, kas oriģinālā izskatās vienādi. Ja tomēr nepieciešams veikt skenēšanu uz vairākiem skeneriem, tad vajadzētu izvairīties no dažādiem automātiskiem skeneru uzstādījumiem (piemēram, automātiska kontrasta), kas dažādām iekārtām var tikt interpretēti atšķirīgi.
* Ja to pieļauj tehnika un konkrētais digitalizējamais teksta dokuments, var izvēlēties skenēt visu atvērumu uzreiz un pēc tam grafiskās apstrādes programmatūrās to sadalīt divās atsevišķu lappušu arhīvdatnēs. Šāda pieeja var ietaupīt skenēšanai patērēto laiku.
* Ja kādā atvērumā attēli, tabulas vai teksti izvietoti pāri atvēruma viduslīnijai, tad šādas datnes divās individuālu lappušu datnēs nedala, bet atstāj vienu – pilna atvēruma arhīvdatni.
* Jāņem vērā, ka pilna atvēruma skenēšanu nenodrošina grāmatu skenēšanas roboti. Ja atvērumu tomēr nepieciešams ieskenēt pilnībā, konkrētās lapas jāskenē uz cita tipa skenera.
* Parasti teksta dokumentiem tiek skenētas visas lappuses, ievākotu dokumentu gadījumā – arī vāki, taču teksta dokumentos var būt sastopamas arī neapdrukātas (tukšas) lapas, kuras var arī neskenēt, nezaudējot lietderīgu informāciju.


{| class="wikitable"
Teksta dokumentus pēc to digitalizācijas īpatnībām iedala šādās grupās:
|-
* '''Seriālizdevumi un periodika:''' Avīzes, žurnāli, biļeteni u.c.
!Tukšās lappuses veids !! Skenē / Neskenē
* '''Grāmatas:''' Iesieti dažāda biezuma un formāta izdevumi.
|-
* '''Nošu sējumi:''' Specifiska grafiskā izpilde, bieži nestandarta formāti.
|Grāmatas priekšlapas || Skenē
* '''Manuskripti un pergamenti:''' Unikāli rokraksta dokumenti, vēsturiski avoti.
|-
* '''Citi teksta dokumenti:''' Kartotēkas, efemēras, izklaidus lapas, tehniski zīmējumi ar tekstu.
|Ilustrāciju otras puses || Skenē
 
=== Fiziskie un tehniskie parametri ===
Pirms digitalizācijas uzsākšanas jāveic dokumentu ekspertīze pēc šādiem kritērijiem:
* '''Izmēri:''' No maza formāta (zem A5) līdz lielformātam (A1, A0 un vairāk).
* '''Sējuma veids:''' Iesiets, iešūts, brošēts, ierāmēts, izklaidus lapas.
* '''Drukas un teksta veids:''' Rokraksts, mašīnraksts, iespieddruka, jaukts teksts.
* '''Burtu šrifts:''' Vecā druka (fraktūra), jaunā druka (antīkva), specifiski fonti.
* '''Krāsu forma:''' Melnbalts, pelēkskala, krāsains.
 
{| class="wikitable" style="margin: 1em 0;"
|+ Dokumentu fiziskā stāvokļa riski un defekti
! Bojājuma tips !! Apraksts / Ietekme uz procesu !! Nepieciešamā rīcība
|-
|-
|Secīgas tukšās lappuses jebkur teksta dokumentā || Skenē, ja tukšo lappušu skaits nepārsniedz 3
| '''Mehāniski bojājumi''' || Plīsumi, zudumi, deformācija, trauslums, salipušas lapas || Pirmsapstrāde, konservācija vai manuāla skenēšana.
|-
|-
|Tukšās lappuses, ja teksts drukāts no vienas puses || Neskenē
| '''Vizuāli defekti''' || Dziestošs teksts, dzeltējums, bioloģiski bojājumi (pelējums), plankumi || Digitālā restaurācija pēcapstrādē, specializēti filtri.
|-
|-
|Ja lappuses ir numurētas un ir tukšas lappuses || Var ielikt zīmes par tukšo lappušu numuriem
| '''Konstruktīvi ierobežojumi''' || Ļoti ciešs iesējums, teksts tuvu atvēruma viduslīnijai || V-veida skeneru, grāmatu šūpuļu vai stikla piespiedēju izmantošana.
|}
|}


* Dažos teksta dokumentos starp pamatlapām tiek ievietotas caurspīdīgas starplapas. Šīs starplapas neskenē. Ilustrācijas aiz tām skenē, nenovietojot tām priekšā caurspīdīgo starplapu. Starplapas nepieciešams skenēt vien tādā gadījumā, ja tās ir īpaši mākslinieciski noformētas (piemēram, satur kādu ornamentu vai reljefu iespiedumu). Starplapu skenē, zem tās novietojot baltu lapu.
<blockquote>'''Svarīgs noteikums:''' Ja digitalizācijai ir pieejami vairāki viena izdevuma oriģināla eksemplāri, vienmēr jāizvēlas fiziski un vizuāli vislabāk saglabājies eksemplārs. Pieļaujama arī lappušu kombinēšana no dažādiem eksemplāriem, lai izveidotu pilnīgu virtuālo izdevumu.</blockquote>
* Retos gadījumos teksta dokumentiem lappuses var būt numurētas vai iesietas nepareizā secībā. Veidojot arhīvdatnes, šo nekorekto lappušu secību saglabā. Veidojot lietotājdatnes, izšķir divus gadījumus:
 
1) nepareiza ir tikai lappušu numerācija, kamēr pats dokumenta saturs ir loģiski secīgs. Šajā gadījumā arī lietotājdatnēs saglabā to lappušu secību, kāda ir bijusi fiziski iesietajā teksta dokumentā;
== 2. Organizatoriskie jautājumi un procesa posmi ==
2) nepareiza ir lappušu secība pēc būtības. Šajā gadījumā, veidojot lietotājdatni, lappuses pārkārto tā, lai korekta un loģiska būtu dokumenta satura secība. Šādas korekcijas vēlams atzīmēt metadatos.
 
* Ja teksta dokumentā dažādās lapās ir dažāda satura orientācija, piemēram, vienā lappusē teksts drukāts horizontāli, bet nākamajā – vertikāli, tad var rīkoties dažādi, atkarībā no plānotā vēlākās lietotājdatnes formāta:
Liela apjoma digitalizāciju ieteicams organizēt '''centralizēti un kampaņveidīgi''', apvienojot vairāku institūciju resursus, piesaistot mērķtiecīgu finansējumu vai izmantojot profesionālus ārpakalpojumus.  
1) ja paredzēts veidot vienu lietotājdatni no visām individuālu lappušu arhīvdatnēm, tad saglabā to lappušu orientāciju, kāda tā ir bijusi oriģinālajā fiziskajā iesējumā;
 
2) ja paredzēts veidot lietotājdatni katrai lappusei atsevišķi, tad var veikt [[Arhīvdatņu veidošana|arhīvdatņu]] “digitālu iztaisnošanu” tā, lai tās saturs būtu orientēts pareizā, lasīšanai paredzētā virzienā.
Digitalizācijas process sastāv no četriem secīgiem posmiem (detalizēti aprakstīti vadlīnijās ''"Digitālā kultūras mantojuma procesu apraksts"''):
* Skenējot dokumentus, ir jāievēro [[Digitālais objekts|Digitālo objektu]] datņu tehniskie parametri. (https://lnb.lv/sites/default/files/media/bibliotekariem/Digitalizacijas_vadlinijas_A_pielikums_datnu_tehniskie_formati_v1.1_280518.xlsx) specificētie tehniskie kvalitātes parametri. Svarīgi ņemt vērā, ka maza formāta teksta dokumentiem ar normāla izmēra burtiem un attēliem izšķirtspēja var būt mazāka, bet liela izmēra teksta dokumentiem ar maziem burtiem un attēliem izšķirtspējai jābūt lielākai.
 
* Ja liela formāta teksta dokumentu digitalizācijā radītu datu apjoma ekonomijas dēļ jāpieņem lēmums par kāda digitalizēšanas parametra samazināšanu, tad daudz būtiskāka par datnes formātu var izrādīties krāsu informācijas saglabāšana, tāpēc jāizskata iespēja nevis mainīt krāsu skalu no RGB uz Greyscale, bet gan TIFF formātu uz JPEG2000 (bez kompresijas).
=== 1. Plānošana (Satura un resursu audits) ===
* Teksta dokumentus ieteicams skenēt krāsainus (RGB) pat tad, ja tie ir acīmredzami melnbalti. Skenējot dokumentu krāsaini, digitalizētajā datnē tiek saglabāts “pierādījums”, ka oriģināls tik tiešām ir bijis melnbalts, nevis tāds kļuvis digitalizēšanas rezultātā.
* '''Digitālā satura prioritāšu un atlases kritēriju noteikšana.'''
* Ja teksta dokumentam eksistē pielikumi, tad atkarībā no situācijas pielikumus var uzskatīt gan par daļu no pamatdokumenta, gan arī par patstāvīgiem teksta dokumentiem. Lēmumu par to, vai dokumentus apvienot vai veidot neatkarīgus, pieņem katrā konkrētajā gadījumā atsevišķi. Viens no principiem, kurš jāievēro, ir šāds: ja pielikumā turpinās pamatdokumenta lappušu numerācija, tad pielikumu uzskata par daļu no pamatdokumenta.
* Sarakstu izveide, lappušu un vienību skaita aplēse.
* Ja teksta dokuments ir vizuāli vai mākslinieciski vērtīgs kā fizisks, telpisks objekts, tad jāizskata iespēja to fotografēt dažādos rakursos, arī kā 3-dimensiju objektu.
* Dokumentu grupēšana pēc izmēra, sējuma un nepieciešamās pēcapstrādes (piemēram, OCR vajadzībām).
* Ja teksta dokuments ir bojāts tādā pakāpē, ka nav iespējama tā restaurācija, tad šāds dokuments tiek īpaši atzīmēts un atdots institūcijai vai arī tiek skenēti tikai tā fragmenti, liekot īpašas atzīmes.
* Tehniskās kapacitātes un personāla kompetenču apzināšana.
* Uzsākot liela apjoma teksta dokumentu digitalizāciju, ieteicams sākumā izveidot parauga (demo) arhīvdatnes un lietotājdatnes, kuras tiek saskaņotas ar Pasūtītājiem, lai saņemtu apstiprinājumu, ka digitālie objekti kvalitātes un [[Metadati|metadatu]] jomā atbilst definētājiem standartiem.
 
* Skenējot teksta dokumentus, ieteicams lietot tīrus, baltus kokvilnas cimdus.
=== 2. Sagatavošana (Loģistika un tehniskā priekšapstrāde) ===
Pēcapstrāde
* '''Fiziskā stāvokļa un pilnības pārbaude''' (lapu numerācija, iztrūkumu fiksēšana).
Pēc tam, kad teksta dokumenti ir ieskenēti, var veikt šādus apstrādes darbus:
* Sākotnējo aprakstošo metadatu sagatavošana vai precizēšana.
* Izveidot arhīvdatnes un lietotājdatnes, neveicot manuālu [[Digitālais objekts|digitālo objektu]] apstrādi;
* Fiziskā tīrīšana (putekļu noņemšana, locījumu iztaisnošana).
* Manuāli uzlabot digitālā attēla kvalitāti un izveidot atvasinātas arhīvdatnes un lietotājdatnes;
* Atstarojošu elementu (līmlenšu) izvērtēšana un droša noņemšana, ja iespējams.
* Veikt teksta dokumentu segmentēšanu (vienas lappuses tekstu un attēlu sadalīšana loģiskās daļās);
* Ieliktņu apstrāde (mazākiem ieliktņiem aizmugurē novieto baltu lapu, lai nespīdētu cauri fons).
* Veikt tekstu automatizētu atpazīšana (OCR);
* Dokumentu iepakošana drošās, identificējamās transportēšanas kastēs ar svītrukodiem/uzlīmēm.
* Izveidot vai papildināt aprakstošos metadatus, izveidot administratīvos un tehniskos metadatus.
 
* Datnes tiek nogādātās uz [[Īslaicīgas un ilglaicīgas saglabāšanas vadlīnijas|ilglaicīgas saglabāšanas]] un izplatīšanas IKT sistēmām.
=== 3. Digitalizācija (Skenēšana un primārā tveršana) ===
Tekstu atpazīšana (OCR)
* '''Iekārtu kalibrēšana''' (krāsu profili, apgaismojums, izšķirtspēja).
Ja institūcijas rīcībā vai ārpakalpojumos ir paredzēts izmantot tekstu atpazīšanas programmatūras (OCR), tad jāņem vērā šādi ieteikumi:
* Skenēšana atbilstoši definētajiem tehniskajiem parametriem.
* Teksta atpazīšana ir iespējama tikai drukātos un mašīnraksta teksta dokumentos un nav universāla, efektīva risinājuma rokrakstu atpazīšanai. Lai arī teksta atpazīšanas programmatūras teorētiski var “apmācīt” arī rokrakstu atpazīšanai, praksē tas varētu būt efektīvi tikai ļoti lieliem viena rokraksta krājumiem. Ja nepieciešams rokrakstu pārvērst elektroniskā tekstā, var izrādīties, ka ātrākais veids, kā to izdarīt, ir pārrakstīt tekstu manuāli.
* Skenētā materiāla fiziska pārvietošana atpakaļ transportēšanas kastēs saskaņā ar pavaddokumentiem.
* Viena no populārākajām teksta atpazīšanas programmatūrām ir ABBYY Finereader, kura atbalsta gan latīņu, gan latviešu, gan kirilicas burtu atpazīšanu. Īpašas ABBYY Finereader versijas atbalsta arī vecās drukas tekstu atpazīšanu. ABBYY Finereader ir komerciāls produkts, taču eksistē arī brīvpieejas teksta atpazīšanas programmatūras, starp kurām viena no populārākajām ir Google uzturētais Tesseract dzinis. Pieejams tiešsaistē: https://code.google.com/p/tesseract-ocr/.
 
* Veicot teksta atpazīšanu, svarīgs rezultāta kvalitātes kritērijs ir korekti atpazīto simbolu apjoms pret visu apstrādāto simbolu apjomu. Dažādu valodu un druku tekstiem sagaidāmā kvalitāte var būtiski atšķirties.
=== 4. Pēcapstrāde un saglabāšana (Kvalitātes kontrole un datu nodošana) ===
* '''Masterdatņu un atvasināto lietotājdatņu izveide.'''
* Digitālā attēla uzlabošana (iztaisnošana, apgriešana, krāsu korekcija).
* Teksta atpazīšana (OCR/HTR) un segmentēšana.
* Tehnisko un administratīvo metadatu strukturēšana.
* Datu pakotņu (SIP) imports ilglaicīgās saglabāšanas sistēmās.
 
== 3. Tehnoloģiskās un kompetenču vadlīnijas ==
 
Digitalizācijas procesā jāizmanto modernākās pieejamās tehnoloģijas, kas nodrošina FADGI (''Technical Guidelines for Digitizing Cultural Heritage Materials'') standartu izpildi. Iekārtas nedrīkst bojāt oriģinālu.
 
=== Skeneru izvēles matrica ===


{| class="wikitable"
{| class="wikitable" style="width: 100%;"
! Dokumenta tips !! Fiziskās īpatnības !! Rekomendētais iekārtas tips
|-
| '''Periodika (liels formāts)''' || Neizjaucami plāni sējumi (A4 līdz A0) || Plakanvirsmas vai planetārie lielformāta skeneri
|-
|-
!Teksta veids !! Pareizi atpazītie simboli
| '''Periodika (izklaidus)''' || Pieļaujama lapu izjaukšana || Ātrgaitas lapu skeneri, ruļļu skeneri
|-
|-
|Jaunās drukas (antīkvas) burtiem rakstīts teksts no labā kvalitātē (400 dpi) skenēta attēla. || 99-100%
| '''Grāmatas (līdz A4)''' || Biezi sējumi bez smagas deformācijas || Automatizētie grāmatu roboti (saudzē sējumu, jo neatver par 180°)
|-
|-
|Vecās drukas (fraktūras) burtiem rakstīts teksts no labā kvalitātē (400 dpi) skenēta attēla. || 90-95%
| '''Grāmatas (deformētas, vērtīgas)''' || Trausli, cieši vai bojāti sējumi || Planetārie skeneri, V-veida šūpuļskeneri, digitālās kameras uz statīva
|-
|-
|Mašīndrukā rakstīts, neizbalējis teksts || 95-99%
| '''Manuskripti, pergamenti''' || Unikāli, fiziski jutīgi dokumenti || Augstas izšķirtspējas digitālās fotokameras uz statīva, bezkontakta skeneri
|-
|-
|Mašīndrukā rakstīts, izbalējis teksts vai mazs kontrasts || <90%
| '''Kartotēkas (līdz A4)''' || Nelielas, izklaidus lapas/kartītes || Ātrgaitas dokumentu skeneri ar saudzīgu padevi, plakanvirsmas skeneri
|}
|}


Digitalizācijas projektos būtu nepieciešams tiekties uz 80% pareizi atpazītu vārdu apjomu, lai uzskatītu, ka OCR ir veikts labā kvalitātē.
=== Tehniskie pamatprincipi skenēšanas laikā ===
* Teksta atpazīšanas kvalitāti var mērīt gan pareizi atpazīto simbolu, gan pareizi atpazīto vārdu apjomos, kur vārds tiek uzskatīts par pareizi atpazītu, ja pareizi atpazīti ir visi tā simboli. Jāņem vērā, ka šie divi parametri vienam un tam pašam tekstam var būtiski atšķirties, un relatīvi augsts pareizi atpazīto simbolu skaits vēl negarantē arī augstu pareizi atpazīto vārdu apjomu.
* '''Vienotība:''' Viens dokumenta sējums vai kolekcijas daļa jāskenē uz vienas un tās pašas iekārtas ar identiskiem uzstādījumiem, lai izvairītos no krāsu un kontrasta atšķirībām. Automātiskie uzstādījumi (piemēram, ''Auto-contrast'') ir jāizslēdz.
* Kad tiek veikta arī satura izkārtojuma jeb teksta dokumenta loģisko elementu atpazīšana (OLR), var izskatīt iespēju manuāli salabot atsevišķus svarīgākos teksta elementus, tādējādi nodrošinot tajos augstāku atslēgvārdu meklēšanas precizitāti. Ir rekomendējams veikt manuālu teksta atpazīšanas kļūdu labošanu šādos teksta dokumentu loģiskajos elementos: virsrakstos, attēlu parakstos, tabulu nosaukumos, autora laukos.
* '''Atvērumu skenēšana:''' Ja programmatūra atļauj, var skenēt pilnu atvērumu un pēcapstrādē to automatizēti sadalīt divās lappusēs. '''Izņēmums:''' ja attēls vai tabula stiepjas pāri viduslīnijai, datne paliek kā pilns atvērums. Skenēšanas roboti pilnu atvērumu nenodrošina – šādas lapas pārskenē manuāli.
* Ja nav iespējams pilnībā salabot minētos elementus (piemēram, nepietiekamu cilvēkresursu dēļ), tad ir rekomendējams izlabot vismaz tajos minētos īpašvārdus: personu vārdus, organizāciju nosaukumus, vietu nosaukumus u.tml.
* '''Tukšās lapas un starplapas:'''
* Teksta atpazīšanas programmatūras dažreiz dod iespēju izmantot vārdnīcas, lai uzlabotu atpazītā teksta kvalitāti, taču vispārīgā gadījumā tas nav rekomendējami, jo šādā veidā var tikt pazaudēta informācija par oriģinālā pieļautajām pārrakstīšanās kļūdām un tiktu mākslīgi “atjaunināta” novecojusī vārdu rakstības ortogrāfija.
** ''Grāmatas priekšlapas, ilustrāciju otras puses:'' Jāskenē.
** ''Secīgas tukšas lapas tekstā:'' Skenē, ja to skaits nepārsniedz 3 (vai atzīmē metadatos).
** ''Vienpusēja druka:'' Tukšās aizmugures parasti neskenē.
** ''Caurspīdīgas starplapas:'' Neskenē, ja vien tām nav mākslinieciskas vērtības (ornamenti, reljefi). Ilustrācijas skenē bez tām.
* '''Higiena:''' Strādājot ar oriģināliem, operatoriem jālieto tīri, balti kokvilnas vai nitrila cimdi.


=== Tehnoloģiskās un kompetenču vadlīnijas ===
=== Projekta komandas lomas ===
Ievērojot straujo tehnoloģiju progresu, digitalizācijas tehnoloģijas nemitīgi papildinās, un rodas arvien jauni IT risinājumi. Tādēļ digitalizācijas procesā ir jāseko jaunākajām tendencēm un iespējām ar mērķi izmantot modernākās pieejamās tehnoloģijas. Aktuālie un aprobētie tehnoloģiskie risinājumi ir pieejami FADGI Technical Guidelines for Digitizing Cultural Heritage Materials ([3]).
Veiksmīgai liela apjoma projekta realizācijai nepieciešams šāds lomu sadalījums:
Digitalizācijā ieteicams izmantot pieejamākos un modernākos skenerus. Izmantojamā tehnika nedrīkst nodarīt bojājumus digitalizējamiem objektiem. Digitalizācijas iekārtas jāizvēlas atbilstoši digitalizējamo dokumentu īpašībām (formāts, izmērs, biezums, iesējumi utt.) un plānotajai digitalizācijas automatizācijas pakāpei. Digitalizācijā var izmantot vairākas tehnoloģiskās metodes:
# '''Projekta vadītājs''' – kopējā laika, budžeta un rezultātu kontrole.
* a) secīgi skenējot lappuses (ar roku vai robotizēti),
# '''Skenēšanas procesa vadītājs''' – atbildīgais par iekārtu darbību un tveršanas kvalitāti.
* b) skenējot katru lappusi individuāli (digitālā fotofiksēšana).
# '''Segmentēšanas un OCR procesa vadītājs''' – datu apstrādes un teksta kvalitātes uzraugs.
Izvēloties konkrēto skenera veidu, var ievērot šādus principus:
# '''Kvalitātes procesa vadītājs''' – veic izlases vai pilnu vizuālo un tehnisko kontroli.
# '''Skenēšanas operatori''' – veic fizisko skenēšanu.
# '''Metadatu apstrādes operatori''' – veido un precizē mašīnlasāmos aprakstus.


{| class="wikitable"
== 4. Teksta automatizētā atpazīšana (OCR / HTR) un segmentācija ==
|-
 
!Teksta dokumenta tips un digitalizācijas īpašības !! Rekomendētais skenera tips
Teksta atpazīšana ir kritiska dokumentu pieejamības nodrošināšanai. Mūsdienās procesā izmanto gan tradicionālo OCR (drukātam tekstam), gan modernākos AI/HTR (''Handwritten Text Recognition'') rīkus vēsturiskiem rokrakstiem (piemēram, ''Transkribus'' platformu).
|-
 
|Periodika Dokumentu nevar/nedrīkst izjaukt pa individuālām lapām, bet tas ir relatīvi plāns (piemēram, avīzes numurs). Sākot no A4, A3, A2, A1, A0. || Plakanvirsmas skeneris
=== Tehnoloģiskie rīki un kvalitātes rādītāji ===
|-
* '''Komerciālie risinājumi:''' ''ABBYY FineReader'' (efektīvs latīņu, kirilicas un vecās drukas/fraktūras atpazīšanai).
|Periodika Pieļaujama dokumenta izjaukšana pa individuālām lapām. || Plakanvirsmas skeneris Ātrgaitas skeneris Ruļļu skeneris
* '''Atvērtā pirmkoda dzinēji:''' ''Google Tesseract'' (pieejams un integrējams automatizētos procesos).
|-
* '''Mērķis:''' Masu digitalizācijas projektos jātcas uz '''vismaz 80% pareizi atpazītu vārdu''' apjomu.
|Grāmatas Neliela formāta (A4 un mazāk) biezi iesējumi (piemēram, grāmatas) bez fiziskām deformācijām. || Grāmatu robots
 
|-
{| class="wikitable" style="margin: 1em 0;"
|Grāmatas Neliela formāta (A4 un mazāk) biezi iesējumi ar fiziskām deformācijām. || Plakanvirsmas skeneris Digitālās fotokameras
|+ Paredzamā OCR kvalitāte pēc teksta veida
|-
! Teksta veids !! Pareizi atpazītu simbolu īpatsvars
|Manuskripti (izklaidus) Dokumenti (izklaidus vai pieļaujama dokumenta izjaukšana pa individuālām lapām) || Plakanvirsmas skeneri Digitālās fotokameras Ātrgaitas skeneris
|-
|-
|Nošu izdevumi || Plakanvirsmas skeneris
| Jaunā druka (antīkva) no labas kvalitātes attēla (≥300/400 dpi) || 99% – 100%
|-
|-
|Iešūti dokumenti Liela formāta (A3 un vairāk) biezi iesējumi, kuri nepārsniedz skenera izmērus. || Skeneris ar regulējamu “grāmatu šūpuli” Digitālās fotokameras uz statīva ar regulējamu “grāmatu šūpuli”
| Mašīnraksts (neizbalējis, skaidrs) || 95% – 99%
|-
|-
|Lieli un biezi iesējumi (grāmatas, periodika) || Digitālās fotokameras uz statīva ar regulējamu “grāmatu šūpuli Skeneris ar regulējamu “grāmatu šūpuli”
| Vecā druka (fraktūra) no labas kvalitātes attēla || 90% – 95%
|-
|-
|Kartotēkas (nelielie, izklaidu dokumenti) līdz A4 || Plakanvirsmas skeneri Ātrgaitas skeneris
| Mašīnraksts (izbalējis, zems kontrasts) || < 90%
|}
|}


Skeneri jāizvēlas atbilstoši digitalizējamo teksta dokumentu formātam, pēc iespējas jāizvairās no dokumenta atsevišķu fragmentu skenēšanas, lai tos vēlāk digitāli savietotu.
=== Rekomendācijas OCR/OLR apstrādei ===
Skenerus ar grāmatu turētāju (šūpolēm) izmanto iesietiem teksta dokumentiem, kas nepārsniedz skenera izmēra parametrus. Šūpolēm jābūt regulējamām atbilstoši iesējuma biezumam. Lielformāta skeneru komplektācijā bieži vien ietilpst stikla plātnes, kas paredzētas atvērumu lapu piespiešanai un izlīdzināšanai ar mērķi iegūt kvalitatīvāku skenējumu. Taču jāņem vērā, ka, pielietojot fizisku slodzi uz ļoti ciešiem iesējumiem, var tikt bojāts teksta dokumenta oriģināls.
* '''Simboli vs. Vārdi:''' Augsts atpazīto simbolu skaits negarantē augstu pareizu vārdu skaitu (vārds ir pareizs tikai tad, ja visi tā burti ir korekti).
Lai arī eksistē populārs pieņēmums, ka retus un vērtīgus teksta dokumentus nevajadzētu skenēt ar grāmatu robotu, patiesībā grāmatu robots ir saudzīgāks par plakanvirsmas skeneriem, jo tajos teksta dokumentu nav nepieciešams atvērt par 180 grādiem, un tādējādi digitalizēšanas procesā ir daudz mazāka slodze uz teksta dokumenta iesējumu. Ir pieejami arī specializēti skeneri, kuros izmanto spoguļus, un tad ir iespējams skenēt ar atvērumu <90 grādiem.
* '''Manuālais kļūdu labojums (OLR līmenī):''' Ja resursi ir ierobežoti, manuālu teksta korekciju rekomendē veikt tikai svarīgākajos loģiskajos elementos: '''virsrakstos, attēlu parakstos, tabulu nosaukumos un autoru laukos''', kā arī šajos elementos esošajos īpašvārdos (personvārdi, vietvārdi).
[[Digitālais objekts|Digitālo objektu]] apstrādei nepieciešama jaudīga un moderna profesionāla grafiskās apstrādes datortehnika. Īpaša uzmanība jāpievērš monitoriem un to tehniskajiem parametriem, piemēram, krāsu izšķirtspējai, krāsu telpai, skatu leņķiem, spilgtumam, krāsu temperatūrai, krāsu līdzsvariem. Skenēšanas iekārtas ir nepieciešams periodiski kalibrēt (reizi dienā vai reizi nedēļā).
* '''Vārdnīcu izmantošana:''' Nav ieteicams akli izmantot automātiskās vārdnīcu korekcijas vēsturiskiem tekstiem, jo tā var tikt pazaudēta oriģinālā ortogrāfija (rakstības stils) vai autoru pieļautās kļūdas.
Svarīgi, lai iekārtām un programmatūrām būtu nodrošināts ražotāju atbalsts programmatūras atjauninājumu un ražotāja palīdzības dienesta atbalsta saņemšanai.
 
Ja digitalizāciju institūcijā ir paredzēts veikt ilgstošā laika periodā, ir svarīgi izveidot pastāvīgas vairākas digitalizācijas darba vietas.
== 5. Digitālo objektu formāti un metadati ==
Teksta dokumentu digitalizācijas darbu veikšanai nepieciešama projekta komanda ar pieredzi un zināšanām darbā ar specifiskām skenēšanas iekārtām, programmatūru un līdzīgu papīra un tekstu dokumentu digitalizāciju.
Vēlamais teksta dokumentu digitalizācijas projekta komandas lomu sadalījums:
* Projekta vadītājs;
* Skenēšanas procesa vadītājs;
* Segmentēšanas, OCR procesa vadītājs;
* Kvalitātes procesa vadītājs;
* Skenēšanas operatori;
* [[Metadati|Metadatu]] apstrādes operatori (gadījumos, ja digitalizācijas projektā tiek veidoti jauni [[Metadati|metadati]] vai papildināti esošie).
Projekta komandā katram speciālistam jāpārvalda latviešu valoda vismaz C līmeņa 1. pakāpē, pretējā gadījumā digitalizācijas izpildes gaitā jānodrošina tulks. Projekta komandas sastāvs atkarīgs no digitalizējamo objektu apjoma, digitalizācijas iekārtu skaita un to tehniskās kapacitātes (skenēšanas ātrums un jauda, piemēram, lapas minūtē), speciālistu darba slodzes un grafika, digitalizācijas telpu pieejamības.


=== Digitālo objektu formāti un metadati ===
=== Datņu formātu scenāriji ===
Veidojot teksta dokumentu digitālos objektus, jāņem vērā, ka oriģināli jeb digitalizējamie objekti ir dažādās kvalitātēs, piemēram:
Arhīvdatnes (Master) tiek saglabātas nekompresētā krāsainā (RGB) formātā (parasti TIFF), lai saglabātu fiziskā objekta autentiskuma pierādījumus (arī melnbaltiem dokumentiem). Apjoma ekonomijai kā alternatīvu var izmantot JPEG2000 (bez zudumu kompresijas).
* tīrs, kontrastains dokuments ar iespiestu tekstu (mašīnraksts, iespieddruka, lāzerdruka);
* vāji salasāms dokuments vai dokuments ar izplūdušiem simboliem (elektrografiskās kopijas, termopapīrs, rokraksti); dokuments ar pustoņu ilustrācijām, fotogrāfijām, ar roku rakstītām piezīmēm, zemu vispārējo kontrastu, rakstīts ar zīmuļiem, kuru raksts vāji salasāms, izplūdusi tinte;
* dokuments, kas paredzēts pelēkskalas skenēšanai, un/vai gadījumi, kad satura interpretācijai svarīga ir krāsa. Atbilstoši oriģināla kvalitātes līmenim ir jādefinē [[Digitālais objekts|digitālā objekta]] tehniskās kvalitātes līmenis.
Vēlamos teksta dokumentu [[Digitālais objekts|digitālo objektu]] arhīvdatnes un lietotājdatnes tehniskos kvalitātes parametrus skatīt Technical Guidelines for Digitizing Cultural Heritage Materials ([3]) .
Veidojot digitalizētu teksta dokumentu lietotājdatnes, parasti visas individuālu lappušu arhīvdatnes tiek apvienotas vienā, kopējā teksta dokumenta datnē. Ir četri galvenie scenāriji teksta dokumentu [[Lietotājdatņu veidošana|lietotājdatņu]] veidošanai, kas atšķiras pēc to tālākas izmantošanas iespējām un potenciālās funkcionalitātes, ko būs iespējams nodrošināt digitalizēto dokumentu pārlūkošanas rīkā:


{| class="wikitable"
Lietotājdatnēm izšķir četrus galvenos strukturālos scenārijus:
 
{| class="wikitable" style="width:100%;"
! Scenārijs !! Tehniskais izpildījums !! Funkcionalitāte lietotājam
|-
|-
!Scenārijs !! Funkcionalitāte
| '''1. Atsevišķas lapas''' || Katrai lappusei sava lietotājdatne (JPG/WebP) || Pārlūkošana dokumentu un lappušu līmenī.
|-
|-
|Katram lappuses attēlam tiek veidota atsevišķa [[Lietotājdatņu veidošana|lietotājdatne]]. || Pārlūkošana teksta dokumentu un lappušu līmenī.
| '''2. Apvienots dokuments''' || Kombinēts daudzlappušu PDF || Pārlūkošana dokumenta līmenī (lineāra šķirstīšana).
|-
|-
|No lappušu attēliem kombinēta teksta dokumenta [[Lietotājdatņu veidošana|lietotājdatne]]. || Pārlūkošana teksta dokumentu līmenī.
| '''3. Dokumenta PDF + OCR''' || Daudzlappušu PDF ar tekstveida slāni || Pilna teksta meklēšana visā dokumentā.
|-
|-
|No lappušu attēliem kombinēta teksta dokumenta [[Lietotājdatņu veidošana|lietotājdatne]] ar automātiski atpazītu tekstu (OCR). || Atslēgvārdu meklēšana pilnā teksta dokumenta tekstā. Meklēšanas rezultāti – teksta dokumenta līmenī.
| '''4. PDF + OCR + OLR (Izkārtojums)''' || PDF/A ar strukturētiem loģiskajiem elementiem || Meklēšana un navigācija konkrētās nodaļās, rakstos vai virsrakstos.
|-
|No lappušu attēliem kombinēta teksta dokumenta [[Lietotājdatņu veidošana|lietotājdatne]] ar automātiski atpazītu tekstu (OCR) un automātiski atpazītu izkārtojumu (OLR). || Atslēgvārdu meklēšana pilnā teksta dokumenta tekstā. Meklēšanas rezultāti – teksta dokumenta loģisko elementu līmenī (piemēram: rakstu, nodaļu, virsrakstu, u.tml.). Atslēgvārdu meklēšana noteiktos teksta dokumenta loģiskajos elementos: virsrakstos, attēlu parakstos, pamattekstā u. tml.
|}
|}


Ilgtermiņa saglabāšanai nepieciešams izmantot PDF/A formātu, kurā atšķirībā no standarta PDF tiek saglabāta visa dokumenta renderēšanai nepieciešamā informācija, padarot dokumentu pilnībā autonomu. Piemēram, PDF/A formāta dokuments tiks pareizi attēlots pat tad, ja uz konkrētā datora nebūs pieejami dokumentā izmantotie fonti. Atsevišķos gadījumos, saskaņojot ar digitalizācijas Pasūtītāju lietotājdatnēm var izmantot ūdenszīmes, bet tās nedrīkst traucēt tekstu atpazīšanai vai arī [[Digitālais objekts|digitālo objektu]] publiskai izplatīšanai.
<blockquote>'''Ilglaicīgā saglabāšana:''' Lietotājdatņu gala formātam ilglaicīgai saglabāšanai un pieejamībai jābūt '''PDF/A''', kas nodrošina fontu un struktūras autonomiju neatkarīgi no operētājsistēmas. Ūdenszīmes drīkst izmantot tikai saskaņojot ar pasūtītāju, un tās nedrīkst traucēt OCR procesu.</blockquote>
Digitalizācijas darbu veicējam ir jāsagatavo [[Digitālais objekts|digitālā objekta]] [[Metadati|metadati]] mašīnlasāmā formātā. [[Metadati|Metadatu]] datnes nosaukumu izvēlas atbilstoši attiecīgā digitalizētā materiāla datnes nosaukumam, saglabājot to kā elektronisku dokumentu. Metadatu struktūra ir jāveido, ievērojot Dublin Core, EDM un EAD standartu rekomendācijas, kā arī definējot papildu apraksta laukus, lai nodrošinātu ērtāku meklēšanu potenciālajiem publisko izplatīšanas platformu lietotājiem. Teksta dokumentu [[Digitālais objekts|digitālo objektu]] vēlamās metadatu struktūras skatīt https://dom.lndb.lv/data/type/text.html.
 
[[Metadati|Metadatu]] datne jāveido, lai nodrošinātu datu automātisku importu [[Digitālais objekts|Digitālo objektu]] arhīvu un pārvaldības sistēmās (piemēram LNB DOM). Datnei jāsatur informācija par konkrētā [[Digitālais objekts|digitālā objekta]] metadatiem un par visām objektam atbilstošajām arhīvdatnēm un lietotājdatnēm. Ja ir plānots metadatus automātiski importēt LNB DOM, tad datnēm jāvalidējas pret attiecīgo formātu LNB DOM.
=== Metadatu standarti ===
Metadati jāsagatavo mašīnlasāmā formātā (XML/JSON), ievērojot starptautiskos standartus:
* '''Dublin Core''' (pamatapraksts)
* '''EDM''' (Europeana Data Model - integrācijai starptautiskajās platformās)
* '''METS/ALTO''' (struktūras un OCR teksta pozicionēšanas saderībai)
 
Struktūrai jābūt saderīgai ar Digitālo objektu pārvaldības sistēmām (piemēram, LNB DOM vadlīnijām: https://dom.lndb.lv/data/type/text.html) automatizētam datu importam.
 
== 6. Datņu un mapju nosaukumu veidošanas vadlīnijas ==
 
Datņu un mapju nosaukumiem jābūt unikāliem, loģiskiem un konsekventiem visā kolekcijā.
 
=== Nosaukuma struktūras elementi ===
Ieteicamā shēma individuālai datnei:
`[Iestādes_kods]_[Formāta_tips]_[Identifikators]_[Lappuses_numurs].[paplašinājums]`
 
* '''Iestādes kods:''' Saīsinājums vai skaitlisks ID (piemēram, `lnb`, `lvva`, `mnm`), lai novērstu datņu pārrakstīšanu, apvienojot krājumus.
* '''Formāta tips:''' Viens burts konsekvencei: `g` (grāmata), `p` (periodika), `t` (teksta dokuments).
* '''Identifikators:''' ISBN, svītrukods, inventāra numurs vai arhīva fonda/lietas kods.
* '''Lappuses numurs:''' Jālieto fiksēts zīmju skaits ar vadošajām nullēm (piemēram, `004` nevis `4`), nodrošinot pareizu hronoloģisku kārtošanu sistēmā.
 
=== Praktiski piemēri ===
* '''Grāmata:''' `lnb_g_0910300131_001.tif` (LNB grāmata, svītrukods 0910300131, 1. lappuse).
* '''Laikraksts (Atvērums):''' `p_003_dien1991n017_002-003.tif` (Laikraksta "Diena" 1991. gada 17. numura 2. un 3. lappuse, skenēta vienā atvēruma datnē).
* '''Ielikums:''' `g_lnb_0910300131_017a.tif` (Ielikums vai nenumurēta lapa, kas seko tūlīt pēc 17. lappuses).
* '''Arhīva lieta:''' `LVVA_F1307_US1_GV2_071.tif` (LVVA, Fonds 1307, Uzskaites saraksts 1, Glabājamā vienība 2, datnes kārtas numurs 71).
 
<blockquote>'''Ieteikums par lappusēm:''' Ja oriģinālam ir kļūdaina numerācija vai iztrūkumi, datņu nosaukumos ir pilnībā pieļaujams izmantot fiziskās skenēšanas secības kārtas numurus, reālo situāciju fiksējot metadatos. Kopīgos izdevumos par iestādes kodu visam sējumam izvēlas to iestādi, no kuras nāk lielākā lappušu daļa.</blockquote>


=== Datņu un mapju nosaukumu veidošanas vadlīnijas ===
=== Mapju struktūra un komplektācija ===
Veidojot teksta dokumentu [[Digitālais objekts|digitālo objektu]] datņu nosaukumus, vēlams izmantot tālāk uzskaitītās norādes:
Lielām kolekcijām veido hierarhisku mapju sistēmu, grupējot pēc iestādes -> objekta tipa -> digitalizācijas gada/sūtījuma numura -> kolekcijas ID.
* Iestādes apzīmējums. Ja dažādi digitalizētāji skenē vienu un to pašu dokumentu un pēc tam šie dati tiek apvienoti, tad pie pārējo datņu nosaukuma elementu sakritības var notikt nejauša digitalizēto dokumentu pazušana. Iestādes nosaukums var būt ar pilniem vārdiem (“madonas_novadpetniecibas_muzejs”), saīsināts (“mnm”) vai ar skaitlisku apzīmējumu (“017”).
* Izdevuma formāta apzīmējums. Parasti viens burts “t” – teksta dokuments; “p” – periodiskais izdevums; “g” – grāmata vai kāds cits pēc izvēles, taču ar nosacījumu, ka tas tiek lietots konsekventi.
* Teksta dokumenta identifikators. Grāmatām tāds identifikators varētu būt ISBN kods, inventāra numurs vai svītru kods. Periodiskajiem izdevumiem: ISSN numurs vai izdevuma nosaukums, iespējams saīsināts, kombinācijā ar izdošanas gadu un datumu (vai arī numuru). Arhīva dokumentiem uzziņu kods u.tml.
* Lappuses numurs. Veicot teksta dokumenta digitalizāciju un nosaucot tā individuālu lappušu datnes, nosaukumam pievieno lappuses numura apzīmējumu. Lappuses numura apzīmējumā ieteicams lietot vienu vai vairākas “0” skaitļa apzīmējuma sākumā, lai datnes tiktu kārtotas pareizā secībā, piemēram, “004” – 4. lappuse.
* Datnes tehniskais formāts. Datnes nosaukuma paplašinājums ir rakstzīmju kopa, kas pievienota datnes nosaukuma beigās un nosaka, ar kādu programmatūru datne var tikt atvērta. Pēc noklusējuma daudzas programmatūras paslēpj datnes nosaukumu paplašinājumus. Tomēr ir iespējams padarīt datnes nosaukumā paplašinājumus redzamus.
* Ja, digitalizējot konkrētu teksta dokumentu, tiek kombinētas individuālas lapas no dažādu iestāžu krājumā esošiem dokumentiem, tad datnes pozīcijā, kurā minēta organizācija, no kuras dokuments ņemts, tomēr parasti visam dokumentam lieto vienas konkrētas iestādes apzīmējumu. Parasti lieto tās organizācijas apzīmējumu, no kuras nāk lielākā digitalizēto datņu daļa. Tas tiek darīts gan tāpēc, lai, nosaucot datnes, datņu operatoram nebūtu īpaši jāpievērš uzmanība katram datnes nosaukumam individuāli, gan arī tāpēc, lai datnes mapes ietvaros tiktu sakārtotas pareizā secībā.
* Ja vienā datnē tiek ieskenēts viss teksta dokumenta atvērums jeb divas lappuses, tad arī datnes nosaukumā var iekļaut abus lappušu numurus. Piemērs: p_003_dien1991n017_002-003.tif – laikraksta atvērums skenēts vienā datnē ,un tajā iekļautas 2. un 3. lappuses.
* Ja teksta dokumentā ir ielikums, kas nav iekļauts kopējā numerācijā (piemēram, atrodas starp dokumenta 17. un 18. lappusi), tad, nosaucot šādu datni, izmanto to lappuses datnes nosaukumu, kas ir tieši pirms ielikuma, pievienojot tam beigās burtus “a”, “b”, “c” utt., ja šādi ielikumi ir vairāki pēc kārtas. Piemēram: g_lnb_0910300131_017a.tif – grāmatai pēc 17. lappuses sekojoša ielikuma datnes nosaukums.
* Veicot vairāklappušu teksta dokumentu skenēšanu, ne vienmēr ir iespējams precīzi ievērot oriģinālā dokumenta lappušu numurus arī datnes nosaukumā. Piemēram, dokumentam trūkst lappuses, lappušu numerācija ir nepareiza jau pašā oriģinālā, dokumentā ir nenumurētas tukšas lappuses u.tml. Šādā situācijā par pilnīgi pieņemamu ir uzskatāma skenēšanas secības numerācijas iekļaušana datnes nosaukumā, kas var arī nesakrist ar teksta dokumenta lappušu numerāciju.
* Ieteicamie datņu nosaukumu piemēri:
* lnb_g_0910300131_001.tif – Latvijas Nacionālās bibliotēkas grāmata ar svītru kodu “0910300131” 1. lappuse;
* p_003_dien1991n017_003.tif – laikraksta “Diena” 1991. gada 17. numura 3. lappuses [[Arhīvdatņu veidošana|arhīvdatne]], kurai atbilstošais oriģināls glabājas organizācijā ar apzīmējumu “003”;
LVVA_F1307_US1_GV2_071.tif, kur LVVA – struktūrvienība, F1307 – fonds, US1 – uzskaites saraksts, GV2 – glabājamā vienība, 071 – Kopiju datnes kārtas numurs GV.
* Tā kā teksta dokumenti parasti sastāv no vairākām lappusēm un digitalizācijas rezultātā rodas vairākas datnes, tad tās jāgrupē un visas jāsaglabā vienā atsevišķā mapē.
Veidojot teksta dokumentu [[Digitālais objekts|digitālo objektu]] mapju nosaukumus, vēlams ievērot turpmāk rakstīto.
Lielām kolekcijām jāveido hierarhiska mapju struktūra. Mapju struktūru lielām kolekcijām var veidot, dalot visas datnes pa mapēm pēc šādiem principiem:
* pēc iestādes koda, kurā teksta dokuments digitalizēts. Piemēram, lnb, lna, akad_bibl;
* pēc [[Digitālais objekts|digitālā objekta]] koda, piemēram, g-grāmatas, p-periodika;
* pēc lpp. skaita. [[Digitālais objekts|Digitālo objektu]] datņu un lappušu skaits konkrētā mapē;
* pēc citiem identifikatoriem, piemēram, pēc digitalizācijas gada, piemēram: 2012, 2013, 2014, pēc satura kolekciju nosaukumiem. Piemēram, Rainis_Aspazija_001;
* pēc sūtījumu Nr. Ja teksta dokumenti tiek digitalizēti lielākās porcijās jeb nodevumos, tad šo porciju Nr. var izmantot mapju nosaukumu struktūrā.
Mapēs jāveido šāds datņu komplekts:
* visas objekta arhīvdatnes – katrai lappusei būs viena [[Arhīvdatņu veidošana|arhīvdatne]];
* atbilstošās lietotājdatnes – katrai lappusei vai visam dokumentam;
* [[Metadati|metadatu]] datne.


=== Kvalitātes kontroles pasākumi ===
Katrā gala mapē (kas pārstāv vienu objektu/sējumu) jābūt šādam komplektam:
Teksta dokumentu digitalizācijas kvalitātes kontrolei ieteicams izmantot šādus kritērijus:
# Visas objekta '''arhīvdatnes''' (TIFF/JPEG2000 masteri pa lapām).
# Atbilstošās '''lietotājdatnes''' (PDF vai optimizēti attēli).
# '''Metadatu datne''' (XML/JSON), kas satur sasaisti starp struktūru un datnēm.


{| class="wikitable"
== 7. Kvalitātes kontroles (QA) pasākumi ==
 
Kvalitātes kontrole tiek veikta katrā digitalizācijas posmā pēc fiksētiem parametriem:
 
{| class="wikitable" style="width:100%;"
! Digitalizācijas posms !! Kontroles parametri !! Pieļaujamā pielaide / Rīcība
|-
|-
!Digitalizācijas posms !! Kvalitātes aktivitāte !! Periodiskums !! Atbildība
| '''1. Sagatavošana''' || Apjoma un lapu secības atbilstība sarakstiem; metadatu esamība. || 0% pielaide kļūdām. Neatbilstības tiek labotas pirms skenēšanas.
|-
|-
|1. Plānošana || Vai digitalizācijas objektu saraksti atbilst kritērijiem un budžetam? || Uzsākot projektu || Digitalizācijas projekta vadītājs
| '''2. Digitalizācija (Tveršana)''' || Attēla asums, fokuss, ģeometriskie kropļojumi, krāsu atbilstība (pēc kalibrēšanas tabulām), artefaktu un atspīdumu neesamība. || Izlases veida kontrole (5-10% apjomam) vai 100% kontrole unikāliem materiāliem. Brāķis tiek pārskenēts.
|-
|-
|2.Sagatavošana || 1.Teksta dokumenti (digitalizējamie objekti) ir apstrādāti un piegādāti digitalizācijai. || Uzsākot digitalizāciju || Digitalizējamo materiālu sagatavotāji
| '''3. Pēcapstrāde''' || Failu nosaukumu atbilstība shēmai; PDF/A validācija; OCR precizitāte (vārdu atpazīstamības slieksnis ≥80%). || Automatizēta validācija visām datnēm; manuāla OCR paraugu pārbaude.
|-
|-
|3.Digitalizācija || 1.Tekstu kvalitāte atbilst definētajai. 2.Pilnīgums (visas lappuses ieskanētas, katra lappuse redzama datnē, teksti un attēli ir pareizi novietoti utt.). 3.Datņu un mapju nosaukumi ir pareizi. 4.Datņu formāti atbilst definētajiem, datnes ir iespējams atvērt. 5.[[Metadati]] ir precīzi. || Izlases kārtībā || Digitalizācijas veicējs un digitalizācijas Pasūtītājs
| '''4. Nodošana''' || Datu pakotnes integritāte (Checksum pārbaude); veiksmīgs imports DOM sistēmā. || 100% atbilstība. Ja imports neizdodas, pakotne tiek pārstrādāta.
|-
|4.Pēcapstrāde || 1.Ja ir veikta [[Digitālais objekts|digitālā objekta]] apstrāde, tad atbilst noteiktajiem tehniskajiem parametriem. 2. Ja ir veiktas OCR funkcijas, tad >90% teksti ir atpazīti. 3.Datu nesējs ir lietojams, datnes ir iespējams kopēt. || Izlases kārtībā || Digitalizācijas veicējs un digitalizācijas Pasūtītājs
|}
|}
Ja digitalizētajos teksta dokumentos (digitālajos objektos) tiek konstatētas kvalitātes neatbilstības, tad teksta dokumentiem jāveic atkārtota skenēšana, [[Metadati|metadatu]] apstrāde un/vai automatizēta tekstu atpazīšana.
Digitalizācijas projekta vadītājam ir jāsagatavo katra digitalizējamā objekta digitalizēšanas uzdevumu izpildes protokols, kurā katrs iesaistītais speciālists veiks atzīmi par paveikto darbu, tādējādi nodrošinot secīgu visu nepieciešamo darbu izpildi un uzraudzību visos darbu izpildes posmos.


== Skatīt arī ==
== Skatīt arī ==

Pašreizējā versija, 2026. gada 20. maijs, plkst. 20.53

Aktualizēts 20.05.2026skatīt izmaiņu vēsturi

⚠️ Šī lapa joprojām ir izstrādes stadijā.

Šajā šķirklī apkopotas organizatoriskās, tehnoloģiskās un procesuālās vadlīnijas teksta dokumentu un iespieddarbu digitalizācijai kultūras mantojuma institūcijās (bibliotēkās, arhīvos, muzejos).

1. Dokumentu veidi un fiziskā stāvokļa novērtējums

Teksta dokumentus pēc to digitalizācijas īpatnībām iedala šādās grupās:

  • Seriālizdevumi un periodika: Avīzes, žurnāli, biļeteni u.c.
  • Grāmatas: Iesieti dažāda biezuma un formāta izdevumi.
  • Nošu sējumi: Specifiska grafiskā izpilde, bieži nestandarta formāti.
  • Manuskripti un pergamenti: Unikāli rokraksta dokumenti, vēsturiski avoti.
  • Citi teksta dokumenti: Kartotēkas, efemēras, izklaidus lapas, tehniski zīmējumi ar tekstu.

Fiziskie un tehniskie parametri

Pirms digitalizācijas uzsākšanas jāveic dokumentu ekspertīze pēc šādiem kritērijiem:

  • Izmēri: No maza formāta (zem A5) līdz lielformātam (A1, A0 un vairāk).
  • Sējuma veids: Iesiets, iešūts, brošēts, ierāmēts, izklaidus lapas.
  • Drukas un teksta veids: Rokraksts, mašīnraksts, iespieddruka, jaukts teksts.
  • Burtu šrifts: Vecā druka (fraktūra), jaunā druka (antīkva), specifiski fonti.
  • Krāsu forma: Melnbalts, pelēkskala, krāsains.
Dokumentu fiziskā stāvokļa riski un defekti
Bojājuma tips Apraksts / Ietekme uz procesu Nepieciešamā rīcība
Mehāniski bojājumi Plīsumi, zudumi, deformācija, trauslums, salipušas lapas Pirmsapstrāde, konservācija vai manuāla skenēšana.
Vizuāli defekti Dziestošs teksts, dzeltējums, bioloģiski bojājumi (pelējums), plankumi Digitālā restaurācija pēcapstrādē, specializēti filtri.
Konstruktīvi ierobežojumi Ļoti ciešs iesējums, teksts tuvu atvēruma viduslīnijai V-veida skeneru, grāmatu šūpuļu vai stikla piespiedēju izmantošana.

Svarīgs noteikums: Ja digitalizācijai ir pieejami vairāki viena izdevuma oriģināla eksemplāri, vienmēr jāizvēlas fiziski un vizuāli vislabāk saglabājies eksemplārs. Pieļaujama arī lappušu kombinēšana no dažādiem eksemplāriem, lai izveidotu pilnīgu virtuālo izdevumu.

2. Organizatoriskie jautājumi un procesa posmi

Liela apjoma digitalizāciju ieteicams organizēt centralizēti un kampaņveidīgi, apvienojot vairāku institūciju resursus, piesaistot mērķtiecīgu finansējumu vai izmantojot profesionālus ārpakalpojumus.

Digitalizācijas process sastāv no četriem secīgiem posmiem (detalizēti aprakstīti vadlīnijās "Digitālā kultūras mantojuma procesu apraksts"):

1. Plānošana (Satura un resursu audits)

  • Digitālā satura prioritāšu un atlases kritēriju noteikšana.
  • Sarakstu izveide, lappušu un vienību skaita aplēse.
  • Dokumentu grupēšana pēc izmēra, sējuma un nepieciešamās pēcapstrādes (piemēram, OCR vajadzībām).
  • Tehniskās kapacitātes un personāla kompetenču apzināšana.

2. Sagatavošana (Loģistika un tehniskā priekšapstrāde)

  • Fiziskā stāvokļa un pilnības pārbaude (lapu numerācija, iztrūkumu fiksēšana).
  • Sākotnējo aprakstošo metadatu sagatavošana vai precizēšana.
  • Fiziskā tīrīšana (putekļu noņemšana, locījumu iztaisnošana).
  • Atstarojošu elementu (līmlenšu) izvērtēšana un droša noņemšana, ja iespējams.
  • Ieliktņu apstrāde (mazākiem ieliktņiem aizmugurē novieto baltu lapu, lai nespīdētu cauri fons).
  • Dokumentu iepakošana drošās, identificējamās transportēšanas kastēs ar svītrukodiem/uzlīmēm.

3. Digitalizācija (Skenēšana un primārā tveršana)

  • Iekārtu kalibrēšana (krāsu profili, apgaismojums, izšķirtspēja).
  • Skenēšana atbilstoši definētajiem tehniskajiem parametriem.
  • Skenētā materiāla fiziska pārvietošana atpakaļ transportēšanas kastēs saskaņā ar pavaddokumentiem.

4. Pēcapstrāde un saglabāšana (Kvalitātes kontrole un datu nodošana)

  • Masterdatņu un atvasināto lietotājdatņu izveide.
  • Digitālā attēla uzlabošana (iztaisnošana, apgriešana, krāsu korekcija).
  • Teksta atpazīšana (OCR/HTR) un segmentēšana.
  • Tehnisko un administratīvo metadatu strukturēšana.
  • Datu pakotņu (SIP) imports ilglaicīgās saglabāšanas sistēmās.

3. Tehnoloģiskās un kompetenču vadlīnijas

Digitalizācijas procesā jāizmanto modernākās pieejamās tehnoloģijas, kas nodrošina FADGI (Technical Guidelines for Digitizing Cultural Heritage Materials) standartu izpildi. Iekārtas nedrīkst bojāt oriģinālu.

Skeneru izvēles matrica

Dokumenta tips Fiziskās īpatnības Rekomendētais iekārtas tips
Periodika (liels formāts) Neizjaucami plāni sējumi (A4 līdz A0) Plakanvirsmas vai planetārie lielformāta skeneri
Periodika (izklaidus) Pieļaujama lapu izjaukšana Ātrgaitas lapu skeneri, ruļļu skeneri
Grāmatas (līdz A4) Biezi sējumi bez smagas deformācijas Automatizētie grāmatu roboti (saudzē sējumu, jo neatver par 180°)
Grāmatas (deformētas, vērtīgas) Trausli, cieši vai bojāti sējumi Planetārie skeneri, V-veida šūpuļskeneri, digitālās kameras uz statīva
Manuskripti, pergamenti Unikāli, fiziski jutīgi dokumenti Augstas izšķirtspējas digitālās fotokameras uz statīva, bezkontakta skeneri
Kartotēkas (līdz A4) Nelielas, izklaidus lapas/kartītes Ātrgaitas dokumentu skeneri ar saudzīgu padevi, plakanvirsmas skeneri

Tehniskie pamatprincipi skenēšanas laikā

  • Vienotība: Viens dokumenta sējums vai kolekcijas daļa jāskenē uz vienas un tās pašas iekārtas ar identiskiem uzstādījumiem, lai izvairītos no krāsu un kontrasta atšķirībām. Automātiskie uzstādījumi (piemēram, Auto-contrast) ir jāizslēdz.
  • Atvērumu skenēšana: Ja programmatūra atļauj, var skenēt pilnu atvērumu un pēcapstrādē to automatizēti sadalīt divās lappusēs. Izņēmums: ja attēls vai tabula stiepjas pāri viduslīnijai, datne paliek kā pilns atvērums. Skenēšanas roboti pilnu atvērumu nenodrošina – šādas lapas pārskenē manuāli.
  • Tukšās lapas un starplapas:
    • Grāmatas priekšlapas, ilustrāciju otras puses: Jāskenē.
    • Secīgas tukšas lapas tekstā: Skenē, ja to skaits nepārsniedz 3 (vai atzīmē metadatos).
    • Vienpusēja druka: Tukšās aizmugures parasti neskenē.
    • Caurspīdīgas starplapas: Neskenē, ja vien tām nav mākslinieciskas vērtības (ornamenti, reljefi). Ilustrācijas skenē bez tām.
  • Higiena: Strādājot ar oriģināliem, operatoriem jālieto tīri, balti kokvilnas vai nitrila cimdi.

Projekta komandas lomas

Veiksmīgai liela apjoma projekta realizācijai nepieciešams šāds lomu sadalījums:

  1. Projekta vadītājs – kopējā laika, budžeta un rezultātu kontrole.
  2. Skenēšanas procesa vadītājs – atbildīgais par iekārtu darbību un tveršanas kvalitāti.
  3. Segmentēšanas un OCR procesa vadītājs – datu apstrādes un teksta kvalitātes uzraugs.
  4. Kvalitātes procesa vadītājs – veic izlases vai pilnu vizuālo un tehnisko kontroli.
  5. Skenēšanas operatori – veic fizisko skenēšanu.
  6. Metadatu apstrādes operatori – veido un precizē mašīnlasāmos aprakstus.

4. Teksta automatizētā atpazīšana (OCR / HTR) un segmentācija

Teksta atpazīšana ir kritiska dokumentu pieejamības nodrošināšanai. Mūsdienās procesā izmanto gan tradicionālo OCR (drukātam tekstam), gan modernākos AI/HTR (Handwritten Text Recognition) rīkus vēsturiskiem rokrakstiem (piemēram, Transkribus platformu).

Tehnoloģiskie rīki un kvalitātes rādītāji

  • Komerciālie risinājumi: ABBYY FineReader (efektīvs latīņu, kirilicas un vecās drukas/fraktūras atpazīšanai).
  • Atvērtā pirmkoda dzinēji: Google Tesseract (pieejams un integrējams automatizētos procesos).
  • Mērķis: Masu digitalizācijas projektos jātcas uz vismaz 80% pareizi atpazītu vārdu apjomu.
Paredzamā OCR kvalitāte pēc teksta veida
Teksta veids Pareizi atpazītu simbolu īpatsvars
Jaunā druka (antīkva) no labas kvalitātes attēla (≥300/400 dpi) 99% – 100%
Mašīnraksts (neizbalējis, skaidrs) 95% – 99%
Vecā druka (fraktūra) no labas kvalitātes attēla 90% – 95%
Mašīnraksts (izbalējis, zems kontrasts) < 90%

Rekomendācijas OCR/OLR apstrādei

  • Simboli vs. Vārdi: Augsts atpazīto simbolu skaits negarantē augstu pareizu vārdu skaitu (vārds ir pareizs tikai tad, ja visi tā burti ir korekti).
  • Manuālais kļūdu labojums (OLR līmenī): Ja resursi ir ierobežoti, manuālu teksta korekciju rekomendē veikt tikai svarīgākajos loģiskajos elementos: virsrakstos, attēlu parakstos, tabulu nosaukumos un autoru laukos, kā arī šajos elementos esošajos īpašvārdos (personvārdi, vietvārdi).
  • Vārdnīcu izmantošana: Nav ieteicams akli izmantot automātiskās vārdnīcu korekcijas vēsturiskiem tekstiem, jo tā var tikt pazaudēta oriģinālā ortogrāfija (rakstības stils) vai autoru pieļautās kļūdas.

5. Digitālo objektu formāti un metadati

Datņu formātu scenāriji

Arhīvdatnes (Master) tiek saglabātas nekompresētā krāsainā (RGB) formātā (parasti TIFF), lai saglabātu fiziskā objekta autentiskuma pierādījumus (arī melnbaltiem dokumentiem). Apjoma ekonomijai kā alternatīvu var izmantot JPEG2000 (bez zudumu kompresijas).

Lietotājdatnēm izšķir četrus galvenos strukturālos scenārijus:

Scenārijs Tehniskais izpildījums Funkcionalitāte lietotājam
1. Atsevišķas lapas Katrai lappusei sava lietotājdatne (JPG/WebP) Pārlūkošana dokumentu un lappušu līmenī.
2. Apvienots dokuments Kombinēts daudzlappušu PDF Pārlūkošana dokumenta līmenī (lineāra šķirstīšana).
3. Dokumenta PDF + OCR Daudzlappušu PDF ar tekstveida slāni Pilna teksta meklēšana visā dokumentā.
4. PDF + OCR + OLR (Izkārtojums) PDF/A ar strukturētiem loģiskajiem elementiem Meklēšana un navigācija konkrētās nodaļās, rakstos vai virsrakstos.

Ilglaicīgā saglabāšana: Lietotājdatņu gala formātam ilglaicīgai saglabāšanai un pieejamībai jābūt PDF/A, kas nodrošina fontu un struktūras autonomiju neatkarīgi no operētājsistēmas. Ūdenszīmes drīkst izmantot tikai saskaņojot ar pasūtītāju, un tās nedrīkst traucēt OCR procesu.

Metadatu standarti

Metadati jāsagatavo mašīnlasāmā formātā (XML/JSON), ievērojot starptautiskos standartus:

  • Dublin Core (pamatapraksts)
  • EDM (Europeana Data Model - integrācijai starptautiskajās platformās)
  • METS/ALTO (struktūras un OCR teksta pozicionēšanas saderībai)

Struktūrai jābūt saderīgai ar Digitālo objektu pārvaldības sistēmām (piemēram, LNB DOM vadlīnijām: https://dom.lndb.lv/data/type/text.html) automatizētam datu importam.

6. Datņu un mapju nosaukumu veidošanas vadlīnijas

Datņu un mapju nosaukumiem jābūt unikāliem, loģiskiem un konsekventiem visā kolekcijā.

Nosaukuma struktūras elementi

Ieteicamā shēma individuālai datnei: `[Iestādes_kods]_[Formāta_tips]_[Identifikators]_[Lappuses_numurs].[paplašinājums]`

  • Iestādes kods: Saīsinājums vai skaitlisks ID (piemēram, `lnb`, `lvva`, `mnm`), lai novērstu datņu pārrakstīšanu, apvienojot krājumus.
  • Formāta tips: Viens burts konsekvencei: `g` (grāmata), `p` (periodika), `t` (teksta dokuments).
  • Identifikators: ISBN, svītrukods, inventāra numurs vai arhīva fonda/lietas kods.
  • Lappuses numurs: Jālieto fiksēts zīmju skaits ar vadošajām nullēm (piemēram, `004` nevis `4`), nodrošinot pareizu hronoloģisku kārtošanu sistēmā.

Praktiski piemēri

  • Grāmata: `lnb_g_0910300131_001.tif` (LNB grāmata, svītrukods 0910300131, 1. lappuse).
  • Laikraksts (Atvērums): `p_003_dien1991n017_002-003.tif` (Laikraksta "Diena" 1991. gada 17. numura 2. un 3. lappuse, skenēta vienā atvēruma datnē).
  • Ielikums: `g_lnb_0910300131_017a.tif` (Ielikums vai nenumurēta lapa, kas seko tūlīt pēc 17. lappuses).
  • Arhīva lieta: `LVVA_F1307_US1_GV2_071.tif` (LVVA, Fonds 1307, Uzskaites saraksts 1, Glabājamā vienība 2, datnes kārtas numurs 71).

Ieteikums par lappusēm: Ja oriģinālam ir kļūdaina numerācija vai iztrūkumi, datņu nosaukumos ir pilnībā pieļaujams izmantot fiziskās skenēšanas secības kārtas numurus, reālo situāciju fiksējot metadatos. Kopīgos izdevumos par iestādes kodu visam sējumam izvēlas to iestādi, no kuras nāk lielākā lappušu daļa.

Mapju struktūra un komplektācija

Lielām kolekcijām veido hierarhisku mapju sistēmu, grupējot pēc iestādes -> objekta tipa -> digitalizācijas gada/sūtījuma numura -> kolekcijas ID.

Katrā gala mapē (kas pārstāv vienu objektu/sējumu) jābūt šādam komplektam:

  1. Visas objekta arhīvdatnes (TIFF/JPEG2000 masteri pa lapām).
  2. Atbilstošās lietotājdatnes (PDF vai optimizēti attēli).
  3. Metadatu datne (XML/JSON), kas satur sasaisti starp struktūru un datnēm.

7. Kvalitātes kontroles (QA) pasākumi

Kvalitātes kontrole tiek veikta katrā digitalizācijas posmā pēc fiksētiem parametriem:

Digitalizācijas posms Kontroles parametri Pieļaujamā pielaide / Rīcība
1. Sagatavošana Apjoma un lapu secības atbilstība sarakstiem; metadatu esamība. 0% pielaide kļūdām. Neatbilstības tiek labotas pirms skenēšanas.
2. Digitalizācija (Tveršana) Attēla asums, fokuss, ģeometriskie kropļojumi, krāsu atbilstība (pēc kalibrēšanas tabulām), artefaktu un atspīdumu neesamība. Izlases veida kontrole (5-10% apjomam) vai 100% kontrole unikāliem materiāliem. Brāķis tiek pārskenēts.
3. Pēcapstrāde Failu nosaukumu atbilstība shēmai; PDF/A validācija; OCR precizitāte (vārdu atpazīstamības slieksnis ≥80%). Automatizēta validācija visām datnēm; manuāla OCR paraugu pārbaude.
4. Nodošana Datu pakotnes integritāte (Checksum pārbaude); veiksmīgs imports DOM sistēmā. 100% atbilstība. Ja imports neizdodas, pakotne tiek pārstrādāta.

Skatīt arī