Teksta dokumentu digitalizācijas vadlīnijas
Aktualizēts 15.05.2026 — skatīt izmaiņu vēsturi
Dokumentu veidi
Digitalizācijas procesos teksta dokumentus pēc digitalizācijas īpatnībām ir iespējams iedalīt šādās grupās:
- seriālizdevumi, periodika (avīzes, žurnāli);
- grāmatas;
- nošu sējumi;
- manuskripti, pergamenti;
- citi teksta dokumenti.
Teksta dokumentiem ir dažādi fiziskie izmēri (lielākie apjomi arhīvos un bibliotēkās ir sākot no A5 līdz A0), dažādi sējuma veidi (iesiets, iešūts, brošēts, ierāmēts, izklaidu), dažādi drukas veidi (rokraksts, mašīnraksts, druka, jauktā tipa), dažādi burtu šriftu veidi (vecā un jaunā druka) un dažādas krāsu formas (melnbalts, krāsains). Plānojot teksta dokumentu digitalizāciju, svarīgi sākumā novērtēt to fizisko stāvokli (papīra kvalitāte, vecums, nolietojums, teksta izmēri, krāsu kvalitāte, mapju pilnība, bojājumu un defektu pakāpes, piemēram, netīrs, putekļains, plīsumi, zudumi, deformācija, dziestošs teksts, dzeltējis, bioloģiski bojājumi, salipis, salūzis, trausls. Tas palīdzēs izvēlēties atbilstošāko digitalizācijas tehnoloģiju un digitalizācijas darbu procesu un tam nepieciešamo personāla pieredzi un kvalifikāciju. Ja pieejami vairāki oriģināli, tad digitalizācijai svarīgi izvēlēties labākos eksemplārus.
Organizatoriskie jautājumi
Teksta dokumentu digitalizācija var būt gan ikdienas plānveida darbs ar dokumentu ilglaicīgu saglabāšanu, gan arī digitalizācijas projekti lielos apjomos. Ieteicams šādu projektu realizāciju organizēt centralizēti un kampaņveidīgi (vairāku institūciju sadarbība, kopīgu resursu piesaiste, finansējums, ārpakalpojumu piesaiste, tehnika, speciālisti, IKT sistēmas). Ja atsevišķas kultūras mantojuma institūcijas plāno saviem spēkiem veikt liela apjoma papīra dokumentu digitalizāciju, tad digitalizācijas darbos vēlams izmantot šajā dokumentā definētās organizatoriskās un tehniskās vadlīnijas. Teksta dokumentu digitalizācija ir tehnoloģiski sarežģīts uzdevums (specifiskas iekārtas un speciālistu kompetences). Iekārtām (tehnikai un programmatūrai) ir jāspēj noskenēt dažādus papīra dokumentus (piemēram, žurnāli, avīzes, grāmatas, rokraksti, mašīnraksti) un saglabāt to kopijas mūsdienīgos digitālos formātos (augstas kvalitātes jaunākie TIFF, JPEG2000, PDF formāti). Uzsākot digitalizāciju, dokumenti bieži vien ir sliktā tehniskā stāvoklī, tiem ir jāveic atbilstoši sagatavošanas darbi. Digitālajiem teksta un attēlu objektiem ir jāveic pēcapstrāde (kvalitātes restaurācija, metadatu aprakstīšana, teksta atpazīšana (OCR), segmentācija (OCR ar izdevuma loģisko daļu identificēšanu). Šādus digitalizācijas darbus kvalitatīvi un lielos apjomos spēj paveikt tikai pieredzējušas un atbilstoši apmācītas speciālistu komandas. Svarīgi, lai liela apjoma digitalizācijas darbu veikšanai būtu augsta automatizācijas pakāpe (liels apjoms īsā laika periodā, ātrums, produktivitāte un atbilstošas kvalitātes procedūras) un pieejami lieli datu glabāšanas resursi. Plānojot teksta dokumentu digitalizāciju, nepieciešams definēt, kuriem dokumentiem būs nepieciešama digitālā restaurācija, kas ir dārgāks un ilgāks process, kura laikā jānodrošina oriģinālu nesabojāšana un digitālo objektu teksta un attēla būtiski uzlabojumi. Ņemot vērā, ka liela apjoma digitalizācijas gadījumā digitalizējamo objektu apjomi ir lieli un to pastāvīga uzglabāšana digitalizācijas darba vietā nav vēlama, digitalizāciju ieteicams veikt, sadalot apjomus pa daļām (ceturksnis, mēnesis, nedēļa, diena). Teksta dokumentu digitalizāciju var iedalīt četros būtiskos posmos: plānošana; sagatavošana; digitalizācija un pēcapstrāde, un detalizēts procesa norises darbību apraksts pieejams dokumentā “Digitālā kultūras mantojuma procesu apraksts.”. Tālāk uzskaitīti ieteikumi, kurus vēlams ņemt vērā katrā no minētajiem posmiem: Plānošana
- Tiek definēts digitalizācijas projekta plāns (dokumentu veidi, apjomi, partneri, laiks, budžets).
- Ņemot vērā Kultūras mantojuma digitalizācijas, ilglaicīgas saglabāšanas un pieejamības nodrošināšanas plānus, satura prioritātes un atlases kritērijus, tiek atlasīti digitalizējamie teksta dokumenti (saskaitīti kopējie digitalizējamo objektu apjomi - vienības un lappuses, definētas glabāšanas vietas), tiek izveidoti digitalizācijas saraksti.
- Dokumenti tiek sadalīti loģiskās grupās (dalot, piemēram, pēc satura, izmēriem, sējuma veidiem, drukas veidiem u.tml.).
- Tiek atzīmēti tie dokumenti, kuriem pirms digitalizācijas būs nepieciešama restaurācija vai pēc digitalizācijas segmentācija vai automatizēta tekstu atpazīšana (OCR).
- Tiek apzināti digitalizācijas resursi (tehnikas, telpas, speciālisti).
Sagatavošana
- Pirms teksta dokumentu skenēšanas jāpārliecinās gan par to fizisko stāvokli, gan par to pilnību, respektīvi, vai dokumentam ir visas lappuses, pēc nepieciešamības tiek veikta lapu numerācija.
- Teksta dokumentiem tiek sagatavoti, pārbaudīti un precizēti metadati.
- Teksta dokumenti tiek sagatavoti skenēšanai (notīra putekļus, salabo plīsumus, locījumus, atbrīvo no sējumiem, uzlīmēm), ja nepieciešams, saudzējot oriģinālus, tiem tiek pievienotas speciālas uzlīmes ar norādēm.
- Ja pieejami vairāki teksta dokumenta eksemplāri, jāizvēlas tas, kurš ir fiziski vislabāk saglabājies un kurā nav acīmredzamu defektu.
- Ja uz teksta dokumenta ir uzlīmēts gaismu atstarojošs elements (piemēram, līmlentes gabaliņš), jāizvērtē, vai to ir iespējams noņemt, nesabojājot pašu teksta dokumentu. Gaismu atstarojoši elementi skenēšanas procesā var radīt nevēlamus artefaktus digitālajā objektā.
- Iespieddarbu teksta dokumentu gadījumā ir iespējama digitalizēto lappušu kombinēšana no dažādiem eksemplāriem, iegūstot virtuālu izdevumu, kas ir augstākā kvalitātē nekā katrs individuālais teksta dokumenta eksemplārs.
- Atsevišķiem teksta dokumentiem var būt ļoti ciešs iesējums, dokumenta teksts var būt ļoti tuvu atvērumam, tāpēc ir risks, ka skenēšanas procesā tas tiks optiski kropļots vai pat netiks ieskenēts vispār. Šādos gadījumos jāizvērtē iespēja izjaukt teksta dokumentu un skenēt lappuses individuāli, izvērtējot, vai tas neietekmēs dokumenta autentiskumu. Jāņem vērā, ka parasti nav pieļaujama juridisku (piemēram, notariāli apstiprinātu un iešūtu), kā arī vēsturiski vērtīgu vai unikālu dokumentu izjaukšana.
- Ņemot vērā, ka daļa no teksta dokumentiem varbūt sliktā tehniskā stāvoklī (plēsumi, plankumi, netīrumi, izbalējusi druka un caurredzama druka no lapas otras puses), tiem sākumā iespēju robežās nepieciešams veikt restaurāciju.
- Trauslu, vairāku lappušu teksta dokumentu (piemēram, avīžu) gadījumā var būt nepieciešama to iepriekšēja konservācija, novēršot lappušu mehāniskus bojājumus, lai skenēšanas gaitā, pāršķirot lapas, tās netiktu nejauši pārplēstas.
- Ja teksta dokumentā ir atšķirīga izmēra ielikumi, tad jāizvērtē iespēja tos izņemt no iesējuma un skenēt atsevišķi no pārējā dokumenta. Ja ielikums izmēru ziņā ir mazāks par pamatdokumentu, tad pirms skenēšanas aiz tā novieto baltu lapu, lai iegūtajā attēlā aiz ielikuma attēla nebūtu redzams fona lapas saturs.
- Ja paredzēts digitalizēto teksta dokumentu tālāk apstrādāt, piemēram, ar teksta atpazīšanas programmatūru, tad jau dokumenta priekšapstrādes laikā ir svarīgi atzīmēt svarīgākos parametrus par dokumenta saturu: tekstā sastopamo druku, valodu, lappuses formātu u.c.
- Ja no lielāka teksta dokumenta (piemēram, grāmatas) paredzēts digitalizēt tikai fragmentu, tad jāizvērtē iespēja tomēr skenēt visu dokumentu, jo pēc tā nodošanas krātuvē vai atdošanas īpašniekam var būt ierobežotas iespējas to digitalizēt atkārtoti. Turklāt, skenējot teksta dokumentu tikai vienreiz, tas netiks atkārtoti pakļauts ārējas gaismas iedarbībai, un tādējādi tiks saudzēts oriģināls.
- Dokumentu transportēšanai jāizvēlas atbilstoša izmēra un stiprības transportēšanas kastes. Dokumentu kastēm nepieciešams uzlīmēt identifikācijas uzlīmes. Ja dokumenti ir mapēs, tad arī mapēm ir nepieciešamas identifikācijas uzlīmes atbilstoši transportēšanas un nodevumu pavaddokumentiem.
- Par teksta dokumentu oriģināliem atbildīgā institūcija veic visus sagatavošanas darbus, materiāli tiek sapakoti loģistikai nepieciešamajos formātos (kastes, mapes) un tiek nosūtīti uz digitalizācijas vietu un telpu.
Digitalizācija
- Digitalizācijai saņemtie teksta dokumenti tiek sagatavoti skenēšanai (atbrīvo no sējumiem, uzlīmēm, pārbauda, vai ir pieejami metadati un identifikatori, pārbauda atbilstību sūtījumu dokumentācijai).
- Tiek sagatavotas skenēšanas iekārtas (kalibrēšana, krāsas, apgaismojums, datorprogrammas uzstādījumi atbilstoši datņu kvalitātes parametriem).
- Teksta dokumenti tiek skenēti un novietoti atpakaļ pareizās transportēšanas kastēs atbilstoši transportēšanas un nodevumu pavaddokumentiem.
- Teksta dokumentus digitalizē, skenējot katru lappusi atsevišķi un iegūstot vienu attēla arhīvdatni katrai teksta dokumenta lappusei. Individuālu lappušu līmenī uz teksta dokumentu skenēšanu var attiecināt principus, ko lieto attēlu skenēšanai.
- Ja paredzēts skenēt vienotu teksta dokumentu un ir pieejami vairāki skeneri, tad vēlams visu teksta dokumenta kopumu skenēt uz vienas iekārtas, jo var atšķirties dažādu skeneru radītais digitālais attēls, kā rezultātā teksta dokumentiem var iegūt dažāda spilgtuma, krāsu gammas vai kontrasta attēlus, kas oriģinālā izskatās vienādi. Ja tomēr nepieciešams veikt skenēšanu uz vairākiem skeneriem, tad vajadzētu izvairīties no dažādiem automātiskiem skeneru uzstādījumiem (piemēram, automātiska kontrasta), kas dažādām iekārtām var tikt interpretēti atšķirīgi.
- Ja to pieļauj tehnika un konkrētais digitalizējamais teksta dokuments, var izvēlēties skenēt visu atvērumu uzreiz un pēc tam grafiskās apstrādes programmatūrās to sadalīt divās atsevišķu lappušu arhīvdatnēs. Šāda pieeja var ietaupīt skenēšanai patērēto laiku.
- Ja kādā atvērumā attēli, tabulas vai teksti izvietoti pāri atvēruma viduslīnijai, tad šādas datnes divās individuālu lappušu datnēs nedala, bet atstāj vienu – pilna atvēruma arhīvdatni.
- Jāņem vērā, ka pilna atvēruma skenēšanu nenodrošina grāmatu skenēšanas roboti. Ja atvērumu tomēr nepieciešams ieskenēt pilnībā, konkrētās lapas jāskenē uz cita tipa skenera.
- Parasti teksta dokumentiem tiek skenētas visas lappuses, ievākotu dokumentu gadījumā – arī vāki, taču teksta dokumentos var būt sastopamas arī neapdrukātas (tukšas) lapas, kuras var arī neskenēt, nezaudējot lietderīgu informāciju.
| Tukšās lappuses veids | Skenē / Neskenē |
|---|---|
| Grāmatas priekšlapas | Skenē |
| Ilustrāciju otras puses | Skenē |
| Secīgas tukšās lappuses jebkur teksta dokumentā | Skenē, ja tukšo lappušu skaits nepārsniedz 3 |
| Tukšās lappuses, ja teksts drukāts no vienas puses | Neskenē |
| Ja lappuses ir numurētas un ir tukšas lappuses | Var ielikt zīmes par tukšo lappušu numuriem |
- Dažos teksta dokumentos starp pamatlapām tiek ievietotas caurspīdīgas starplapas. Šīs starplapas neskenē. Ilustrācijas aiz tām skenē, nenovietojot tām priekšā caurspīdīgo starplapu. Starplapas nepieciešams skenēt vien tādā gadījumā, ja tās ir īpaši mākslinieciski noformētas (piemēram, satur kādu ornamentu vai reljefu iespiedumu). Starplapu skenē, zem tās novietojot baltu lapu.
- Retos gadījumos teksta dokumentiem lappuses var būt numurētas vai iesietas nepareizā secībā. Veidojot arhīvdatnes, šo nekorekto lappušu secību saglabā. Veidojot lietotājdatnes, izšķir divus gadījumus:
1) nepareiza ir tikai lappušu numerācija, kamēr pats dokumenta saturs ir loģiski secīgs. Šajā gadījumā arī lietotājdatnēs saglabā to lappušu secību, kāda ir bijusi fiziski iesietajā teksta dokumentā; 2) nepareiza ir lappušu secība pēc būtības. Šajā gadījumā, veidojot lietotājdatni, lappuses pārkārto tā, lai korekta un loģiska būtu dokumenta satura secība. Šādas korekcijas vēlams atzīmēt metadatos.
- Ja teksta dokumentā dažādās lapās ir dažāda satura orientācija, piemēram, vienā lappusē teksts drukāts horizontāli, bet nākamajā – vertikāli, tad var rīkoties dažādi, atkarībā no plānotā vēlākās lietotājdatnes formāta:
1) ja paredzēts veidot vienu lietotājdatni no visām individuālu lappušu arhīvdatnēm, tad saglabā to lappušu orientāciju, kāda tā ir bijusi oriģinālajā fiziskajā iesējumā; 2) ja paredzēts veidot lietotājdatni katrai lappusei atsevišķi, tad var veikt arhīvdatņu “digitālu iztaisnošanu” tā, lai tās saturs būtu orientēts pareizā, lasīšanai paredzētā virzienā.
- Skenējot dokumentus, ir jāievēro Digitālo objektu datņu tehniskie parametri. (https://lnb.lv/sites/default/files/media/bibliotekariem/Digitalizacijas_vadlinijas_A_pielikums_datnu_tehniskie_formati_v1.1_280518.xlsx) specificētie tehniskie kvalitātes parametri. Svarīgi ņemt vērā, ka maza formāta teksta dokumentiem ar normāla izmēra burtiem un attēliem izšķirtspēja var būt mazāka, bet liela izmēra teksta dokumentiem ar maziem burtiem un attēliem izšķirtspējai jābūt lielākai.
- Ja liela formāta teksta dokumentu digitalizācijā radītu datu apjoma ekonomijas dēļ jāpieņem lēmums par kāda digitalizēšanas parametra samazināšanu, tad daudz būtiskāka par datnes formātu var izrādīties krāsu informācijas saglabāšana, tāpēc jāizskata iespēja nevis mainīt krāsu skalu no RGB uz Greyscale, bet gan TIFF formātu uz JPEG2000 (bez kompresijas).
- Teksta dokumentus ieteicams skenēt krāsainus (RGB) pat tad, ja tie ir acīmredzami melnbalti. Skenējot dokumentu krāsaini, digitalizētajā datnē tiek saglabāts “pierādījums”, ka oriģināls tik tiešām ir bijis melnbalts, nevis tāds kļuvis digitalizēšanas rezultātā.
- Ja teksta dokumentam eksistē pielikumi, tad atkarībā no situācijas pielikumus var uzskatīt gan par daļu no pamatdokumenta, gan arī par patstāvīgiem teksta dokumentiem. Lēmumu par to, vai dokumentus apvienot vai veidot neatkarīgus, pieņem katrā konkrētajā gadījumā atsevišķi. Viens no principiem, kurš jāievēro, ir šāds: ja pielikumā turpinās pamatdokumenta lappušu numerācija, tad pielikumu uzskata par daļu no pamatdokumenta.
- Ja teksta dokuments ir vizuāli vai mākslinieciski vērtīgs kā fizisks, telpisks objekts, tad jāizskata iespēja to fotografēt dažādos rakursos, arī kā 3-dimensiju objektu.
- Ja teksta dokuments ir bojāts tādā pakāpē, ka nav iespējama tā restaurācija, tad šāds dokuments tiek īpaši atzīmēts un atdots institūcijai vai arī tiek skenēti tikai tā fragmenti, liekot īpašas atzīmes.
- Uzsākot liela apjoma teksta dokumentu digitalizāciju, ieteicams sākumā izveidot parauga (demo) arhīvdatnes un lietotājdatnes, kuras tiek saskaņotas ar Pasūtītājiem, lai saņemtu apstiprinājumu, ka digitālie objekti kvalitātes un metadatu jomā atbilst definētājiem standartiem.
- Skenējot teksta dokumentus, ieteicams lietot tīrus, baltus kokvilnas cimdus.
Pēcapstrāde Pēc tam, kad teksta dokumenti ir ieskenēti, var veikt šādus apstrādes darbus:
- Izveidot arhīvdatnes un lietotājdatnes, neveicot manuālu digitālo objektu apstrādi;
- Manuāli uzlabot digitālā attēla kvalitāti un izveidot atvasinātas arhīvdatnes un lietotājdatnes;
- Veikt teksta dokumentu segmentēšanu (vienas lappuses tekstu un attēlu sadalīšana loģiskās daļās);
- Veikt tekstu automatizētu atpazīšana (OCR);
- Izveidot vai papildināt aprakstošos metadatus, izveidot administratīvos un tehniskos metadatus.
- Datnes tiek nogādātās uz ilglaicīgas saglabāšanas un izplatīšanas IKT sistēmām.
Tekstu atpazīšana (OCR) Ja institūcijas rīcībā vai ārpakalpojumos ir paredzēts izmantot tekstu atpazīšanas programmatūras (OCR), tad jāņem vērā šādi ieteikumi:
- Teksta atpazīšana ir iespējama tikai drukātos un mašīnraksta teksta dokumentos un nav universāla, efektīva risinājuma rokrakstu atpazīšanai. Lai arī teksta atpazīšanas programmatūras teorētiski var “apmācīt” arī rokrakstu atpazīšanai, praksē tas varētu būt efektīvi tikai ļoti lieliem viena rokraksta krājumiem. Ja nepieciešams rokrakstu pārvērst elektroniskā tekstā, var izrādīties, ka ātrākais veids, kā to izdarīt, ir pārrakstīt tekstu manuāli.
- Viena no populārākajām teksta atpazīšanas programmatūrām ir ABBYY Finereader, kura atbalsta gan latīņu, gan latviešu, gan kirilicas burtu atpazīšanu. Īpašas ABBYY Finereader versijas atbalsta arī vecās drukas tekstu atpazīšanu. ABBYY Finereader ir komerciāls produkts, taču eksistē arī brīvpieejas teksta atpazīšanas programmatūras, starp kurām viena no populārākajām ir Google uzturētais Tesseract dzinis. Pieejams tiešsaistē: https://code.google.com/p/tesseract-ocr/.
- Veicot teksta atpazīšanu, svarīgs rezultāta kvalitātes kritērijs ir korekti atpazīto simbolu apjoms pret visu apstrādāto simbolu apjomu. Dažādu valodu un druku tekstiem sagaidāmā kvalitāte var būtiski atšķirties.
| Teksta veids | Pareizi atpazītie simboli |
|---|---|
| Jaunās drukas (antīkvas) burtiem rakstīts teksts no labā kvalitātē (400 dpi) skenēta attēla. | 99-100% |
| Vecās drukas (fraktūras) burtiem rakstīts teksts no labā kvalitātē (400 dpi) skenēta attēla. | 90-95% |
| Mašīndrukā rakstīts, neizbalējis teksts | 95-99% |
| Mašīndrukā rakstīts, izbalējis teksts vai mazs kontrasts | <90% |
Digitalizācijas projektos būtu nepieciešams tiekties uz 80% pareizi atpazītu vārdu apjomu, lai uzskatītu, ka OCR ir veikts labā kvalitātē.
- Teksta atpazīšanas kvalitāti var mērīt gan pareizi atpazīto simbolu, gan pareizi atpazīto vārdu apjomos, kur vārds tiek uzskatīts par pareizi atpazītu, ja pareizi atpazīti ir visi tā simboli. Jāņem vērā, ka šie divi parametri vienam un tam pašam tekstam var būtiski atšķirties, un relatīvi augsts pareizi atpazīto simbolu skaits vēl negarantē arī augstu pareizi atpazīto vārdu apjomu.
- Kad tiek veikta arī satura izkārtojuma jeb teksta dokumenta loģisko elementu atpazīšana (OLR), var izskatīt iespēju manuāli salabot atsevišķus svarīgākos teksta elementus, tādējādi nodrošinot tajos augstāku atslēgvārdu meklēšanas precizitāti. Ir rekomendējams veikt manuālu teksta atpazīšanas kļūdu labošanu šādos teksta dokumentu loģiskajos elementos: virsrakstos, attēlu parakstos, tabulu nosaukumos, autora laukos.
- Ja nav iespējams pilnībā salabot minētos elementus (piemēram, nepietiekamu cilvēkresursu dēļ), tad ir rekomendējams izlabot vismaz tajos minētos īpašvārdus: personu vārdus, organizāciju nosaukumus, vietu nosaukumus u.tml.
- Teksta atpazīšanas programmatūras dažreiz dod iespēju izmantot vārdnīcas, lai uzlabotu atpazītā teksta kvalitāti, taču vispārīgā gadījumā tas nav rekomendējami, jo šādā veidā var tikt pazaudēta informācija par oriģinālā pieļautajām pārrakstīšanās kļūdām un tiktu mākslīgi “atjaunināta” novecojusī vārdu rakstības ortogrāfija.
Tehnoloģiskās un kompetenču vadlīnijas
Ievērojot straujo tehnoloģiju progresu, digitalizācijas tehnoloģijas nemitīgi papildinās, un rodas arvien jauni IT risinājumi. Tādēļ digitalizācijas procesā ir jāseko jaunākajām tendencēm un iespējām ar mērķi izmantot modernākās pieejamās tehnoloģijas. Aktuālie un aprobētie tehnoloģiskie risinājumi ir pieejami FADGI Technical Guidelines for Digitizing Cultural Heritage Materials ([3]). Digitalizācijā ieteicams izmantot pieejamākos un modernākos skenerus. Izmantojamā tehnika nedrīkst nodarīt bojājumus digitalizējamiem objektiem. Digitalizācijas iekārtas jāizvēlas atbilstoši digitalizējamo dokumentu īpašībām (formāts, izmērs, biezums, iesējumi utt.) un plānotajai digitalizācijas automatizācijas pakāpei. Digitalizācijā var izmantot vairākas tehnoloģiskās metodes:
- a) secīgi skenējot lappuses (ar roku vai robotizēti),
- b) skenējot katru lappusi individuāli (digitālā fotofiksēšana).
Izvēloties konkrēto skenera veidu, var ievērot šādus principus:
| Teksta dokumenta tips un digitalizācijas īpašības | Rekomendētais skenera tips |
|---|---|
| Periodika Dokumentu nevar/nedrīkst izjaukt pa individuālām lapām, bet tas ir relatīvi plāns (piemēram, avīzes numurs). Sākot no A4, A3, A2, A1, A0. | Plakanvirsmas skeneris |
| Periodika Pieļaujama dokumenta izjaukšana pa individuālām lapām. | Plakanvirsmas skeneris Ātrgaitas skeneris Ruļļu skeneris |
| Grāmatas Neliela formāta (A4 un mazāk) biezi iesējumi (piemēram, grāmatas) bez fiziskām deformācijām. | Grāmatu robots |
| Grāmatas Neliela formāta (A4 un mazāk) biezi iesējumi ar fiziskām deformācijām. | Plakanvirsmas skeneris Digitālās fotokameras |
| Manuskripti (izklaidus) Dokumenti (izklaidus vai pieļaujama dokumenta izjaukšana pa individuālām lapām) | Plakanvirsmas skeneri Digitālās fotokameras Ātrgaitas skeneris |
| Nošu izdevumi | Plakanvirsmas skeneris |
| Iešūti dokumenti Liela formāta (A3 un vairāk) biezi iesējumi, kuri nepārsniedz skenera izmērus. | Skeneris ar regulējamu “grāmatu šūpuli” Digitālās fotokameras uz statīva ar regulējamu “grāmatu šūpuli” |
| Lieli un biezi iesējumi (grāmatas, periodika) | Digitālās fotokameras uz statīva ar regulējamu “grāmatu šūpuli Skeneris ar regulējamu “grāmatu šūpuli” |
| Kartotēkas (nelielie, izklaidu dokumenti) līdz A4 | Plakanvirsmas skeneri Ātrgaitas skeneris |
Skeneri jāizvēlas atbilstoši digitalizējamo teksta dokumentu formātam, pēc iespējas jāizvairās no dokumenta atsevišķu fragmentu skenēšanas, lai tos vēlāk digitāli savietotu. Skenerus ar grāmatu turētāju (šūpolēm) izmanto iesietiem teksta dokumentiem, kas nepārsniedz skenera izmēra parametrus. Šūpolēm jābūt regulējamām atbilstoši iesējuma biezumam. Lielformāta skeneru komplektācijā bieži vien ietilpst stikla plātnes, kas paredzētas atvērumu lapu piespiešanai un izlīdzināšanai ar mērķi iegūt kvalitatīvāku skenējumu. Taču jāņem vērā, ka, pielietojot fizisku slodzi uz ļoti ciešiem iesējumiem, var tikt bojāts teksta dokumenta oriģināls. Lai arī eksistē populārs pieņēmums, ka retus un vērtīgus teksta dokumentus nevajadzētu skenēt ar grāmatu robotu, patiesībā grāmatu robots ir saudzīgāks par plakanvirsmas skeneriem, jo tajos teksta dokumentu nav nepieciešams atvērt par 180 grādiem, un tādējādi digitalizēšanas procesā ir daudz mazāka slodze uz teksta dokumenta iesējumu. Ir pieejami arī specializēti skeneri, kuros izmanto spoguļus, un tad ir iespējams skenēt ar atvērumu <90 grādiem. Digitālo objektu apstrādei nepieciešama jaudīga un moderna profesionāla grafiskās apstrādes datortehnika. Īpaša uzmanība jāpievērš monitoriem un to tehniskajiem parametriem, piemēram, krāsu izšķirtspējai, krāsu telpai, skatu leņķiem, spilgtumam, krāsu temperatūrai, krāsu līdzsvariem. Skenēšanas iekārtas ir nepieciešams periodiski kalibrēt (reizi dienā vai reizi nedēļā). Svarīgi, lai iekārtām un programmatūrām būtu nodrošināts ražotāju atbalsts programmatūras atjauninājumu un ražotāja palīdzības dienesta atbalsta saņemšanai. Ja digitalizāciju institūcijā ir paredzēts veikt ilgstošā laika periodā, ir svarīgi izveidot pastāvīgas vairākas digitalizācijas darba vietas. Teksta dokumentu digitalizācijas darbu veikšanai nepieciešama projekta komanda ar pieredzi un zināšanām darbā ar specifiskām skenēšanas iekārtām, programmatūru un līdzīgu papīra un tekstu dokumentu digitalizāciju. Vēlamais teksta dokumentu digitalizācijas projekta komandas lomu sadalījums:
- Projekta vadītājs;
- Skenēšanas procesa vadītājs;
- Segmentēšanas, OCR procesa vadītājs;
- Kvalitātes procesa vadītājs;
- Skenēšanas operatori;
- Metadatu apstrādes operatori (gadījumos, ja digitalizācijas projektā tiek veidoti jauni metadati vai papildināti esošie).
Projekta komandā katram speciālistam jāpārvalda latviešu valoda vismaz C līmeņa 1. pakāpē, pretējā gadījumā digitalizācijas izpildes gaitā jānodrošina tulks. Projekta komandas sastāvs atkarīgs no digitalizējamo objektu apjoma, digitalizācijas iekārtu skaita un to tehniskās kapacitātes (skenēšanas ātrums un jauda, piemēram, lapas minūtē), speciālistu darba slodzes un grafika, digitalizācijas telpu pieejamības.
Digitālo objektu formāti un metadati
Veidojot teksta dokumentu digitālos objektus, jāņem vērā, ka oriģināli jeb digitalizējamie objekti ir dažādās kvalitātēs, piemēram:
- tīrs, kontrastains dokuments ar iespiestu tekstu (mašīnraksts, iespieddruka, lāzerdruka);
- vāji salasāms dokuments vai dokuments ar izplūdušiem simboliem (elektrografiskās kopijas, termopapīrs, rokraksti); dokuments ar pustoņu ilustrācijām, fotogrāfijām, ar roku rakstītām piezīmēm, zemu vispārējo kontrastu, rakstīts ar zīmuļiem, kuru raksts vāji salasāms, izplūdusi tinte;
- dokuments, kas paredzēts pelēkskalas skenēšanai, un/vai gadījumi, kad satura interpretācijai svarīga ir krāsa. Atbilstoši oriģināla kvalitātes līmenim ir jādefinē digitālā objekta tehniskās kvalitātes līmenis.
Vēlamos teksta dokumentu digitālo objektu arhīvdatnes un lietotājdatnes tehniskos kvalitātes parametrus skatīt Technical Guidelines for Digitizing Cultural Heritage Materials ([3]) . Veidojot digitalizētu teksta dokumentu lietotājdatnes, parasti visas individuālu lappušu arhīvdatnes tiek apvienotas vienā, kopējā teksta dokumenta datnē. Ir četri galvenie scenāriji teksta dokumentu lietotājdatņu veidošanai, kas atšķiras pēc to tālākas izmantošanas iespējām un potenciālās funkcionalitātes, ko būs iespējams nodrošināt digitalizēto dokumentu pārlūkošanas rīkā:
| Scenārijs | Funkcionalitāte |
|---|---|
| Katram lappuses attēlam tiek veidota atsevišķa lietotājdatne. | Pārlūkošana teksta dokumentu un lappušu līmenī. |
| No lappušu attēliem kombinēta teksta dokumenta lietotājdatne. | Pārlūkošana teksta dokumentu līmenī. |
| No lappušu attēliem kombinēta teksta dokumenta lietotājdatne ar automātiski atpazītu tekstu (OCR). | Atslēgvārdu meklēšana pilnā teksta dokumenta tekstā. Meklēšanas rezultāti – teksta dokumenta līmenī. |
| No lappušu attēliem kombinēta teksta dokumenta lietotājdatne ar automātiski atpazītu tekstu (OCR) un automātiski atpazītu izkārtojumu (OLR). | Atslēgvārdu meklēšana pilnā teksta dokumenta tekstā. Meklēšanas rezultāti – teksta dokumenta loģisko elementu līmenī (piemēram: rakstu, nodaļu, virsrakstu, u.tml.). Atslēgvārdu meklēšana noteiktos teksta dokumenta loģiskajos elementos: virsrakstos, attēlu parakstos, pamattekstā u. tml. |
Ilgtermiņa saglabāšanai nepieciešams izmantot PDF/A formātu, kurā atšķirībā no standarta PDF tiek saglabāta visa dokumenta renderēšanai nepieciešamā informācija, padarot dokumentu pilnībā autonomu. Piemēram, PDF/A formāta dokuments tiks pareizi attēlots pat tad, ja uz konkrētā datora nebūs pieejami dokumentā izmantotie fonti. Atsevišķos gadījumos, saskaņojot ar digitalizācijas Pasūtītāju lietotājdatnēm var izmantot ūdenszīmes, bet tās nedrīkst traucēt tekstu atpazīšanai vai arī digitālo objektu publiskai izplatīšanai. Digitalizācijas darbu veicējam ir jāsagatavo digitālā objekta metadati mašīnlasāmā formātā. Metadatu datnes nosaukumu izvēlas atbilstoši attiecīgā digitalizētā materiāla datnes nosaukumam, saglabājot to kā elektronisku dokumentu. Metadatu struktūra ir jāveido, ievērojot Dublin Core, EDM un EAD standartu rekomendācijas, kā arī definējot papildu apraksta laukus, lai nodrošinātu ērtāku meklēšanu potenciālajiem publisko izplatīšanas platformu lietotājiem. Teksta dokumentu digitālo objektu vēlamās metadatu struktūras skatīt https://dom.lndb.lv/data/type/text.html. Metadatu datne jāveido, lai nodrošinātu datu automātisku importu Digitālo objektu arhīvu un pārvaldības sistēmās (piemēram LNB DOM). Datnei jāsatur informācija par konkrētā digitālā objekta metadatiem un par visām objektam atbilstošajām arhīvdatnēm un lietotājdatnēm. Ja ir plānots metadatus automātiski importēt LNB DOM, tad datnēm jāvalidējas pret attiecīgo formātu LNB DOM.
Datņu un mapju nosaukumu veidošanas vadlīnijas
Veidojot teksta dokumentu digitālo objektu datņu nosaukumus, vēlams izmantot tālāk uzskaitītās norādes:
- Iestādes apzīmējums. Ja dažādi digitalizētāji skenē vienu un to pašu dokumentu un pēc tam šie dati tiek apvienoti, tad pie pārējo datņu nosaukuma elementu sakritības var notikt nejauša digitalizēto dokumentu pazušana. Iestādes nosaukums var būt ar pilniem vārdiem (“madonas_novadpetniecibas_muzejs”), saīsināts (“mnm”) vai ar skaitlisku apzīmējumu (“017”).
- Izdevuma formāta apzīmējums. Parasti viens burts “t” – teksta dokuments; “p” – periodiskais izdevums; “g” – grāmata vai kāds cits pēc izvēles, taču ar nosacījumu, ka tas tiek lietots konsekventi.
- Teksta dokumenta identifikators. Grāmatām tāds identifikators varētu būt ISBN kods, inventāra numurs vai svītru kods. Periodiskajiem izdevumiem: ISSN numurs vai izdevuma nosaukums, iespējams saīsināts, kombinācijā ar izdošanas gadu un datumu (vai arī numuru). Arhīva dokumentiem uzziņu kods u.tml.
- Lappuses numurs. Veicot teksta dokumenta digitalizāciju un nosaucot tā individuālu lappušu datnes, nosaukumam pievieno lappuses numura apzīmējumu. Lappuses numura apzīmējumā ieteicams lietot vienu vai vairākas “0” skaitļa apzīmējuma sākumā, lai datnes tiktu kārtotas pareizā secībā, piemēram, “004” – 4. lappuse.
- Datnes tehniskais formāts. Datnes nosaukuma paplašinājums ir rakstzīmju kopa, kas pievienota datnes nosaukuma beigās un nosaka, ar kādu programmatūru datne var tikt atvērta. Pēc noklusējuma daudzas programmatūras paslēpj datnes nosaukumu paplašinājumus. Tomēr ir iespējams padarīt datnes nosaukumā paplašinājumus redzamus.
- Ja, digitalizējot konkrētu teksta dokumentu, tiek kombinētas individuālas lapas no dažādu iestāžu krājumā esošiem dokumentiem, tad datnes pozīcijā, kurā minēta organizācija, no kuras dokuments ņemts, tomēr parasti visam dokumentam lieto vienas konkrētas iestādes apzīmējumu. Parasti lieto tās organizācijas apzīmējumu, no kuras nāk lielākā digitalizēto datņu daļa. Tas tiek darīts gan tāpēc, lai, nosaucot datnes, datņu operatoram nebūtu īpaši jāpievērš uzmanība katram datnes nosaukumam individuāli, gan arī tāpēc, lai datnes mapes ietvaros tiktu sakārtotas pareizā secībā.
- Ja vienā datnē tiek ieskenēts viss teksta dokumenta atvērums jeb divas lappuses, tad arī datnes nosaukumā var iekļaut abus lappušu numurus. Piemērs: p_003_dien1991n017_002-003.tif – laikraksta atvērums skenēts vienā datnē ,un tajā iekļautas 2. un 3. lappuses.
- Ja teksta dokumentā ir ielikums, kas nav iekļauts kopējā numerācijā (piemēram, atrodas starp dokumenta 17. un 18. lappusi), tad, nosaucot šādu datni, izmanto to lappuses datnes nosaukumu, kas ir tieši pirms ielikuma, pievienojot tam beigās burtus “a”, “b”, “c” utt., ja šādi ielikumi ir vairāki pēc kārtas. Piemēram: g_lnb_0910300131_017a.tif – grāmatai pēc 17. lappuses sekojoša ielikuma datnes nosaukums.
- Veicot vairāklappušu teksta dokumentu skenēšanu, ne vienmēr ir iespējams precīzi ievērot oriģinālā dokumenta lappušu numurus arī datnes nosaukumā. Piemēram, dokumentam trūkst lappuses, lappušu numerācija ir nepareiza jau pašā oriģinālā, dokumentā ir nenumurētas tukšas lappuses u.tml. Šādā situācijā par pilnīgi pieņemamu ir uzskatāma skenēšanas secības numerācijas iekļaušana datnes nosaukumā, kas var arī nesakrist ar teksta dokumenta lappušu numerāciju.
- Ieteicamie datņu nosaukumu piemēri:
- lnb_g_0910300131_001.tif – Latvijas Nacionālās bibliotēkas grāmata ar svītru kodu “0910300131” 1. lappuse;
- p_003_dien1991n017_003.tif – laikraksta “Diena” 1991. gada 17. numura 3. lappuses arhīvdatne, kurai atbilstošais oriģināls glabājas organizācijā ar apzīmējumu “003”;
LVVA_F1307_US1_GV2_071.tif, kur LVVA – struktūrvienība, F1307 – fonds, US1 – uzskaites saraksts, GV2 – glabājamā vienība, 071 – Kopiju datnes kārtas numurs GV.
- Tā kā teksta dokumenti parasti sastāv no vairākām lappusēm un digitalizācijas rezultātā rodas vairākas datnes, tad tās jāgrupē un visas jāsaglabā vienā atsevišķā mapē.
Veidojot teksta dokumentu digitālo objektu mapju nosaukumus, vēlams ievērot turpmāk rakstīto. Lielām kolekcijām jāveido hierarhiska mapju struktūra. Mapju struktūru lielām kolekcijām var veidot, dalot visas datnes pa mapēm pēc šādiem principiem:
- pēc iestādes koda, kurā teksta dokuments digitalizēts. Piemēram, lnb, lna, akad_bibl;
- pēc digitālā objekta koda, piemēram, g-grāmatas, p-periodika;
- pēc lpp. skaita. Digitālo objektu datņu un lappušu skaits konkrētā mapē;
- pēc citiem identifikatoriem, piemēram, pēc digitalizācijas gada, piemēram: 2012, 2013, 2014, pēc satura kolekciju nosaukumiem. Piemēram, Rainis_Aspazija_001;
- pēc sūtījumu Nr. Ja teksta dokumenti tiek digitalizēti lielākās porcijās jeb nodevumos, tad šo porciju Nr. var izmantot mapju nosaukumu struktūrā.
Mapēs jāveido šāds datņu komplekts:
- visas objekta arhīvdatnes – katrai lappusei būs viena arhīvdatne;
- atbilstošās lietotājdatnes – katrai lappusei vai visam dokumentam;
- metadatu datne.
Kvalitātes kontroles pasākumi
Teksta dokumentu digitalizācijas kvalitātes kontrolei ieteicams izmantot šādus kritērijus:
| Digitalizācijas posms | Kvalitātes aktivitāte | Periodiskums | Atbildība |
|---|---|---|---|
| 1. Plānošana | Vai digitalizācijas objektu saraksti atbilst kritērijiem un budžetam? | Uzsākot projektu | Digitalizācijas projekta vadītājs |
| 2.Sagatavošana | 1.Teksta dokumenti (digitalizējamie objekti) ir apstrādāti un piegādāti digitalizācijai. | Uzsākot digitalizāciju | Digitalizējamo materiālu sagatavotāji |
| 3.Digitalizācija | 1.Tekstu kvalitāte atbilst definētajai. 2.Pilnīgums (visas lappuses ieskanētas, katra lappuse redzama datnē, teksti un attēli ir pareizi novietoti utt.). 3.Datņu un mapju nosaukumi ir pareizi. 4.Datņu formāti atbilst definētajiem, datnes ir iespējams atvērt. 5.Metadati ir precīzi. | Izlases kārtībā | Digitalizācijas veicējs un digitalizācijas Pasūtītājs |
| 4.Pēcapstrāde | 1.Ja ir veikta digitālā objekta apstrāde, tad atbilst noteiktajiem tehniskajiem parametriem. 2. Ja ir veiktas OCR funkcijas, tad >90% teksti ir atpazīti. 3.Datu nesējs ir lietojams, datnes ir iespējams kopēt. | Izlases kārtībā | Digitalizācijas veicējs un digitalizācijas Pasūtītājs |
Ja digitalizētajos teksta dokumentos (digitālajos objektos) tiek konstatētas kvalitātes neatbilstības, tad teksta dokumentiem jāveic atkārtota skenēšana, metadatu apstrāde un/vai automatizēta tekstu atpazīšana. Digitalizācijas projekta vadītājam ir jāsagatavo katra digitalizējamā objekta digitalizēšanas uzdevumu izpildes protokols, kurā katrs iesaistītais speciālists veiks atzīmi par paveikto darbu, tādējādi nodrošinot secīgu visu nepieciešamo darbu izpildi un uzraudzību visos darbu izpildes posmos.