Bücher scannen

...mit dem Buchscanner der Bib.

Ein kurzes Runterschreib zum Bücher scannen!

Ich wollte neulich ein Buch scannen, ohne jegliches Vorwissen.

Mein erster Gedanke war: Handyfotos, Pythonscript um die Kanten zu erkennen, Tesseract zur Texterkennung der fertigen pdf.
Mein zweiter Gedanke war: da wirst du ja blöd bei. Ausserdem machst du das eh nie.

Also hab ich eine Nacht drüber geschlafen - und dann mal gegoogelt, und festgestellt dass die Zentralbibliothek hier einen Buchscanner hat.

Buchscanner (Bibliotheken sind dein Freund!)

Ich bin dann also an einem Wochenende zwischen zwei Terminen mal hin, und hab mir das Teil angeschaut.

Was man dort findet, ist in dem Fall ein Windows im Kioskmodus, auf dem ein seltsam zu bedienendes Scanprogramm läuft.

Ich hab dann ein bisschen rumgedrückt (das Ding hat einen Touchscreen) und geschaut was man so alles haben möchte. Im ersten Anlauf wollte ich: doppelseitig scannen, alles in schwarzweiß (keine Graustufen - das Buch war tatsächlich nur schwarz oder weiß gedruckt), und multipage Pdf. Ich will ja schließlich einfach ein großes Pdf.

…denkste.
Nach 30 Doppelseiten oderso stürzt das Programm ab. Ich nehme an, da war einfach der Arbeitsspeicher voll, es hat nämlich nie auf meinen mitgebrachten USB Stick zwischengespeichert.

Da die Kiste im Kioskmodus läuft, konnte ich auch nix weiter machen, das Programm war halt einfach tot. Ich hatte aber eh schon keine Zeit mehr, hab also nur noch an der Information Bescheid gesagt dass ichs kaputt gespielt hab, und bin wieder nachhause gefahren.

Zweiter Anlauf (und die Einstellungen die man tatsächlich machen will)

Ein paar Tage später war ich nochmal da, und es lief alles wieder.

Ums kurz zu machen:

  • bringt einen FAT formatierten USB Stick mit (die sind normalerweise schon so vorformatiert, wenn ihr die kauft)
  • doppelseitige Pdf, geteilt in der Mitte (die Einstellung heißt irgendwas mit Falz, glaube ich)
  • schwarzweiß, keine Graustufen - aber das hängt vom Buch ab, das gescannt werden soll
  • KEIN Multipage! Für ein 600-Seiten-Buch wollt ihr 300 pdfs mit jeweils 2 Seiten!
  • OCR (Optical Character Recognition, Texterkennung) - ist nice to have. Dann könnt ihr nachher bequem in der Pdf suchen.

Wenn ihr das alles eingestellt habt, ist es nurnoch Fleißarbeit.
Ihr blättert also ein paar hundert mal um, und geht mit genau so vielen Dateien nachhause.

Ich hab noch den Fehler gemacht, “schlechte” Scans nicht sofort zu löschen. Manchmal funktioniert die Kantenerkennung nicht richtig, und man hat einen zu großen Ausschnitt fotografiert. In dem Fall hab ich noch einen Scan gemacht, und die überflüssigen durfte ich dann Zuhause raussuchen und löschen.

Pdfs zusammensetzen

Der letzte Punkt ist easy1. Wir müssen unsere Doppelseiten zu einer einzigen Pdf machen.

Ich hab dafür pdfunite genutzt. Das Programm ist für die Linux cli, aber wenn du hier angekommen bist und bis hierher gelesen hast ist das wahrscheinlich sowieso das was du willst.
Wenn nicht, gibts bestimmt auch schöne grafische Tools für andere Betriebssysteme.2

Mit pdfunite jedenfalls, in das Verzeichnis mit den Pdfs navigiert, ist es einfach ein

pdfunite * ../output.pdf

und ihr findet die fertige Pdf im übergeordneten Verzeichnis.
Natürlich wollt ihr die Einzeldateien dabei in der richtigen Reihenfolge haben - aber die werden richtig vom Scanner abgelegt, das sollte also kein Problem sein.

Pdf veröffentlichen

Je nachdem, wie die rechtlichen Gegebenheiten in eurem Land so sind, möchtet ihr das gescannte Buch, im Sinne von freiem Wissen für alle, veröffentlichen3. Ein guter Kandidat ist zur Zeit (mitte 2022) das Library Genesis Project, “libgen”. Die Domain wechselt ab und zu - falls dieser Link tot ist, sucht einfach mal danach.

Die haben dort sogar eine Anleitung, wie man dort neue Dateien hochlädt.


  1. auf einem Linux System ↩︎

  2. Falls ihr zum Zusammensetzen einen Webservice benutzt habt, und die Datei veröffentlichen wollt, checkt evtl mal die Metadaten der erzeugten Pdf, ob da was drin steht, dass ihr nicht haben wollt..! ↩︎

  3. Je nach den rechtlichen Gegebenheiten in eurem Land wollt ihr dazu vielleicht auch in einem öffentlichen Wlan sein. Vielleicht ein Freifunk, oder im Wlan von einem Cafe..? ↩︎

Last modified 2022.08.27