Indexierung

Indexierung, auch Verschlagwortung oder Verstichwortung genannt, bedeutet die Zuordnung von Bezeichnungen oder Schlagwörtern zu einem Dokument, um die darin enthaltenen Informationen zu erschliessen.
Vorteile und Nutzen
- Volltextrecherche per OCR, durchsuchbare PDF-Datei
- Abgleich mit bestehenden Datenbanken und anderen Softwareroutinen
- Setzen von Lesezeichen oder Hyperlinks, Ausgabe als PDF oder XML
- Vorbereitung Ingest: Konfektionieren der Struktur- und Objektdaten als XMP und Bildung der notwendigen SIPs
Automatische Klassifizierung
Unabhängig von Format und Struktur werden der Dokumenttyp und die relevanten Metadaten ermittelt.
Keine manuelle Vorarbeit dank Automatisierung
Im ersten Schritt der Klassifizierung wird der Dokumententyp ermittelt und die automatische Zuordnung zu den entsprechenden Geschäftsvorfällen bestimmt. Dies kann beispielsweise eine Lieferantenrechnung sein – eine Vorsortierung der Belege nach Dokumententypen ist nicht mehr notwendig.
Perfektionierung und Flexibilität
- Wir erreichen die geringe Fehleranfälligkeit durch eine Validierung gegen vorhandene Stammdaten (etwa im ERP-System).
- Dank der Kombinierbarkeit beliebiger Scanhardware bleibt Flexibilität im Einsatz erhalten.
- Die Möglichkeit der automatischen Klassifizierung besteht auch bei E-Mails.
- OCR-Texterkennung sowie Formularerkennung
Datenerfassung aus Ihren Dokumenten
Wir extrahieren Text und Strukturen unter anderem per OCR-Texterkennung, wobei mehrere parallel eingesetzte Engines die Trefferquote erhöhen. Weitere mögliche Vorgehen zur Optimierung der Trefferwahrscheinlichkeit erfolgen mittels manueller Erfassung oder durch einen Abgleich mit Ihren Datenbanken und anderen Softwareroutinen.
Validierung und Nachindizierung

Entlastung durch maschinelle Datenkontrolle
Die in der Klassifizierung und Extraktion maschinell ausgelesenen Daten können noch weiter untersucht werden. Diese sogenannte Validierung führt zu einer zusätzlichen Befreiung von Routinetätigkeiten, wie der Abgleich von Personal-, Lieferanten- und Artikelstammdaten.
Die Validierung kann manuell oder maschinell, strukturiert oder semantisch verlaufen.


Nachkontrollen zur Absicherung
Werden bei der Datenprüfung Unsicherheiten festgestellt, kommt es zu einer Nachindizierung, d.h. einer manuellen Nachbearbeitung, der betroffenen Dokumente. Korrekturen können bei Unsicherheiten in der Klassifikation, in der Dokumenten- oder Vorgangstrennung oder in der Extraktion notwendig werden.
Optimierung dank Verifier
Es wird eine ergonomische und effiziente Software verwendet, die darauf spezialisiert ist, die Verarbeitung grosser Volumen in minimaler Erfassungszeit zu optimieren. Der Verifier bestätigt und korrigiert Feldinhalte, die nicht durch Restriktionen und Abgleiche geprüft wurden und ergänzt fehlende Feldinhalte, die nicht extrahiert werden konnten oder für die kein Systemvorschlag vorliegt.
Automatische Extraktion
Nach der Klassifikation werden die gewünschten Informationen automatisch ausgelesen. In diesem Schritt der Extraktion werden verschiedene Zeichenerkennungsprogramme (OCR) verwendet. Je nach Anwendung ergänzen sich unterschiedliche OCR-Produkte, um beste Resultate zu erzielen. Auch können Barcodes und Handschriften, wie z.B. bei Steuerklärungen, erkannt werden.
Hyperlinks und Lesezeichen

Nutzbarkeit durch Lesezeichen
Dokumente können durch Hyperlinks miteinander verknüpft und als Lesezeichen verwendet werden. Rechnungsbücher, Verzeichnisse und andere umfangreiche Formulare oder Texte werden so häufig erst nutzbar gemacht und können einfacher in die tägliche Arbeit eingebunden werden.
Elektronische Querverweise
Ein Hyperlink ist ein Querverweis in einem Hypertext, der funktional einen Sprung an eine andere Stelle innerhalb desselben oder zu einem anderen elektronischen Dokument ausführt. Bei der Ausführung des Hyperlinks wird automatisch das in dem Hyperlink angegebene Ziel aufgerufen.
Einfaches Aufrufen von Referenzdateien
Durch das Hypertextsystem können zusammenhängende Dateien nicht nur im Internet, sondern auch innerhalb desselben Systems aufgerufen werden. Das Konzept von Hyperlinks entspricht logisch dem Querverweis aus der konventionellen Literatur, bei der das Ziel des Verweises meistens manuell aufgesucht werden muss.
OCR Optical Character Recognition
Optical Character Recognition (kurz OCR) steht für die automatische Texterkennung innerhalb von Bildern. Wir bieten die Möglichkeit, OCR mit anderen Engines gegenzulesen oder manuell zu verfeinern.