Computerdiktat: Sprechen statt Schreiben?
(Beitrag in Verwaltungsmanagement.Info, Version 2.1, Stand: 2001)


Die neuen Programme zur Spracherkennung sind inzwischen (2001) auf einem Stand, dass sie eine nützliche Hilfe bei der Produktion von umfangreicheren Fließtexten sein können.

Die Programme unterscheiden sich in wesentlichen Punkten. Das mit entsprechender Marktmacht weit verbreitete IBM-Programm ViaVoice schnitt im Vergleich zu DragonDictate NaturallySpeaking deutlich schlechter ab, vor allem im Komfort

Ergebnis: etwa 30% Geschwindigkeitsvorteil für Dragon NaturallySpeaking (jeweils Versionen 1998).

Diese Vorteile gelten auch für die neuen Versionen, mit denen Leistung und Komfort erneut deutlich gesteigert werden konnten. Aber IBM konnte in den wesentlichen Punkten, wo DragonDictate besser abschneidet, nicht aufholen (Patentschutz?)

Einzelheiten s. die unten wiedergegebenen Beiträge:


Neuer Test der aktuellen Versionen von DragonDictate und IBM ViaVoice
Stand: März 2000

In den BBB-Informationen 237 (Juli/August 1999), wurde über die beiden am meisten verbreiteten Spracherkennungsprogrammen DragonDictate NaturallySpeaking und IBM ViaVoice, Versionen 1998, berichtet.

Ein ergänzender Test der aktuellen Versionen bestätigt, dass die Leistungsfähigkeit sich erneut wesentlich verbessert hat.

Der Vergleich zwischen beiden Programmen fällt allerdings - auch nach den deutlichen Verbesserungen bei IBM - erneut zugunsten von DragonDictate NaturallySpeaking aus. Das liegt wohl daran, dass für wichtige Leistungsmerkmale Patentschutz besteht und IBM deshalb nur schwer aufholen kann.

Erkennungsleistung

Es besteht ein deutlicher Unterschied in der Erkennungsleistung. DragonDictate hat ein wesentlich größeres Vokabular, so dass die unterschiedlichen Wortformen, vor allem die Endungen, sowie die meisten Komposita weitgehend richtig erkannt werden. Damit sinkt die Fehlerquote und der Komfort steigt, weil Korrekturen lästig und zeitraubend sind und den Arbeitsfluß unterbrechen.

Unverändert gelten die übrigen Vorteile für DragonDictate, die in dem früheren Bericht ermittelt worden sind und die hier noch einmal aktualisiert und im Überblick dargestellt werden:

Die wichtigsten Vorteile von DragonDictate
Bildung von Komposita (zusammengesetzten Wörtern)
  • Die meisten Komposita werden automatisch erkannt,
  • wo das nicht klappt, kann der Benutzer sie per Diktat eingeben ("Wortbeginn Wort1 Wort2 Wort3 Wortende"),
  • oder nachträglich über einen komfortablen Sprachbefehl ("Verbinde Wort1 Wort2")
Schnelligkeit und Komfort von Korrekturen
  • In den meisten Fällen brauchbare Alternativvorschläge, die per Sprachbefehl ausgewählt werden können,
  • in den übrigen Fällen eine komfortablere Korrektur mit Sprachbefehl und Maus, auf die Tastatur kann weitgehend verzichtet werden.
Arbeitsfluß - Lernen im Hintergrund
  • Keine Unterbrechung des Arbeitsflusses durch erzwungenes Training von neuen Wörtern (auch Komposita sind für IBM neue Wörter, das heißt man ist ständig mit der Ergänzung des Vokabulars beschäftigt!).

Empfehlungen für den Einsatz

Gestiegenes Leistungsvermögen, verbesserter Benutzerkomfort und verringerte Trainingszeiten vor Nutzung der Programme vergrößern die Einsatzmöglichkeiten der Spracherkennung auf allen Arbeitsplätzen, bei denen Textproduktion in nennenswertem Umfang anfällt.

Ab einer Nutzungsintensität von drei Stunden Textproduktion pro Monat halte ich den Einsatz von DragonDictate für eindeutig wirtschaftlich - vorausgesetzt, der Nutzer ist bereit, die erforderliche Sprachdisziplin aufzubringen.


Computerdiktatprogramme in der Bewertung: (August 1999)

Überlegungen zum Einsatz in der Bundesverwaltung
von Prof. Dr. Burkhardt Krems, FH Bund, Brühl

(Beitrag in den BBB-Informationen 237 (Juli/August 1999), überarbeitete Fassung)

 
Die Testergebnisse beziehen sich auf die Computerdiktatprogramme DragonDictate NaturallySpeaking und IBM ViaVoice, jeweils Version 1998. Hierbei stand die Frage im Vordergrund, ob Computerdiktatprogramme generell oder an konkret zu definierenden Arbeitsplätzen in der Bundesverwaltung eingesetzt werden können. Beide Programme wurden unter gleichen Bedingungen getestet und ausgewertet. Zu berücksichtigen ist, dass inzwischen neue Versionen der Programme erhältlich sind, was aber auf die generellen Einsatzmöglichkeiten und –voraussetzungen solcher Programme keinen entscheidenden Einfluss haben dürfte. Insgesamt ist festzustellen – aufgrund der vergleichenden Tests mit den Versionen von 1998 und 1999 - dass die Spracherkennung im letzten halben Jahr einen deutlichen Fortschritt gemacht hat.

Nachtrag November 1999:

Die jeweils neuen Versionen beider Programme weisen nach Berichten in der Fachpresse noch mehr Komfort auf, z.B. vergrößertes Vokabular und damit verbesserte Erkennungsleistung, das IBM-Programm hat jetzt auch einen Befehl für die Bildung von Komposita (zusammengesetzten Wörtern), die Leistungen erfordern jedoch entsprechend anspruchsvolle Hardware! Die Tendenzen und Empfehlungen des nachfolgenden Artikels sind demnach weiterhin gültig!

Ausgangslage des Vergleichs Der Programmbewertung liegen folgende Voraussetzungen zugrunde: Beide Programme wurden vom Benutzer trainiert, das Arbeitsumfeld ist auf die Nutzung eines Computerdiktatprogramms ausgerichtet, der Benutzer ist geübt im Umgang mit den beiden Programmen und ein vorgegebener Fließtext diente als Diktatvorlage. Diese Bedingungen, verbunden mit einer konzentrierten Sprechweise – unabdingbar für eine gute Spracherkennungsquote, bildeten die Voraussetzungen für die Tests. 
Arbeitsgeschwindigkeit: bis zu 900 Anschläge pro Minute Mit den im Vergleichstest verwendeten Programmversionen 1998 konnten Arbeitsgeschwindigkeiten (Diktat einschließlich Korrektur) von 100 bis 200 Anschlägen pro Minute erreicht werden. Mit DragonDictate NaturallySpeaking, Version 1999, wurde im Einzelfall eine Erkennungsgeschwindigkeit von 900 "Anschlägen pro Minute" erreicht und eine Erkennungsgenauigkeit von über 98 Prozent: Von über 100 Wörtern wurden 2 falsch erkannt; die Korrektur war in beiden Fällen einfach und schnell per Sprachbefehl möglich. 
Hardware-Anforderungen Um ein befriedigendes Zeitverhalten zu gewährleisten, ist eine leistungsfähige Hardware-Ausstattung zu empfehlen: mindestens Pentium II-Rechner 233 MHz mit 128 MB EDO-RAM. Dies ist von noch größerer Bedeutung, wenn nicht unmittelbar in das Computerdiktatprogramm diktiert werden soll, sondern in ein Textverarbeitungsprogramm.
Vergleich Dragon / IBM:
Dragon bringt 30% mehr Leistung
Für Aufgabenbereiche mit umfangreichem Vokabular und eher komplexer Sprache hat DragonDictate NaturallySpeaking besser abgeschnitten als IBM ViaVoice. DragonDictate NaturallySpeaking erlaubt eine um mindestens 30% höhere Arbeitsgeschwindigkeit und bietet mehr Komfort bei geringerer Anstrengung. Für Einsatzgebiete mit begrenztem einheitlichem Wortschatz könnte IBM ViaVoice leistungsfähiger sein, was aber in weiteren Tests noch zu prüfen wäre. 
Korrekturen sind unvermeidlich.

Deshalb sind Schnelligkeit und Komfort bei der Korrektur entscheidend

Um die Arbeitsgeschwindigkeit mit Computerdiktatprogrammen zu beurteilen, ist das Hauptaugenmerk auf den Korrekturaufwand und erst in zweiter Linie auf die Erkennungsquote zu legen. Die entscheidenden Unterschiede beim Korrekturaufwand liegen in der hierfür benötigten Zeit, im Komfort und in der damit verbundenen Anstrengung, Stichwort:"Ergonomie". Eine ergonomisch sinnvolle Arbeitsweise ist nur möglich, wenn auf einen ständigen Wechsel zwischen Diktat einereits und Korrektur über die Tastatur andererseits verzichtet werden kann; wenn also Änderungen per Sprachbefehl durchgeführt werden können. Die Erkennungsquote ist bei disziplinierter Sprechweise inzwischen aber so gut, dass der Sinn eines Diktats in aller Regel erkennbar bleibt und eine Korrektur in Entwürfen, Protokollen und Vermerken nur in den wenigsten Fällen erforderlich ist. Aus ergonomischer Sicht ist ein individuell einstellbares Kopfmikrofon unbedingt zu empfehlen: Der Nutzer kann entspannt vor dem Bildschirm sitzen und hat beide Hände frei, um bei Bedarf in seinen Papierunterlagen zu blättern. Zudem bietet ein Kopfmikrofon den Vorteil, dass Umgebungsgeräusche wie das Telefonklingeln oder eine Unterhaltung in unmittelbarer Nähe keinen Einfluss auf die Aufzeichnungsleistung des Programms hat.
Formatierungen im normalen Textprogramm vornehmen Formatierungen sollten weiterhin in einem (unter Windows laufenden) Textverarbeitungsprogramm vorgenommen werden, da DragonDictate und ViaVoice lediglich die Möglichkeit für einfache Formatierungen bieten. Die Gesamtsteuerung des jeweiligen Programms ist wohl nur ein Angebot für "Computerfreaks". Eine Überarbeitung im Textverarbeitungsprogramm ist allerdings ohnehin erforderlich, da die Computerdiktatprogramme keine automatische Silbentrennung und keine Überprüfung der Grammatik anbieten. Der Wechsel zum Textverarbeitungsprogramm, z. B. Word, ist bei DragonDictate wie auch bei ViaVoice unproblematisch.
Lernen muß im Hintergrund stattfinden! Ein wichtiger Vorteil von DragonDictate im Vergleich zu ViaVoice ist die sofortige Übernahme von neuen Wörtern, d.h.: DragonDictate "lernt" im Hintergrund, während bei ViaVoice das Diktat unterbrochen werden muss. Es ist also ein Wechsel zu Maus und Tastatur erforderlich, um im Text zu navigieren oder das Korrekturfenster zu öffnen. Erst dadurch werden z. B. unbekannte zusammengesetzte Wörter (Komposita) von ViaVoice als neue Wörter übernommen.
Das Programm muss sinnvolle Alternativen bei Korrekturen anbieten Bei der Korrektur eines Wortes bietet DragonDictate zudem sinnvolle Alternativen an, die man per Sprachbefehl auswählen kann. Zuletzt gesprochene Textteile können mit DragonDictate mit dem Sprachbefehl "Streiche das" gelöscht und durch neu diktierten Text ersetzt werden.. Die Arbeit mit ViaVoice wird auch dadurch erschwert, dass der gesprochene Text erst mit erheblicher Zeitverzögerung auf dem Bildschirm erscheint. 
   
Kriterien für die Auswahl eines Programms  Wer ein Computerdiktatprogramm einsetzen möchte, sollte bei der Auswahl eines geeigneten Programms folgende Kriterien berücksichtigen: 
  • Was muß es leisten?

  •  
  • Für wen eignet es sich?
  • Wirtschaftlichkeit des Einsatzes muß geprüft werden!


 
 
 

  • Wie schnell wird das Diktat auf dem Bildschirm sichtbar? 
  • Wie lang ist die Reaktionszeit des Programms, z. B. nach Eingabe eines Sprachbefehls?
  • Diktat und Korrektur sollten nicht durch erzwungenes Training (Sprachaufzeichnung des unbekannten Wortes) unterbrochen werden. Das Programm sollte vielmehr aufgrund der Sprachaufzeichnung während des Diktats "lernen". 
  • Löschen des zuletzt gesprochenen Textes sollte per Sprachbefehl möglich sein. 
  • Es sollte möglich sein, den Text mit Hilfe des Cursors an einer beliebigen Stelle zu ergänzen. 
  • Tastatureingaben sollten weitgehend verzichtbar sein. 
  • Bietet das Programm eine "intelligente" Korrektur an, indem z.B. ähnlich klingende Wörter/Wortfolgen vorgeschlagen werden?
  • Es sollte eine bequeme Möglichkeiten zur Korrektur von Groß- und Kleinschreibung und der Bildung von Komposita (zusammengesetzten Wörtern) existieren, möglichst ohne Verwendung der Tastatur,
  • Schließlich muss der Einsatz eines Computerdiktatprogramms auch unter wirtschaftlichen Gesichtspunkten sinnvoll sein, d.h. der Aufwand für die Ausrüstung des Arbeitsplatzes und das Training sollte durch entsprechende Einsparungen an anderer Stelle oder durch höhere Leistung mindestens kompensiert werden.  
  • Von großem Vorteil ist der Einsatz von Computerdiktatprogrammen an Arbeitsplätzen, wo umfangreiche Texte verfaßt werden müssen, ohne dass auf Vorlagen oder Textbausteine zurückgegriffen werden kann. Der Einsatz zur Erfassung von Papiervorlagen (z. B. im Schreibdienst) könnte sinnvoll sein, u.a. wegen der anderen Art der Beanspruchung. 
  • Auf jeden Fall sinnvoll ist der Einsatz an Behindertenarbeitsplätzen. 
  • Außerhalb von Behörden könnten vor allem Juristen und Ärzte von den Möglichkeiten profitieren. 
  • Die Nutzung solcher Programme ist jedoch nicht sinnvoll, wo Sachbearbeiter vorwiegend mit Textbausteinen und Vordrucken arbeiten. 
  • Computerdiktatprogramme bieten nicht nur ungeübten Tastaturbedienern Vorteile, sondern auch Schnellschreibern.
Fortbildungsbedarf? Das Fortbildungsangebot der Fachhochschule des Bundes zum Thema "Wirtschaftlicher Einsatz des Computerdiktats" hat bisher keine nennenswerte Resonanz gefunden.. Das mag daran liegen, dass es noch zu wenig Pilotanwender in der Bundesverwaltung gibt oder aber diese keinen Fortbildungsbedarf erkennen. Möglicherweise müssen Fortbildungsveranstaltungen zu diesem Thema neben Pilotanwendern auch potentiellen Anwendern zugänglich sein. 

Verantwortlich und © CopyrightProf. Dr. Burkhardt Krems
Köln, 2005-01-03. Kontakt | Impressum