Hermetic Word Frequency Counter
Englische Version
dieser Seite
Klicken Sie auf diesen Link zur Erweitertete Version dieser Software.

Diese Software durchsucht eine Textdatei oder einen Text in der Zwischenablage und zählt wie oft verschiedene Worte auftreten (dabei können häufige oder weit verbreitete Worte wie zum Beispiel "das" optional ignoriert werden). Die  Worte, die gefunden werden, können alphabetisch oder nach Häufigkeit geordnet aufgelistet werden.


Hinweis: Dies ist eine deutsche Übersetzung der Benutzeranleitung für die englische Version dieser Software, daher beziehen sich die graphischen Darstellungen auf die englische Version. Zur Zeit gibt es keine deutsche Version der Software.


Der Begriff Wort bedeutet normalerweise ein Wort in einer natürlichen Sprache wie Deutsch oder Englisch, aber für diese Software wird eine erweiterte Bedeutung verwendet: Jede Folge von Zeichen, die sich aus Buchstaben einer europäischen Sprache zusammensetzt plus (optional) Bindestrich, nummerische Zeichen, Unterstrich, Semikolon, Punkt, Apostroph, @-Zeichen. Daher kann der Text nicht nur in einer anderen Sprache als Deutsch durchsucht werden, sondern auch in einer Computersprache wie C . Mit dieser Software kann man Worte zählen, die das @-Zeichen enthalten (wenn Sie z.B. daran interessiert sind Emailadressen zu finden).

Hier ist eine typischer Darstellung des Programms. Als Resultate werden die gefundenen Worthäufigkeiten aus einer Textdatei von 284 KB angezeigt. Dabei werden häufige Worte oder weit verbreitetete Worte wie "der" ignoriert. Die Anzeige ist nach Häufigkeit der Worte sortiert.

screenshot



Durchsuchbare Dateien

Wenn Sie das Programm auf eine Eingabedatei anwenden, kann die Datei jede beliebige Kennung haben, aber sie muss aus ASCII Standardtext oder Unicode text bestehen. In anderen Worten, sie muss nur aus Zeichen bestehen, die einem ASCII Bytewert zwischen 32 und 127 entsprechen, ausgenommen sind Linefeed (ASCII 10), Carriage Return (ASCII 13), Tab Character (ASCII 9), Backspace (ASCII 8) and Page Breaks (ASCII 12). Die normale Eingangsdatei wird typischerweise aus einem natürliche Sprachtext (Deutsch, Englisch, Spanisch usw.) bestehen. Aber das muss nicht so sein. Die Datei kann auch aus Programmcode bestehen, wie z.B. Quellcode in C++ oder in einem HTML-Dokument.

Dateien, die nicht darstellbare Zeichen haben, wie Dokumente, die mit WORD oder Adobe geschrieben wurden, können nicht durch direktes Lesen der Datei prozessiert werden. Solch eine Datei muss entweder (a) als eine Standardtextdatei (oder Unicode-Textdatei) gespeichert werden, dann kann man die Software auf diese Datei angewenden oder (b) Sie öffnen die Datei mit Word, selektieren den ganzen Text und kopieren ihn in die Zwischenablage. Danach wählen Sie Count word frequencies mit Clipboard als Quelle. (Es gibt eine Grenze für die Anzahl von Zeichen in der Zwischenablage: 100 000. Bei großen Dateien sollte daher die Variante (a) zur Anwendung kommen, falls möglich.) Der Text in der Zwischenablage kann vor dem Zählen (oder später) in das Textfeld eingefügt werden, aber es ist nicht notwendig. Wenn Clipboard als Quelle gewählt wird, dann zählt das Programm die Worte in der Zwischenablage und nicht m Textfeld.

Beachten Sie bitte, dass das Programm nicht die Worte im Textfeld zählt, sondern nur Worte, die entweder in einer Eingangsdatei vorhanden oder als Text in der Zwischenablage spezifiziert sind. Man kann Text im Textfeld zusammensetzen, aber um Worte zählen zu können, muss der Text zuerst in die Zwischenablage kopiert werden. Das ist der Grund, warum es eine Schaltfläche Copy to clipboard gibt (diese Option ist nur verfügbar, wenn die Software aktiviert worden ist).


Einstellung der Parameter

Das Konzept Zählung von Worten erscheint einfach, ist es aber nicht. Was ist ein Wort? Ist Double-Click ein Wort oder Zwei? Ist  don't ein Wort? Ist liege das gleiche Wort wie Liege? Möchten Sie alle Worte zählen? Einschließlich der der weit verbreiteten Worte wie das, mit und er? Dieses Programm ermöglicht Ihnen Ihre Operationen selbst zu definieren, so dass nur die Worte gezählt werden, an denen Sie interessiert sind. Und wie oben schon angemerkt, die Worte können auch, wenn Sie es wollen, Sonderzeichen enthalten, wie Bindestrich, Apostroph, usw.

Hier ist eine Darstellung des Programms, die anzeigt, wie Operationen der Software für den Benutzer angepasst werden können:

Wenn Sie eine Emailadresse als ein Wort behandeln wollen, dann überprüfen Sie die Felder auf @-Zeichen, Punkten, Klammern und Unterstrich. Wenn Sie eine URL suchen wollen, prüfen Sie auf Slash, Punkt, Bindestrich und Ziffer. (Achtung: Wenn ein Wort einen Forward Slash enthält, dann kann ein doppelter Forward Slash nicht als Markierung für den Anfang eines Kommentars verwendet werden. Die Software überprüft Konflikte dieser Art.)

Die auf dem Hauptschirm ausgewählten Parameter können jederzeit abgespeichert werden (durch Verwendung der Schaltfläche Save state auf dem Hauptschirm). So kann die gleiche Einstellung beim nächsten Programmlauf wieder hergestellt werden.

Sie können auch einen Satz von Parametern in eine Parameterdatei abspeichern (diese Datei muss den Anhang .wfc ) haben. Später können diese Parameter wieder geladen werden. Dies erlaubt ihnen verschiedene Parametereinstellungen in unterschiedlichen Dateien zu sichern (z.B. Text in verschiedenen Sprachen).

Ein Wort kann nicht mit einer Ziffer beginnen, einem Bindestrich, einem Apostroph oder Doppelpunkt, aber es kann mit einem Unterstrich anfangen (_).


Rang- und Häufigkeitsanzeige

Die "Rang" und "Häufigkeits-Werte" können in der Anzeige ein- oder ausgeschlossen werden.

Wenn die Ausgabedatei nur aus Worten besteht, ohne Rang und Häufigkeit, dann kann man dies entweder als eine Liste (ein Wort pro Zeile) oder als Reihe mit Komma getrennt erhalten. Dies erreicht man, indem die geeignete Auswahl im Drop-Down-Menü Display format markiert wird.


Nicht-Deutscher Text

Hermetic Word Frequency Counter kann auch mit anderen Sprachen als Deutsch angewendet werden, einschließlich Englisch, Französisch, Italienisch und Portugiesisch (faktisch in jeder Sprache mit Zeichen, die in WinLatin1 dargestellt sind, auch bekannt als Windows 1252). Hier sind Beispiele für die Ausgabe bei einem deutschen Text (die Worte sind alphabetisch geordnet) und bei einem französischen Text (Worte sind nach Häufigkeit geordnet):

Die Option ein finales 's' auszulassen, wenn nicht vorher ein 's' auftaucht oder ein Vokal, wurde mit Absicht eingerichtet, um Singular und Plural von englische Hauptworten (z.B. 'dog' und 'dogs') zusammenzufassen. Diese Option ist auch hilfreich im Fall eines Genitivs in der deutschen Sprache, z.B. 'Bewußtsein' und 'Bewußtseins'. Aber diese Option könnte nicht überschaubare Konsequenzen haben. Daher könnte es das Beste sein, diese Option zunächst wegzulassen, wenn die Resultate nicht vermuten lassen, dass es doch besser wäre sie einzusetzen.


Um Gewöhnliche Worte zu ignorieren

Man kann dem Programm mitteilen, gewöhnliche oder weit verbreitete Worte zu ignorieren. Diese Worte sind in einer Datei Ihrer Wahl enthalten. Wenn diese Datei spezifiziert worden ist und Ignore common words in file im Programm angekreuzt ist, dann werden alle Worte, die in dieser Datei angegeben sind, nicht berücksichtigt.

Wenn nur wenige Worte ignoriert werden sollen, dann können sie in einem besonderen Textfeld Ignore these words angegeben werden, wie oben gezeigt.

Es sind sechs Dateien mitgeliefert, die weit verbreitete Worte enthalten, Englisch (cwds_en.txt), Deutsch (_de), Französich (_fr), Italienisch (_it), Spanisch (_es) and Portugiesisch (_pt). Sie sind erreichbar im Ordner, der die Programmdateien enthält (erzeugt bei der Installation des Programms). Man kann Worte hinzufügen oder wegnehmen, wie gewünscht. Die Worte müssen nicht in alphabetischer Reihenfolge oder in getrennten Zeilen vorliegen (die Datei darf nur aus Text bestehen).


Eingefügte Kommentare

Eine Eingabedatei (aber nicht die Zwischenablage) kann Kommentare enthalten, die ausgelassen werden sollen, wenn Worte gezählt werden. Der Anfang eines Kommentars wird markiert mit dem Kommentar-Anfang-Zeichen, wie in der Anzeige Set parameters gezeigt wird. Das Ende wird durch ein Kommentar-Ende-Zeichen markiert. Wenn die Kommentar-Ende-Markierung leer ist, dann endet der Kommentar am Ende der Zeile.

Es ist möglich zwei Arten von Kommentar-Anfang und Kommentar-Ende-Zeichen zu spezifizieren. Dies gestattet Kommentare, die auf die Zeile beschränkt sind, und Kommentare, die über mehrere Zeilen in der gleichen Eingangsdatei gehen. Hier nehmen wir ein Beispiel aus der C-Programmierung: // kann als Kommentar-Anfang-Zeichen für einen einzeiligen Kommentar genommen werden. /* und */ sind die Zeichen für Kommentar-Anfang und Kommentar-Ende bei mehrzeiligen Kommentaren. Sie werden wie folgt spezifiziert:

Daher werden Worte (oder Variable, Funktionsnamen, usw. in einem C-Programm) in Kommentaren wie den folgenden nicht gezählt:

// Die ist ein einzeiliger Kommentar.

/* Dies ist ein Kommentar, der
sich über mehrere Zeilen erstreckt. */

Die Verwendung von Kommentar-Anfang- und Kommentar-Ende-Zeichen macht es auch möglich, Teile der Eingangsdateien vom Prozess der Wortzählung auszuschließen.

Wenn die Eingangsdatei eine der folgenden Endungen hat : htm, html, shtml, xml und php, dann werden die Kommentar-Anfang- und Kommentar-Ende-Zeichen automatisch auf < und > gesetzt. Das bedeutet, dass HTML, XML und PHP Tags ignoriert werden. Es bedeutet auch, dass /* and */ oder andere Markierungszeichen nicht als Kommentar-Anfang- oder Kommentar-Ende-Zeichen in Dateien mit diesen Endungen verwendet werden können. Wenn die Kommentar-Anfang- und Kommentar-Ende-Zeichen anders festgelegt wurden, dann werden die ursprünglichen Einstellungen wieder hergestellt, nachdem eine Datei dieses Typs abgearbeitet worden ist.

Kommentarzeichen wie in C (/* ... */) können in den Dateien, die gewöhnliche Worte festhalten, verwendet werden, um zeitweilig Teile dieser Dateien auszusetzen (so dass die Worte in diesen Teilabschnitten nicht als gewöhnliche Worte behandelt werden, aber sie werden gezählt, wenn sie in der Eingabedatei vorhanden sind).


Eingangsdatei Größe und Ausgabe in eine Datei

Es gibt keine Grenze für die Größe einer Eingangsdatei. Das Programm wurde mit Textdateien in einer Größenordnung von 2 Mbyte getestet, mit Dateien, die fast 100 000 unterschiedliche Worte enthielten. In diesen Fällen benötigt die Bearbeitung ein oder zwei Stunden. Daher gibt es einen Fortschrittsbalken:

Es gibt jedoch ein Limit für die Menge an Text, die in einem Ausgabefeld enthalten sein kann, entweder bei der Übertragung aus der Zwischenablage oder als Resultat bei der Auflistung der gefundenen Worte. Dies hindert jedoch Hermetic Word Frequency Counter nicht daran, mit größeren Dateien umzugehen. Zum Beispiel ist eine Datei auf Ihrem PC, die Sie unter dem Namen Win32api.txt abgelegt haben. Diese Datei besitzt ungefähr eine Größe von 652 KB und hat über 80 000 Eintragungen bei 11 000 unterschiedlichen Worten. Wenn das Programm diese Datei bearbeitet, ohne dass die Option Don't display words as found eingestellt ist, dann durchsucht das Programm die Datei, aber nicht alle gefundenen Worte werden ausgegeben. Ca. 2000 Worte werden in diesem Fall dargestellt, danach hört die Anzeige auf, um einen Speicherüberlauf zu vermeiden. Nach Bearbeitung der ganzen Datei werden die gefundenen Worte soweit aufgelistet, bis die Speicherkapazität des Ausgabefeldes erreicht wird. Wenn die Worte in alphabetischer Reihenfolge dargestellt sind, dann werden (im Fall von Win32api.txt) nur Worte angezeigt, die mit a, b, c oder d beginnen.

Um eine vollständige Liste der Worte in dieser Datei zu erhalten, müssen Sie eine Ausgabedatei angeben bevor der Zählprozess gestartet wird. In diesem Fall wird die komplette Liste in die Ausgabedatei geschrieben, bevor eine Liste im Ausgabefeld angegeben wird. Die angezeigte Liste wird bei den Worten aufhören, die mit dem Buchstaben d beginnen. Aber die gesamte Liste kann angeschaut werden, wenn man die Ausgabedatei mit einem Texteditor, wie z.B. Wordpad, öffnet.

Hermetic Word Frequency Counter wurde erfolgreich bei großen Dateien mit vielen unterschiedlichen Wörtern angewendet: In einer Datei von  4.12 MB mit 46 398 unterschiedlichen Worten, ebenso in einer Datei von  12.1 MB mit 61 979 verschiedenen Worten (und mit einer Gesamtzahl von 1 847 893 Eintragungen dieser Wörter).


Transfer der Resultate in eine Excel-Datei

Wie folgt kann die Ausgabe leicht in eine Excel-Tabelle übertragen werden: Wenn die Ausgabe noch nicht in eine Ausgabedatei geschrieben worden ist, dann kopieren Sie die Ausgabe in die Zwischenablage. Fügen Sie den Text in einen Texteditor ein, wie z.B. Notepad. Speichern Sie ihn danach als eine .txt-Datei ab. Laden Sie dieses Datei in Excel. Excel wird Spalten automatisch erkennen.

Wenn Sie eine Ausgabedatei spezifizieren, werden die Resultate in diese Datei geschrieben. In der Schaltfläche Set parameters können Sie festlegen, dass die Ausgabe mit Kommatrennung geschrieben werden soll, so dass die Datei von einem Statistikprogramm gelesen werden kann, dass keine, anders als Excel, fixierte Feldbreiten lesen kann.

Die maximale Zahl von Reihen in einer Excel-2003-Datei ist 65.536. So ist das eine Grenze auf der Zahl von Wörtern, die ins Excel-2003 geladen werden kann. Excel-2007 erlaubt eine Million Reihen.


Klicken Sie auf diesen Link zur Erweiterten Version dieser Software.


Wenn Sie bei Wörter zählender Software mehr daran interessiert sind, wie man Schlüsselwörter bzw. Meta Tags in HTML-Dokumenten erzeugt, dann beachten Sie bitte unsere Software Keywords Meta Tag Generator und die Erweiterte Version.

Wenn Sie mehr daran interessiert sind eine Datei nach einem besonderen Wort oder einer Phrase zu durchsuchen, dann beachten Sie bitte unsere Software Index Files Search Words oder die  Lite Version.


Demoversion: Eine Demoversion von Hermetic Word Frequency Counter kann von dieser Website zum Zweck der Evaluation der Software heruntergeladen werden. Klicken Sie auf den folgenden Link, um weitere Informationen zu erhalten.

Download Hermetic Word Frequency Counter ...


Preis und Bestellung: Eine Einzelbenutzerlizenz ist auf die Dauer von 3 Monaten, 1 Jahr oder ohne Frist verfügbar. Preise für jeden Typ der Lizenz werden an Kauf einer Anwenderlizenz gegeben. Ein Aktivierungsschlüssel ist erforderlich, um die Testversion voll funktionsfähig zu machen. Ein Aktivierungsschlüssel kann beim Kauf über Paypal sofort erhalten werden.

Rückerstattung: Eine Rückerstattung wird bis zu 30 Tagen nach dem Kauf sofort gewährt, wenn die Software nicht ordnungsgemäß funktioniert.

Updates: Käufer einer Anwenderlizenz für diese Software sind berechtigt Updates für alle späteren Versionen kostenlos zu bekommen.

Upgrade Erweiterte Version: Kunden, die eine Anwenderlizenz für diese Software erworben haben, können eine Lizenz für die Hermetic Word Frequency Counter — Erweitertete Version erwerben. Zu zahlen sind $26.25, €19.25 or £16.25 (ohne MWSt). Um das Upgrade zu erwerben, sehen Sie bitte Upgrading to the Advanced Version.

Using Hermetic Word Frequency Counter with Large Files
and Importing the Output into Excel
Hermetic Systems Home Page