Re: Denkhilfe Fonts/MySQL

25 Dec 2004

      Abend!
...
Dann wird es in 8x8 kleine Bilder zerlegt - macht 64 Bilder.
...
Für jedes dieser Bilder wird ermittelt, wieviele Pixel weiss sind, und
wie viele Schwarz, umgerechnet in Prozent. (Naja. Fast. Um der
Zweistelligkeit willen rechne ich mit 99 statt 100 als Maximum)
...
Die 64 Werte ergeben dann den Fingerprint: 00 für weiss, 99 für Schwarz,
50 für "halb".
...
Das mag sich umständlich lesen, da es aber auf Manipulationsmethoden in
ImageMagick zurückgeht, läuft es schneller als ein perl-Eigenbau.
...
Wenn ich zwei Bilder XOR überblende, finde ich ziemlich fix raus, wie
ähnlich sich die abgebildeten Buchstaben sind. Und da es auf sw-Bilder
optimiert ist, liefert es bessere Resultate als die
ImageMagick-Bildvergleichsfunktion.
...
Fast alles prima, also.
...
Aber:
Wenn ich das jetzt so durchlaufen lasse, kann ich anhand eines
gescannten Bildes innerhalb einiger Stunden herausfinden, ob ich den
abgebildeten Font habe. Es werden einfach ALLE Fonts aus einer
vorsortierten Kategorie getestet, so ungefähr bis zu 80.000.
Wo Du schon "Kategorien" sagst: Wie wäre es mit einem Zahlenwert, der
zwar nicht die Präzision Deines Fingerprints hat, aber eine gewisse
Vorsortierung erlaubt? So das sich mit einem Statement die X % der
Fonts gewinnen lassen, bei denen eine Untersuchung mit höher
Präzission aussichtsreich ist?

Dazu könnte man ein paar Kriterien erarbeiten, deren Ergebnis sich je
in einer kleinen Zahl ausdrücken läßt. Was mir einfällt:

A: Der summierte Schwarzanteil in allen 64 Werten. Mit einem solchen
   Wert lassen sich dicke Fonts von eher zarten trennen.

B: Die Wahrscheinlichkeit, dass im Umfeld eines Wertes ein ähnlicher
   Wert kommt, daß also z.B. neben einem schwarzen Punkt wieder ein
   schwarzer kommt. Dieser Wert müsste beim serifenlosen Schriften
   niedriger sein als bei Schriften mit Serifen.

Weitere Kriterien fallen mir nicht ein, aber bei Durchsicht Deiner
400.000 Fonts wirst Du sicher ein paar weitere finden.

Schon mit 3 wirksamen (läßt sich durch eine Durchsicht der Werte
kontrollieren) Kriterien, die je 4 Unterscheidungen erlauben, wäre
statistisch eine Reduzierung der zu untersuchenden Schriften auf ein
4^3-tel, also 1/64 der Gesamtmenge möglich. Bei 4 Kriterien mit 6
Unterscheidungen sogar auf 1/1296 -> 300 statt 400.000

Oder nicht? (-:

Bye

-- 
 1  Bodo Kaelberer
123 http://www.webkind.de/        http://www.kaelberer-aio.de/
 3  Seelig sind die, die da arm an Geist sind, denn sie werden
 4                       sich Christlich Soziale Union nennen.