Author: Rolf Tueschen
Date: 16:05:40 06/09/04
Go up one level in this thread
I make this message just for the benefit of the English speaking members and
those who already discussed the topic but who didn't understand what Hagra
reveiled in his valuable contributions to the so called WM Test here now and
already in the German forum of the journal CSS.
First of all I want to explain to the English speakers that the whole topic of
"WM Test" brought a lot of debates in Germany. Here are a few factors in the
debates.
WM-Test means, the author Michael Gurevich (who has the same name as the GM
who's now living in Belgium, but our MG is allegedly NOT the GM; but
nevertheless our MG of the test is also a stong expert player of the German
Bundesliga, but he's not IM or GM) proposed 100 positions from chess history
where one player at least was or became a World Champion in chess.
My main critic of such an idea is that the fact of one player being a Wch has
NOTHING to do with the qualities of the test positions for chess engines! The
positions might have value, but the whole drivel about Wch is just hand-waving
to insinate a big value in the test as such.
Now the readers must know that this test has been adopted by the famous German
joúrnal CSS as if the test were now state of the art.
More, the author MG is not so knowing in the German language and everytime
someone makes a critical statement against the test, MG reacts with negative
feelings and also threats to leave the whole field etc. So a real debate is
almost impossible.
Now Hagra, an anonymous author with a good knowledge of statistics and chess has
made the strongest critic against the test that I know of. He basically doubts
that a chess position from real life chess can test a machine because it is
difficult to decide why the machine has adopted a specific continuation. More,
in the test here in question, it is a sign for "understanding"
the position if a certain solution is held on display for 20 minutes. That is an
understandable practical decision, but it has nothing to do with chess.
When Hagra had made his latest / newest critic, MG the author came with the
usual reaction that - since Hagra would only remain in theory without having
tested with the positions, the whole critic allegedly had no critic. The also
here known author Michael Scheidl assisted in that fight. IMO the whole
argumentation is unfair because if already a general critic is sound and comes
to a negative judgement then the practical argument has no more sense at all.
So, if a test isn't valid, so to speak, it doesn't matter, if the one who made
the judgement has not even tested engines with the given chess positions.
But as I already had assumed Hagra is not a casual critic with big mouth but a
real and deep expert. Now he has done some tests and already for the very first
position of the 100 in the test, he found a terrible problem. He discovered that
if an engine became stronger on better hardware, the "result" in position 1
became "worse" - all in the interpretation of the test founder Gurevich. But in
real the engine FRITZ found out a second solution! In short - it is also
possible to play Rad8 and way later Re3 instead of the test solution Re3. All
who know details about tests know that the fact of a second solution decreases
the value of a test position. Because now it is not clear what we should expect
from an engine! If a seemingly weaker continuation is a perfect solution which
could only be found on stronger hardware!!!
That was actually the debate here between J. Rang and Hagra. See below in
German.
But the readers shouldn't forget that the main problem for such engine tests is
the finding of positions which allow to test what the test founder pretended.
Here the WM Test allegedly can test the ability to analyse. But in reality
Michael Gurevich has found positions that he can analyse with fun and he claims
that also engines must show that ability if they can "solve" the position AND if
they remain faithful to their choice for 20 minutes... MG claims in special that
"his" test positions can reveil ability to analyse and NOT (!) strength. So -
Michael make a differentiation although both factors are not sufficiently
defined at all. In other words, the academic doctor MG claims a deeper meaning
with his test but in reality he has put together these 100 positions without
showing the validity of the positions for his own insinuations into the test!
Of course with the power of CSS in his support Michael Gurevich must not fear
that "his" test will be forgotte too quickly.
****************************
On June 09, 2004 at 09:26:24, Franz Hagra wrote:
>Wie schon im Posting [http://f23.parsimony.net/forum50826/messages/100677.htm]
>vermutet, gibt es beim WM Test Stellung 1 eine verzögerte Nebenlösung.
>
>Auf die Spur brachte mich das untypische Verhalten von Engines, die bei
>erreichen höherer Suchtiefe ebenfalls höhere Lösungszeiten bei dieser Aufgabe
>aufwiesen. (Beispiel Lösezeit: F8 auf AMD 1400 1 sec AMD 2800 480 sec)
>
>Fritz___time___depth
>
>8c------1-------7/26
>6a-----23------10/29
>X3D----79------11/32
>8-----537------13/36
>7d----993------14/37
>
>Datenmaterial Basis M.Meiler: [http://de.geocities.com/krennwurzn/amd2.htm]
>Zusatz AMD1400/2800 [http://de.geocities.com/krennwurzn/amd.htm]
>
>Nun konnte ich beobachten, dass etwa ab Tiefe=12 vom Lösungszug (Te3) auf den
>Abwartezug (Tad8) geschwenkt wurde und zwar mit einer nur unwesentlich besseren
>Bewertung (F8 0,66 Tad8 zu 0,69 Te3) und erst bei Tiefe=13 wieder auf den
>primären Lösungszug Te3 zurückgewechselt wurde. Würde nun Tad8 einer falschen
>Idee folgen, so wäre der Test in Ordnung, aber Tad8 folgt nach einigen
>Zwischenzügen dem Motiv Te3 - dh. Engines, die Tad8 kurz favorisieren erkennen
>sehr wohl das Motiv Te3, spielen es aber nicht sofort sondern erst später und
>werden vom Test mit einer schlechteren Lösezeit bestraft. (Dies ist ein
>grundsätzliches Problemfeld bei Test bei denen natürlich nur Lösezüge abgefragt
>werden können und nicht Lösemotive).
>
><i> eine persönliche Bermerkung sei mir gestattet:
>
>Ich habe auch nie ein Hehl daraus gemacht, dass ich von Stellungstest zum
>Beurteilen von Spielstärke nichts halte, da man mit diesen einfachen Mechanismen
>weder der Kompliziertheit des Schachspiels noch des Computerschachs gerecht
>werden kann.
>
>Besonders natürlich auch dann, wenn man Auffälligkeiten in den Daten nicht
>nachgeht und Kritik als Beleidigung versteht und diese mit persönlichen
>Untergriffen beantwortet </i>
>
>Hagra
>
>Partie zum online nachspielen:
>[http://de.geocities.com/krennwurzn/wm_test_1g0.htm]
>
>Download Partie cbv/pgn zip
>[http://de.geocities.com/krennwurzn/WM_T1cbv.zip]
>[http://de.geocities.com/krennwurzn/WM_T1pgn.zip]
>
>Hagra
>
>anbei noch PGN als Text:
>
>[Event "Baden - WM Test Aufgabe 1"]
>[Site "?"]
>[Date "1925.??.??"]
>[Round "?"]
>[White "Reti"]
>[Black "Aljechin"]
>[Result "*"]
>[Annotator ",Hagra"]
>[SetUp "1"]
>[FEN "r3r1k1/1pq2pp1/2p2n2/1PNn4/2QN2b1/6P1/3RPP2/2R3KB b - - 0 1"]
>[PlyCount "4"]
>[EventDate "1925.??.??"]
>
>1... Re3 {Die Hauptlösung: Interessant dabei ist, das zB. die Engines Fritz
>und Hiarcs bei Erreichen höher Rechentiefen schlechtere Lösungszeiten
>aufweisen. (zB. F8 auf AMD 1400 1 sec, aber auf AMD 2800 480 sec). Da
>steigende Lösungszeiten bei steigender Rechentiefe eigentlich wiedersprechen,
>habe ich mir die Stellung mit Hilfe von Fritz und den vorhandenen Kommentaren
>von M. Gurevich (Aachen) und Kasparov (möglicherweise lt. einer
>Partiekommentierung) analysiert.} (1... Rad8 {Eine Nebenlösung, die aber nicht
>ganz so gut ist wie die Hauptlösung, aber dieselbe Idee verwendet, aber ein
>paar Zwischenzüge einschiebt. Fritz schwenkt auf diese Variante bei
>Tiefe=12 und bewertet dort diese Variante um 0,03 Bauern besser als das
>sofortige Te3. Bei Tiefe=13 schwenkt er wieder auf den Hauptlösungszug Te3
>zurück. Dies erklärt das Lösezeitverhalten, dass Fritz diese Aufgabe mit
>zunehmender Rechenkraft schlechter löst - denn auf schwächeren Maschinen
>erfolgt dieses Intermezzo zur Nebenlösung nicht, da die erforderliche Tiefe
>nicht binnen 20 Min. erreicht wird.} 2. bxc6 bxc6 3. Nd3 Re3 {Der Lösezug mit
>etwas Verspätung - aber Maschinen und Test können eben keine verbalen
>Erklärungen abgeben und sagen: Das selbe Motiv nur eben nach ein paar
>Zwischenzügen.} 4. Bf3 Bxf3 5. exf3 Ree8 {Diese Stellung dürfte trotz
>Mehrbauern für Weiß kaum mehr zu gewinnen sein (man bedenke ua. die
>Möglichkeit sich in ein Endspiel T gegen T+S zu retten)} (5... c5 6. Qxc5 Qxc5
>7. Rxc5 Ree8)) 2. Bf3 {Der Hauptlösungsweg - Schwarz erreicht durch
>Königsangriff Gegenchancen und den Remishafen (Analyse u.a. M.Gurevich,
>Kasparov)} ({Excurs: Die interessantesten Varianten ergeben sich allerdings,
>wenn man sich nicht um das Hauptproblem (Nebenlösung Ja/Nein) kümmert, sondern
>untersucht, ob Weiss es wagen kann mit Lg2 auf Gewinn zu spielen.} 2. Bg2 Rxg3
>3. e3 Rxg2+ (3... cxb5 4. Qf1 (4. Nxb5 $2 {von M. Gurevich angegeben ist
>sicherlich nicht der beste Zug für Weiß. Die Alternativen Df1 und Dxb5!} Qe5
>$40) (4. Qxb5 Rxg2+ 5. Kxg2 b6 6. Nd3 Qe7 $11) 4... Rxg2+ 5. Qxg2 $11) (3...
>Nxe3 4. fxe3 {und den Idee De5, Lh3 oder Sd5 dürfte nicht funktionieren.}) 4.
>Kxg2 Qe5 5. bxc6 (5. Ra2 $2 {Dieser von Fritz in den Lösungsvarianten lange
>als vorteilhaft bewerteter Zug verliert - Fritz sieht das allerdings erst
>relativ spät (vielleicht ein Grund warum er zur Nebenlösung 1. Tad8 bei gr.
>Rechentiefe schwenkt)} Rxa2 6. Qxa2 b6 $1 7. Qa8+ Kh7 {und Schwarz gewinnt})
>5... Qh5 {und nun kommt man in einen interessanten Variantengarten, den ich
>hier nur kurz ohne Kommentare skizzieren möchte.} 6. cxb7 (6. Kg1 Rb8 (6... Bh3
>7. f4 Qg4+ 8. Kh2 Nxe3)) (6. Rh1 Qg6) 6... Bh3+ (6... Rb8) (6... Re8) 7. Kh1
>Be6+ 8. Kg1 Qg4+ 9. Kh2 (9. Kf1 Nxe3+)) 2... Bxf3 3. exf3 {Im WM Test steht
>nun: "als einzig richtige Antwort. Aber mehr als Ausgleich ist fuer Weiss
>nicht mehr drin." Eine etwas dünne Aussage bzgl. der Stellung und man darf
>die Frage stellen, ob nicht die Stellung, die sich durch die Nebenlösung
>ergibt ein klareres Bild vom Ausgleich zeichnet.}
This page took 0.01 seconds to execute
Last modified: Thu, 15 Apr 21 08:11:13 -0700
Current Computer Chess Club Forums at Talkchess. This site by Sean Mintz.