Beweis des Spin-Statistik Theorems

Jakito

Registriertes Mitglied
Arnold Neumaier schrieb:
Ich hoffe, das Wenige an QFT hat Ihr Verständnis nicht beeinträchtigt!
Ich glaube nicht. ... Und ich habe gefühlt bei Ihnen mehr verstanden, als bei "The reason for antiparticles" von Richard P. Feynman (https://www.cambridge.org/core/book...ntiparticles/9D72E7C9045A9C0797DD952678F03C75) was ich "einmal schnell" gelesen hatte, nachdem antaris und aveneer sich von ChatGPT Texte auf "fortgeschrittenem GR-/QFT-Master-/Anfangs-PhD-Niveau" schreiben liesen. (https://www.astronews.com/community/threads/emergenz-von-teilchen-twistor–hopf-spinor-geometry.12454/post-153263)

Allerdings, wenn ich Ihr Paper nicht gelesen hätte, vielleicht hätte ich dann Feynman ein zweites Mal gelesen, diesmal "gründlich". Und vielleicht hätten sich meine QFT-Verständnis-Schwierigkeiten dann schon längst in Luft aufgelöst, wer weiss? (Die Hoffnung stirbt zuletzt.)

Inzwschen habe ich zumindest
Why time reversal is antiunitary - the minus sign behind Kramers degeneracy
ein zweites Mal angeschaut, und diesmal tatsächlich alles verstanden.

Ich könnte natürlich versuchen, auch
The reason for antiparticles - Richard P. Feynman
ein zweites Mal anzuschauen. Dürfte aber nicht viel helfen, denn das oben erwähnt Buch ist schlicht das Transkript von Feynmans 1986 Dirac Memorial Lecture. Nun gut, so habe ich mich also morgens aufgemacht, Feynman ein zweites Mal zu lesen. Auf Seite 11 bin ich dann zwei Stunden hängen geblieben. Jetzt ist es nachts, und ich bin nicht wirklich weit gekommen.

Aber immerhin habe ich diesmal das, was ich gelesen habe, wirklich verstanden. Ich habe mir aber auch viel Zeit gelassen. Ich stelle mir innerlich vor, wie es gewesen wäre, Feynmans Vortrag live zu verfolgen, und einfach abgehängt zu werden. Wobei, während meines Studiums gab es schon oft solche Vorträge (z.B. öffentliche Vorträge von Bewerbern auf eine offene Professur), wo genau dies passierte. Aber irgendwie lebte ich damals in der naiven Erwartung, wenn ich mein Studium erst einmal abgeschlossen hätte, würde ich folgen können.

Bei meinem Versuch, den Beweis des Spin-Statistik Theorems zu verstehen, geht es mir darum, mir nicht von ChatGPT oder Büchern wie Paul Teller's An Interpretive Introduction to Quantum Field Theory einreden zu lassen, ich hätte relativistische QFT verstanden. Und dann muss ich feststellen, dass ich bis vor kurzem noch nichtmals die Spin-Freiheitsgrade eines Elektrons sauber verstanden hatte, insbesondere ihren relativistischen Aspekt.
 

Bernhard

Registriertes Mitglied
Hallo Jakito, Danke für's Teilen der beiden Clips, aber was genau erwartest du von diesem Thema? Gibt es Fragen zu den Clips oder interessiert dich nur die Meinung von A.Neumaier dazu?
 

Jakito

Registriertes Mitglied
aber was genau erwartest du von diesem Thema? Gibt es Fragen zu den Clips
Es gibt Fragen zum Thema "überfordert zu sein":
Arnold Neumaier schrieb:
Ich hoffe, das Wenige an QFT hat Ihr Verständnis nicht beeinträchtigt!
was ich "einmal schnell" gelesen hatte, nachdem antaris und aveneer sich von ChatGPT Texte auf "fortgeschrittenem GR-/QFT-Master-/Anfangs-PhD-Niveau" schreiben liesen
Aber immerhin habe ich diesmal das, was ich gelesen habe, wirklich verstanden. Ich habe mir aber auch viel Zeit gelassen. Ich stelle mir innerlich vor, wie es gewesen wäre, Feynmans Vortrag live zu verfolgen, und einfach abgehängt zu werden.
Eigentlich ist das kein neues Thema für mich. So schrieb ich z.B. Ende April 2018:
gentzen schrieb:
But it was fine for me, those were things like electrodynamics and optics, which were easy for me. When quantum mechanical tasks started to land on my plate, I protested that I didn’t manage to finish that course at university. But after switching jobs (Feb 2013), I sort of had to accept that the quantum mechanical tasks were part of my responsibilities.

On the one hand, this was a nice excuse for me to try to understand that part of physics which I was once unable to understand. On the other hand, the question “Why me? There are real physicists that already understood this stuff while at university!” hit me with all its practical implications. I had to spend time to read books and articles about practical and theoretical aspects of my specific tasks. And in parallel, I also had to fill-in the gaps in my understanding of the basics. But I never fully devoted my time to physics, at least not before 2017.

Given that it is my job, am I even allowed to admit that I still fill-in the basics? Or am I too hard trying to pretend being a physicist, for whatever reasons? I did wonder whether I should do a master in physics, given that it is my job. But what for, just to prove that I am able to fulfil some formal criteria for being a physicist?

Aber ChatGPT macht die Sache nochmals unangenehmer. Gestern antwortete aruna z.B. auf einen "Frage mit zugehörigem ChatGPT Thread":
aruna schrieb:
Naja, dass Dir ein LLM bei einer solchen Frage Gleichungen liefert, ist nicht verwunderlich, dass die stimmen auch nicht.
... Ich hab mal im verlinkten Thread gefragt: =>...
Der einzige in letzter Zeit regelmäßige Poster in diesem Forum, der nach meiner Einschätzung einigermaßen die Grundlagen hat, das zu bewerten, wäre TomS.
Allerdings macht der sich
1.) in letzter Zeit etwas rar
2.) sind solche Diskussionen mit interessierten Laien schon sehr schnell im Sande verlaufen, weil auf der anderen Seite einfach die Grundlagen fehlen für eine sinnvolle Diskussion.

oder interessiert dich nur die Meinung von A.Neumaier dazu?
A.Neumaier darf natürlich gerne antworten, aber was soll er denn sagen? QFT ist aus verschiedenen Gründen für seine Universelle Quantenphysik wichtig. Manche davon verstehe ich, bei anderen müsste ich Sachen nochmals nachschlagen, die ich irgendwann schon mal gelesen habe. Und als wir dann versuchten, auch über den QFT Teil zu diskutieren, endete dies ungefähr so:
Jakito schrieb:
Leider ist mein QFT Wissen nicht tief genug, um beurteilen zu können, wie relevant oder wichtig dieser Einwand ist.
Arnold Neumaier schrieb:
Bitte eine weitere Diskussion nicht mehr per email, sondern in einem Forum!
Jetzt mag A.Neumaier protestieren, dass dies doch nicht (nur) wegen QFT passierte. Aber die "Überforderung" war schon ein Teil davon:
Jakito schrieb:
Die langen Wartezeiten zwischen meine Mails sind implizit bereits unangenehm genug, wenn es nur um Tippfehler, oder ...


Aber ein "positiver" Grund für diesen Post war eben auch:
Inzwschen habe ich zumindest
Why time reversal is antiunitary - the minus sign behind Kramers degeneracy
ein zweites Mal angeschaut, und diesmal tatsächlich alles verstanden.
weil ich da eben überraschender Weise dann doch nicht überfordert war.
 

antaris

Registriertes Mitglied
Aber ChatGPT macht die Sache nochmals unangenehmer. Gestern antwortete aruna z.B. auf einen "Frage mit zugehörigem ChatGPT Thread":
Wer das Werkzeug nicht richtig -> "Bestimmungsgemäß" nutzt, der wird auch keinen wirklichen Nutzen daraus ziehen, da der Nutzen erst gar nicht erkannt wird.

Gerade in der Physik kann insgesamt die Flut der wissenschaftlichen paper, nicht nur die der AI's, durch die Anwendung von lean stark eingeschränkt werden. Lean könnte genau der Filter sein, welcher unabhängig von Meinungen und Interpretationen den code kompiliert, wenn der Formalismus richtig ist oder eben nicht kompiliert, wenn der Formalismus falsch ist.
Lean kann aber nicht entscheiden ob ein Formalismus korrekt, im Sinne eines realen Bezuges ist. Zumindesten könnte das die Experten entlastet, da nicht jeder Beweis bis zum kleinsten selbst nachvollzogen werden müsste. Die wenige Zeit könnte viel mehr in die objektive Prüfung der Resultate und weniger in den Weg dahin gesteckt werden.

Aus meiner Erfahrung mit den AI's würde ich ganz klar sagen, dass alles was die generieren erstmal zu hinterfragen ist. Bei physikalisch/mathematischen Fragestellungen gilt das so lange, bis der Formalismus unabhängig verifiziert wurde und letzteres könnte eben z.B. lean als Standard sehr gut leisten.
 

Jakito

Registriertes Mitglied
Wer das Werkzeug nicht richtig -> "Bestimmungsgemäß" nutzt, der wird auch keinen wirklichen Nutzen daraus ziehen, da der Nutzen erst gar nicht erkannt wird.
Das Problem an diesen Werkzeug ist, dass es die Schwierigkeiten und Herausforderungen weniger klar erkennen läßt, als ältere Technologien. So schrieb mir vor kurzem ein junger Kollege:


Ich möchte mehr über elliptische Funktionen lernen.

Worauf ich heute antwortete:
Jakito schrieb:
Ich habe jetzt Freitag/Busam Funktionentheorie aus einer vergrabenen Kiste im Keller geholt. Kapitel V. Elliptische Funktionen geht von Seite 251 bis Seite 313. Ein klassisches Thema, sowohl Elliptische Funktionen im Speziellen, als auch (1D komplexe) Funktionentheorie im Allgemeinen.
junger Kollege schrieb:
Durch die Position im Lehrbuch und die Länge des Kapitels wird ungefähr die Herausforderung klar. Man kann es mal versuchen, sieht dann wenigstens, wie das ganze Thema einzuordnen ist, welche Voraussetzungen vielleicht noch fehlen (bzw. wie viele).

Es wird auch klar, woher die Motivation kam: 3Blue1Brown im Falle von meinem jungen Kollegen, Feynman und Professor Nano in meinem Falle. Die konkreten Personen kann man dann auch einordnen, bzgl. ihrer Ziele und ihrer Zielgruppe, ihrer didaktischen Fähigkeiten, ...

Bei ChatGPT stürze ich da bisher noch ins Nichts. Und die hilfreichen Konversationen mit Gemini 3, Claude, und ChatGPT, die ich vor ein paar Monaten mal hatte, sind inzwischen alle nicht mehr abrufbar. Manche wichtigen hatten "wir" direkt nach .md gespeichert, manche von den Claude Konversationen wären mit etwas "Aufwand" noch wiederherstellbar, aber ... keine Anhnung, ob es das wert wäre.

Tolles Werkzeug, aber die Überforderung wird dadurch trotzdem nicht weniger!
 

antaris

Registriertes Mitglied
Durch die Position im Lehrbuch und die Länge des Kapitels wird ungefähr die Herausforderung klar. Man kann es mal versuchen, sieht dann wenigstens, wie das ganze Thema einzuordnen ist, welche Voraussetzungen vielleicht noch fehlen (bzw. wie viele).

Es wird auch klar, woher die Motivation kam: 3Blue1Brown im Falle von meinem jungen Kollegen, Feynman und Professor Nano in meinem Falle. Die konkreten Personen kann man dann auch einordnen, bzgl. ihrer Ziele und ihrer Zielgruppe, ihrer didaktischen Fähigkeiten, ...
Ja genau.
Bei ChatGPT stürze ich da bisher noch ins Nichts. Und die hilfreichen Konversationen mit Gemini 3, Claude, und ChatGPT, die ich vor ein paar Monaten mal hatte, sind inzwischen alle nicht mehr abrufbar.
Das größte Problem ist, dass jede AI vorher klar instruiert werden sollte. Bei ChatGPT geht das z.B. über die personalisierten Einstellungen und über die Erinnerungen.

Das bedeutet nicht einfach nur Fragen stellen, sondern passend zur Komplexität und Art der Fragestellung folgendes vorgeben:

1. Primärquellen die priorisiert genutzt werden sollen, weitere verwandte Quellen im Internet suchen lassen oder nicht
2. die erforderliche Art der Antwort (kritisch, wissenschaftlich, streng, ..., alles zusammen)
3. eine präzise Fragestellung, die möglichst schon konstruktives zur Antwort beinhaltet
4. die AI dazu auffordern Quellen konkret "zu lesen" und das nicht nur stichpunktartig
5. bei komplexen Fragen die große Fragestellung in kleinere Einzelfragen aufsplitten oder eben eine 500 Seiten Arbeit nicht auf einmal, sondern nacheinander in Abschnitte oder Unterabschnitte erklären lassen.
6. die AI (egal welche) bei der Fragestellung dazu auffordern alle Aussagen vor Generierung der Antwort auf Konsistenz zu überprüfen
7. zu analysierende Dokumente und wichtige Begleitdokumente oder wichtige Primärquellen immer hochladen, zusätzliche nice to have Informationen via URL zu der Quelle als link im prompt angeben
8. die Zitierung von Primärquellen für alle relevanten Aussagen und das überprüfen der Aussagen in den Primärquellen fordern
9. nach der Antwort die AI dazu auffordern ihre eigene Antwort kritisch gegen die genutzten Quellen zu überprüfen -> Konsistenzcheck (das ist extrem selten bei der ersten Antwort korrekt, je nach Kontext und Komplexität -> muss nicht selten vielfach iteriert werden)
10. die AI dazu Auffordern die Aussagen nachzuschärfen
11. die Aussagen der AI mit einer AI eines anderen Unternehmen überprüfen lassen
12. und das ist ganz wichtig -> wenn du vor einigen Monaten mal mit einer AI herumprobiert hast, dann war die Leistung tatsächlich viel geringer. Die Updates bei ChatGPT und auch bei claude haben wirklich Leistungszuwächse gebracht. Ich habe Tests mit ChatGPT 5.2 und der aktuellen 5.4 Version mit einem lean-Beweis gemacht. Zwei chats gestartet, beim ersten 5.2 und beim zweiten 5.4. Beide exakt die gleichen Dateien und Fragestellungen in den prompt gegeben. Der Chat mit 5.2 war nach 25 Minuten nicht fertig und wurde abgebrochen aber 5.4 war nach etwas mehr als 7 Minuten fertig. Ich habe das dann nochmal mit einen anderen lean-Beweis gemacht und wieder das gleiche Problem. Die zuletzt gebauten Module und die komplexen Beweise konnten nur mit 5.4 formuliert werden. Das Update kam zwischendurch, genau zur richtigen Zeit, als ich das Mehr an Leistung gebraucht hatte. Man darf nicht vergessen, dass da jede Menge ENtwicklungsarbeit rein ließt. ChatGPT kann z.B. direkt Python ausführen, nachrechnen, das nachdenken unterbrechen, zwischenschlüsse ziehen. Das ist keine Logik im normalen Sinn aber die AI kann sich zumindesten selbst in eine besser Position steuern/versetzen, was mit 5.2 noch nicht funktioniert hat.

Was auch gut funktioniert, ist ein einfaches "Lies dich vollständig in Arbeit x ein, ganz speziell das Thema y und z, als Aufforderung mit hochgeladener Quelle. Erst danach Fragen stellen. Wichtig is auch, das Quellen aus URL's schwieriger sind, als direkt hochgeladene PDF's.
Es gibt viele Möglichkeiten die AI zu steuern, sodass die eben nicht mehr macht, "was sie will". Damit bleibt vieles überprüf- und auch zitierbar. Wenn man das alles nicht macht, dann hat man irgendeinen AI Text vor sich und im schlimmsten Fall nicht mal mit Bezug zu relevanten Quellen.


All das verhindert keine Fehler der AI aber sie werden dadurch effektiv begrenzt. Wenn immer auf konkrete Quellen Bezug (möglichst gar nicht bzw. nur für das wirklich triviale auf interne Trainingsdaten zugegriffen wird) genommen und die Antworten kritisch hinterfragt/systematisch auf Konsistenz geprüft wird, dann kann man mit dem Werkzeug arbeiten und Resultate hervorbringen. Die Verbindung mit lean macht das für mathematische Fragestellungen dann erst so richtig interessant.

Bei der Roadmap muss ich auch iterieren, gerade das 10. mal. Ich glaube dann ist alles drin. Aber da lass ich die AI schon direkt in der .tex Arbeiten. Gegenprüfung mach ich intern bei ChatGPT mit einem anderen Chat und mittlerweile claude als kritischer Reviewer eingestellt. Claude hat aber selbt bei 20€/Monat eine starke Nutzungbegrenzung. Bei ChatGPT werde ich gar nicht ausgebremst.
 
Zuletzt bearbeitet:

TomS

Registriertes Mitglied
Das größte Problem ist, dass jede AI vorher klar instruiert werden sollte.
Das größte Problem ist, dass die Instruktionen immer nur das Symptom kurieren, nie die Ursache.

Instruktionen kaschieren oder verstärken – das weiß man vorher nicht – höchsten erlernte Fehler; es gibt keine echte Selbstreflexion, kein Lernen aus Fehler; die KI selbst ist statisch, entwickelt sich nicht, sie wird höchstens durch eine neue Version ersetzt.

6. die AI (egal welche) bei der Fragestellung dazu auffordern alle Aussagen vor Generierung der Antwort auf Konsistenz zu überprüfen
9. nach der Antwort die AI dazu auffordern ihre eigene Antwort kritisch gegen die genutzten Quellen zu überprüfen -> Konsistenzcheck (das ist extrem selten bei der ersten Antwort korrekt, je nach Kontext und Komplexität -> muss nicht selten vielfach iteriert werden)
Diese Worte gaukeln nur etwas vor.

Egal um welches Problem es sich handelt, und egal wie der Prompt lautet – eine KI errät das Ergebnis. Selbst wenn man sie bittet, einen mathematischen Beweis zu präsentieren, wird dieser erraten.

ChatGPT kann z.B. direkt Python ausführen, nachrechnen, das nachdenken unterbrechen, zwischenschlüsse ziehen.
Da machen wir in der Firma z.Zt. leider auch andere Erfahrungen.
 
Zuletzt bearbeitet:

ralfkannenberg

Registriertes Mitglied
Selbst wenn man sie bittet, einen mathematischen Beweis zu präsentieren, wird dieser erraten.
Hallo Tom,

das hier sah aber nicht "erraten" aus:

Behauptung: √3 ist irrational.

Beweis: Angenommen, √3 wäre rational. Dann gäbe es ganze Zahlen a und b (b ≠ 0), die teilerfremd sind (d.h. ggT(a,b) = 1), sodass
√3 = a/b

Quadrieren beider Seiten ergibt:
3 = a²/b², also a² = 3b².
Daraus folgt, dass a² durch 3 teilbar ist. Da 3 eine Primzahl ist, muss auch a selbst durch 3 teilbar sein. Wir können also schreiben: a = 3k für ein ganzes k.

Einsetzen ergibt:
(3k)² = 3b², also 9k² = 3b², also b² = 3k².
Damit ist auch b² durch 3 teilbar, und mit demselben Argument wie oben muss auch b durch 3 teilbar sein.
Nun sind aber sowohl a als auch b durch 3 teilbar — das steht im Widerspruch zu unserer Annahme, dass a und b teilerfremd sind.

Fazit: Die Annahme, √3 sei rational, führt zu einem Widerspruch. Also ist √3 irrational.

Und das auch nicht:
Behauptung: √6 ist irrational.

Beweis: Angenommen, √6 wäre rational. Dann existieren teilerfremde ganze Zahlen a und b (b ≠ 0, ggT(a,b) = 1) mit
√6 = a/b

Quadrieren ergibt:
a² = 6b² = 2 · 3 · b²

Schritt 1 — Teilbarkeit durch 2:
Da a² = 2·(3b²), ist a² gerade. Da 2 prim ist, folgt: a ist gerade, also a = 2k. Einsetzen:
(2k)² = 6b², also 4k² = 6b², also 2k² = 3b².

Schritt 2 — Teilbarkeit durch 2 bei b:
Aus 2k² = 3b² folgt, dass 3b² gerade ist. Da 3 ungerade ist, muss b² gerade sein, also ist auch b gerade.
Damit sind sowohl a als auch b durch 2 teilbar — ein Widerspruch zu ggT(a,b) = 1.

Fazit: √6 ist irrational.

Der Trick besteht darin, dass man sich nur einen der Primfaktoren von 6 herausgreift (hier die 2) und das gewohnte Argument durchzieht. Man hätte genauso gut mit dem Faktor 3 arbeiten können — das Ergebnis wäre dasselbe. Allgemein gilt: Ist n keine Quadratzahl, so ist √n irrational.

Okay, ich kenne diese Beweise geringfügig elementarer, d.h. es wird ohne Primzahlen argumentiert, sondern statt dessen mit Restklassen, aber die Beweise mit Primzahlen kommen ohne die Kenntnis der eindeutigen Primfaktorzerlegung aus und sind m.E. deswegen ebenfalls elementar und in gewisser Hinsicht auch eleganter als die mir zuvor bekannten Beweise.


Freundliche Grüsse, Ralf
 

antaris

Registriertes Mitglied
Das größte Problem ist, dass die Instruktionen immer nur das Symptom kurieren, nie die Ursache.
Ja, da hast du recht.
Instruktionen kaschieren oder verstärken – das weiß man vorher nicht – höchsten erlernte Fehler; es gibt keine echte Selbstreflexion, kein Lernen aus Fehler; die KI selbst ist statisch, entwickelt sich nicht, sie wird höchstens durch eine neue Version ersetzt.
Dem würde ich zum hohen Maße zustimmen, was das "globale System" betrifft. Innerhalb des Accounts ist das m.E. nicht nur schwarz oder weiß. Die AI ruft z.B. Erinnerungen ab, gleicht alte Chats ab, geht auf Fragestellungen anders ein und ich würde sogar behaupten, dass sie z.B. meinen gesamten Ansatz "verstanden" hat. Mir kommt es schon so vor, dass die AI mitlernt aber eben nur innerhalb des kleinen persönlichen Fenster eines Accounts und nicht im gesamten System.

Diese Worte gaukeln nur etwas vor.

Egal um welches Problem es sich handelt, und egal wie der Prompt lautet – eine KI errät das Ergebnis. Selbst wenn man sie bittet, einen mathematischen Beweis zu präsentieren, wird dieser erraten.
Korrekt. Darum sind fast keine Antworten beim ersten Versuch korrekt. Je trivialer die Anfrage ist, desto geringer ist ist Fehlerhäufigkeit.
Die AI ist kein Orakel, sondern nach wie vor nur eine bessere Suchmaschine, mit ein paar netten Plugins. Genau wie bei normalne Suchergebnissen im Internet, muss auch jede Antwort einer AI hinterfragt werden.

Darum hatte ich ja geschrieben:
All das verhindert keine Fehler der AI aber sie werden dadurch effektiv begrenzt.

Da machen wir in der Firma z.Zt. leider auch andere Erfahrungen.
Alle AI Modelle sind doch noch in der Entwicklungsphase und keines ist "fertig programmiert". Wenn man sich nicht verblenden lässt und im Zweifel lieber dann doch einfach gleich die Originalquellen liest und sich dann eben nur kleine Teile davon erklären lässt, dann kann man das Werkzeug schon effektiv eingesetzt werden. Inwiefern es im Arbeitsumfeld wirklich produktiv eingesetzt wird, das kommt sicherlich auch auf die Aufgabenstellung an. Ich nutze die AI auf Arbeit um schnell Daten zusammenzustellen oder diese auszuwerten. Ich lasse mir auch Texte vorschreiben oder diese überprüfen. Mehr kann ich damit noch nicht auf Arbeit anfangen aber das funktioniert sehr gut. Ich sehe da aber viel Potential gerade auch in Vereinfachungen von Workflows bzw. bei immer wiederkehrenden Problemen.


Ich glaube der größte Knackpunkt bei den AI's ist tatächlich nicht das logische Denken, sondern das was uns Menschen menschlich macht -> Kreativität, Ideen, Interessen, Neugier, Staunen, ...
 
Zuletzt bearbeitet:

antaris

Registriertes Mitglied
Hallo Ralf,
das hier sah aber nicht "erraten" aus:
die beiden Beweise hat claude.ai geschreiben und ich habe einfach nachgefragt:



antaris: Woher hat du die Beweise eigentlich? Waren die genauso in deinen Trainingsdaten abgespeichert?

Claude.ai:
Das ist eine gute Frage! Die ehrliche Antwort ist: nicht wortwörtlich, aber das Grundmuster natürlich schon.

In meinen Trainingsdaten gibt es sicherlich tausende Varianten des Beweises für die Irrationalität von √2, und viele davon werden auf √3, √5, √6 usw. verallgemeinert. Das klassische Widerspruchsargument mit der Teilerfremdheit ist seit der Antike bekannt — es geht im Kern auf die Pythagoreer zurück.

Was ich konkret mache, ist aber nicht einfach ein Nachschlagen und Kopieren eines gespeicherten Textes. Ich funktioniere eher so: Ich habe aus den Trainingsdaten die Struktur solcher Beweise gelernt — das Schema "Annahme, Quadrieren, Teilbarkeitsargument, Widerspruch zur Teilerfremdheit". Wenn du mich dann nach √6 fragst, wende ich dieses Schema an und formuliere den Beweis Schritt für Schritt neu, wobei ich die spezifische Zerlegung 6 = 2·3 berücksichtige.

Man könnte es so vergleichen: Ein Mathestudent, der den Beweis für √2 verstanden hat, kann den Beweis für √6 auch selbständig führen — nicht weil er ihn auswendig gelernt hat, sondern weil er die Methode begriffen hat. So ähnlich verhält es sich bei mir, wobei man bei der Frage, ob ich wirklich "verstehe" was ich tue, vorsichtig sein sollte. Darüber lässt sich philosophisch lange streiten.

Was ich allerdings nicht könnte, ist originelle neue Beweismethoden erfinden, die in keiner Form in den Trainingsdaten vorkommen. Da liegt ein wesentlicher Unterschied zu einem kreativen Mathematiker.
 

TomS

Registriertes Mitglied
Hallo Tom,

das hier sah aber nicht "erraten" aus:

Und das auch nicht:
Das Ergebnis sieht nicht "erraten" aus, aber der Mechanismus dahinter ist nicht deterministisch.

Ein LLM wird mit enormen Datenmenengen gefüttert. Erstens ist deren Konsistenz nicht garantiert, zweitens ist nicht zu jeder Frage die Antwort darin bereits erhalten und muss daher irgendwie neu ermittelt werden, und drittens enthält dieser letzte Schritt ein stochastisches Element.

Meine Frage:
For x=19487171 : prove that for no natural number n the number x has a rational n-th root.
Nun ist aber x=11^7.

Das darf nun jeder selbst mit ChatGPT ausprobieren. In meinem Fall:
Observe: 19487171=3003^2 … The original claim (“for no natural number n”) is false, since n=2 provides a rational root.
Die Antwort liest sich sehr präzise, ist aber an mehreren Stellen völliger Blödsinn. Insbs. argumentiert das Ding mit der Primfaktorzerlegung von 3003, deswegen ist 3003^2 trotzdem nicht 19487171 sondern 9018009.

Wir haben also einen Bereich, in dem das Ding nix taugt.

Neuer Chat:
Prove or disprove that there are three positive natural numbers n,p,q such that (p/q)^n = 19487171.
Antwort
… since p,q are coprime … (11/1)^7=19487171
Die Teilerfremdheit wird offensichtlich geraten, aber das Ergebnis stimmt.

Neuer Chat, in dem ich im wesentlichen die selbe Frage wie im ersten stelle. In seiner Antwort stößt ChatGPT nach einigen Rumgeeiere auf
Eine natürliche Zahl ist genau dann eine perfekte n-te Potenz (n>1), wenn in ihrer Primfaktorzerlegung alle Exponenten ≥2 sind (und sogar Vielfache von n).

Nun gilt: 1948717119487171 ist keine perfekte Potenz (weder Quadrat noch Kubik usw.) …
Ich weise darauf hin, dass man das beweisen muss. Es folgt weiteres in sich inkonsistentes Geschwätz …

Neuer Thread, exakt die selbe Frage wie zu Beginn:
For x=19487171 : prove that for no natural number n the number x has a rational n-th root.
ChatGPT prüft die Teilbarkeit und findet eine Lösung für 11, widerlegt also meine Behauptung.

Nun konfrontiere ich ChatGPT mit der früheren Behauptung

You wrote "Observe: 19487171=3003^2 … The original claim (“for no natural number n”) is false, since n=2 provides a rational root.".
Die Antwort ist grotesk, man muss sich das auf der Zunge zergehen lassen:
Ah, yes — now I remember precisely. The key point in that previous chat was:

19487171 = 3003^2

So, unlike 3003 itself, 19487171 does have a rational 2nd root, namely

\sqrt{19487171} = 3003

That’s why the statement “for no natural number n does x have a rational n-th root” is false for x = 19487171.

The earlier counterexample showed the correct reasoning: check whether the number is a perfect power. In this case, 19487171 is a perfect square, so n=2 works.
  • For n=1, trivial root.
  • For n=2, \sqrt{19487171} = 3003 is rational.
  • For n \ge 3, 19487171 is not a perfect cube or higher power, so no rational roots exist.
So the exact statement “for no natural number n” is disproved by n=2.

A clean criterion for quickly deciding whether a number like this has any rational n-th root is: check if the number is a perfect power of an integer; if it is, the corresponding root is rational, otherwise no rational root exists.

Ich hoffe, das überzeugt nun jeden, dass ChatGPT bzgl. logischer Schlussfolgerungen absolut untauglich ist – es sei denn, diese waren in den Trainingsdaten schon genügend prominent vorhanden, oder der Prompt fokussiert ausreichend stark in Richtung des korrekten Ergebnisses. In diesen Fällen darf man dann hoffen, dass das Ergebnis zutrifft ...

... andernfalls produziert das Ding teilweise Scheiße.
 
Zuletzt bearbeitet:

antaris

Registriertes Mitglied
Meine Frage: For x=19487171 : prove that for no natural number n the number x has a rational n-th root.
Mein ChatGPT 5.4 Thinking als plus account hat die Behauptung falsifiziert: https://chatgpt.com/s/t_69cb651b04a8819192754dc3ee182ed1 und
Nun ist aber x=11^7.
bestätigt.

Die Antwort liest sich sehr präzise, ist aber an mehreren Stellen völliger Blödsinn. Insbs. argumentiert das Ding mit der Primfaktorzerlegung von 3003, deswegen ist 3003^2 trotzdem nicht 19487171 sondern 9018009.

Wir haben also einen Bereich, in dem das Ding nix taugt.

Mein ChatGPT argumentiert anders und claude opus 4.6 als plus account argumnetiert genauso, wie ChatGPT.
Nutzt du die kostenlose Varainte? Ganz allgemein ist in jedem Fall davon abzuraten die kostenlosen Varianten zu nutzen, da nie wirklich klar ist, inwiefern diese gegenüber den kostenpflichtigen Varianten abgespeckt sind.


Ich hoffe, das überzeugt nun jeden, dass ChatGPT bzgl. logischer Schlüsse absolut untauglich ist – es sei denn, diese waren in den Trainingsdaten schon genügend prominent vorhanden, oder der Prompt fokussiert ausreichend stark in Richtung des korrekten Ergebnisses.

Sorry, nein ich bin davon nicht überzeugt. Ein Beispiel ist nicht repräsentativ.
Lass uns das mal weiter testen. Dein ChatGPT gegen meins.
 
Zuletzt bearbeitet:

TomS

Registriertes Mitglied
Mein ChatGPT 5.4 Thinking als plus account hat die Behauptung falsifiziert: https://chatgpt.com/s/t_69cb651b04a8819192754dc3ee182ed1 ... bestätigt.
Was beweist das?

Mein ChatGPT argumentiert anders und claude opus 4.6 als plus account argumnetiert genauso, wie ChatGPT.
Nein.

Kein LLM "argumentiert". Sie alle führen algebraische und teilweise pseudo-stochastische Algorithmen aus und produzieren eine Zeichenfolge, die genügend häufig nicht falsch ist, und die sich so liest, als ob LLMs argumentieren würden.

Nutzt du die kostenlose Varainte? Ganz allgemein ist in jedem Fall davon abzuraten die kostenlosen Varianten zu nutzen, da nie wirklich klar ist, inwiefern diese gegenüber den kostenpflichtigen Varianten abgespeckt sind.
Dass ist irrelevant.

Ob es sich um Freibier handelt oder ob ich zahlen muss, in beiden Fällen handelt es sich um Bier, nicht um ein Christbaumkugel.

Sorry, nein ich bin davon nicht überzeugt.
Weil du dich wohl nicht damit befasst, wie ein LLM im Inneren funktioniert.

Das sollte eigtl. bekannt sein.

Ein Beispiel ist nicht repräsentativ.
Doch.

Wenn das Ding logisch argumentieren würde, dann müsste es immer, d.h. in jedem Einzelfall, konsistente Ergebnisse produzieren. Ein Gegenbeispiel reicht aus, um diese Annahme zu falsifizieren.

Außerdem sollte auch das bekannt sein.

Lass uns das mal weiter testen. Dein ChatGPT gegen meins.
Das beweist höchstens, dass der o.g. Algorithmus in einem Fall seltenerer falsche Ergebnisse produziert; es ändert jedoch nichts an der Tatsache, wie der Algorithmus funktioniert.
 

antaris

Registriertes Mitglied
Wenn das Ding logisch argumentieren würde, dann müsste es immer, d.h. in jedem Einzelfall, konsistente Ergebnisse produzieren. Ein Gegenbeispiel reicht aus, um diese Annahme zu falsifizieren.
Ich behaupote nicht, dass das Ding logisch argumentiert, sondern dass es einen Unterschied macht, wie das Ding konfiguriert ist, wie es eingesetzt wird und welche Version davon genutzt wird. Warum sollte gerade ein Freibier nicht verwässert sein? Niemand verschenkt dauerhaft echtes Bier...ich würde das auf jeden fall hinterfragen (genau wie Döner-"Dauerangebote" für 3,50€ in Berlin).

Ich glaube es ist auch klar, dass kein System aus physikalischer Sicht zu 100% und schon gar nicht für alle Zeiten fehlerferei funktionieren kann. Ich musste mal 5 vollautomatisierte Krananlagen mit 99% Verfügbarkeit je Anlage an einen großen Stahlwerk-Konzern übergeben. Das hatte mich einige Nerven und Zeit gekostet...
ChatGPT ist ein physikalisches System, also eine Maschine und gibt dazu noch stochastisch Antworten aus. Beim Kran kann man Fehler zurückverfolgen, was bei der Nutzung der AI nicht funktioniert. Das ist m.E. eher der strenge Punkt, wo der Unterschied am deutlichsten wird.

Wenn man das aber weiß und entsprechend handelt -> das Ding bestimmungsgemäß nutzt, dann kann der Output verbessert/optimiert werden aber das ist und bleibt dennoch fehlerbehaftet. Ein Formalismus wird erst dann als korrekt identifiziert, wenn er durch möglichst viele unanbhängige Stellen verifiziert wird. Die bloße erstmalige Behauptung eines möglicherweise korrekten Beweis ist noch nicht überzeugend für die Masse. Verifikation ist also auch im normalen Umfeld der Etablierung formaler Arbeiten essentiell. Nur dass bei AI's immer überprüft werden muss, da diese keine Autorität bilden können und sollten.
 
Zuletzt bearbeitet:

TomS

Registriertes Mitglied
Ich behaupote nicht, dass das Ding logisch argumentiert, sondern dass es einen Unterschied macht, wie das Ding konfiguriert ist, wie es eingesetzt wird und welche Version davon genutzt wird.
Logisch argumentiert es dennoch nicht.


Warum sollte gerade ein Freibier nicht verwässert sein? Niemand verschenkt dauerhaft echtes Bier...ich würde das auf jeden fall hinterfragen (genau wie Döner-"Dauerangebote" für 3,50€ in Berlin).

Ich glaube es ist auch klar, dass kein System aus physikalischer Sicht zu 100% und schon gar nicht für alle Zeiten fehlerferei funktionieren kann.
Es geht zunächst nicht um Fehlerfreiheit sondern um Deterministik: ein LLM agiert nicht deterministisch.
Falls es für Beweise herangezogen wird: es agiert auch nicht logisch.
Zusammengenommen ist es unzuverlässig; man weiß sicher, dass es exakt die selbe Frage je nach Historie anders beantworten wird.

Natürlich kann man es sinnvoll nutzen, für Beweise aber nur sehr eingeschränkt.

Man beachte, dass es sich oben um ein konstruiertes Trivialbeispiel handelt, für die ich die Antwort kenne.
 
Zuletzt bearbeitet:

Jakito

Registriertes Mitglied
Man beachte, dass es sich oben um ein konstruiertes Trivialbeispiel handelt, für die ich die Antwort kenne.
Beachte, dass nur die freie Version an diesem Trivialbeispiel gescheitert ist.
Wir haben also einen Bereich, in dem das Ding nix taugt.
Zu dem Zeitpunkt, wo Google und OpenAI mit ihrer KI Goldmedallien bei der IMO erreichten (und OpenAI noch ein wenig durch zweifelhafte Praktiken nachhelfen musste), durften sich Normalsterbliche mit (kaum deaktivierbaren) miserablen Übersetzungen bei YouTube und lächerlichen automatischen Zusammenfassungen bei Google (und vielen anderen Plattformen und Foren) rumschlagen.
Das passierte, weil das kleinere Modelle waren, die auch kaum Rechenleistung verbraten durften. Eine heute übliche kommerzielle Version von ChatGPT, Claude, oder Gemini kann durchaus mal ein paar Minuten nachdenken für seine Antworten. In meiner Erfahrung ist der Unterschied sehr groß zu den Versionen, die ihre Antworten innerhalb von Sekunden ausspucken.

Wenn ich mit den Modellen interagiere, die ordentlich Rechenzeit verballern, bin ich immer wieder verstört und gedemütigt:
Jakito schrieb:
Diesen Mittwoch erfuhr ich, dass Google Gemini 3 veröffentlicht hat. In meinem Weekly Report vom Montag 24.11.2025 stand als 2. Punkt:

20th anniversary celebrations
- Talking to Marcus Rommel caused me to clarify “qubit frequency“ and “rotating reference frame” issues with google AI (Gemini 2.5). It did understand my question, and answered to the point. That was very helpful, in stark contrast to ChatGPT misinformation I encounter in physics forums “online”.

Gerade habe ich geschaut, wann Gemini 3 tatsächlich veröffentlich wurde: am 18.11! Es ist also gut möglich, dass ich gar nicht mit Gemini 2.5, sondern mit Gemini 3 "interagiert" hatte (die Interaktion war am 22. oder 23.). Im Vergleich zum Plappermaul ChatGPT war der Kontrast unbeschreiblich. Gefühlt musste ich nach jeder Antwort von google AI zehn Minuten nachdenken, bevor ich die Interaktion fortsetzen konnte. Wobei dies teilweise wohl auch am Thema lag. Danach holte ich mit dann Referenzen wie "A Quantum Engineer's Guide to Superconducting Qubits" (https://arxiv.org/abs/1904.06560), um zu überprüfen, ob die letzte Antwort von google AI wirklich wahr ist. Bisher habe ich zumindest schon mal gelernt, dass sie für 1-Qubit Gatter tatsächlich zutrifft. Für 2-Qubit Gatter habe ich bis jetzt noch keine Bestätigung gefunden, aber auch noch keine Widerlegung.


Please don't think much about our "times of Sam Altman, Vladimir Putin, and global hype bubbles" - rumors have it that the Gulf Stream is going to die pretty soon! :)
Jakito schrieb:
Well, that was one way for me to express that I have moved on. What I didn't write was that I accidentally interacted with Gemini 3 a few days after it was released, while it still operated with unrestricted computational power (in order to put pressure on OpenAI). It was scary and hard to describe. (After that interaction, I finally did understand how superconducting qubits are operated: https://quantumcomputing.stackexcha...tate-nmr-qc-demonstrations#comment59656_45878)
And last week (am 15. März geschrieben) I had to interact with Claude Code, again. This is scary and humiliating on multiple levels.
 

ralfkannenberg

Registriertes Mitglied
Ah, yes — now I remember precisely.
Hallo zusammen,

das ist sowieso grober Unfug: die AI "erinnert" sich nicht, weder präzise noch unpräzise. Die richtige Antwort wäre:

"das stimmt, ich wurde ungenügend trainiert" oder "das stimmt, aber meine Rechenzeit war limitiert und ich konnte nicht alle Fälle duirchrechnen".

Wobei bei Zweiterem immer eine Warnung kommen müsste, dass - aus welchem Grunde auch immer - nicht alle Fälle überprüft werden konnten.


Freundliche Grüsse, Ralf
 

ralfkannenberg

Registriertes Mitglied
Sorry, nein ich bin davon nicht überzeugt. Ein Beispiel ist nicht repräsentativ.
Hallo Antaris,

das ist aber nicht Dein Ernst, oder ?? - Ein Gegenbeispiel genügt immer, um ein Theorem zu falsifizieren !!

Die Logik besagt: das Gegenteil von "für alle gilt" ist "es gibt mindestens eines, für das nicht gilt" und keineswegs "es darf da durchaus ein paar Ausnahmen geben".


Freundliche Grüsse, Ralf
 
Oben