AI TRIBE NEWS

GPT-5 IST „58 % AGI“ – WAS DAS WIRKLICH BEDEUTET

Geschrieben von Jörg Janßen | Oct 22, 2025 6:16:22 AM

Kaum ein Begriff sorgt in der KI-Welt für so viel Streit wie AGI – Artificial General Intelligence. Manche halten sie für kurz bevorstehend, andere für eine ferne Vision. Nun gibt es erstmals den Versuch, das nebulöse Konzept zu messen: Laut einer neuen Analyse erreicht GPT-5 ganze 58 % AGI-Leistung.
Doch was heißt das eigentlich – und warum sollte es uns interessieren?

AGI – ein Begriff, viele Definitionen

AGI steht für die Idee einer „allgemeinen Intelligenz“: also eine KI, die nicht nur Spezialaufgaben beherrscht, sondern jedes intellektuelle Problem auf menschlichem Niveau lösen kann.
Doch hier endet die Einigkeit auch schon.

  • Andrej Karpathy, Mitgründer von OpenAI, definiert AGI als ein System, das „jede wirtschaftlich relevante Aufgabe auf menschlichem Niveau oder besser“ lösen kann.
    Nach dieser Definition, sagt er, seien wir mindestens ein Jahrzehnt entfernt.

  • Sam Altman, CEO von OpenAI, beschreibt AGI als Systeme, die „komplexe Probleme auf menschlichem Niveau in vielen Feldern“ lösen können – eine etwas weichere Formulierung.

  • Andere wie Google oder Amazon betonen die Fähigkeit, neue Aufgaben zu verstehen, für die ein System nicht trainiert wurde.

Das Problem: Solange jeder etwas anderes unter AGI versteht, bleibt jede Diskussion darüber ein Streit über Begriffe. Und doch spielt diese Debatte mittlerweile eine Rolle an der Börse – denn Investoren werten „Fortschritt Richtung AGI“ zunehmend als Wirtschaftsfaktor.

Der Versuch, AGI messbar zu machen

Ein Forschungsteam am Center for AI Safety hat jetzt einen neuen Ansatz vorgestellt:
Es will AGI quantifizierbar machen – als messbaren Fortschritt entlang klar definierter kognitiver Fähigkeiten.

Ihre Definition:

„AGI ist ein System, das die kognitive Vielseitigkeit und Leistungsfähigkeit eines gut ausgebildeten Erwachsenen erreicht.“

Die Forschenden stützen sich dabei auf die Cattell-Horn-Carroll-Theorie – ein etabliertes Modell der menschlichen Intelligenz.
Sie unterteilen KI-Fähigkeiten in zehn Kategorien:

  1. Lesen und Schreiben

  2. Mathematik

  3. Logisches Denken

  4. Arbeitsgedächtnis

  5. Langzeitgedächtnis (Speichern)

  6. Gedächtnisabruf

  7. Visuelle Wahrnehmung

  8. Auditive Wahrnehmung

  9. Sprachverständnis

  10. Allgemeinwissen

Jede Kategorie wird auf einer Skala von 0 bis 10 bewertet. Die Gesamtwertung ergibt dann den sogenannten AGI-Score.

Das Ergebnis: GPT-5 erreicht 58 %, GPT-4 nur 27 %

In diesem neuen Rahmenwerk erreicht GPT-4 gerade einmal 27 %, GPT-5 dagegen 58 %.
Der Fortschritt liegt vor allem in Lesen, Schreiben und Mathematik, aber auch in Bereichen, wo GPT-4 noch völlig versagt hatte: logisches Denken, Arbeitsgedächtnis, Gedächtnisabruf, visuelle und auditive Verarbeitung.

Das zeigt:
GPT-5 ist vielseitiger und kann Informationen besser kombinieren – aber weit entfernt von einem echten „Verstehen“.
Vor allem Gedächtnis bleibt der größte Schwachpunkt.
Die Modelle können sich nur innerhalb ihrer Sitzung erinnern – und verlieren danach alle Kontexte.
Was bei Menschen selbstverständlich ist („Ich erinnere mich an das Gespräch gestern“), ist für heutige KI-Modelle noch nicht möglich.

Forscher Rohan Paul beschreibt es treffend:

„Heute simulieren KI-Systeme Gedächtnis, indem sie riesige Kontextfenster füllen oder externe Datenbanken anzapfen. Das ist keine echte Erinnerung.“

Solange Modelle keine verlässliche Langzeitspeicherung und -verknüpfung beherrschen, bleibt der Schritt zur echten AGI offen.

Ein Schritt in Richtung Messbarkeit

Was das Paper so spannend macht, ist die Idee eines Scorecards für Intelligenz.
Zum ersten Mal lässt sich der Fortschritt von Modellen auf einer nachvollziehbaren Skala abbilden – ähnlich wie ein IQ-Test für Maschinen.

Content-Analyst Lewis Gleason bringt es auf den Punkt:

„Zum ersten Mal können wir AGI nicht nur diskutieren, sondern messen. Wir können fragen: Wie weit sind wir noch von 100 % entfernt?“

Das eröffnet eine neue Perspektive – auch wirtschaftlich.
Wenn Unternehmen und Investoren solche Messungen übernehmen, könnte der „AGI-Score“ künftig zu einem Marktfaktor werden – ähnlich wie CO₂-Werte oder ESG-Ratings.

Warum wirtschaftliche Definitionen trotzdem zählen

Natürlich bleibt die Frage, was AGI praktisch bedeutet.
OpenAI selbst hat in einem früheren Vertrag mit Microsoft festgelegt, dass AGI erreicht sei, sobald eine KI „hochgradig autonome Systeme hervorbringt, die Menschen in den meisten wirtschaftlich relevanten Tätigkeiten übertreffen“.
Nach dieser Definition wäre AGI ein wirtschaftliches Ereignis, nicht nur ein technisches.

Elon Musk sieht es ähnlich:

„AGI ist alles, was ein Mensch mit einem Computer tun kann – aber nicht klüger als alle Menschen zusammen.“

Er glaubt, dass sein eigenes Modell Grok 5 in drei bis fünf Jahren soweit sein könnte.

Ob das stimmt, bleibt Spekulation.
Aber klar ist: Wirtschaftliche Wirkung wird letztlich entscheidender sein als philosophische Perfektion.

Warum das alles trotzdem wichtig ist

Die neue Studie bringt zwei Dinge zusammen, die bisher getrennt waren:

  1. kognitive Messung – also wie gut ein Modell „denkt“

  2. ökonomische Relevanz – also ob es tatsächlich Wert schafft

GPT-5 zeigt, dass der Fortschritt nicht linear, sondern asymmetrisch ist: enorme Leistungssteigerungen in Mathematik, aber große Lücken in Gedächtnis und Kontextverständnis.
Wenn künftige Modelle diese Lücken schließen – etwa durch permanente Gedächtnisfunktionen oder multimodales Verstehen – dann könnten wir tatsächlich in die Nähe einer funktionalen AGI kommen.

Bis dahin bleibt der 58 %-Wert vor allem eines:
Ein Marker dafür, wie weit wir gekommen sind – und wie viel noch fehlt.

Fazit

AGI ist kein Schalter, der plötzlich umgelegt wird.
Es ist ein Spektrum, auf dem GPT-5 jetzt erstmals messbar platziert wurde.

Die gute Nachricht: Der Fortschritt ist real und nachvollziehbar.
Die schlechte: Die größten Defizite – Gedächtnis, Kontext, echtes Verständnis – sind die schwierigsten zu beheben.

Aber vielleicht ist genau das der entscheidende Schritt:
Nicht mehr zu fragen „Sind wir bei AGI?“,
sondern „Wie weit sind wir davon entfernt – und was fehlt uns noch?“