KI-Trends

Evoya Redaktion 12. Januar 2026

OpenAI testet KI-Modelle an realen Arbeitsaufgaben auf dem Weg zur AGI

Wie OpenAI mit realen Arbeitsaufträgen testet, ob KI menschliche Fachkräfte ersetzen kann – und welche rechtlichen Risiken dabei entstehen

OpenAI testet KI-Modelle an realen Arbeitsaufgaben auf dem Weg zur AGI

Neue Testmethode: KI gegen menschliche Arbeitskraft

OpenAI hat einen neuen Ansatz entwickelt, um die Leistungsfähigkeit seiner KI-Modelle unter realistischen Bedingungen zu bewerten. Das Unternehmen bittet Freelancer, echte Arbeitsaufträge aus aktuellen oder früheren Beschäftigungen hochzuladen. Ziel ist es, zu überprüfen, ob die neuen KI-Modelle menschliche Arbeitskräfte tatsächlich ersetzen können.

Seit September 2024 läuft dieser neue Bewertungsprozess, bei dem die Leistung der KI-Modelle direkt mit der Arbeit menschlicher Fachkräfte verglichen wird. OpenAI bezeichnet diesen Ansatz als wichtigen Indikator für den Fortschritt auf dem Weg zur AGI (Artificial General Intelligence) – einem Status, an dem die KI echte Mitarbeiter bei den meisten wirtschaftlich relevanten Aufgaben übertrifft.

So funktioniert der Test

Laut einem Dokument von OpenAI und dem Trainingsdatenunternehmen Handshake AI müssen Freelancer zwei Dinge einreichen:

Die konkrete Aufgabenstellung von ihren Auftraggebern
Das dazugehörige Arbeitsergebnis (z.B. Word-Dokument, PDF oder Excel-Datei)

OpenAI betont ausdrücklich, dass es sich um tatsächliche Resultate handeln muss und nicht nur um eine Beschreibung der Aufgabe. So soll überprüft werden, ob die Ergebnisse der neuen KI-Modelle qualitativ mit menschlicher Arbeit vergleichbar sind.

Beispiel aus der Praxis

Ein konkretes Beispiel stammt aus dem Tätigkeitsfeld eines Senior Lifestyle Managers bei einem Luxus-Concierge-Unternehmen: Die Aufgabe bestand darin, einen zweiseitigen PDF-Entwurf für eine siebentägige Yachtreise auf die Bahamas zu erstellen, inklusive Informationen zu den Interessen der reisenden Familie und zum geplanten Ablauf.

Ernüchternde Ergebnisse

Trotz der enormen Fortschritte im Bereich der grossen Sprachmodelle zeigen sich noch deutliche Unterschiede: Der sogenannte „Remote Labor Index" kommt zu dem Ergebnis, dass selbst das leistungsfähigste getestete Modell nur rund drei Prozent der Aufgaben zufriedenstellend erledigen kann.

Rechtliche Risiken: Geistiges Eigentum und Vertraulichkeit

Die Methode birgt erhebliche rechtliche Risiken. Evan Brown, Anwalt für geistiges Eigentum bei der US-amerikanischen Kanzlei Neal & McDevitt, warnt:

KI-Labore könnten Klagen wegen Veruntreuung von Geschäftsgeheimnissen ausgesetzt sein
Freelancer könnten in rechtliche Schwierigkeiten geraten, wenn sie Dokumente aus früheren Arbeitsverhältnissen weitergeben – selbst wenn diese zuvor bereinigt wurden

OpenAI fordert zwar ausdrücklich dazu auf, geistiges Eigentum der Arbeitgeber und personenbezogene Daten zu entfernen. Laut Dokumenten soll sogar ein internes ChatGPT-Tool namens „Superstar Scrubbing" Hinweise zum Entfernen sensibler Informationen geben. Dennoch könnten bereinigte Dokumente weiterhin unter Geheimhaltungsvereinbarungen fallen.

Milliarden-Markt KI-Training

Der Bedarf an qualitativ hochwertigen Trainingsdaten ist in den letzten Jahren massiv gestiegen. KI-Unternehmen wie OpenAI greifen seit Jahren auf Drittanbieter wie Surge, Mercor oder Scale AI zurück, um Netzwerke von Datenauftragnehmern aufzubauen. Die höheren Anforderungen führen zu entsprechend höheren Vergütungen und haben eine äusserst lukrative Nische entwickelt:

Handshake AI bezifferte seinen Unternehmenswert 2022 auf rund 3,5 Milliarden US-Dollar
Surge soll im Sommer 2025 sogar mit 25 Milliarden Dollar bewertet worden sein

Fazit: Noch ein weiter Weg zur AGI

OpenAIs Test zeigt deutlich: Trotz beeindruckender Fortschritte bei grossen Sprachmodellen ist der Weg zur echten AGI noch weit. Nur drei Prozent erfolgreiche Aufgabenlösung verdeutlichen, dass KI-Modelle zwar in spezifischen Bereichen brillieren können, aber noch weit davon entfernt sind, menschliche Arbeitskräfte umfassend zu ersetzen.

Für Unternehmen bedeutet dies: KI sollte als Unterstützungswerkzeug verstanden werden, nicht als vollständiger Ersatz für menschliche Expertise. Die Kombination aus KI-Effizienz und menschlichem Urteilsvermögen dürfte auf absehbare Zeit der erfolgversprechendste Ansatz bleiben.

Ein anderer Ansatz: KI direkt auf Unternehmensprozesse abstimmen

Der Test von OpenAI zeigt eine zentrale Herausforderung: Generische KI-Modelle können reale Arbeitsaufgaben oft nicht zufriedenstellend lösen, weil ihnen der spezifische Unternehmenskontext fehlt. Ein erfolgversprechenderer Weg ist es, KI-Agenten direkt mit dem Wissen und den Prozessen eines Unternehmens auszustatten.

Bei diesem Ansatz werden KI-Agenten nicht isoliert getestet, sondern von Anfang an auf die konkreten Anforderungen und Arbeitsabläufe einer Organisation zugeschnitten. Dabei fliesst Unternehmenswissen – etwa aus Dokumentationen, Richtlinien oder Best Practices – direkt in die Konfiguration der Agenten ein. So entstehen massgeschneiderte Assistenten, die nicht nur theoretisch leistungsfähig sind, sondern tatsächlich im Arbeitsalltag funktionieren.

Strukturierte Einführungsprogramme, wie etwa unser 100-Tage-Einführungsprogramm, ermöglichen es Unternehmen, diesen Prozess systematisch anzugehen: Von der Identifikation geeigneter Anwendungsfälle über die Integration von Unternehmenswissen bis hin zur schrittweisen Verankerung im Arbeitsalltag.

Interessiert an sicherem KI-Einsatz in Ihrem Unternehmen?

Bei Evoya AI bieten wir Schweizer KI-Lösungen, die Datenschutz und praktische Anwendbarkeit vereinen. Kontaktieren Sie uns für ein unverbindliches Erstgespräch oder testen Sie unsere Plattform kostenlos.

E-Mails kategorisieren mit KI: Wie ich meine letzten 47'441 E-Mails automatisch sortiert habe

Plattform

EvoChat

EvoBot

EvoSearch

EvoKonversa

Sicherheit

Sicherheit & Datenschutz

Dienstleistungen

KI-Anwendungen

Integrationen

On-Premise KI

KI-Entwicklung

Workshops & Programme

KI in der Praxis

Opportunity Mining

100-Tage-Einführungsprogramm

Branchen

Gemeinden und Verwaltungen

Schulen

Gesundheitswesen

Alters- und Pflegeeinrichtungen

Ressourcen

Blog

Partnerprogramm

Plattform-Dokumentation

Changelog

Labs

ROI-Rechner

OpenAI testet KI-Modelle an realen Arbeitsaufgaben auf dem Weg zur AGI