KI-Update kompakt: Millionenstrafe, GPT-5, ScreenAI, Verkehrsvorhersage

Das "KI-Update" liefert werktäglich eine Zusammenfassung der wichtigsten KI-Entwicklungen.

In Pocket speichern vorlesen Druckansicht 2 Kommentare lesen

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmmung wird hier ein externer Podcast (Podigee GmbH) geladen.

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (Podigee GmbH) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

Lesezeit: 10 Min.
Inhaltsverzeichnis

Erneut verhängt die französische Wettbewerbsbehörde (Autorité de la Concurrence) eine Geldstrafe gegen Google. Der Konzern muss 250 Millionen Euro bezahlen. Warum erklärt Eva-Maria Weiß von heise online:

Google hat für das Training der eigenen KI-Modelle Inhalte von Verlagen und Nachrichtenagenturen genutzt, ohne die Betroffenen davon zu unterrichten. Und auch ohne das Recht dazu zu haben. Und ohne die Behörde zu informieren, die es in Frankreich dafür gibt. Dort regelt nämlich die Wettbewerbsbehörde das Leistungsschutzrecht. Ursprünglich geht es dabei um die Vorschauen, die Google in der Suche anzeigt, also etwa die ein, zwei Sätze aus einem Artikel, die quasi beweisen sollen, dass drinsteht, was jemand gesucht hat. Google und die Presse handeln nämlich aus, wie es um die Vergütung dieser Auszüge steht. Damit das fair abläuft, ist Google verpflichtet, transparent zu erklären, was sie nutzen.

Dem ist im Falle des KI-Trainings also nicht so gewesen. Entsprechend bemängelt die Behörde nun, Google habe es verpasst, den Verlagen eine Chance zu geben, ihr Veto einzulegen. Das kostet Google jetzt 250 Millionen Euro. Es ist auch nicht die erste Strafe, die Google in Frankreich bezahlen muss. Zuletzt hatte Google 500 Millionen Euro zahlen müssen, weil sie mehreren Aufforderungen zu fairen Verhandlungen nicht nachgekommen waren. Das Leistungsschutzrecht ist ein immer wieder aufkeimender Streitpunkt zwischen Google, Meta und Verlagen. Google und Meta sagen, wenn sie diese Vorschauen von Artikeln zeigen, klicken Menschen auf die Links und entsprechend verdienen die Seiten Geld mit Werbung, die sie ausspielen können. Die Verlage sagen, Google und Meta funktionieren eigentlich nur, weil sie sich an diesen Inhalten bedienen. Würden alle Verlage ihre Inhalte aus der Google-Suche entfernen, wäre Google nicht mehr sonderlich hilfreich. Und Google verdient sein Geld damit, Werbung zwischen den Links anzuzeigen.

In Deutschland ist eine Art Workaround oder Kompromiss Google News und Googles News Showcases, da zahlt Google Verlagen Geld, mit denen direkt kooperiert wird. Schaut man sich das deutsche Urheberrecht an, gibt es da einen Passus, der besagt, Google kann das Internet crawlen, um die Ergebnisse in der Suche anzuzeigen. Darauf beruft man sich jetzt auch. Das KI-Training wird dabei gleichgesetzt mit den Crawlern für die Suche. Ob das so passt, werden erst noch Gerichte entscheiden müssen.

Laut anonymen Quellen plant OpenAI, Mitte des Jahres mit GPT-5 eine deutlich verbesserte Version von ChatGPT zu veröffentlichen. Laut diesen Quellen sollen einige Unternehmenskunden bereits Demos des neuesten Modells und der damit verbundenen GPT-Verbesserungen erhalten haben. GPT-5 sei demnach „deutlich besser“ als die Vorgängerversion GPT-4 aus dem März 2023. Insbesondere die zuletzt immer wieder thematisierte „Faulheit“ von GPT-4 soll in Version 5 Geschichte sein. GPT-4 fiel in letzter Zeit häufiger damit auf, dass es Aufgaben nur noch teilweise ausführte. GPT-5 befinde sich laut den Quellen noch in der Trainingsphase und werde vor Veröffentlichung intern auf Sicherheit getestet. Vor allem die Fähigkeit des neuen GPT, KI-Agenten zur autonomen Ausführung von Aufgaben aufzurufen, sei beeindruckend.

OpenAI CEO Sam Altman hatte erst kürzlich bestätigt, dass das Unternehmen noch in diesem Jahr ein neues, „erstaunliches“ KI-Modell auf den Markt bringen wolle. Er sagte aber auch, dass OpenAI vor der Veröffentlichung eines GPT-5 noch andere wichtige Dinge veröffentlichen müsse. Ein über Suchmaschinen geleakter OpenAI-Blog-Artikel über GPT-4.5 Turbo passt allerdings besser zu Altmans Aussagen, die nicht den Eindruck erwecken, dass GPT-5 unmittelbar bevorsteht. Der Teasertext des Blogartikels erwähnte auch ein Ende des KI-Trainings im Juni 2024. Neue KI-Modelle von OpenAI werden mit Hochspannung erwartet. Insbesondere die Frage, ob aktuelle generative KI überhaupt noch signifikant besser werden kann, könnte damit möglicherweise beantwortet werden.

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmmung wird hier ein externer Podcast (Podigee GmbH) geladen.

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (Podigee GmbH) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

Podcast: KI-Update

Wie intelligent ist Künstliche Intelligenz eigentlich? Welche Folgen hat generative KI für unsere Arbeit, unsere Freizeit und die Gesellschaft? Im "KI-Update" von Heise bringen wir Euch gemeinsam mit The Decoder werktäglich Updates zu den wichtigsten KI-Entwicklungen. Freitags beleuchten wir mit Experten die unterschiedlichen Aspekte der KI-Revolution.

Nach Gemma hat Google Research mit ScreenAI ein weiteres KI-Modell vorgestellt. Das Bild-Sprache-Modell versucht, bildliche Sprache zu verstehen und nutzbar zu machen, erklärt Wolf Hosbach von heise Developer. Was Google hier versucht, mit Screen AI, ist einem großen Sprachmodell, also einem Large-Language-Model wie zum Beispiel Google Gemini oder OpenAIs GPT-4, jetzt Daten nutzbar zu machen, die aus strukturierten Bildern kommen, also zum Beispiel aus Infografiken oder Web-Oberflächen. Und Screen AI versucht eben diese Informationen rauszuziehen, was ist da drin in den Bildern, in dieser Infografik? Was bedeutet diese Web-Oberfläche? Diese Daten stellt es dann dem großen Sprachmodell zur Verfügung.

Der Sinn ist, dass tatsächlich die Anwender dann konkrete Fragen stellen können und dann das Sprachmodell diese Informationen zum Beispiel aus Infografiken und Web-Oberflächen nutzen kann, um bessere Antworten zu geben. Das spielt umgekehrt auch eine Rolle, z.B. bei der Navigation auf Oberflächen. Ein Modell, das mit Screen AI die Daten analysiert, ist dann auch in der Lage, auf einer Oberfläche zu navigieren, also durchaus z.B. auch zu klicken, um an tiefere Informationen zu gelangen oder auch einfach z.B. für die Sprachsteuerung einer Webseite im Auto.

Traditionell lädt die Cloud Native Computing Foundation (kurz CNCF) zur europäischen Hausmesse ein. Über 12.000 Teilnehmende haben sich auf den Weg zur KubeCon+CloudNativeCon Europe 2024 nach Paris gemacht. Damit ist diese Veranstaltung die größte Open-Source-Konferenz der Welt. Und nicht unerwartet ist Künstliche Intelligenz ein großes Thema und nimmt entsprechend Raum ein.

Die großen Knackpunkte sind Lizenzen für den Zugriff auf die Modelle oder gar Daten, Herstellerunabhängigkeit bei den Werkzeugen und auch IT-Sicherheit. Hier lautet die klare Forderung an die CNCF und die Community: Helft bitte. Wiederholt die gute Arbeit im Kubernetes-Umfeld, aber diesmal zugeschnitten auf die KI und deren Anforderungen. Baustelle Nummer zwei ist die Skalierung über GPU-Cluster-Grenzen hinaus. Hier ist Kubernetes noch ganz am Anfang. Nummer drei ist das Aufteilen der KI-Arbeitsschritte auf die Container und Pods. Das funktioniert zwar prinzipiell, aber die Integration muss besser sein und beispielsweise schneller den Ausfall eines Knotens erkennen.

Immerhin gibt es seit Oktober letzten Jahres eine eigene Arbeitsgruppe zum Thema KI, die CNCF Cloud Native AI Working Group. Sie hat im Rahmen der Konferenz ihr erstes Whitepaper veröffentlicht. Auf knapp 30 Seiten beschreibt dieses den aktuellen Stand von KI, wie Technologien aus dem Cloud-Native-Umfeld die noch bestehenden Lücken schließen können und welche weiteren Entwicklungen sich abzeichnen.

Softwareentwickler Ishan Anand hat das GPT-2-Small-Sprachmodell in eine Exceldatei gepackt. Sein Ziel ist es, auch Nicht-Entwicklern zu zeigen, wie moderne Large Language Models (LLMs) basierend auf der Transformer-Architektur im Detail funktionieren. Das Excel-File mit dem GPT-2 Sprachmodell ist rund 1,2 GB groß und erfordert die neueste Excel-Version auf Windows. Vor Gebrauch unter macOS wird gewarnt, da die Dateigröße das Programm zum Einfrieren bringe. Das Sprachmodell arbeitet laut Anand komplett lokal ausschließlich mit Excel-eigenen Funktionen, ohne Zugriff auf Cloud-Dienste oder Python-Skripte. Die Bedienung ist allerdings nicht sehr komfortabel: Nutzende können Wörter in eine bestimmte Zelle eingeben und sehen nach rund einer Minute in einer anderen Zelle das nächste wahrscheinlichste Wort.

Anhand verschiedener Tabellen lässt sich dann genau nachvollziehen, was bei der Verarbeitung im Hintergrund passiert. Anand erläuterte, dass er damit die Konzepte der zugrunde liegenden Transformer-Architektur anschaulich und interaktiv erfahrbar machen wolle. Ein Sprachmodell sei grundsätzlich gut für eine Excel-Datei geeignet, da es hauptsächlich aus mathematischen Operationen bestehe. Zudem lasse sich anhand der Tabellenansicht nachvollziehen, warum Techniken wie „Chain of Thought“-Prompting die Leistung verbessern. Sie geben dem Modell nämlich mehr Raum oder mehr „Durchgänge“, um Zusammenhänge zu erkennen. GPT-2 galt bei seiner Veröffentlichung 2019 als Meilenstein. Die Excel-Variante nutzt das „kleine“ GPT-2-Small mit 124 Millionen statt der 1,5 Milliarden Parameter des kompletten Modells. Heutige Modelle auf GPT-4-Niveau umfassen meist mehrere 100 Milliarden Parameter.

Waabi, ein Start-up, das sich auf autonomes Fahren spezialisiert hat, will mit einem neuartigen KI-Modell die nächsten Bewegungen anderer Verkehrsteilnehmer vorhersagen. Dabei wird nicht nur maschinelles Lernen zum Einsatz kommen, sondern generative KI – ein Novum in diesem Segment. Das System namens Copilot4D wurde auf der Grundlage von Daten aus LIDAR-Sensoren trainiert, die mithilfe von Licht die Entfernung zu Objekten messen.

Gibt man dem Modell eine Situation vor – z. B. einen Fahrer, der rücksichtslos mit hoher Geschwindigkeit auf eine Autobahn auffährt –, sagt es voraus, wie sich andere Fahrzeuge in der Umgebung bewegen werden. Herauskommen soll eine LIDAR-Darstellung, die 5 bis 10 Sekunden in die Zukunft schaut, in diesem Fall beispielsweise eine Massenkarambolage vorhersieht. Bislang steht eine erste Version von Copilot4D zur Verfügung. Waabi arbeitet laut Chefin Raquel Urtasun aber bereits an genaueren Systemen, die in einer Testflotte autonomer Trucks in Texas eingesetzt werden sollen, bei denen die Fahrsoftware dann entscheidet, wie sie auf bestimmte Situationen reagieren muss.

(igr)