ABC der KI

  • Algorithmus

    Ein Algorithmus ist eine eindeutige, endliche Handlungsanweisung zur Lösung eines Problems. Neben den bekannten Computeralgorithmen ist also auch ein Kochrezept in diesem Sinne ein Algorithmus. In der Informatik werden aber Algorithmen in Programmiersprachen (unter Einschluss mathematischer Gleichungen) verwendet. KI-Modelle enthalten meist mehrere Algorithmen, z.B. zur Verarbeitung von Daten, zum Lernen aus den Daten sowie zur Anwendung der gelernten Entscheidungsregeln.

  • Bias (wörtlich übersetzt “Verzerrung” oder “Abweichung”)

    Beschreibt zunächst eine fehlerhafte Abbildung der Realität. Das kann sowohl auf Menschen (kognitiver Bias) zutreffen, aber auch auf Technologien, z.B. ein Thermometer, welches systematisch zu hohe Temperaturen anzeigt. Im Kontext von KI wird der Begriff häufig im Sinne von Unfairness oder Diskriminierung verwendet, wenn die Ergebnisse eines KI-Systems systematisch von einer sozialen Norm abweichen, also beispielsweise Angehörige bestimmter demographischer Gruppen bevorzugen oder benachteiligen. Dies kann unterschiedliche Gründe haben: Beispielsweise können die für das Training verwendeten Daten eine verzerrte statistische Verteilung aufweisen. Ein bekanntes Beispiel ist eine von Amazon für die Personalauswahl getestete Software, die Frauen benachteiligte - denn in der als Datenquelle genutzten Einstellungshistorie des Unternehmens waren sie unterrepräsentiert.

    Biases können auch auftreten, obwohl das betreffende Merkmal (z.B. Geschlecht) nicht explizit in den Daten enthalten ist. Denn stark korrelierende Merkmale (sog. Proxies) im Datensatz, die teilweise relevant für die zu lösende Aufgabe sein können, lassen Rückschlüsse auf die von Bias betroffenen Merkmale zu. Technische Lösungsansätze, die auf einer Entfernung der betreffenden Merkmale beruhen (sog. “Fairness Through Unawareness”), haben sich daher als ineffektiv herausgestellt. Stattdessen werden verschiedene Methoden angewandt, um mithilfe der betroffenen Merkmale Verzerrungen zu erkennen und auszugleichen.

  • Chatbots

    Computerprogramme, die in natürlicher Sprache (schriftlich) mit Menschen kommunizieren können. Die Verarbeitung und Generierung natürlicher Sprache ist als Natural Language Processing (NLP) schon seit den Anfängen des Feldes ein wichtiger Teil der KI. Die Kommunikation zwischen Mensch und Computer so zu gestalten, dass sie einer menschlichen Unterhaltung nahekommt, ist dabei einer der wichtigsten Gradmesser des KI-Fortschritts. Zunächst basierten Chatbots meist auf regelbasierten Ansätzen, bei denen die Antworten aufgrund bestimmter Schlüsselwörter aus einer Datenbank ausgewählt wurden. Ein bekanntes Beispiel ist Joseph Weizenbaums ELIZA. Heutige Chatbots wie OpenAIs ChatGPT (sog. große Sprachmodelle oder Large Language Models, LLMs) basieren auf maschinellem Lernen mithilfe großer Mengen an Texten aus dem Web und sind daher in der Lage, sehr reichhaltige Konversationen zu führen. Dank der Transformer-Technik können die Chatbots dabei nicht nur einzelne Wörter oder Satzteile als Grundlage ihrer Antworten heranziehen, sondern auch Zusammenhänge zwischen ihnen. Da diese Technik auf statistischen Mustern in den für das Training genutzten Texten beruht, hat sie wiederum eigene Grenzen. Beispielsweise ist der Wahrheitsgehalt der Aussagen dieser Chatbots nicht zu garantieren (sog. Halluzinationen).

  • Deep Fakes

    Täuschend echt erscheinende, KI-generierte Medieninhalte (oft Bilder, Audio oder Video), die mit der Absicht erstellt und verbreitet werden, die Adressat:innen über die Authentizität des dargestellten Inhalts zu täuschen. Der Name Deep Fakes ist daraus abgeleitet, dass bei der Herstellung der Inhalte meist tiefe neuronale Netze zum Einsatz kommen. Einfache Deep Fakes lassen sich auch von Endnutzer:innen ohne besondere technische Kenntnisse mittels entsprechender Anwendungen erstellen.

  • Erklärbare KI/Explainable AI (XAI)

    Hierunter werden Ansätze zusammengefasst, die den Einsatz und die Ergebnisfindung von KI-Modellen transparent und verständlich machen. XAI-Methoden eignen sich häufig, um die Gründe für ein bestimmtes Ergebnis nachvollziehbarer zu machen. Bei der Bilderkennung können z.B. auf Heatmaps diejenigen Bildbereiche eingefärbt werden, die für das Ergebnis der KI ausschlaggebend waren. Verwandte Ansätze mit abweichender Schwerpunktsetzung sind Transparenz, “Interpretable AI” oder “Legibility” (Lesbarkeit).

    Neben den technischen Möglichkeiten ist es aber auch im Sinne von XAI, offen über den Einsatz von KI zu kommunizieren und Anwender wie Betroffene mit entsprechenden Informationen und Hintergründen zum KI-System zu versorgen. Die Förderung von KI-Kompetenz ist auch in der KI-VO der EU vorgesehen.

  • Fair Machine Learning/Algorithmic Fairness (fair ML)

    Forschungsdisziplin und aktivistische Bestrebungen, die Entwicklung und den Einsatz von KI an sozialen Normen auszurichten, wobei insbesondere die Vermeidung von diskriminierenden Benachteiligungen infolge von Biases im Vordergrund steht. Dazu gehören die Etablierung rechtlicher und ethischer Anforderungen sowie ihre Umsetzung innerhalb der Anwendungskontexte und der darin eingebetteten Algorithmen. Wichtige Aspekte neben Fairness und Nicht-Diskriminierung sind etwa Transparenz, Partizipation und Verantwortlichkeit.

  • Generative KI

    KI-Modelle, die auf eine Eingabe (sog. Prompt) hin Inhalte wie Schriftsprache, Audio oder Grafiken generieren können. Da generative KI die Erstellung von täuschend echten Inhalten, besonders im Bereich Grafiken und Videos, ermöglicht, können diese neben nützlichen oder kreativen Zwecken als Deep Fakes auch zur Desinformation oder Manipulation genutzt werden. Laut der KI-Verordnung der EU muss für Nutzende daher erkennbar sein, wann sie es mit einem KI-System zu tun haben und synthetische Inhalte müssen maschinenlesbar, also für Computer erkennbar, als solche gekennzeichnet sein.

  • Hochrisiko-KI-System

    In einigen Bereichen kann der Einsatz von KI zu besonderen Risiken für Sicherheit, Gesundheit oder Grundrechte führen. Bestimmte in diesen Bereichen eingesetzte KI-Anwendungen listet die EU-KI-Verordnung daher als Hochrisiko-KI-Systeme, für welche strengere Regelungen gelten. Neben dem Einbau bzw. Einsatz von KI als Sicherheitsbauteil in bestimmten Produkten (beispielsweise Spielzeug oder Luftfahrtgeräte) zählen zu diesen Bereichen: Biometrie, kritische Infrastruktur, Bildung, Beschäftigung, grundlegende Dienste und Leistungen, Strafverfolgung, Migration, Rechtspflege und demokratische Prozesse. Jedoch ist auch nicht jedes System in diesen Bereichen unbedingt ein Hochrisiko-KI-System, da nur bestimmte Einsatzzwecke, die Anhang III der KI-VO näher beschreibt, umfasst sind.

  • Human in the Loop

    Als “Human in the Loop" wird ein Mensch bezeichnet, der in einen (teil-)automatisierten Prozess eingebunden ist, um diesen überwachen und ggf. eingreifen zu können. Kritisiert wird daran, dass der eingesetzte Mensch nicht immer tatsächlich in der Lage ist, die Funktionsweise eines KI-Systems zu überblicken oder sich zu sehr auf dessen Ergebnisse verlasse (Automatisierungsbias) und daher nur als Sündenbock (in der juristischen Diskussion auch “Haftungsknecht”) fungiere. Deshalb werden andere Konzepte wie wirksame menschliche Kontrolle (“meaningful human control”) erforscht.

  • KI-Verordnung der EU (AI Act)

    Die Europäische Union hat nach einem etwa dreijährigen Gesetzgebungsverfahren im Mai 2024 EU-weit einheitliche Regelungen für die Gestaltung und den Einsatz von KI-Systemen beschlossen. Kernstück der Gesetzgebung ist die Einordnung von KI-Systeme in Risikostufen: Systeme mit inakzeptablen Risiko, zum Beispiel bei Einsatz bestimmter manipulativer Techniken oder der Emotionserkennung am Arbeitsplatz, werden verboten. In Bereichen, in denen Risiken für Gesundheit, Sicherheit oder Grundrechte bestehen, darunter etwa kritische Infrastruktur oder Strafverfolgung, sind →Hochrisiko-KI-Systeme angesiedelt. Für sie gelten besondere Qualitätsanforderungen zu Daten-Governance, Transparenz & Dokumentation, menschliche Aufsicht, Cyber-Sicherheit & Robustheit sowie das Bestehen eines Risikomanagementsystems. Insbesondere für Hochrisiko-KI, die von Behörden eingesetzt wird, besteht die Pflicht, in einer “Grundrechte-Folgenabschätzung” Risiken für die Betroffenen zu identifizieren und Maßnahmen für den Grundrechtsschutz zu ergreifen. KI-Systeme mit “allgemeinem Verwendungszweck”, was große Sprachmodelle wie ChatGPT umfasst, unterliegen einigen Regelungen, auch wenn sie keine Hochrisiko-Systeme sind.
    Diese Regelungen werden ihre Geltung schrittweise in einer Übergangsphase bis zum August 2026 erlangen. Für die Überwachung und Durchsetzung der Verordnung ist die EU-Kommission zuständig, zudem müssen die EU-Mitgliedstaaten zuständige Behörden benennen.

  • Labels

    Labels sind beim überwachten Lernen die Werte, die in einem Datensatz (engl. instance) den Eingangsdaten als richtiges Ergebnis bzw. Output zugeordnet sind. Beispielsweise kann in einer Bilddatenbank den Bildern das Label “Apfel” oder “Birne” zugeordnet sein. Mithilfe dieser Labels erhält die KI im Trainingsprozess Feedback, mit dem sie ihre Ergebnisse verbessert. Labels werden meist von Menschen erstellt (sog. Labelling), häufig von Clickworkern oder per Crowdsourcing. Wer Emails als Spam markiert oder CAPTCHA-Aufgaben löst, um sich im Web als Mensch auszuweisen, hilft in vielen Fällen genau auf diese Weise beim Training von KI. Verwandt ist der Begriff “Zielvariable”: Dieser bezeichnet das Merkmal, das die KI erkennen soll (im Beispiel etwa “Obstart”).

  • Maschinelles Lernen (ML)

    Maschinelles Lernen ist einer der wichtigsten Ansätze der künstlichen Intelligenz und eine wichtige Grundlage des derzeitigen Erfolgs von KI-Anwendungen. Im Unterschied zu anderen Ansätzen der KI (z.B. sogenannte Expertensysteme) nutzt ML die statistischen Korrelationen, die in Trainingsdaten vorhanden sind, um auf Grundlage nur weniger explizit programmierter Lernfunktionen (Hyperparameter) effiziente Lösungen für Aufgaben wie beispielsweise die Klassifizierung (Zuordnung eines Inputs zu einem Output) zu finden. Eine wichtige Methode des ML sind beispielsweise neuronale Netze.

  • Neuronale Netze

    Eine bestimmte Art von ML-Architektur, die sich an der Struktur des menschlichen Gehirns orientiert. Verschiedene “Neuronen” nachbildende mathematische Funktionen sind in Schichten verknüpft. Jedes Neuron verarbeitet empfangene Inputs mittels bestimmter Gewichtungen, die im Laufe des Trainingsprozesses angepasst werden, und leitet diese an Neuronen der nächsten Schicht weiter. Sind neuronale Netze besonders komplex aufgebaut, verfügen also über viele Schichten von Neuronen, spricht man auch von tiefen neuronalen Netzen (deep neural networks, DNN).

  • Overfitting

    Wenn ein KI-Modell seine Funktionen zu stark an den statistischen Eigenschaften der Trainingsdaten orientiert, kann es mit unbekannten Daten keine guten Ergebnisse erzielen – es leitet also keine Lösung aus den Daten ab, die zur Verallgemeinerung taugt. Dies nennt man Overfitting. Dieses Phänomen kann auch in Biases resultieren, da die Stichprobe in den Trainingsdaten zulasten bestimmter Gruppen verzerrt sein kann. Um Overfitting zu erkennen und zu vermeiden, werden KI-Modelle validiert und getestet. Zudem gibt es Algorithmen, die ein Overfitting unwahrscheinlicher machen. Beim gegensätzlichen Underfitting ist das KI-Modell nicht in der Lage, die Komplexität von Daten zu erfassen, was ebenfalls zu Biases führen kann.

  • Recht auf Erklärung

    Viele Menschen sind der Auffassung, dass diejenigen, die vom Einsatz automatisierter Systeme betroffen sind, ein Recht haben, zu verstehen, wie eine sie betreffende Entscheidung oder Bewertung zustande gekommen ist und welche Logik dabei angewandt wurde. Die Einzelheiten des Umfangs und des Inhalts eines solchen Rechts sind jedoch unterschiedlich. Insbesondere in der juristischen Debatte bezieht sich die Frage nach einem „Recht auf Erläuterung darauf, wie weit die Informationspflichten nach der Datenschutz-Grundverordnung (DS-GVO) reichen: Befürworter:innen schließen aus der Pflicht, über die “involvierte Logik sowie die Tragweite und die angestrebten Auswirkungen” einer automatisierten Entscheidung zu informieren, dass Betroffene ein Recht darauf haben, eine Erklärung zu erhalten, die auch die Gründe für die Entscheidung einschließt. Dem wird vor allem entgegengehalten, dass diese Pflichten nur dann überhaupt Anwendung finden, wenn eine wichtige Entscheidung vollständig automatisiert getroffen wird und dass an eine “Erklärung” unterschiedliche Anforderungen gestellt werden können (beispielsweise die normative Rechtfertigung oder die statistische Begründung der Entscheidung), von denen einige bei KI-Modellen technisch nicht ohne Weiteres erfüllt werden können (Erklärbare KI/XAI). Die überwiegende Meinung in der Rechtswissenschaft ist, dass den Betroffenen jedenfalls ein Einblick in die wichtigsten Entscheidungskriterien und ihre Gewichtung bereitzustellen ist. 

  • Trainingsdaten

    Daten, mithilfe derer die Parameter entwickelt werden, die ein KI-Modell zur Lösung einer Aufgabe nutzt. Trainingsdaten werden beim überwachten Lernen typischerweise in mehrere Datensätze aufgeteilt: Trainingsdaten im engeren Sinne sowie Validierungs- und Testdaten. Validierungsdaten dienen dazu, die Hyperparameter des KI-Modells anzupassen, nachdem ein erstes Training erfolgt ist. Dazu werden häufig mehrere Modelle trainiert und dasjenige ausgewählt, welches bei den Validierungsdaten die besten Ergebnisse liefert. Schließlich wird mittels der Testdaten überprüft, ob das Modell auch bei Daten, mit denen es nicht trainiert worden ist, gute Ergebnisse erzielt.

  • Transparenzfehler

    Annahme, dass die möglichst vollständige Einsicht in eine Situation, beispielsweise eine Datenverarbeitung, automatisch zu einer besseren Entscheidung im Sinne der eigenen Ziele führt. Die Forschung zeigt hingegen, dass Transparenz zwar wertvoll und für selbstbestimmtes Handeln notwendig ist, jedoch aufgrund anderer Einflussfaktoren wie z.B. der begrenzten Rationalität von Menschen oder fehlenden Alternativen nicht allein durch Transparenz erreicht wird.

  • Überwachtes Lernen

    Überwachtes Lernen ist ein Teilgebiet des maschinellen Lernens (ML). Die KI lernt hier anhand von Trainingsdaten, in denen die richtige Ausgabe (Zielvariable) bereits bekannt ist und als Label vorliegt. Die KI passt in der Trainingsphase ihre Lösungsfunktion abhängig davon an, ob ihre Ausgabe mit dem Feedback des Labels übereinstimmt - beispielsweise, wenn bei der Klassifizierung ein als “Hund” gelabeltes Bild fälschlicherweise als “Katze” eingestuft wird. In der Testphase wird dann überprüft, ob die KI auch bei bisher unbekannten Eingabedaten das richtige Label vorhersagt.

  • Unüberwachtes Lernen

    Beim unüberwachten Lernen sind anders als beim überwachten Lernen keine Zielvariablen bekannt, die die KI ausgeben soll. Vielmehr wird KI genutzt, um wenig strukturierte Daten zu erkunden und beispielsweise anhand ähnlicher Merkmale zu sortieren (sog. Clustering).

  • Verstärkendes Lernen

    Beim verstärkenden Lernen erkundet die KI eine (mathematisch repräsentierte) Umgebung, in der sie für Aktionen Feedback (Belohnungen oder Bestrafungen) erhalten kann. Anhand dieser lernt sie, ihr Verhalten anzupassen und ein optimales Ergebnis zu erzielen. Ein beliebtes Beispiel für dieses Teilgebiet des maschinellen Lernens ist das Training von Staubsaugerrobotern, die sich effizient im Raum bewegen sollen. Auch bei KI-Systemen für Spiele (beispielsweise AlphaGo, das die weltbesten Go-Spieler:innen schlagen konnte) kommt diese Methode zum Einsatz. 

  • Vertrauenswürdige KI

    Leitbegriff für eine Vielzahl an Initiativen aus Politik, Wissenschaft und Zivilgesellschaft. Sie eint das Ziel, KI so zu entwickeln, dass ihr auch bei der Verwendung in sicherheitskritischen oder grundrechtlich sensiblen Bereichen vertraut werden kann. Dies umfasst laut der Hochrangigen Expertengruppe für KI der EU-Kommission die Elemente Rechtmäßigkeit, Ethik und Robustheit. Insbesondere die Regulierungsstrategie der EU zielt auf eine vertrauenswürdige KI ab. Konkurrierende, teilweise auch überlappende Konzepte sind menschenzentrierte KI oder “AI for Good”.