Die zunehmende Dominanz von künstlicher Intelligenz in zentralen Lebensbereichen wirft eine kritische Frage auf: Wie viel Transparenz ist notwendig, um Vertrauen in undurchsichtige, algorithmisch gesteuerte Black-Box Entscheidungsprozesse zu schaffen? Die Antwort darauf könnte eine Ära der künstlichen Intelligenz prägen, die sowohl fortschrittlich als auch verantwortungsbewusst ist.

Doch wie gelingt es, dieses essenzielle Vertrauen zu gewinnen?

Künstliche Intelligenz?

Künstliche Intelligenz (KI; engl. Artificial Intelligence, AI) ist ein wachsender Bestandteil des Lebens geworden und beeinflusst schon heute diverse Lebensbereiche. Das KI-Spektrum erstreckt sich von relativ einfachen Binärentscheidungen (Ja/Nein), wie beispielsweise einem E-Mail-Spam filter, bis hin zu komplexen Systemen, die selbstfahrende Autos steuern. Die Anwendungen sind so vielfältig, dass KI-Interaktionen im Alltag oft unbemerkt bleiben.

Online-Dienste wie Amazon und Netflix nutzen künstliche Intelligenz, um den Usern Filme oder Produkte vorzuschlagen. Soziale Medien wie Twitter und Instagram setzen ebenfalls auf KI, um personalisierte Inhalte bereitzustellen und die Nutzerbindung zu erhöhen. Sprachassistenten wie Siri, Alexa, Google Assistant und Cortana, die auf KI basieren, können bereits eine Vielzahl einfacher Aufgaben erledigen [Müller 2023].

In der Wirtschaft kann KI dazu beitragen, die Verluste eines Unternehmens zu minimieren. Zum Beispiel kann sie bei Kreditentscheidungen dazu beitragen, das Risiko einzuschätzen, dass ein Kunde seinen Kredit nicht zurückzahlt. Im Finanzsektor können KI-basierte Handelssysteme Kursschwankungen analysieren und Muster erkennen, um Investitionsentscheidungen zu treffen. In der Medizin wird bereits intensiv daran geforscht, KI in die chirurgische Praxis zu integrieren, um präzise und effiziente Operationen durchzuführen [Klawonn 2023].

Die rapide Entwicklung und zunehmende Akzeptanz von KI-Technologien wird eindrucksvoll durch ChatGPT illustriert. Während Netflix 1999 noch 3,5 Jahre benötigte, um eine Million Nutzer zu gewinnen, gelang dies ChatGPT in beeindruckenden 5 Tagen [Janson 2023]. Der Chatbot hat für Aufsehen gesorgt, da er zahlreiche Aufgaben von Mitarbeitern, Schülern und Studenten übernehmen kann. Seine Integration in Unternehmen könnte das Wachstum erheblich beschleunigen. Darüber hinaus hat er das Potenzial, das Bildungssystem tiefgreifend zu transformieren.

Die genannten Beispiele unterstreichen eindrücklich das Potenzial und die wachsende Bedeutung künstlicher Intelligenz im Alltag. Solche Technologien können Unternehmen dabei helfen, ihre Ziele effizienter zu erreichen und ihr Wachstum zu beschleunigen. Jedoch sind sie trotz ihrer Vorteile nicht frei von potenziellen Risiken. KI-Systeme sind nicht immun gegen Fehlentscheidungen, und diese können gravierende Konsequenzen haben.

Ein fehlerhafter Produktvorschlag mag für einen Kunden nur eine kleine Unannehmlichkeit sein. Wenn jedoch ein Algorithmus wiederholt und systematisch unpassende Empfehlungen gibt, könnte dies Kunden abschrecken und zu erheblichen finanziellen Einbußen des Unternehmens führen. Während ein Unternehmen möglicherweise in der Lage ist, finanzielle Verluste durch fehlerhafte Kreditentscheidungen zu absorbieren, könnten solche Fehltritte für die betroffenen Einzelpersonen verheerende Auswirkungen haben.

Chatbots können gezielt in eine bestimmte politische Richtung trainiert werden, was potenziell das gesellschaftliche Zusammenleben beeinträchtigen kann. Unternehmen könnten durch fehlerhafte KI-Prognosen verleitet werden, übermäßig viele Rohstoffe zu erwerben, was zu überhöhten Lager- und Personalkosten führen kann. Selbstfahrende Autos könnten infolge einer fehlerhaften KI-Entscheidung Unfälle verursachen und somit Menschenleben in Gefahr bringen. Es ist zudem von großer Bedeutung sicherzustellen, dass KI-Algorithmen nicht bestimmte Nutzergruppen diskriminieren, da dies aus ethischen und politischen Gründen problematisch wäre.

Die aufgeführten Risiken unterstreichen die zwingende Notwendigkeit von Transparenz und Nachvollziehbarkeit bei den Entscheidungsprozessen, die von KI-Algorithmen gesteuert werden. Dazu ist es von essentieller Bedeutung, dass sowohl Entwickler als auch Anwender von KI über ein tiefgreifendes Verständnis für die Funktionsweise dieser Algorithmen verfügen.

Ein Datenanalyst in einem Unternehmen sollte beispielsweise in der Lage sein, seinem Vorgesetzten detailliert zu erläutern, warum ein KI-Modell für den kommenden Monat außergewöhnlich hohe Verkaufszahlen prognostiziert. Ein Kreditinstitut muss nicht nur aus Gründen der Professionalität und des Ansehens, sondern auch aufgrund gesetzlicher Vorgaben in der Lage sein, einem Kunden die genauen Gründe für eine Kreditablehnung transparent darzulegen.

In der Medizin, insbesondere wenn KI-Systeme bei Operationen eingesetzt werden, ist es unerlässlich, für jedes KI-gesteuerte Verhalten, das zu schwerwiegenden Verletzungen eines Patienten führen könnte, eine klare Erklärung bereitzustellen. Dies dient dazu, sicherzustellen, dass der Algorithmus nicht vorsätzlich darauf programmiert wurde, einem Patienten oder einer spezifischen Patientengruppe Schaden zuzufügen.

Zu Beginn wurde der Begriff “Künstliche Intelligenz” intuitiv eingesetzt, ohne eine explizite Definition zu liefern. Sie, als Leser dieser Arbeit haben womöglich eine Vorstellung von künstlicher Intelligenz, sei es durch Ihren beruflichen Alltag, Ihr generelles Interesse oder die wachsende Medienpräsenz. Aber was genau verbirgt sich hinter dem Begriff “Künstliche Intelligenz”, und ist dieser Begriff nicht in gewisser Weise irreführend?

Die präzise Definition von Künstlicher Intelligenz (KI) ist nicht trivial. Die Frage “Was ist Intelligenz?” beschäftigt Wissenschaftler seit jeher, und ständig werden neue Theorien und Messmethoden entwickelt [Spearman, C. 1904], [Lehrl et al. 1971], [Goleman & Griese 1996], [Stern & Grabner 2014]. . Um über KI nachzudenken, muss zunächst geklärt werden, was allgemein unter Intelligenz verstanden wird. Laut Duden bezeichnet Intelligenz die Fähigkeit des Menschen, abstrakt und vernünftig zu denken und daraus sinnvolle Handlungen abzuleiten [Duden: Intelligenz 2023]. . Diese Definition wirft jedoch Fragen auf, insbesondere bezüglich des Begriffs “vernünftig”. Ein Algorithmus, der Muster in Texten erkennt und darauf basierende Handlungsempfehlungen gibt, könnte als intelligent betrachtet werden. Doch es könnte genauso argumentiert werden, dass dieser Algorithmus nur das tut, wofür er programmiert wurde, nämlich Muster in Texten zu erkennen. Handelt es sich hierbei um eine künstliche Intelligenz? Eine KI sollte in der Lage sein, basierend auf Input zu lernen. Dieses Lernen kann auf verschiedene Weisen geschehen, die im Kapitel 2 detailliert beschrieben werden. Wenn von Lernen die Rede ist, wäre der präzisere Begriff Maschinelles Lernen. Da die Definition von Intelligenz nicht eindeutig ist und es aus philosophischer Sicht umstritten ist, ob Algorithmen wirklich intelligent sein können, werden in dieser Arbeit die Begriffe ‘Künstliche Intelligenz’ und ‘Maschinelles Lernen’ synonym verwendet.

KI verstehen notwendig?

Ein neuronales Netz wurde darauf trainiert, Huskies von Wölfen anhand von Trainingsbildern zu unterscheiden. Bei einem Testset von 20 Bildern machte der Algorithmus nur einen Fehler (Siehe Abbildung). Bei näherer Betrachtung wurde jedoch klar, dass der Algorithmus nicht wirklich die Tiere unterschied, sondern lediglich das Vorhandensein von Schnee auf den Bildern. War Schnee zu sehen, klassifizierte er das Bild als “Wolf”, andernfalls als “Husky” [Ribeiro et al. 2016].

Während solch ein Fehler in diesem Kontext vielleicht harmlos erscheint, kann er in anderen Bereichen, wie der Kreditvergabe, gravierende Folgen haben. Eine automatische Ablehnung aufgrund irreführender Korrelationen kann zu erheblichen Benachteiligungen führen. Dieses Beispiel unterstreicht erneut warum es so wichtig ist, die Entscheidungen von Algorithmen zu verstehen. Doch wie viel Vertrauen ist notwendig?

Die rasante Entwicklung und Integration von maschinellen Lernalgorithmen in diverse Anwendungsbereiche hat zu einer Revolution in vielen Branchen geführt. Von der Medizin bis zur Finanzwelt, von der Automobilindustrie bis zur Unterhaltung – überall hinterlassen diese Algorithmen ihren Fußabdruck. Doch mit der wachsenden Abhängigkeit von diesen Systemen wächst auch die Notwendigkeit, ihre Funktionsweise und ihre Entscheidungen zu verstehen. In dieser Arbeit werden zwei Ziele verfolgt: Zum einen soll ein umfassender Überblick über die verschiedenen Methoden und Anwendungsmöglichkeiten von maschinellen Lernalgorithmen gegeben werden. Das primäre Anliegen dieser Arbeit geht jedoch darüber hinaus. Es geht nicht nur darum, zu wissen, wie ein Algorithmus funktioniert, sondern vor allem darum, seine Ergebnisse interpretieren zu können.

Die Interpretierbarkeit von Algorithmen ist von entscheidender Bedeutung. Wie bereits in der Einleitung betont wurde, spielen Algorithmen eine zunehmend dominante Rolle in vielen Branchen. Wenn diese Algorithmen Entscheidungen treffen – sei es bei der Kreditvergabe, medizinischen Diagnosen oder Personalbeschaffung –, ist es von höchster Wichtigkeit, dass diese Entscheidungen nachvollziehbar sind. Nur durch die Möglichkeit, die zugrundeliegenden Mechanismen und Faktoren zu verstehen, die zu einer bestimmten Entscheidung geführt haben, kann sichergestellt werden, dass die Algorithmen ethisch und verantwortungsbewusst agieren. Dies schafft Transparenz und ermöglicht eine kritische Überprüfung, um sicherzustellen, dass keine unerwünschten Voreingenommenheiten oder diskriminierenden Muster in den Entscheidungen der Algorithmen verankert sind.

Darüber hinaus stärkt das Verständnis und die Transparenz von Algorithmen das Vertrauen der Öffentlichkeit in diese Technologien. In einer Zeit, in der “künstlische Intelligenz” immer häufiger in den Schlagzeilen steht, ist es von zentraler Bedeutung, dass Fachleute, Entscheidungsträger und die breite Öffentlichkeit ein klares Verständnis dafür haben, wie diese Systeme funktionieren und warum sie bestimmte Entscheidungen treffen.

Mit dieser Arbeit wird ein Beitrag zur Förderung dieses Verständnisses und zur Sensibilisierung für die Bedeutung der Interpretierbarkeit von maschinellen Lernalgorithmen geleistet. Es ist ein Schritt in Richtung

Quellen

[Müller, 2023] Jörg Müller, "Was ist Künstliche Intelligenz?" (2023) Link zur Quelle

[Klawonn, 2023] Ines Klawonn (2023), Künstliche Intelligenz bahnt den Weg für Operationsroboter, Link zur Quelle

[Janson, 2023] Matthias Janson, ChatGPTs Sprint zu einer Million Nutzer (2023), Link zur Quelle

[Spearman, C. 1904] Spearman, C. (1904). General Intelligence, Objectively Determined and Measured. American Journal of Psychology, 15, 201-292.

[Lehrl et al. 1971] Lehrl, S., Daun, H., & Schmidt, R. "Eine Abwandlung des HAWIE-Wortschatztests als Kurztest zur Messung der Intelligenz Erwachsener." Universitäts-Nervenklinik mit Poliklinik Erlangen, 1971. English title: "A Short Scale for the Measurement of the Intelligence of Adults: A Modification of the Vocabulary Scale of HAWIE, the German Modification of WAIS." Eingegangen am 7. Juli 1971.

[Goleman & Griese 1996] "Emotionale Intelligenz." ewi-psy.fu-berlin.de, 1996.

[Stern & Grabner 2014] Stern, E.; Grabner, R.H. Die Erforschung menschlicher Intelligenz. In: Ahnert, L. (eds) Theorien in der Entwicklungspsychologie. Springer VS, Berlin, Heidelberg, 2014., Link zur Quelle

[Duden: Intelligenz 2023] Duden, Bedeutungen Intelligenz (2023) Link zur Quelle

[Ribeiro et al. 2016] Marco Tulio Ribeiro and Sameer Singh and Carlos Guestrin, Why Should I Trust You?": Explaining the Predictions of Any Classifier 2016

Datenverständnis
- Zu Beginn wird der Datensatz untersucht, um ein tiefes Verständnis über die enthaltenen Informationen zu erhalten.
- Es werden Auffälligkeiten wie Ausreißer geprüft, um sicherzustellen, dass die Daten qualitativ hochwertig sind.
- Falls keine signifikanten Auffälligkeiten festgestellt werden, folgt der nächste Schritt:
Datenbearbeitung, Datenaufteilung und Überprüfung
- Es erfolgt eine Dummycodierung, um kategorische Variablen in numerische Werte zu transformieren, die von einigen Modellen besser verarbeitet werden können.
- Der Datensatz wird in Trainingsdaten (80 %) und Testdaten (20 %) aufgeteilt, um die Modelle zu evaluieren.
- Die Daten werden skaliert, sodass ihre Werte in einem Intervall zwischen 0 und 1 liegen.
Klassifikationsmodelle
- Es werden drei leistungsstarke Klassifikationsmodelle eingesetzt, um Kreditanträge zu bewerten.
- Logistische Regression als Standardvergleichsmodell: Dieses Modell dient als Benchmark für die komplexeren Modelle. Trotz seiner Einfachheit kann es effektiv sein und bietet den Vorteil der leichteren Interpretierbarkeit im Vergleich zu den anderen, komplexeren Modellen. Es wird hier eingesetzt, um eine Basislinie für die Leistung festzulegen und zu sehen, wie viel zusätzlichen Nutzen die komplexeren Modelle bieten können.
- xgBoost mit 50 Bäumen: Hier wird die Ensemble-Technik verwendet, die 50 Entscheidungsbäume kombiniert, um fundierte Kreditentscheidungen zu treffen.
- 15 Neuronale Netze mit gemittelten Prognosen: Diese neuronalen Netze liefern jeweils eigene Vorhersagen, welche anschließend gemittelt werden, um eine robuste finale Prognose zu erhalten. Sie soll außerdem der reproduzierbarkeit dienen, da sich die Seedoption als schwierig erwies.
Untersuchung der Shapley Values
- Es folgt die Berechnung und Analyse der Shapley Values aller Modelle, um die Auswirkung einzelner Merkmale auf die Kreditprognosen zu verstehen.

Überblick Datensatz

Verteilung der Daten

Zusammenfassung

Nach sorgfältiger Analyse des Datensatzes wurde festgestellt, dass er keine fehlenden Werte aufweist. Besonders auffällig ist die signifikante Korrelation zwischen dem Kreditscore und dem Kreditstatus. Dies deutet darauf hin, dass der Kreditscore wahrscheinlich den entscheidenden Einfluss auf den Kreditantrag ausübt. Darüber hinaus gibt es im Datensatz weitere bemerkenswerte Korrelationen. So besteht beispielsweise eine starke Beziehung zwischen Luxusgütern und Einkommen sowie zwischen der Kredithöhe und sowohl Luxusgütern als auch Bankvermögen. Überraschenderweise könnte die Kredithöhe einen geringeren Einfluss auf den Kreditentscheid haben, als man zunächst annehmen könnte. Ein weiterer interessanter Punkt für die zukünftige Analyse, insbesondere bei der Auswertung der Shapley Values, sind die negativen Werte der Wohnimmobilien. Es könnte sein, dass Personen mit negativen Wohnimmobilienwerten seltener einen Kredit genehmigt bekommen. Zudem scheint es, dass kurze Kreditlaufzeiten die Chancen auf eine Kreditgenehmigung erhöhen könnten.

Im nächsten Schritt werden zunächst die Daten in Trainings- und Testdaten aufgeteilt bevor auf die Analyse der Modellierung eingegangen wird. Dabei werden drei verschiedene Ansätze in Betracht gezogen: die logistische Regression, XGBoost und neuronale Netze. Nachdem die Modelle erstellt wurden, wird ihre Performance gründlich analysiert, um zu bestimmen, welches Modell die besten Vorhersagen für den spezifischen Datensatz liefert. Nach der Analyse folgt die Interpretation der Modelle. Ein besonderer Schwerpunkt wird dabei auf der Auswertung der Shapley Values liegen. Diese bieten einen tiefen Einblick in die Beiträge einzelner Merkmale zur Vorhersage und können dabei helfen, die wichtigsten Treiber in den Daten zu identifizieren.

Aufteilung des Datensatzes

Kennzahlen

Trainingsdaten

Testdaten

Vorgehen

Zu Beginn des Modellierungsprozesses wurden die Daten in Trainings- und Testsets aufgeteilt. Um die Daten für die Modellierung vorzubereiten, wurden die Trainingsdaten skaliert, sodass ihre Werte in einem Intervall zwischen 0 und 1 liegen. Dies wurde mit der folgenden Formel erreicht: $$y=\frac{x-min(x)}{max(x)-min(x)}$$ Es ist von entscheidender Bedeutung, dass die Testdaten mit denselben Skalierungswerten wie die Trainingsdaten skaliert werden, um sicherzustellen, dass die Modelle später korrekte Vorhersagen für unbekannte Daten liefern können. Nachdem die Skalierung abgeschlossen war, begann die Modellierung.

Während des Modellierungsprozesses war es von zentraler Bedeutung, sicherzustellen, dass alle Modelle unter denselben Bedingungen erstellt wurden, um die Ergebnisse vergleichbar zu machen. Bei der logistischen Regression ist die Reproduzierbarkeit durch das zugrunde liegende mathematische Modell gegeben. Im Gegensatz dazu verwendet XGBoost Zufallszahlen, was zu unterschiedlichen Ergebnissen bei wiederholten Durchläufen führen kann. Dieses Problem kann durch das Setzen eines Seeds gelöst werden. Bei neuronalen Netzen, insbesondere bei solchen, die mit Keras/Tensorflow erstellt wurden, ist das Setzen eines Seeds jedoch komplizierter. Um trotzdem eine gewisse Reproduzierbarkeit zu gewährleisten, wurden 15 verschiedene neuronale Netze erstellt. Der Gedanke dahinter ist, dass der Mittelwert der Vorhersagen und später der Mittelwert der Shapley Values über diese Modelle hinweg konsistente und ähnliche Ergebnisse liefern sollte.

Zusammenfassung

Die Gesamtmenge der Daten wurde in Trainingsdaten (80%) und Testdaten (20%) aufgeteilt. In den Trainingsdaten sind insgesamt 3.415 Datensätze vorhanden, wobei 62.34% der Kreditanträge genehmigt wurden (2.129 Datensätze) und 37.66 % abgelehnt wurden (1.286 Datensätze). Die Verteilung der Kreditgenehmigungen und -ablehnungen scheint somit ausgeglichen zu sein, da kein Merkmal in einer der beiden Kategorien überrepräsentiert ist.

Für die einzelnen Merkmale zeigen die Kennzahlen eine ähnliche Verteilung zwischen Trainings- und Testdaten. Die Anzahl der Familienangehörigen ("no_of_dependents") variiert zwischen 0 und 5 in beiden Datensätzen. Das Median-Jahreseinkommen ("income_annum") beträgt 5.100.000 in den Trainingsdaten und 5.100.000 in den Testdaten. Der Kreditbetrag ("loan_amount") variiert zwischen 14.500.000 und 14.600.000 mit einem Medianwert von 14.600.000 in den Trainingsdaten und 14.600.000 in den Testdaten. Die Kreditlaufzeit ("loan_term") liegt zwischen 2 und 20 Jahren in beiden Datensätzen.

Der Kredit-Score ("cibil_score") variiert zwischen 300 und 900 in den Trainingsdaten und zwischen 300 und 603.5 in den Testdaten, wobei der Medianwert in beiden Fällen nahe beieinander liegt (599 in Trainingsdaten und 603.5 in Testdaten).

Die Werte der Wohnimmobilien ("residential_assets_value") liegen zwischen 5.600.000 und 5.700.000 mit einem Medianwert von 5.700.000 in den Trainingsdaten und 5.700.000 in den Testdaten. Die Werte der Gewerbeimmobilien ("commercial_assets_value") variieren zwischen 3.700.000 und 3.500.000 mit einem Medianwert von 3.700.000 in den Trainingsdaten und 3.500.000 in den Testdaten.

Die Werte von Luxusgütern ("luxury_assets_value") variieren zwischen 14.600.000 und 14.550.000 mit einem Medianwert von 14.600.000 in den Trainingsdaten und 14.550.000 in den Testdaten. Der Wert der Bankvermögenswerte ("bank_asset_value") liegt zwischen 4.600.000 und 4.500.000 mit einem Medianwert von 4.600.000 in den Trainingsdaten und 4.500.000 in den Testdaten.

Die Anzahl der Personen mit Hochschulabschluss ("education_Graduate") ist in den Trainingsdaten (1.693 Ja und 1.722 Nein) und den Testdaten (451 Ja und 403 Nein) ähnlich verteilt. Ebenso gibt es in den Trainingsdaten (1.712 Ja und 1.703 Nein) und den Testdaten (407 Ja und 447 Nein) eine ähnliche Anzahl von Personen, die nicht selbstständig sind ("self_employed_No").

Insgesamt scheint die Verteilung der Daten auf Test- und Trainingsdaten in Ordnung zu sein, und es gibt kein Merkmal, das in einer der beiden Kategorien überrepräsentiert ist. Somit ist eine gute Voraussetzung für das Training eines zuverlässigen Modells und das Testen seiner Leistungsfähigkeit geschaffen worden.

Logistische Regression

Erklärung

Die Confusionsmatrix zeigt die Leistung des Kreditantragsklassifikators anhand von Vorhersagen zur Genehmigung oder Ablehnung von Kreditanträgen. Die Matrix ist in vier Teile unterteilt:

True Positive (TP): Die Anzahl der Kreditanträge, die korrekt als genehmigt vorhergesagt wurden. Das bedeutet, dass das Modell diese Kreditanträge richtig erkannt hat und sie tatsächlich genehmigt wurden.

True Negative (TN): Die Anzahl der Kreditanträge, die korrekt als abgelehnt vorhergesagt wurden. Das Modell hat diese Anträge richtig erkannt und sie wurden tatsächlich abgelehnt.

False Positive (FP): Die Anzahl der Kreditanträge, die fälschlicherweise als genehmigt vorhergesagt wurden. Diese Anträge wurden fälschlicherweise für gut befunden, obwohl sie abgelehnt wurden.

False Negative (FN): Die Anzahl der Kreditanträge, die fälschlicherweise als abgelehnt vorhergesagt wurden. Das Modell hat diese Anträge fälschlicherweise für ungeeignet befunden, obwohl sie genehmigt wurden. Diese werden auch als verpasste Chance bezeichnet.

Basierend auf diesen Werten können verschiedene Bewertungsmetriken berechnet werden, um die Leistung des Modells zu bewerten. Die Genauigkeit (Accuracy) misst den Prozentsatz der korrekten Vorhersagen insgesamt und wird als Überschrift in dem Cofusionsplot dargestellt.

Zusammenfassung

Die Genauigkeit (Accuracy) der logistischen Regression liegt bei knapp 92 % sowohl für die Trainings- als auch für die Testdaten. Bei der Betrachtung des Modells fällt auf, dass lediglich vier Merkmale einen signifikanten Einfluss haben. Üblicherweise folgt nun eine Phase der Modellstraffung, in der weniger relevante Merkmale nach und nach ausgeschlossen werden. Für den späteren Vergleich der Shapley Values zwischen den Modellen ist es jedoch notwendig, alle Merkmale beizubehalten. Ein weiterer Punkt, der Beachtung finden könnte, ist die Multikollinearität, also die Korrelation der Merkmale untereinander. Dies könnte intensiver untersucht werden. Zudem könnten Daten-Transformationen, wie beispielsweise das Logarithmieren, zu einer erhöhten Signifikanz einiger Merkmale führen. Diese potenziellen Herangehensweisen werden in der weiteren Modellierung jedoch nicht berücksichtigt, da sie nicht im Fokus dieser Arbeit stehen.

Neuronales Netz

Die neuronalen Netze wurde mittels Keras erzeugt. Ursprünglich war Keras eine eigenständige Bibliothek, die verschiedene Deep Learning Backends unterstützte, einschließlich TensorFlow., Theano und Microsoft Cognitive Toolkit (CNTK). Im Laufe der Zeit wurde TensorFlow das dominierende Backend für Keras, und schließlich wurde Keras offiziell in TensorFlow integriert.

Die neuronalen Netze wurde mit drei versteckten Schichten konzipiert. Die Eingangsschicht, sowie die drei versteckten Schichten nutzen die ReLU-Aktivierungsfunktion. ReLU steht für Rectified Linear Unit Funktion und ist wie folgt definiert: $$f(x) = max(0,x)$$ ReLU hat den Vorteil, dass sie nicht sättigt, wenn x>0 ist. Das bedeutet, ass sie während des Trainings weniger anfällig für das Problem des verschwindenden Gradienten ist, was das Training beschleunigen kann. Zudem ist die Funktion und ihre Ableitung einfach zu berechnen.

Die Ausgangsschicht nutzt die Sigmoid-Funktion: $$\sigma(x) = \frac{1}{1+e^{-x}}$$ Die Sigmoid-Funktion gibt Werte zwischen 0 und 1 zurück, was besonders nützlich ist, wenn das Netzwerk Wahrscheinlichkeiten vorhersagen soll, wie es bei binären Klassifikationsproblemen der Fall ist. Außerdem ist sie überall differenzierbar, was für das Gradientenabstiegsverfahren essentiell ist.

Der Lernparameter für den Adam-Optimierer, der für die Optimierung des Gradientenabstiegs zuständig ist, wurde auf den Wert 0.001 festgelegt. Der Trainingsdatensatz wurde 75 Mal durch das Netzwerk geführt, um die Gewichte der Neuronen zu optimieren. Beim stochastischen Gradientenabstieg werden die Gewichte nicht nach jeder Datenprobe, sondern nach einer Gruppe von Proben, den sogenannten 'Batches', aktualisiert. Dieser Wert wurde für die Modellierung auf 32 festgelegt. Das gesamte Verfahren wurde 15 Mal wiederholt, um die Mittelwerte der Prognosen und Shapley Values zu reproduzieren, da sich die Verwendung eines Seeds als kompliziert herausstellte.

Wähle fit

Erklärung

Verlustfunktion ("loss")

Die Grafik zeigt den Verlauf der Verlustfunktion ("loss") und der Validierungsverlustfunktion ("val_loss") über 75 Epochen der trainierten neuronalen Netze. Mit dem Slider lassen sich alle 15 verwendeten Modelle auswählen und analysieren. Die y-Achse repräsentiert den Wert der Kreuzentropie: $$H(y,\hat{y}) = -\sum_{i} y_i \log(\hat{y}_i)$$, während die x-Achse die Anzahl der Epochen darstellt. Die grüne Linie zeigt den Trainingsverlust, die orangefarbene Linie den Validierungsverlust. Ein abnehmender Verlauf der grünen Linie zeigt, dass das Modell gut lernt, während eine Abweichung zwischen den Linien auf Overfitting hindeuten kann.

Genauigkeitsfunktion ("accuracy")

Die zweite Grafik zeigt die Genauigkeit der Prognosen für die Trainings- und Validierungsdaten über 75 Epochen an.
Während des Trainings strebt das Modell danach, die Trainingsgenauigkeit zu maximieren, indem es seine Modellparameter anpasst und sich an die Trainingsdaten anpasst. Ein ansteigender Verlauf der Linien deutet darauf hin, dass das Modell besser wird und korrektere Vorhersagen für die Trainings- und Validierungsdaten trifft.

Wähle fit

Wähle Layer

Erklärung

Die Erklärung zur Konfusionsmatrix wurde bereits bei den neuronalen Netzen näher erläutert.

Erklärung

Das neuronale Netz besteht aus drei versteckten Schichten, von denen jede 16 Neuronen enthält. Mit den beiden Slidern kann eines der 15 trainierten neuronalen Netze und eine der drei versteckten Schichten ausgewählt werden. Die Heatmap zeigt die Gewichte der ausgewählten Schicht des ausgewählten Netzes. Die Gewichte der Neuronen lassen keine klare Interpretation zu.

Kanten mit Gewichten

Knoten - mit Bias

Wähle fit

Erklärung

Die linke Tabelle zeigt die Verbindungen zwischen den Knoten (From-To) im neuronalen Netz sowie die dazugehörigen Gewichte. In der zweiten Tabelle sind die Bias-Werte für die insgesamt 49 Neuronen aufgeführt. Die Eingangsschicht (11 Neuronen) besitzen keinen Bias. Diese Daten wurden verwendet, um das folgende neuronale Netzwerk darzustellen. Mit dem Slider kann zwischen allen 15 Netzen ausgewählt werden, die alle die gleiche Struktur haben, jedoch unterschiedliche Gewichte und Bias aufweisen. Die Eingangsschicht ist durch eine eckige orangefarbene Box dargestellt, während die versteckten Schichten in lila gehalten sind. Das Ausgangslayer, bzw. das Zielneuron, wird als orangefarbener Stern dargestellt.

Zusammenfassung

Die Verlust- und Genauigkeitsmetriken über die 15 erstellten Netze deuten auf eine solide Modellbasis hin. Bei den Trainingsdaten zeigt die Konfusionsmatrix eine beeindruckende Genauigkeit von 98 %. Bei den Testdaten wurde eine Genauigkeit von 96 % erreicht. Obwohl aus der Heatmap der Neuronengewichte der einzelnen Schichten keine direkten Schlussfolgerungen abgeleitet werden konnten, bietet die grafische Darstellung des neuronalen Netzes einen klaren Einblick in dessen Komplexität. Sie verdeutlicht, dass eine direkte Interpretation der Gradienten bzw. Neuronenaktivierungen nicht praktikabel ist. Daher werden die Shapley-Values herangezogen, um die Modellergebnisse zu interpretieren.

Zur weiteren Optimierung der Ergebnisse könnte die Dropout-Technik angewendet werden, um Overfitting zu verhindern. Dabei wird während des Trainings zufällig ein bestimmter Prozentsatz der Neuronen 'ausgeschaltet', was als Regularisierungsmethode dient. Zusätzlich könnten Experimente mit unterschiedlichen Lernraten durchgeführt oder alternative Optimierer getestet werden. Nichtsdestotrotz sind die aktuellen Lern- und Genauigkeitsmetriken für die anschließende Modellierung der Shapley-Values ausreichend.

XGBoost

XGBoost, kurz für 'Extreme Gradient Boosting', ist eine optimierte Implementierung des Gradient Boosting-Algorithmus. Es wurde speziell entwickelt, um sowohl in Bezug auf die Modellleistung als auch auf die Rechenzeit effizient zu sein. XGBoost hat sich in vielen maschinellen Lernwettbewerben und -projekten als leistungsstark erwiesen und bietet eine Vielzahl von Funktionen und Optimierungen, die es zu einem bevorzugten Werkzeug für viele Datenwissenschaftler machen.

Für die Modellierung in diesem Projekt wurde XGBoost mit dem Ziel der binären Klassifikation (binary:logistic) verwendet. Das Modell verwendet den Gradient Boosting-Algorithmus (booster = 'gbtree') und eine Reihe von Hyperparametern, um den Lernprozess zu steuern. Die Lernrate (eta) wurde auf 0,01 festgelegt, er bestimmt, wie schnell das Modell auf die Daten reagiert. Die maximale Tiefe der Bäume (max_depth) wurde auf 6 festgelegt, um die Komplexität des Modells zu steuern. Weitere Parameter wie gamma, min_child_weight, subsample und colsample_bytree wurden ebenfalls festgelegt, um den Trainingsprozess zu optimieren und Overfitting zu verhindern.

Während des Trainingsprozesses wurde eine Watchlist verwendet, um die Leistung sowohl des Trainings- als auch des Validierungsdatensatzes zu überwachen. Das Modell wurde für 50 Runden (nrounds) trainiert, wobei in jeder Runde die Leistung des Modells überwacht und angepasst wurde, um die bestmögliche Vorhersagegenauigkeit zu erzielen.

Erklärung

In diesem Plot werden die Fehlerwerte eines xgboost-Modells während des Trainings für ein Kreditklassifikationsproblem dargestellt. Die grüne Linie zeigt den Trainingsfehler, der angibt, wie gut das Modell die Kreditanträge in den Trainingsdaten vorhersagt. Das Modell versucht den Trainingsfehler während des Trainingsprozesses zu minimieren, um sich gut an die Trainingsdaten anzupassen.

Die orangefarbene Linie zeigt den Validierungsfehler, der den Fehler auf neuen, nicht-gesehenen Daten angibt, die als Validierungsdaten verwendet werden. Eine gute Generalisierung wird erreicht, wenn der Validierungsfehler niedrig bleibt und das Modell auf unbekannte Kreditanträge gut vorhersagt.

Das Diagramm ermöglicht es, den Trainingsfortschritt zu überwachen und sicherzustellen, dass das Modell sowohl eine gute Anpassung an die Trainingsdaten als auch eine gute Generalisierungsfähigkeit für neue Kreditanträge aufweist. Eine optimale Leistung des Modells kann durch die Analyse dieser Fehlerkurven erreicht werden.

Trainings- oder Testdaten

Erklärung

Die Erklärung zur Konfusionsmatrix wurde bereits bei den neuronalen Netzen näher erläutert.

Wähle einen Baum

Erklärung

Dieses dynamische Baum-Diagramm zeigt die Entscheidungsregeln des XGBoost-Modells, das für die Genehmigung oder Ablehnung von Kreditanträgen verwendet wird. Es besteht aus insgesamt 50 Bäumen. Jeder Baum trifft eine Reihe von Entscheidungen, um zu bestimmen, ob ein Kreditantrag genehmigt oder abgelehnt wird. Die Entscheidungen basieren auf verschiedenen Informationen, die über den Kreditantrag vorliegen, wie zum Beispiel das Einkommen des Antragstellers und andere relevante Merkmale. Es kann jeder einzelne Baum betrachtet werden, um ein Gefühl dafür zu bekommen, wie sich die Entscheidungsregeln zusammensetzen. Das Modell kombiniert die Entscheidungen aus den 50 Bäumen, um eine endgültige Vorhersage zu treffen, ob der Kreditantrag angenommen oder abgelehnt wird.

Die Zahlen auf den Kanten stellen Fragen dar, ob die Bedingungen "kleiner" erfüllt ist. Wenn die Antwort "ja" ist, muss dem Pfad gefolgt werden, ansonsten nimmt es den anderen Pfad. Die finale Prognose in einem XGBoost-Modell setzt sich aus der Summe der Vorhersagen aller Bäume zusammen.

Gain

Gain oder auch "Gewinn" ist eine Metrik, die die Bedeutung eines Features bei der Klassifizierung von Datenpunkten in einem Entscheidungsbaum bewertet. Er misst den beigetragenen Verbesserungswert (Gewinn) für die Reduzierung des Verlustes, der durch die Teilung der Daten durch das betrachtete Feature erzielt wird. Mit anderen Worten, der Gain zeigt an, wie viel besser der Entscheidungsbaum durch die Berücksichtigung eines bestimmten Features geworden ist.

Cover

Cover oder "Abdeckung" ist eine Metrik, die angibt, wie viele Datenpunkte durch die Entscheidungsregel eines Knotens im Entscheidungsbaum abgedeckt werden. Es misst die Anzahl der Datenpunkte, die durch die Entscheidungsregel dieses Knotens berücksichtigt werden. Eine hohe Cover-Metrik zeigt an, dass der Knoten einen großen Teil der Daten im Trainingsdatensatz abdeckt.

In XGBoost wird der "Gain" verwendet, um die Relevanz von Features zu bewerten und den Entscheidungsbaum so zu formen, dass es die relevantesten Features berücksichtigt. Die "Cover"-Metrik dient dazu, die Effizienz des Entscheidungsbaums zu bewerten und zu überprüfen, wie viele Datenpunkte in den einzelnen Knoten berücksichtigt werden.

Zusammenfassung

Die erzielte Fehlerrate sowohl für die Trainings- als auch für die Testdaten spricht für eine erfolgreiche Modellierung. Die Genauigkeit basierend auf den Trainingsdaten beträgt 98,5 %, während sie für die Testdaten bei 97 % liegt. Bei der Prognose einer neuen Instanz wird jeder der Bäume durchlaufen, wobei die Werte der 50 Blätter am Ende summiert werden, um die endgültige Prognose zu bilden. Diese Herangehensweise unterstreicht die Komplexität des Modells und macht deutlich, dass eine direkte Interpretation der Ergebnisse nicht praktikabel ist. Aus diesem Grund werden die Shapley-Values zur Interpretation der Modellergebnisse verwendet.

Zur weiteren Optimierung des Modells könnten Experimente mit verschiedenen Parametereinstellungen durchgeführt werden. Angesichts der Tatsache, dass es insgesamt nur 11 Merkmale gibt und die logistische Regression bereits aufgezeigt hat, dass lediglich vier davon signifikant sind, könnte eine Verringerung der Baumtiefe in Erwägung gezogen werden. Dies könnte zudem dazu beitragen, Overfitting zu reduzieren.

Abschließend lässt sich sagen, dass die aktuellen Lern- und Genauigkeitsmetriken für die nachfolgende Analyse der Shapley-Values vollkommen ausreichend sind.

Shapley Values

Die Shapley-Werte wurden erstmals im Jahr 1953 von Lloyd S. Shapley als Teil der Spieltheorie für n-Personen-Spiele eingeführt. Sie bieten eine mathematisch fundierte Methode zur 'fairen' Aufteilung von Gewinnen in Koalitionsspielen. In jüngerer Zeit werden sie auch als Instrument zur Interpretation von maschinellem Lernen und KI-Modellen anerkannt, da sie eine systematische Methode bieten, um zu quantifizieren, wie viel jedes Eingabemerkmal zur Vorhersage eines Modells beiträgt.

Grundlage Beispiel

Shapley-Werte wurden ursprünglich entwickelt, um in kooperativen Spielen eine faire Verteilung der Auszahlungen zu gewährleisten. In der zugrunde liegenden Theorie werden Spiele betrachtet, die im Kontext von Machine Learning als Modellinterpretationen interpretiert werden können. Die Spieler in einem solchen Spiel repräsentieren die Merkmale (Features) eines Modells, und die Auszahlungen der Spieler können als Vorhersagen des Modells verstanden werden. Betrachten wir ein konkretes Beispiel (Quelle Molnar: https://christophmolnar.com/books/shap/): Alice, Bob und Charlie sind zusammen essen und wollen mit einem Taxi nach Hause fahren. Alice und Bob wohnen zusammen. Wie werden die Kosten von $51 für die Fahrt fair aufgeteilt? Die Kosten und Details der Personen:

Passengers	Cost	Note
∅	$0	Kein Taxi, keine kosten
{Alice}	$15	Standard-Fahrt zu Alice’s & Bob’s Wohnort
{Bob}	$25	Bob nutzt immer luxoriösere Taxis
{Charlie}	$38	Charlie lebt etwas weiter weg
{Alice, Bob}	$25	Bob bekommt immer was er will
{Alice, Charlie}	$41	Erst wird Alice abgesetzt, dann Charlie
{Bob, Charlie}	$51	Erst wird Bob abgesetzt, dann Charlie
{Alice, Bob, Charlie}	$51	Alle drei fahren gemeinsam

Marginale Beiträge

Ein marginaler Beitrag eines Spielers zu einer Koalition ist der Wert mit dem Spieler minus dem Wert ohne dem Spieler. Außerdem besteht ein Unterschied, ob Alice zu Bob hinzugefügt wird oder Bob zu Alice hinzugefügt wird. Betrachten wir die folgende Tabelle:

Hinzufügen	zur Koalition	Kosten Vorher	Kosten Nachher	Marginaler Beitrag
Alice	∅	$0	$15	$15
Alice	{Bob}	$25	$25	$0
Alice	{Charlie}	$38	$41	$3
Alice	{Bob, Charlie}	$51	$51	$0
Bob	∅	$0	$25	$25
Bob	{Alice}	$15	$25	$10
Bob	{Charlie}	$38	$51	$13
Bob	{Alice, Charlie}	$41	$51	$10
Charlie	∅	$0	$38	$38
Charlie	{Alice}	$15	$41	$26
Charlie	{Bob}	$25	$51	$26
Charlie	{Alice, Bob}	$25	$51	$26

Was sind nun die fairen Kosten für jede Person? Wir brauchen noch einen vernünftigen gewichteten Mittelwert. Die Shapley Values werden mit allen möglichen Permutationen gewichtet, warum das sinnvoll ist, sehen wir gleich. Bei drei Personen gibt es 3!=3⋅2⋅1=6 Möglichkeiten der Anordnung:

Alice, Bob, Charlie
Alice, Charlie, Bob
Charlie, Alice, Bob
Bob, Alice, Charlie
Charlie, Bob, Alice
Bob, Charlie, Alice

Da es jedoch auch möglich ist, dass eine Person alleine fährt, werden nur die Personen links von der entsprechenden Person ausgewählt. Demnach wird für jede Person die alleinige Heimfahrt sowie die Fahrt zu dritt doppelt gewichtet. Konkret für Alice: 2x fährt sie alleine nach Hause. Einmal teilt sie sich das luxioriöse Taxi mit Bob. Einmal teilt sie sich das Taxi mit Charlie und 2x fährt sie mit beiden nach Hause.

Durchschnittliche marginale Beiträge

Alice: $$\frac{2}{6}\cdot15+\frac{1}{6}\cdot0+\frac{1}{6}\cdot3+\frac{2}{6}\cdot0=$5.50 $$ Bob: $$\frac{2}{6}\cdot25+\frac{1}{6}\cdot10+\frac{1}{6}\cdot13+\frac{2}{6}\cdot10=$15.50 $$ Charlie: $$\frac{2}{6}\cdot38+\frac{1}{6}\cdot26+\frac{1}{6}\cdot26+\frac{2}{6}\cdot26=$30 $$ Die Gesamtkosten der Taxifahrt betrugen $51. Die Summe der einzelnen Beiträge ergeben ebenfalls $51. Das ist das Grunprinzip der Shapley Values.

Formale Definition

$$\phi(i)= \sum_{S\subseteq{N}/\{i\}} \frac{|S|!(N-1-|S|)!}{N!}(e_{S\cup{i}}-e_S)$$ Die einzelnen Bestandteile:

Begriff	Mathematische Beschreibung	Taxi Beispiel
Spieler	1, … , \|𝑁 \|	Passagier, zum Beispiel Alice
Koalition aller Spieler	𝑁	{Alice, Bob, Charlie}
Coalition S	S	Jede Kombination von Passagieren, von ∅ bis {Alice, Bob, Charlie}.
Größe der Koalition	\|𝑆\|	Zum Beispiel, \|{Alice}\| = 1, \|{Alice, Bob, Charlie}\| = 3
Value Function	e	Durch die Tabelle definiert, die alle möglichen Anordnungen von Passagieren im Taxi zeigt
Auszahlung	e(S)	Die Kosten der Taxifahrt mit allen Passagieren
Shapley Value	𝜙i	Zum Beispiel, 𝜙1 = $5.50 für Alice, 𝜙2 = $15.50 für Bob und 𝜙3 = $30 für Charlie.

Runtergebrochen berechnet die Formel den gewichtete Durchschnitt der marginalen Beiträge eines Spielers zu allen möglichen Koalitionen.

(e_{S∪i−eS}): Der Teil der Gleichung repräsentiert die marginalen Kosten von Spieler i zu der Koalition S. Wenn i Alice ist und S = {Bob}, dann berechnet der Teil wie viel teurer die Fahrt wird, wenn Alice zu Bob hinzugefügt wird.

Effizienz

Die Effizienz der Shapley-Werte ergibt sich aus der Eigenschaft der Additivität. Wenn die Shapley-Values aller Spieler aufsummiert werden, ergibt sich der Gesamtwert des Spiels. Die Effizienz der Shapley-Werte besteht auch darin, dass sie fair sind (Kein Merkmal wird bevorzugt) und dass sie nicht doppelt gezählt werden. Jeder Spieler erhält seinen gerechten Anteil an den Ressourcen basierend auf seinem individuellen Beitrag zur Gesamtverteilung. Damit wird sichergestellt, dass jeder Spieler angemessen belohnt wird und die Verteilung der Ressourcen keine Verschwendung oder Überkompensation beinhalten. $$\sum_{j∈N}\phi_j=e_N$$

Symmetrie (fair)

Die Symmetrie der Shapley-Werte besagt, dass die Beiträge zweier Spieler j und k gleich sind, wenn sie gleichermaßen zu allen möglichen Koalitionen beitragen. Würde Bob kein Luxustaxi fahren, würde Bob den gleichen Beitrag liefern wie Alice.

Dummy

Ein Dummy ist ein Merkmal (Feature), das keinen Einfluss auf den vorhergesagten Wert hat, unabhängig davon, welcher Koalition von Merkmalswerten es hinzugefügt wird. Beispielsweise könnte einer der drei Personen einen Hund besitzen der für die Taxifahrt keine zusätzlichen Kosten verursacht.

Additivität

Die Additivität ist eine wichtige Eigenschaft, die besagt, dass die Shapley-Werte für ein Merkmal j in einem Spiel mit kombinierten Auszahlungen (e + e^*) gleich der Summe der Shapley-Werte für dasselbe Merkmal j in den einzelnen Spielen sind. Die Additivitätseigenschaft hat eine praktische Anwendung, insbesondere im Zusammenhang mit ensemblebasierten Modellen wie dem Random Forest. Bei einem Random Forest besteht die Vorhersage aus dem Durchschnitt vieler Entscheidungsbäume. Die Additivitätsgarantie stellt sicher, dass für ein Merkmal j der Shapley-Wert für dieses Merkmal im Random Forest berechnet werden kann, indem der Mittelwert der Shapley-Werte für dasselbe Merkmal j in jedem einzelnen Entscheidungsbaum berechnet wird.

Shapley Values -> SHAP

Wie bereits erwähnt stammen die Shapley Values aus der Spieltheorie und haben ihren Ursprung in der ökonomischen Forschung. Ihr Anwendungsbereich erstreckt sich jedoch auch auf Machine-Learning-Algorithmen, wo sie als Shapley Additive Explanations (SHAP) bekannt sind. Das grundlegende Prinzip bleibt dabei dasselbe: Die Shapley-Werte bieten eine faire Möglichkeit, den Beitrag jedes Merkmals oder jeder Eigenschaft zur Vorhersage eines Modells zu bewerten. Sie ermöglichen eine aufschlussreiche Analyse der Modellvorhersagen, indem sie den Einfluss jedes Merkmals auf die Vorhersage erklären. Der wesentliche Unterschied besteht darin, dass die Funktion e, die in der Spieltheorie den Nutzen einer Koalition beschreibt, nun von den Modellausgaben abhängt. Dies ermöglicht es, die Beiträge einzelner Merkmale oder Gruppen von Merkmalen zur Modellvorhersage zu quantifizieren und zu verstehen.

Shap Summe der Modelle:

Der Plot zeigt die Summe der Shapley Values der einzelnen User für die drei unterschiedlichen Modelle.

Wähle Daten

Wähle Abzisse

XgBoost

Neuronales Netz

Logistische Regression

SHAP-Abhängigkeits- und Interaktionsdiagramme

Featureimportance / SHAP summary Plot

In der ersten Grafik sind die Merkmale nach Wichtigkeit sortiert. Wie bereits bei der Modellierung der logistischen Regression festgestellt wurde, sind die vier Merkmale Kredit Score (cibil score),nEinkommen (income_annum), Kredithöhe (loan_amount) und Kreditlaufzeit (loan_term) die wichtigsten Einflussfaktoren. Die stark grünen Daten weisen auf eine nidrige Werte des Merkmals hin, wohingegen die gelben Datenpunkte auf hohe Werte hindeuten. Aus den Abbildung lässt sich ableiten, dass eine Person mit einem hohen Kreditscore und einem geringeren Einkommen, gepaart mit einem hohen Kreditbetrag und kurzer Laufzeit sehr wahrscheinlich einen Kredit erhält.

Daten:

Abhängigkeits und Interaktionsdiagramm

Die zweite Grafik ist für die logistische Regression nicht sinnvoll,denn die Shaple Werte eines Merkmals verlaufen Proportional zu der Ausprägung des Merkmals. Dieser Zusammenhang ist mathamtisch begründet. Die Grafik ist dennoch wichtig, um den Zusammenhang zwischen der logistischen Regression und den nicht linearen Modellen xgBoost und den neuronalen Netzen zu verstehen.

Wähle Feature Abzisse

Wähle SHAP Ordinate

Heatmap Shapley Userdaten

Bereich

Individuele Prognose

Wähle individuellen User:

SHAP-Abhängigkeits- und Interaktionsdiagramme

Featureimportance / SHAP summary Plot

In der ersten Grafik sind die Merkmale nach Wichtigkeit sortiert. Wie bereits bei der Modellierung der logistischen Regression festgestellt wurde, sind die vier Merkmale Kredit Score (cibil score), Einkommen (income_annum), Kredithöhe (loan_amount) und Kreditlaufzeit (loan_term) die wichtigsten Einflussfaktoren. Die stark grünen Daten weisen auf eine nidrige Werte des Merkmals hin, wohingegen die gelben Datenpunkte auf hohe Werte hindeuten. Aus den Abbildung lässt sich ableiten, dass eine Person mit einem hohen Kreditscore und einem geringeren Einkommen, gepaart mit einem hohen Kreditbetrag und kurzer Laufzeit sehr wahrscheinlich einen Kredit erhält.

Daten:

Ursprüngliche Darstellung

Abhängigkeits und Interaktionsdiagramm

Die zweite Grafik ist für die logistische Regression nicht sinnvoll, denn die Shaple Werte eines Merkmals verlaufen Proportional zu der Ausprägung des Merkmals. Dieser Zusammenhang ist mathamtisch begründet. Die Grafik ist dennoch wichtig, um den Zusammenhang zwischen der logistischen Regression und den nicht linearen Modellen xgBoost und den neuronalen Netzen zu verstehen.

Wähle Feature Abzisse

Wähle SHAP Ordinate

Ursprüngliche Darstellung

Heatmap Shapley Userdaten

Bereich

Individuele Prognose

Wähle individuellen User:

SHAP-Abhängigkeits- und Interaktionsdiagramme

Featureimportance / SHAP summary Plot

In der ersten Grafik sind die Merkmale nach Wichtigkeit sortiert. Wie bereits bei der Modellierung der logistischen Regression festgestellt wurde, sind die vier Merkmale Kredit Score (cibil score), Einkommen (income_annum), Kredithöhe (loan_amount) und Kreditlaufzeit (loan_term) die wichtigsten Einflussfaktoren. Die stark grünen Daten weisen auf eine nidrige Werte des Merkmals hin, wohingegen die gelben Datenpunkte auf hohe Werte hindeuten. Aus den Abbildung lässt sich ableiten, dass eine Person mit einem hohen Kreditscore und einem geringeren Einkommen, gepaart mit einem hohen Kreditbetrag und kurzer Laufzeit sehr wahrscheinlich einen Kredit erhält.

Daten:

Abhängigkeits und Interaktionsdiagramm

Die zweite Grafik ist für die logistische Regression nicht sinnvoll, denn die Shaple Werte eines Merkmals verlaufen Proportional zu der Ausprägung des Merkmals. Dieser Zusammenhang ist mathamtisch begründet. Die Grafik ist dennoch wichtig, um den Zusammenhang zwischen der logistischen Regression und den nicht linearen Modellen xgBoost und den neuronalen Netzen zu verstehen.

Wähle Feature Abzisse

Wähle SHAP Ordinate

Heatmap Shapley Userdaten

Bereich

Individuele Prognose

Wähle individuellen User:

Künstliche Intelligenz?

KI verstehen notwendig?

Quellen

Datenverständnis

Datenbearbeitung, Datenaufteilung und Überprüfung

Klassifikationsmodelle

Untersuchung der Shapley Values

Überblick Datensatz

Verteilung der Daten

Zusammenfassung

Aufteilung des Datensatzes

Kennzahlen

Trainingsdaten

Testdaten

Vorgehen

Zusammenfassung

Logistische Regression

Erklärung

Zusammenfassung

Neuronales Netz

Erklärung

Verlustfunktion ("loss")

Genauigkeitsfunktion ("accuracy")

Erklärung

Erklärung

Kanten mit Gewichten

Knoten - mit Bias

Erklärung

Zusammenfassung

XGBoost

Erklärung

Erklärung

Erklärung

Gain

Cover

Zusammenfassung

Shapley Values

Grundlage Beispiel

Marginale Beiträge

Durchschnittliche marginale Beiträge

Formale Definition

Effizienz

Symmetrie (fair)

Dummy

Additivität

Shapley Values -> SHAP

Shap Summe der Modelle:

XgBoost

Neuronales Netz

Logistische Regression

SHAP-Abhängigkeits- und Interaktionsdiagramme

Featureimportance / SHAP summary Plot

Abhängigkeits und Interaktionsdiagramm

Heatmap Shapley Userdaten

Individuele Prognose

SHAP-Abhängigkeits- und Interaktionsdiagramme

Featureimportance / SHAP summary Plot

Ursprüngliche Darstellung

Abhängigkeits und Interaktionsdiagramm

Ursprüngliche Darstellung

Heatmap Shapley Userdaten

Individuele Prognose

SHAP-Abhängigkeits- und Interaktionsdiagramme

Featureimportance / SHAP summary Plot

Abhängigkeits und Interaktionsdiagramm

Heatmap Shapley Userdaten

Individuele Prognose