Die zunehmende Dominanz von künstlicher Intelligenz in zentralen Lebensbereichen wirft eine kritische Frage auf: Wie viel Transparenz ist notwendig, um Vertrauen in undurchsichtige, algorithmisch gesteuerte Black-Box Entscheidungsprozesse zu schaffen? Die Antwort darauf könnte eine Ära der künstlichen Intelligenz prägen, die sowohl fortschrittlich als auch verantwortungsbewusst ist.
Doch wie gelingt es, dieses essenzielle Vertrauen zu gewinnen?
Künstliche Intelligenz?
Online-Dienste wie Amazon und Netflix nutzen künstliche Intelligenz, um den Usern Filme oder Produkte vorzuschlagen. Soziale Medien wie Twitter und Instagram setzen ebenfalls auf KI, um personalisierte Inhalte bereitzustellen und die Nutzerbindung zu erhöhen. Sprachassistenten wie Siri, Alexa, Google Assistant und Cortana, die auf KI basieren, können bereits eine Vielzahl einfacher Aufgaben erledigen [Müller 2023].
In der Wirtschaft kann KI dazu beitragen, die Verluste eines Unternehmens zu minimieren. Zum Beispiel kann sie bei Kreditentscheidungen dazu beitragen, das Risiko einzuschätzen, dass ein Kunde seinen Kredit nicht zurückzahlt. Im Finanzsektor können KI-basierte Handelssysteme Kursschwankungen analysieren und Muster erkennen, um Investitionsentscheidungen zu treffen. In der Medizin wird bereits intensiv daran geforscht, KI in die chirurgische Praxis zu integrieren, um präzise und effiziente Operationen durchzuführen [Klawonn 2023].
Die rapide Entwicklung und zunehmende Akzeptanz von KI-Technologien wird eindrucksvoll durch ChatGPT illustriert. Während Netflix 1999 noch 3,5 Jahre benötigte, um eine Million Nutzer zu gewinnen, gelang dies ChatGPT in beeindruckenden 5 Tagen [Janson 2023]. Der Chatbot hat für Aufsehen gesorgt, da er zahlreiche Aufgaben von Mitarbeitern, Schülern und Studenten übernehmen kann. Seine Integration in Unternehmen könnte das Wachstum erheblich beschleunigen. Darüber hinaus hat er das Potenzial, das Bildungssystem tiefgreifend zu transformieren.
Die genannten Beispiele unterstreichen eindrücklich das Potenzial und die wachsende Bedeutung künstlicher Intelligenz im Alltag. Solche Technologien können Unternehmen dabei helfen, ihre Ziele effizienter zu erreichen und ihr Wachstum zu beschleunigen. Jedoch sind sie trotz ihrer Vorteile nicht frei von potenziellen Risiken. KI-Systeme sind nicht immun gegen Fehlentscheidungen, und diese können gravierende Konsequenzen haben.
Ein fehlerhafter Produktvorschlag mag für einen Kunden nur eine kleine Unannehmlichkeit sein. Wenn jedoch ein Algorithmus wiederholt und systematisch unpassende Empfehlungen gibt, könnte dies Kunden abschrecken und zu erheblichen finanziellen Einbußen des Unternehmens führen. Während ein Unternehmen möglicherweise in der Lage ist, finanzielle Verluste durch fehlerhafte Kreditentscheidungen zu absorbieren, könnten solche Fehltritte für die betroffenen Einzelpersonen verheerende Auswirkungen haben.
Chatbots können gezielt in eine bestimmte politische Richtung trainiert werden, was potenziell das gesellschaftliche Zusammenleben beeinträchtigen kann. Unternehmen könnten durch fehlerhafte KI-Prognosen verleitet werden, übermäßig viele Rohstoffe zu erwerben, was zu überhöhten Lager- und Personalkosten führen kann. Selbstfahrende Autos könnten infolge einer fehlerhaften KI-Entscheidung Unfälle verursachen und somit Menschenleben in Gefahr bringen. Es ist zudem von großer Bedeutung sicherzustellen, dass KI-Algorithmen nicht bestimmte Nutzergruppen diskriminieren, da dies aus ethischen und politischen Gründen problematisch wäre.
Die aufgeführten Risiken unterstreichen die zwingende Notwendigkeit von Transparenz und Nachvollziehbarkeit bei den Entscheidungsprozessen, die von KI-Algorithmen gesteuert werden. Dazu ist es von essentieller Bedeutung, dass sowohl Entwickler als auch Anwender von KI über ein tiefgreifendes Verständnis für die Funktionsweise dieser Algorithmen verfügen.
Ein Datenanalyst in einem Unternehmen sollte beispielsweise in der Lage sein, seinem Vorgesetzten detailliert zu erläutern, warum ein KI-Modell für den kommenden Monat außergewöhnlich hohe Verkaufszahlen prognostiziert. Ein Kreditinstitut muss nicht nur aus Gründen der Professionalität und des Ansehens, sondern auch aufgrund gesetzlicher Vorgaben in der Lage sein, einem Kunden die genauen Gründe für eine Kreditablehnung transparent darzulegen.
In der Medizin, insbesondere wenn KI-Systeme bei Operationen eingesetzt werden, ist es unerlässlich, für jedes KI-gesteuerte Verhalten, das zu schwerwiegenden Verletzungen eines Patienten führen könnte, eine klare Erklärung bereitzustellen. Dies dient dazu, sicherzustellen, dass der Algorithmus nicht vorsätzlich darauf programmiert wurde, einem Patienten oder einer spezifischen Patientengruppe Schaden zuzufügen.
Zu Beginn wurde der Begriff “Künstliche Intelligenz” intuitiv eingesetzt, ohne eine explizite Definition zu liefern. Sie, als Leser dieser Arbeit haben womöglich eine Vorstellung von künstlicher Intelligenz, sei es durch Ihren beruflichen Alltag, Ihr generelles Interesse oder die wachsende Medienpräsenz. Aber was genau verbirgt sich hinter dem Begriff “Künstliche Intelligenz”, und ist dieser Begriff nicht in gewisser Weise irreführend?
Die präzise Definition von Künstlicher Intelligenz (KI) ist nicht trivial. Die Frage “Was ist Intelligenz?” beschäftigt Wissenschaftler seit jeher, und ständig werden neue Theorien und Messmethoden entwickelt [Spearman, C. 1904], [Lehrl et al. 1971], [Goleman & Griese 1996], [Stern & Grabner 2014]. . Um über KI nachzudenken, muss zunächst geklärt werden, was allgemein unter Intelligenz verstanden wird. Laut Duden bezeichnet Intelligenz die Fähigkeit des Menschen, abstrakt und vernünftig zu denken und daraus sinnvolle Handlungen abzuleiten [Duden: Intelligenz 2023]. . Diese Definition wirft jedoch Fragen auf, insbesondere bezüglich des Begriffs “vernünftig”. Ein Algorithmus, der Muster in Texten erkennt und darauf basierende Handlungsempfehlungen gibt, könnte als intelligent betrachtet werden. Doch es könnte genauso argumentiert werden, dass dieser Algorithmus nur das tut, wofür er programmiert wurde, nämlich Muster in Texten zu erkennen. Handelt es sich hierbei um eine künstliche Intelligenz? Eine KI sollte in der Lage sein, basierend auf Input zu lernen. Dieses Lernen kann auf verschiedene Weisen geschehen, die im Kapitel 2 detailliert beschrieben werden. Wenn von Lernen die Rede ist, wäre der präzisere Begriff Maschinelles Lernen. Da die Definition von Intelligenz nicht eindeutig ist und es aus philosophischer Sicht umstritten ist, ob Algorithmen wirklich intelligent sein können, werden in dieser Arbeit die Begriffe ‘Künstliche Intelligenz’ und ‘Maschinelles Lernen’ synonym verwendet.
KI verstehen notwendig?
Ein neuronales Netz wurde darauf trainiert, Huskies von Wölfen anhand von Trainingsbildern zu unterscheiden. Bei einem Testset von 20 Bildern machte der Algorithmus nur einen Fehler (Siehe Abbildung). Bei näherer Betrachtung wurde jedoch klar, dass der Algorithmus nicht wirklich die Tiere unterschied, sondern lediglich das Vorhandensein von Schnee auf den Bildern. War Schnee zu sehen, klassifizierte er das Bild als “Wolf”, andernfalls als “Husky” [Ribeiro et al. 2016].Während solch ein Fehler in diesem Kontext vielleicht harmlos erscheint, kann er in anderen Bereichen, wie der Kreditvergabe, gravierende Folgen haben. Eine automatische Ablehnung aufgrund irreführender Korrelationen kann zu erheblichen Benachteiligungen führen. Dieses Beispiel unterstreicht erneut warum es so wichtig ist, die Entscheidungen von Algorithmen zu verstehen. Doch wie viel Vertrauen ist notwendig?
Die rasante Entwicklung und Integration von maschinellen Lernalgorithmen in diverse Anwendungsbereiche hat zu einer Revolution in vielen Branchen geführt. Von der Medizin bis zur Finanzwelt, von der Automobilindustrie bis zur Unterhaltung – überall hinterlassen diese Algorithmen ihren Fußabdruck. Doch mit der wachsenden Abhängigkeit von diesen Systemen wächst auch die Notwendigkeit, ihre Funktionsweise und ihre Entscheidungen zu verstehen. In dieser Arbeit werden zwei Ziele verfolgt: Zum einen soll ein umfassender Überblick über die verschiedenen Methoden und Anwendungsmöglichkeiten von maschinellen Lernalgorithmen gegeben werden. Das primäre Anliegen dieser Arbeit geht jedoch darüber hinaus. Es geht nicht nur darum, zu wissen, wie ein Algorithmus funktioniert, sondern vor allem darum, seine Ergebnisse interpretieren zu können.
Die Interpretierbarkeit von Algorithmen ist von entscheidender Bedeutung. Wie bereits in der Einleitung betont wurde, spielen Algorithmen eine zunehmend dominante Rolle in vielen Branchen. Wenn diese Algorithmen Entscheidungen treffen – sei es bei der Kreditvergabe, medizinischen Diagnosen oder Personalbeschaffung –, ist es von höchster Wichtigkeit, dass diese Entscheidungen nachvollziehbar sind. Nur durch die Möglichkeit, die zugrundeliegenden Mechanismen und Faktoren zu verstehen, die zu einer bestimmten Entscheidung geführt haben, kann sichergestellt werden, dass die Algorithmen ethisch und verantwortungsbewusst agieren. Dies schafft Transparenz und ermöglicht eine kritische Überprüfung, um sicherzustellen, dass keine unerwünschten Voreingenommenheiten oder diskriminierenden Muster in den Entscheidungen der Algorithmen verankert sind.
Darüber hinaus stärkt das Verständnis und die Transparenz von Algorithmen das Vertrauen der Öffentlichkeit in diese Technologien. In einer Zeit, in der “künstlische Intelligenz” immer häufiger in den Schlagzeilen steht, ist es von zentraler Bedeutung, dass Fachleute, Entscheidungsträger und die breite Öffentlichkeit ein klares Verständnis dafür haben, wie diese Systeme funktionieren und warum sie bestimmte Entscheidungen treffen.
Mit dieser Arbeit wird ein Beitrag zur Förderung dieses Verständnisses und zur Sensibilisierung für die Bedeutung der Interpretierbarkeit von maschinellen Lernalgorithmen geleistet. Es ist ein Schritt in Richtung
Quellen
[Müller, 2023] Jörg Müller, "Was ist Künstliche Intelligenz?" (2023) Link zur Quelle
[Klawonn, 2023] Ines Klawonn (2023), Künstliche Intelligenz bahnt den Weg für Operationsroboter, Link zur Quelle
[Janson, 2023] Matthias Janson, ChatGPTs Sprint zu einer Million Nutzer (2023), Link zur Quelle
[Spearman, C. 1904] Spearman, C. (1904). General Intelligence, Objectively Determined and Measured. American Journal of Psychology, 15, 201-292.
[Lehrl et al. 1971] Lehrl, S., Daun, H., & Schmidt, R. "Eine Abwandlung des HAWIE-Wortschatztests als Kurztest zur Messung der Intelligenz Erwachsener." Universitäts-Nervenklinik mit Poliklinik Erlangen, 1971. English title: "A Short Scale for the Measurement of the Intelligence of Adults: A Modification of the Vocabulary Scale of HAWIE, the German Modification of WAIS." Eingegangen am 7. Juli 1971.
[Goleman & Griese 1996] "Emotionale Intelligenz." ewi-psy.fu-berlin.de, 1996.
[Stern & Grabner 2014] Stern, E.; Grabner, R.H. Die Erforschung menschlicher Intelligenz. In: Ahnert, L. (eds) Theorien in der Entwicklungspsychologie. Springer VS, Berlin, Heidelberg, 2014., Link zur Quelle
[Duden: Intelligenz 2023] Duden, Bedeutungen Intelligenz (2023) Link zur Quelle
[Ribeiro et al. 2016] Marco Tulio Ribeiro and Sameer Singh and Carlos Guestrin, Why Should I Trust You?": Explaining the Predictions of Any Classifier 2016
-
Datenverständnis
- Zu Beginn wird der Datensatz untersucht, um ein tiefes Verständnis über die enthaltenen Informationen zu erhalten.
- Es werden Auffälligkeiten wie Ausreißer geprüft, um sicherzustellen, dass die Daten qualitativ hochwertig sind.
- Falls keine signifikanten Auffälligkeiten festgestellt werden, folgt der nächste Schritt:
-
Datenbearbeitung, Datenaufteilung und Überprüfung
- Es erfolgt eine Dummycodierung, um kategorische Variablen in numerische Werte zu transformieren, die von einigen Modellen besser verarbeitet werden können.
- Der Datensatz wird in Trainingsdaten (80 %) und Testdaten (20 %) aufgeteilt, um die Modelle zu evaluieren.
- Die Daten werden skaliert, sodass ihre Werte in einem Intervall zwischen 0 und 1 liegen.
-
Klassifikationsmodelle
- Es werden drei leistungsstarke Klassifikationsmodelle eingesetzt, um Kreditanträge zu bewerten.
- Logistische Regression als Standardvergleichsmodell: Dieses Modell dient als Benchmark für die komplexeren Modelle. Trotz seiner Einfachheit kann es effektiv sein und bietet den Vorteil der leichteren Interpretierbarkeit im Vergleich zu den anderen, komplexeren Modellen. Es wird hier eingesetzt, um eine Basislinie für die Leistung festzulegen und zu sehen, wie viel zusätzlichen Nutzen die komplexeren Modelle bieten können.
- xgBoost mit 50 Bäumen: Hier wird die Ensemble-Technik verwendet, die 50 Entscheidungsbäume kombiniert, um fundierte Kreditentscheidungen zu treffen.
- 15 Neuronale Netze mit gemittelten Prognosen: Diese neuronalen Netze liefern jeweils eigene Vorhersagen, welche anschließend gemittelt werden, um eine robuste finale Prognose zu erhalten. Sie soll außerdem der reproduzierbarkeit dienen, da sich die Seedoption als schwierig erwies.
-
Untersuchung der Shapley Values
- Es folgt die Berechnung und Analyse der Shapley Values aller Modelle, um die Auswirkung einzelner Merkmale auf die Kreditprognosen zu verstehen.
Überblick Datensatz
Verteilung der Daten
Zusammenfassung
Im nächsten Schritt werden zunächst die Daten in Trainings- und Testdaten aufgeteilt bevor auf die Analyse der Modellierung eingegangen wird. Dabei werden drei verschiedene Ansätze in Betracht gezogen: die logistische Regression, XGBoost und neuronale Netze. Nachdem die Modelle erstellt wurden, wird ihre Performance gründlich analysiert, um zu bestimmen, welches Modell die besten Vorhersagen für den spezifischen Datensatz liefert. Nach der Analyse folgt die Interpretation der Modelle. Ein besonderer Schwerpunkt wird dabei auf der Auswertung der Shapley Values liegen. Diese bieten einen tiefen Einblick in die Beiträge einzelner Merkmale zur Vorhersage und können dabei helfen, die wichtigsten Treiber in den Daten zu identifizieren.
Aufteilung des Datensatzes
Kennzahlen
Trainingsdaten
Testdaten
Vorgehen
Während des Modellierungsprozesses war es von zentraler Bedeutung, sicherzustellen, dass alle Modelle unter denselben Bedingungen erstellt wurden, um die Ergebnisse vergleichbar zu machen. Bei der logistischen Regression ist die Reproduzierbarkeit durch das zugrunde liegende mathematische Modell gegeben. Im Gegensatz dazu verwendet XGBoost Zufallszahlen, was zu unterschiedlichen Ergebnissen bei wiederholten Durchläufen führen kann. Dieses Problem kann durch das Setzen eines Seeds gelöst werden. Bei neuronalen Netzen, insbesondere bei solchen, die mit Keras/Tensorflow erstellt wurden, ist das Setzen eines Seeds jedoch komplizierter. Um trotzdem eine gewisse Reproduzierbarkeit zu gewährleisten, wurden 15 verschiedene neuronale Netze erstellt. Der Gedanke dahinter ist, dass der Mittelwert der Vorhersagen und später der Mittelwert der Shapley Values über diese Modelle hinweg konsistente und ähnliche Ergebnisse liefern sollte.
Zusammenfassung
Für die einzelnen Merkmale zeigen die Kennzahlen eine ähnliche Verteilung zwischen Trainings- und Testdaten. Die Anzahl der Familienangehörigen ("no_of_dependents") variiert zwischen 0 und 5 in beiden Datensätzen. Das Median-Jahreseinkommen ("income_annum") beträgt 5.100.000 in den Trainingsdaten und 5.100.000 in den Testdaten. Der Kreditbetrag ("loan_amount") variiert zwischen 14.500.000 und 14.600.000 mit einem Medianwert von 14.600.000 in den Trainingsdaten und 14.600.000 in den Testdaten. Die Kreditlaufzeit ("loan_term") liegt zwischen 2 und 20 Jahren in beiden Datensätzen.
Der Kredit-Score ("cibil_score") variiert zwischen 300 und 900 in den Trainingsdaten und zwischen 300 und 603.5 in den Testdaten, wobei der Medianwert in beiden Fällen nahe beieinander liegt (599 in Trainingsdaten und 603.5 in Testdaten).
Die Werte der Wohnimmobilien ("residential_assets_value") liegen zwischen 5.600.000 und 5.700.000 mit einem Medianwert von 5.700.000 in den Trainingsdaten und 5.700.000 in den Testdaten. Die Werte der Gewerbeimmobilien ("commercial_assets_value") variieren zwischen 3.700.000 und 3.500.000 mit einem Medianwert von 3.700.000 in den Trainingsdaten und 3.500.000 in den Testdaten.
Die Werte von Luxusgütern ("luxury_assets_value") variieren zwischen 14.600.000 und 14.550.000 mit einem Medianwert von 14.600.000 in den Trainingsdaten und 14.550.000 in den Testdaten. Der Wert der Bankvermögenswerte ("bank_asset_value") liegt zwischen 4.600.000 und 4.500.000 mit einem Medianwert von 4.600.000 in den Trainingsdaten und 4.500.000 in den Testdaten.
Die Anzahl der Personen mit Hochschulabschluss ("education_Graduate") ist in den Trainingsdaten (1.693 Ja und 1.722 Nein) und den Testdaten (451 Ja und 403 Nein) ähnlich verteilt. Ebenso gibt es in den Trainingsdaten (1.712 Ja und 1.703 Nein) und den Testdaten (407 Ja und 447 Nein) eine ähnliche Anzahl von Personen, die nicht selbstständig sind ("self_employed_No").
Insgesamt scheint die Verteilung der Daten auf Test- und Trainingsdaten in Ordnung zu sein, und es gibt kein Merkmal, das in einer der beiden Kategorien überrepräsentiert ist. Somit ist eine gute Voraussetzung für das Training eines zuverlässigen Modells und das Testen seiner Leistungsfähigkeit geschaffen worden.
Logistische Regression
Erklärung
True Positive (TP): Die Anzahl der Kreditanträge, die korrekt als genehmigt vorhergesagt wurden. Das bedeutet, dass das Modell diese Kreditanträge richtig erkannt hat und sie tatsächlich genehmigt wurden.
True Negative (TN): Die Anzahl der Kreditanträge, die korrekt als abgelehnt vorhergesagt wurden. Das Modell hat diese Anträge richtig erkannt und sie wurden tatsächlich abgelehnt.
False Positive (FP): Die Anzahl der Kreditanträge, die fälschlicherweise als genehmigt vorhergesagt wurden. Diese Anträge wurden fälschlicherweise für gut befunden, obwohl sie abgelehnt wurden.
False Negative (FN): Die Anzahl der Kreditanträge, die fälschlicherweise als abgelehnt vorhergesagt wurden. Das Modell hat diese Anträge fälschlicherweise für ungeeignet befunden, obwohl sie genehmigt wurden. Diese werden auch als verpasste Chance bezeichnet.
Basierend auf diesen Werten können verschiedene Bewertungsmetriken berechnet werden, um die Leistung des Modells zu bewerten. Die Genauigkeit (Accuracy) misst den Prozentsatz der korrekten Vorhersagen insgesamt und wird als Überschrift in dem Cofusionsplot dargestellt.
Zusammenfassung
Neuronales Netz
Die neuronalen Netze wurde mit drei versteckten Schichten konzipiert. Die Eingangsschicht, sowie die drei versteckten Schichten nutzen die ReLU-Aktivierungsfunktion. ReLU steht für Rectified Linear Unit Funktion und ist wie folgt definiert: $$f(x) = max(0,x)$$ ReLU hat den Vorteil, dass sie nicht sättigt, wenn x>0 ist. Das bedeutet, ass sie während des Trainings weniger anfällig für das Problem des verschwindenden Gradienten ist, was das Training beschleunigen kann. Zudem ist die Funktion und ihre Ableitung einfach zu berechnen.
Die Ausgangsschicht nutzt die Sigmoid-Funktion: $$\sigma(x) = \frac{1}{1+e^{-x}}$$ Die Sigmoid-Funktion gibt Werte zwischen 0 und 1 zurück, was besonders nützlich ist, wenn das Netzwerk Wahrscheinlichkeiten vorhersagen soll, wie es bei binären Klassifikationsproblemen der Fall ist. Außerdem ist sie überall differenzierbar, was für das Gradientenabstiegsverfahren essentiell ist.
Der Lernparameter für den Adam-Optimierer, der für die Optimierung des Gradientenabstiegs zuständig ist, wurde auf den Wert 0.001 festgelegt. Der Trainingsdatensatz wurde 75 Mal durch das Netzwerk geführt, um die Gewichte der Neuronen zu optimieren. Beim stochastischen Gradientenabstieg werden die Gewichte nicht nach jeder Datenprobe, sondern nach einer Gruppe von Proben, den sogenannten 'Batches', aktualisiert. Dieser Wert wurde für die Modellierung auf 32 festgelegt. Das gesamte Verfahren wurde 15 Mal wiederholt, um die Mittelwerte der Prognosen und Shapley Values zu reproduzieren, da sich die Verwendung eines Seeds als kompliziert herausstellte.
Erklärung
Verlustfunktion ("loss")
Genauigkeitsfunktion ("accuracy")
Die zweite Grafik zeigt die Genauigkeit der Prognosen für die Trainings- und Validierungsdaten über 75 Epochen an.Während des Trainings strebt das Modell danach, die Trainingsgenauigkeit zu maximieren, indem es seine Modellparameter anpasst und sich an die Trainingsdaten anpasst. Ein ansteigender Verlauf der Linien deutet darauf hin, dass das Modell besser wird und korrektere Vorhersagen für die Trainings- und Validierungsdaten trifft.
Erklärung
Erklärung
Kanten mit Gewichten
Knoten - mit Bias
Erklärung
Zusammenfassung
Zur weiteren Optimierung der Ergebnisse könnte die Dropout-Technik angewendet werden, um Overfitting zu verhindern. Dabei wird während des Trainings zufällig ein bestimmter Prozentsatz der Neuronen 'ausgeschaltet', was als Regularisierungsmethode dient. Zusätzlich könnten Experimente mit unterschiedlichen Lernraten durchgeführt oder alternative Optimierer getestet werden. Nichtsdestotrotz sind die aktuellen Lern- und Genauigkeitsmetriken für die anschließende Modellierung der Shapley-Values ausreichend.
XGBoost
Für die Modellierung in diesem Projekt wurde XGBoost mit dem Ziel der binären Klassifikation (binary:logistic) verwendet. Das Modell verwendet den Gradient Boosting-Algorithmus (booster = 'gbtree') und eine Reihe von Hyperparametern, um den Lernprozess zu steuern. Die Lernrate (eta) wurde auf 0,01 festgelegt, er bestimmt, wie schnell das Modell auf die Daten reagiert. Die maximale Tiefe der Bäume (max_depth) wurde auf 6 festgelegt, um die Komplexität des Modells zu steuern. Weitere Parameter wie gamma, min_child_weight, subsample und colsample_bytree wurden ebenfalls festgelegt, um den Trainingsprozess zu optimieren und Overfitting zu verhindern.
Während des Trainingsprozesses wurde eine Watchlist verwendet, um die Leistung sowohl des Trainings- als auch des Validierungsdatensatzes zu überwachen. Das Modell wurde für 50 Runden (nrounds) trainiert, wobei in jeder Runde die Leistung des Modells überwacht und angepasst wurde, um die bestmögliche Vorhersagegenauigkeit zu erzielen.
Erklärung
Die orangefarbene Linie zeigt den Validierungsfehler, der den Fehler auf neuen, nicht-gesehenen Daten angibt, die als Validierungsdaten verwendet werden. Eine gute Generalisierung wird erreicht, wenn der Validierungsfehler niedrig bleibt und das Modell auf unbekannte Kreditanträge gut vorhersagt.
Das Diagramm ermöglicht es, den Trainingsfortschritt zu überwachen und sicherzustellen, dass das Modell sowohl eine gute Anpassung an die Trainingsdaten als auch eine gute Generalisierungsfähigkeit für neue Kreditanträge aufweist. Eine optimale Leistung des Modells kann durch die Analyse dieser Fehlerkurven erreicht werden.
Erklärung
Erklärung
Die Zahlen auf den Kanten stellen Fragen dar, ob die Bedingungen "kleiner" erfüllt ist. Wenn die Antwort "ja" ist, muss dem Pfad gefolgt werden, ansonsten nimmt es den anderen Pfad. Die finale Prognose in einem XGBoost-Modell setzt sich aus der Summe der Vorhersagen aller Bäume zusammen.
Gain
Gain oder auch "Gewinn" ist eine Metrik, die die Bedeutung eines Features bei der Klassifizierung von Datenpunkten in einem Entscheidungsbaum bewertet. Er misst den beigetragenen Verbesserungswert (Gewinn) für die Reduzierung des Verlustes, der durch die Teilung der Daten durch das betrachtete Feature erzielt wird. Mit anderen Worten, der Gain zeigt an, wie viel besser der Entscheidungsbaum durch die Berücksichtigung eines bestimmten Features geworden ist.Cover
Cover oder "Abdeckung" ist eine Metrik, die angibt, wie viele Datenpunkte durch die Entscheidungsregel eines Knotens im Entscheidungsbaum abgedeckt werden. Es misst die Anzahl der Datenpunkte, die durch die Entscheidungsregel dieses Knotens berücksichtigt werden. Eine hohe Cover-Metrik zeigt an, dass der Knoten einen großen Teil der Daten im Trainingsdatensatz abdeckt.In XGBoost wird der "Gain" verwendet, um die Relevanz von Features zu bewerten und den Entscheidungsbaum so zu formen, dass es die relevantesten Features berücksichtigt. Die "Cover"-Metrik dient dazu, die Effizienz des Entscheidungsbaums zu bewerten und zu überprüfen, wie viele Datenpunkte in den einzelnen Knoten berücksichtigt werden.
Zusammenfassung
Zur weiteren Optimierung des Modells könnten Experimente mit verschiedenen Parametereinstellungen durchgeführt werden. Angesichts der Tatsache, dass es insgesamt nur 11 Merkmale gibt und die logistische Regression bereits aufgezeigt hat, dass lediglich vier davon signifikant sind, könnte eine Verringerung der Baumtiefe in Erwägung gezogen werden. Dies könnte zudem dazu beitragen, Overfitting zu reduzieren.
Abschließend lässt sich sagen, dass die aktuellen Lern- und Genauigkeitsmetriken für die nachfolgende Analyse der Shapley-Values vollkommen ausreichend sind.
Shapley Values
Grundlage Beispiel
Shapley-Werte wurden ursprünglich entwickelt, um in kooperativen Spielen eine faire Verteilung der Auszahlungen zu gewährleisten. In der zugrunde liegenden Theorie werden Spiele betrachtet, die im Kontext von Machine Learning als Modellinterpretationen interpretiert werden können. Die Spieler in einem solchen Spiel repräsentieren die Merkmale (Features) eines Modells, und die Auszahlungen der Spieler können als Vorhersagen des Modells verstanden werden. Betrachten wir ein konkretes Beispiel (Quelle Molnar: https://christophmolnar.com/books/shap/): Alice, Bob und Charlie sind zusammen essen und wollen mit einem Taxi nach Hause fahren. Alice und Bob wohnen zusammen. Wie werden die Kosten von $51 für die Fahrt fair aufgeteilt? Die Kosten und Details der Personen:Passengers | Cost | Note |
---|---|---|
∅ | $0 | Kein Taxi, keine kosten |
{Alice} | $15 | Standard-Fahrt zu Alice’s & Bob’s Wohnort |
{Bob} | $25 | Bob nutzt immer luxoriösere Taxis |
{Charlie} | $38 | Charlie lebt etwas weiter weg |
{Alice, Bob} | $25 | Bob bekommt immer was er will |
{Alice, Charlie} | $41 | Erst wird Alice abgesetzt, dann Charlie |
{Bob, Charlie} | $51 | Erst wird Bob abgesetzt, dann Charlie |
{Alice, Bob, Charlie} | $51 | Alle drei fahren gemeinsam |
Marginale Beiträge
Ein marginaler Beitrag eines Spielers zu einer Koalition ist der Wert mit dem Spieler minus dem Wert ohne dem Spieler. Außerdem besteht ein Unterschied, ob Alice zu Bob hinzugefügt wird oder Bob zu Alice hinzugefügt wird. Betrachten wir die folgende Tabelle:Hinzufügen | zur Koalition | Kosten Vorher | Kosten Nachher | Marginaler Beitrag |
---|---|---|---|---|
Alice | ∅ | $0 | $15 | $15 |
Alice | {Bob} | $25 | $25 | $0 |
Alice | {Charlie} | $38 | $41 | $3 |
Alice | {Bob, Charlie} | $51 | $51 | $0 |
Bob | ∅ | $0 | $25 | $25 |
Bob | {Alice} | $15 | $25 | $10 |
Bob | {Charlie} | $38 | $51 | $13 |
Bob | {Alice, Charlie} | $41 | $51 | $10 |
Charlie | ∅ | $0 | $38 | $38 |
Charlie | {Alice} | $15 | $41 | $26 |
Charlie | {Bob} | $25 | $51 | $26 |
Charlie | {Alice, Bob} | $25 | $51 | $26 |
Was sind nun die fairen Kosten für jede Person? Wir brauchen noch einen vernünftigen gewichteten Mittelwert. Die Shapley Values werden mit allen möglichen Permutationen gewichtet, warum das sinnvoll ist, sehen wir gleich. Bei drei Personen gibt es 3!=3⋅2⋅1=6 Möglichkeiten der Anordnung:
- Alice, Bob, Charlie
- Alice, Charlie, Bob
- Charlie, Alice, Bob
- Bob, Alice, Charlie
- Charlie, Bob, Alice
- Bob, Charlie, Alice
Durchschnittliche marginale Beiträge
Alice: $$\frac{2}{6}\cdot15+\frac{1}{6}\cdot0+\frac{1}{6}\cdot3+\frac{2}{6}\cdot0=$5.50 $$ Bob: $$\frac{2}{6}\cdot25+\frac{1}{6}\cdot10+\frac{1}{6}\cdot13+\frac{2}{6}\cdot10=$15.50 $$ Charlie: $$\frac{2}{6}\cdot38+\frac{1}{6}\cdot26+\frac{1}{6}\cdot26+\frac{2}{6}\cdot26=$30 $$ Die Gesamtkosten der Taxifahrt betrugen $51. Die Summe der einzelnen Beiträge ergeben ebenfalls $51. Das ist das Grunprinzip der Shapley Values.Formale Definition
$$\phi(i)= \sum_{S\subseteq{N}/\{i\}} \frac{|S|!(N-1-|S|)!}{N!}(e_{S\cup{i}}-e_S)$$ Die einzelnen Bestandteile:Begriff | Mathematische Beschreibung | Taxi Beispiel |
---|---|---|
Spieler | 1, … , |𝑁 | | Passagier, zum Beispiel Alice |
Koalition aller Spieler | 𝑁 | {Alice, Bob, Charlie} |
Coalition S | S | Jede Kombination von Passagieren, von ∅ bis {Alice, Bob, Charlie}. |
Größe der Koalition | |𝑆| | Zum Beispiel, |{Alice}| = 1, |{Alice, Bob, Charlie}| = 3 |
Value Function | e | Durch die Tabelle definiert, die alle möglichen Anordnungen von Passagieren im Taxi zeigt |
Auszahlung | e(S) | Die Kosten der Taxifahrt mit allen Passagieren |
Shapley Value | 𝜙i | Zum Beispiel, 𝜙1 = $5.50 für Alice, 𝜙2 = $15.50 für Bob und 𝜙3 = $30 für Charlie. |
Runtergebrochen berechnet die Formel den gewichtete Durchschnitt der marginalen Beiträge eines Spielers zu allen möglichen Koalitionen.
- (e_{S∪i−eS}): Der Teil der Gleichung repräsentiert die marginalen Kosten von Spieler i zu der Koalition S. Wenn i Alice ist und S = {Bob}, dann berechnet der Teil wie viel teurer die Fahrt wird, wenn Alice zu Bob hinzugefügt wird.