Legal Analytics

Kapitelbeschreibung

In diesem Kapitel stellt Christian Hartz das Themenfeld Legal Analytics vor und geht dabei auf verschiedene Anwendungsfälle im europäischen Raum sowie auf die Funktionalität geläufiger Anwendungen ein.

Funktionsweise Analytics

In diesem Kapitel wollen wir beleuchten, wie Analytics-Lösungen grundsätzlich funktionieren und wie eine technische Lösung für eine Lösung aussehen könnte.

Gehen wir von folgender Beschreibung der Analytics-Lösung aus: Der Nutzer ist in der Lage, einen eigenen Sachverhalt einzugeben. Die Ausgabe durch die Applikation ist zum einen eine Statistik über die Gewinnwahrscheinlichkeit des Falls, zum anderen eine Statistik, welches Gericht wie entschieden hat und welche Argumentation vor Gericht am wahrscheinlichsten zum Erfolg führen wird.

Es sind also verschiedene Elemente in dieser Applikation vorhanden, die sich wie folgt separieren lassen:

Sachverhaltseingabe
Entscheidungsstatistik über Gerichte
Gewinnwahrscheinlichkeit
Argumentationsfinder

Die Entscheidungsstatistik nutzt „Legal Analytics“, die Gewinnwahrscheinlichkeit ist Teil von „Predictive Analytics“ und der Argumentationsfinder könnte als „Prescriptive Analytics“ eingeordnet werden. Die Sachverhaltseingabe auf der anderen Seite stellt vermutlich eher Probleme aus ganz anderen Bereichen dar, wie etwa Suchtechnologien oder Topic Modelling.

‍

AI und ML hinter den verschiedenen Analytics-Arten

Schauen wir uns in diesem Kapitel einmal mögliche Komponenten an, die in den verschiedenen Bereichen von Analytics in unserem oben genannten Beispiel verwendet werden.

Sachverhaltseingabe

Im Bereich der Sachverhaltseingabe bzw. des Findens der passenden Entscheidungen zum Sachverhalt könnten Verfahren wie Topic-Modelling-Ansätze verwendet werden. Was ist das? Ein etwas simplifizierter Erklärungsansatz: Beim Topic-Modelling versucht man (häufig über statistische Ansätze) herauszufinden, welche Wörter bzw. Sätze für bestimmte Themengebiete stehen. Somit ist es möglich, in der Sachverhaltseingabe zu erkennen, welche Themengebiete vom Nutzer angesprochen werden. Eine weitere Art und Weise, wie insbesondere im juristischen Bereich Themengebiete eingegeben werden können, sind die Normen. Die Eingabe von § 242 StGB dürfte vermutlich darauf hindeuten, dass es um einen Diebstahl und damit assoziierte Probleme geht.

Ein Algorithmus, der in diesem Bereich eingesetzt wird, ist bspw. Latent Dirichlet Allocation (LDA). Hier könnte bspw. auf einem kompletten Korpus an Dokumenten versucht werden, alle Themenbereiche zu finden, um diese dann nachgehend auch in der Sachverhaltseingabe zu erkennen.

‍

Latent Dirichlet Allocation ist ein generatives Wahrscheinlichkeitsmodell für Dokumente. Dokumente sind in diesem Fall gruppierte, diskrete und ungeordnete Beobachtungen. In den meisten Fällen werden Textdokumente verarbeitet, in denen Wörter gruppiert werden, wobei die Wortreihenfolge keine Rolle spielt. Es können aber auch zum Beispiel Pixel aus Bildern verarbeitet werden.

‍

Entscheidungsstatistik über Gerichte

Die Entscheidungsstatistik enthält Informationen dazu, wie welche Gerichte entschieden haben. Hierzu muss zunächst erlernt werden, was der Ausgang einer Entscheidung ist. Relevant hierfür können Fragen sein wie:

Wer ist Kläger, wer Beklagter
Was ist der Klagegegenstand
Wer hat obsiegt
Wie ist die Kostenlast etc.

All diese Informationen gemeinsam können helfen, zu verstehen, was das Ergebnis der Gerichtsentscheidung ist. Zum Einsatz kann hier bspw. Natural Language Processing (NLP) oder Natural Language Understanding (LUA) kommen. Im Rahmen von Natural Language Processing können bspw. Muster verwendet werden. So ist der Satz „Die Klage wird abgewiesen“ recht eindeutig als „gewonnen“ zuzuordnen. Lautet das Ergebnis allerdings: „Der Beklagte wird verurteilt, an den Kläger 1000 € zu zahlen“, sagt dies noch nicht wirklich etwas aus. Denn vielleicht waren 30.000 € eingeklagt und die Klage wurde überwiegend abgewiesen. Es muss somit eine holistische Betrachtung erfolgen.

‍

Natural Language Processing (NLP) ist ein Teilgebiet der Linguistik, der Informatik und der künstlichen Intelligenz. Insbesondere wird sich mit der Frage beschäftigt, wie Computer programmiert werden können, um große Mengen natürlicher Sprache in Daten zu verarbeiten und zu analysieren. Die Technologie ist dann in der Lage, die in den Dokumenten enthaltenen Informationen und Erkenntnisse genau zu extrahieren und die Dokumente selbst zu kategorisieren und zu organisieren.

‍

Neben der Modellierung mittels NLP können auch Text-Klassifikations-Algorithmen in Betracht kommen. So kann beispielsweise ein Algorithmus trainiert werden, um diejenigen Sätze einer Entscheidung zu finden, in denen das Gericht den Urteilsspruch festschreibt. Die Vielfalt der Möglichkeiten ist riesig. Es können rein statistische Modelle verwendet werden wie Naive Bays oder Support Vector Machine; aber auch Algorithmen aus dem Bereich der neuronalen Netze (wie bspw. BERT von Google) können zum Einsatz kommen. Die Schwierigkeit in der Praxis besteht darin, den bestmöglichen Ansatz zu finden.

Daneben können auch klassische statistische Auswertungen verwendet werden. Um allerdings den Nutzer nicht mit einer Menge an Zahlen zu überfordern muss auch auf die Usability und User Experience besonders Wert gelegt werden. So kann die Datenvisualisierung recht anspruchsvoll werden:

Anzahl der Gerichte, die die Klage abgelehnt haben, verglichen mit der Anzahl derer, die der Klage stattgegeben haben als Kuchendiagramm visualisiert;
Höhe der ausgeurteilten Beträge als Balkendiagramm;
Liniendiagramm zur Visualisierung, wie sich die Anzahl der Entscheidungen zu einem Thema über die Jahre entwickelt hat.

‍

Gewinnwahrscheinlichkeit

Die Gewinnwahrscheinlichkeit beruht auf den Vorarbeiten zur Entscheidungsstatistik, denn nur wenn diese Informationen vorhanden sind, kann eine Vorhersage über die Gewinnwahrscheinlichkeit getroffen werden. Um die Gewinnwahrscheinlichkeit zu berechnen, muss ein Algorithmus in der Lage sein, all die Informationen aus der Vergangenheit einzubeziehen, auf den Fall anzuwenden um dann eine Aussage über den Ausgang zu treffen.

Heruntergebrochen heißt dies:

Die Sachverhaltseingabe des Nutzers muss ausgewertet werden
Abweichungen oder Unklarheiten in der Sachverhaltsanalyse müssen entweder ausgeschlossen, oder müssen in alle möglichen Varianten gedeutet werden
Unterschiede in der gerichtlichen Aufarbeitung der Sachverhaltseingabe müssen bewertet werden
zählt eine obergerichtliche Entscheidung mehr als eine untergerichtliche
Zählt eine obergerichtliche Entscheidung aus einem Nachbarbezirk ggf. weniger als die aus dem eigenen Gerichtsbezirk etc.

Dies ist nur ein kleiner Ausschnitt dessen, was modelliert werden muss. Auch gibt es verschiedene Ansätze. Eine Möglichkeit wäre, Regeln wie die eben niedergeschriebenen zur Frage, welches Gericht ein höheres Gewicht erhält, selbst zu verfassen, um daraus einen regelbasierten Ansatz zu erstellen. Dies führt häufig allerdings i.d.R. zu recht komplexen Regelwerken.

Auch der Einsatz Neuronaler Netze ist denkbar. Hierbei wird häufig nur ein Teil der Daten vorgegeben und mit Labeln bzw. dem Ergebnis versehen. Der Algorithmus lernt dann anhand dieser Beispiele, wie er welche Textelemente gewichten muss. Dieses Verfahren wird teilüberwachtes Lernen (semi-supervised learning) genannt.

‍

Argumentationsfinder

Der Argumentationsfinder schließlich nutzt nicht nur Elemente von „Predictive Analytics“ sondern auch von „Prescriptive Analytics“. Denn es wird gerade ein Vorschlag unterbreitet, welche Argumente der Jurist wählen sollte, um den Fall zu gewinnen.

Der theoretische Ansatz hierfür beruht auf der klassischen Mengenlehre. Von den Argumenten, die in allen Entscheidungen relevant sind, sollen nur diejenigen verwendet werden, die lediglich in den Entscheidungen vorhanden sind, die ein für den Fall positives Ergebnis ergeben. Somit sind diese „positiven Argumente“ Teilmenge aller Argumente.

Diese Vereinfachung trägt allerdings in der Praxis nicht gänzlich. Denn das zusätzliche Problem ist, dass auch geprüft werden muss, ob diese Argumente überhaupt auf den geschilderten Sachverhalt zutreffen, ob diese also positiv vorliegen oder fehlen. So könnte bspw. ein Fall im Strafrecht grundsätzlich dadurch gewonnen werden, dass der Täter unter 14 Jahren alt ist. Wenn dies allerdings das einzige „positive Argument“ ist und in der Sachverhaltsschilderung nicht eindeutig angegeben wurde, dass der Täter über 14 Jahre alt ist (was vermutlich die Regel darstellen sollte), so führt dies zu offensichtlich falschen Vorhersagen.

‍

Grundbegriffe

Supervised Learning

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique. Duis cursus, mi quis viverra ornare, eros dolor interdum nulla, ut commodo diam libero vitae erat. Aenean faucibus nibh et justo cursus id rutrum lorem imperdiet. Nunc ut sem vitae risus tristique posuere.

Künstliche Intelligenz

Nächster Abschnitt

Analytics in Praxis

Weiter

Du bist jetzt am Ende des Kapitel angekommen. Wenn du möchtest, kannst du gleich mit dem nächsten Kapitel weitermachen. Wähle es dazu in der Seitenteile im linken Teil deines Bildschirms unter Kapitelübersicht aus.

Nächste Einheit

Oops! Something went wrong while submitting the form.

Toolbox

Christian Hartz

Christian Hartz ist Rechtsanwalt und Legal Engineer bei Wolters Kluwer und als Product-Owner für verschiedene nationale und internationale KI-Projekte verantwortlich. Dazu ist er Lehrbeauftragter an der Universität des Saarlandes und war vorher als Product-Developer und Portal-Manager bei der juris GmbH beschäftigt.

Nico Kuhlmann

Wissen ist Macht

2016

In Deutschland ist Wolters Kluwer ein führender Anbieter von Fachinformationen, Software und Services im Bereich Recht, Wirtschaft und Steuern. Die Expertenlösungen verbinden profunde Expertise in klar definierten Fachgebieten mit Technologie und Services. So können die Kunden bessere Analysen, Ergebnisse und höhere Produktivität erzielen.

Website

Sorry

Feedback