265297 Bericht Drucksache 0 Dokument 1 20/5149 20 BT d7eadb061b78af73d8697b5a198b8b53 2023-01-10T15:34:26+01:00 295126 Bericht des Ausschusses für Bildung, Forschung und Technikfolgenabschätzung (18. Ausschuss) gemäß § 56a der Geschäftsordnung Technikfolgenabschätzung (TA) Data-Mining - gesellschaftspolitische und rechtliche Herausforderungen Bericht, Gutachten, Programm false AfBFT Ausschuss für Bildung, Forschung und Technikfolgenabschätzung https://dserver.bundestag.de/btd/20/051/2005149.pdf 265297 20/5149 2023-01-09 2023-01-09 Drucksache Bericht BT Ausschuss für Bildung, Forschung und Technikfolgenabschätzung [Deutscher Bundestag Drucksache 20/5149 20. Wahlperiode 09.01.2023 Bericht des Ausschusses für Bildung, Forschung und Technikfolgenabschätzung (18. Ausschuss) gemäß § 56a der Geschäftsordnung Technikfolgenabschätzung (TA) Data-Mining – gesellschaftspolitische und rechtliche Herausforderungen Inhal tsverzeichnis Seite Vorwort des Ausschusses ............................................................................. 5 Zusammenfassung ........................................................................................ 9 1 Einleitung ........................................................................................ 21 2 Data-Mining aus analytisch-technischer Sicht ............................. 27 2.1 Data-Mining – was ist das? .............................................................. 27 2.2 Daten: Formen, Strukturen und Bereitstellung ................................. 31 2.2.1 Wesensmerkmale und Formen ......................................................... 31 2.2.2 Datenspeicherung und -bereitstellung: von Datenbanken bis Systemarchitekturen ......................................................................... 34 2.3 Data-Mining als Prozess: Schritte, Verfahren, Ergebnisse ............... 40 2.3.1 Spezifikation der Untersuchungsaufgabe und Datenaufbereitung ............................................................................ 40 2.3.2 Datenanalytische Verfahren.............................................................. 41 2.3.3 Ergebnisprüfungen............................................................................ 44 2.3.4 Weiterverwendung von Data-Mining-Ergebnissen .......................... 49 3 Rechtliche und normative Aspekte ............................................... 51 3.1 Datenbezogene Grundstrukturen ...................................................... 51 3.2 Umgang mit nichtpersonenbezogenen Daten: Beispiel Geodaten und nationale Geodateninfrastruktur ................................ 56 Seite 3.3 Umgang mit personenbezogenen Daten ........................................... 65 3.3.1 Von Datenverarbeitung betroffene Personen und deren Rechte ....... 65 3.3.2 Grundsätze und Pflichten bei der Datenverarbeitung ....................... 68 3.3.3 Grundrechteschützende Maßnahmen ................................................ 73 3.3.4 Das Forschungsprivileg – ein Türöffner für Data-Mining ................ 80 3.3.5 Daten mit Bezug zu Personengruppen – (k)eine Sonderkategorie .................................................................... 83 3.4 Umgang mit Data-Mining-Ergebnissen ............................................ 85 3.4.1 Informationen ................................................................................... 85 3.4.2 Algorithmen und Software ............................................................... 85 3.4.3 Rechtsunsicherheiten und Entwicklungsinitiativen .......................... 87 4 Data-Mining in der Medizin .......................................................... 91 4.1 Medizinische Daten: rechtliche und technische Aspekte.................. 91 4.1.1 Ärztinnen und Ärzte: Aufgaben, Pflichten, Aktenführung ............... 91 4.1.2 Medizinische Einrichtungen: Organisation und Datenverwaltung ............................................................................... 94 4.1.3 Medizinische Primärdaten ................................................................ 95 4.1.4 Aufbereitete medizinische Datenbestände ........................................ 101 4.1.5 Gesamteinschätzung Datenzugänglichkeit ....................................... 103 4.2 Medizinprodukte zur Generierung und Analyse medizinischer Daten................................................................................................. 105 4.2.1 Prüfung und Bewertung der Sicherheit, Leistung und Gesundheitseffekte ........................................................................... 106 4.2.2 Integration in die medizinische Versorgung ..................................... 107 4.2.3 Haftung und Schadensausgleich ....................................................... 108 4.3 Data-Mining-Anwendungsbeispiele ................................................. 110 4.3.1 Risikoklassifikation und medizinisches Scoring .............................. 110 4.3.2 Bilderkennung bei der Mammografie ............................................... 111 4.3.3 Interpretation genetischer Daten für die Therapieplanung ............... 117 4.3.4 Medizinische Assistenzsysteme........................................................ 121 4.4 Administrative Daten: Basis vom Geschäftsprozessen..................... 126 4.4.1 Daten zur Leistungsabrechnung ....................................................... 127 4.4.2 Daten zur Qualitätssicherung der medizinischen Versorgung .......... 132 4.4.3 Daten für die amtliche Statistik ........................................................ 133 4.4.4 Gesamteinschätzung der analytischen Potenziale administrativer Daten ....................................................................... 133 5 Data-Mining im Gesundheitssystem ............................................. 135 5.1 Sozialdaten: Rechtsrahmen der Verarbeitung ................................... 135 Seite 5.2 Das Institut für das Entgeltsystem im Krankenhaus: Daten und Analytik ..................................................................................... 136 5.2.1 Die stationäre Leistungsvergütung als lernendes System ................. 136 5.2.2 Daten und deren Weiterverwendungsmöglichkeiten ........................ 137 5.2.3 Die DRG-Systemfortschreibung – ein Data-Mining-Prozess? ......... 138 5.2.4 Einschätzung ..................................................................................... 138 5.3 Kassenärztliche Vereinigungen: Daten und Analytik ....................... 140 5.3.1 Kennnummern, Register und Informationssysteme der Kassenärztlichen Vereinigungen ...................................................... 141 5.3.2 Daten zur Qualitätssicherung und Data-Mining-Potenziale ............. 142 5.3.3 Leistungsdaten: Prüfung, Verwendung, Weiterleitung ..................... 143 5.3.4 Sekundärnutzung von Leistungsdaten: Data-Mining-Beispiel »Verbreitung multiresistenter Erreger« ............................................ 144 5.3.5 Einschätzung ..................................................................................... 147 5.4 Arzneimittelversorgung: Akteure, Daten und deren Verwendungsmöglichkeiten ............................................................. 148 5.4.1 Vereinigungen, Register, Informationssysteme ................................ 148 5.4.2 Apothekenrechenzentren .................................................................. 149 5.4.3 Das Deutsche Arzneiprüfinstitut....................................................... 150 5.4.4 Exkurs: Kommerzielle Datenweiterverwendung – ein zulässiges Geschäftsmodell? ............................................................ 150 5.4.5 Einschätzung ..................................................................................... 152 5.5 Gesetzliche Krankenkassen: Daten und Analysemöglichkeiten ....... 152 5.5.1 Aufgaben, Strukturen, Datenbestände .............................................. 152 5.5.2 Daten aus der Leistungsabrechnung: Bestandteile, Haltung, Mehrfachnutzung .............................................................................. 155 5.5.3 Sekundärnutzung von Leistungsdaten: Data-Mining-Beispiel »Pharmakovigilanz« ......................................................................... 160 5.5.4 Der Data-Mining-Prozess ................................................................. 164 5.5.5 Vorgehen im internationalen Vergleich ............................................ 166 5.5.6 Einschätzung ..................................................................................... 168 5.6 Fazit .................................................................................................. 170 6 Gesamtfazit und Handlungsoptionen ........................................... 173 6.1 Fazit .................................................................................................. 173 6.2 Allgemeine Handlungsoptionen ....................................................... 173 6.3 Handlungsoptionen, die sich aus dem Vergleich der Fallbeispiele ableiten lassen ............................................................. 173 Seite 7 Literatur .......................................................................................... 177 7.1 In Auftrag gegebene Gutachten ........................................................ 177 7.2 Weitere Literatur............................................................................... 177 8 Anhang............................................................................................. 193 8.1 Data-Mining im Urheber- und Leistungsschutzrecht ....................... 193 8.2 Abbildungen ..................................................................................... 198 8.3 Tabellen ............................................................................................ 198 8.4 Kästen ............................................................................................... 198 8.5 Abkürzungen .................................................................................... 199 Vorwort des Ausschusses Data-Mining steht für datenanalytischen Verfahren, die in zunehmend großen Datenbeständen Strukturen und Muster erkennen und daraus Informationen gewinnen. Im Kontext der Digitalisierung nahezu aller Lebensbereiche werden einerseits die besonderen Potenziale derartiger Verfahren zur Wissenserweiterung betont. Mitunter werden sie sogar als alternativlos bezeichnet, um aus den kontinuierlich größer werdenden, maschinenlesbaren Datenbeständen Informationen zu extrahieren. Zum anderen gehen damit auch gesellschaftliche Herausforderungen einher, weil – gegenwärtige Strukturen Daten- und Analysemonopole begünstigen, was Dritten die Datennutzung erschwert und zu Informationsasymmetrien führt; – Datenweiterverwendungen bisher wenig transparent und komplexe Datenanalysen schwer nachzuvollziehen sind; – Analysen und deren Resultate nicht nur Nutzen stiften, sondern auch Risiken bergen (weil sie Freiheiten und Grundrechte gefährden) und Schäden nach sich ziehen können. Vor diesem Hintergrund hat der Ausschuss für Bildung, Forschung und Technikfolgenabschätzung das Büro für Technikfolgen-Abschätzung beim Deutschen Bundestag (TAB) beauftragt, eine Untersuchung zu Data-Mining-Prozessen und zu deren gesellschaftspolitischen und rechtlichen Herausforderungen durchzuführen. Der vorliegende Bericht befasst sich mit Datenbeständen, die im Rahmen öffentlicher Aufgaben erhoben und gespeichert werden, mit Analysetechniken, die mit dem Data-Mining-Begriff assoziiert werden, sowie mit dem rechtlichen Fundament, das Möglichkeiten und Grenzen der Datenanalytik teils allgemein, teils spezifisch für öffentliche Aufgabenbereiche definiert. Medizinische und gesundheitssystemische Anwendungsbereiche werden vertieft betrachtet, denn strukturerkennenden datenanalytischen Ansätzen werden dort regelmäßig besondere Potenziale unterstellt, wobei zugleich Defizite in der Digitalisierung zahlreicher Prozessabläufe und bei der Datenbereitstellung attestiert werden. Der Fokus des TAB-Berichts ist auf technische Prozessabläufe und anwendungsbezogene Vertiefungen gerichtet. Damit ergänzt er zahlreiche Stellungnahmen anderer Institutionen und Gremien aus den letzten Jahren zur Digitalisierung im Allgemeinen und zu Big Data und künstlicher Intelligenz im Besonderen. Der Deutsche Bundestag erhält mit dem vorliegenden Bericht des TAB eine umfassende Informationsgrundlage zu komplexen datenanalytischen Prozessen. Der sinnvolle Umgang mit den Möglichkeiten, die das Data-Mining bietet, bleibt auf absehbare Zeit eine gesellschaftspolitische Herausforderung. Berlin, den 6. Juli 2022 Kai Gehring Vorsitzender Dr. Holger Becker Berichterstatter Lars Rohwer Berichterstatter Laura Kraft Berichterstatterin Prof. Dr. Stephan Seiter Berichterstatter Prof. Dr.-Ing. habil. Michael Kaufmann Berichterstatter Ralph Lenkert Berichterstatter Katrin Gerlinger Data-Mining – gesellschaftspolitische und rechtliche Herausforderungen Endbericht zum TA-Projekt TAB-Arbeitsbericht Nr. 203 Das Büro für Technikfolgen-Abschätzung beim Deutschen Bundestag (TAB) berät das Parlament und seine Ausschüsse in Fragen des wissenschaftlich-technischen Wandels. Das TAB wird seit 1990 vom Institut für Technikfolgenabschätzung und Systemanalyse (ITAS) des Karlsruher Instituts für Technologie (KIT) betrieben. Hierbei kooperiert es seit September 2013 mit dem IZT – Institut für Zukunftsstudien und Technologiebewertung gGmbH sowie der VDI/VDE Innovation + Technik GmbH. Zusammenfassung Datenanalysetechniken, die in den kontinuierlich größer werdenden Datenbeständen (neue) Strukturen erkennen, werden einerseits vielfältige Innovationspotenziale zugeschrieben, weil wichtige Erkenntnisse gewonnen, Prozessabläufe verbessert sowie Geschäftsideen und Informationsdienste entwickelt werden können. Andererseits werden auch Bedenken geäußert: Die Spanne reicht von intransparenten Abläufen über ungleiche Verwertungsmöglichkeiten abgeleiteter Informationen bis zu Veränderungen des gesellschaftlichen Miteinanders und dem Verlust der Privatheit. Bei der Aufgabe, diese technologische Entwicklung für die Allgemeinheit sinnvoll zu gestalten, ergeben sich vielfältige Herausforderungen, u. a. bezüglich der notwendigen Datenbereitstellung, der Konkretisierung von Möglichkeiten und Grenzen der Datenverwendung, des Umgangs mit den Ergebnissen, der Ausgestaltung von Verantwortungs- und Haftungsfragen sowie damit verbundener Finanzierungs- und Geschäftsmodelle. Nicht alle Herausforderungen sind fundamental neu, denn Daten werden seit langem erfasst und analysiert. In Anbetracht der kontinuierlich größer werdenden Datenbestände, deren vielfältigen Verknüpfungsmöglichkeiten und der analytisch-technischen Entwicklungen erscheint eine Auseinandersetzung mit den Möglichkeiten und Grenzen komplexer Datenanalysen und den damit einhergehenden Folgen jedoch erforderlich. Der Ausschuss für Bildung, Forschung und Technikfolgenabschätzung des Deutschen Bundestages hat das Büro für Technikfolgen-Abschätzung beim Deutschen Bundestag (TAB) mit einer Untersuchung zum Thema Data-Mining beauftragt, die mit diesem Bericht abgeschlossen wird. Im Zentrum der Betrachtung stehen Datenbestände, die im Rahmen öffentlicher Aufgaben erhoben und verarbeitet werden, Analysetechniken, die mit dem Begriff Data-Mining assoziiert werden, sowie das rechtliche Fundament, das Möglichkeiten und Grenzen der Datenanalytik teils allgemein, teils bereichsbezogen definiert. Vertiefend betrachtet werden medizinische und gesundheitssystemische Anwendungsbereiche. Dort werden komplexen Datenanalysen regelmäßig besondere Anwendungspotenziale unterstellt, aber auch Defizite in der Digitalisierung zahlreicher Prozessabläufe und folglich bei der Datenbereitstellung attestiert. Ziel dieses Berichts ist es, den Oberbegriff Data-Mining aus unterschiedlichen Perspektiven zu erschließen und in seiner Vielschichtigkeit darzustellen. Damit soll das Verständnis der Möglichkeiten und Grenzen komplexer Datenanalysen erhöht werden. Anhand von unterschiedlichen Anwendungsbeispielen werden derzeitige Möglichkeiten und Herausforderungen in medizinischen und gesundheitssystemischen Kontexten veranschaulicht. Data–Mining aus analytisch-technischer Sicht Seit den 1990er Jahren wird der Begriff Data-Mining von Datenanalyst/innen mit der Anwendung mathematischstatistischer Verfahren assoziiert, die Strukturen und Muster in verfügbaren Datenbeständen erkennen und entsprechende Informationen liefern. Wenn man Fragen nach den mit den Analysetechniken verbundenen gesellschaftlichen Chancen und Herausforderungen nachgehen will, sollte man nicht nur den unmittelbaren Einsatz von strukturerkennenden statistischen Verfahren (Data-Mining im engen Sinn), sondern den gesamten Prozess der Informationsgewinnung aus Datenbeständen betrachten (Data-Mining im weiteren Sinn). Data-Mining kann als zweckgebundene Datenanalytik verstanden werden, wobei konkrete Fragestellungen die jeweilige Untersuchungsaufgabe spezifizieren: Welche Faktoren/Merkmale indizieren erhöhte Erkrankungsrisiken? Welche Datenobjekte sind sich ähnlich, können zusammengefasst, gruppiert oder bestehenden Klassen zugeordnet werden? Welche Abweichungen in den Daten deuten auf Besonderheiten hin (u. a. Fehler, Risikogebiete, Straftaten)? Je nach Aufgabe und eingesetzten Verfahren werden statistische Kennziffern ermittelt, Parameter von Modellen angepasst oder Entscheidungsregeln abgeleitet, die im jeweiligen Kontext verallgemeinerbar sein sollten und beispielsweise zu Verfahren zur Bilderkennung, zum Scoring von Objekten oder zur Prognose von Sachverhalten weiterentwickelt werden können. Folgende Schritte gehören zum Data-Mining-Prozess: › Definition der Aufgabe als mathematisches Problem (Suche nach Ähnlichkeiten oder Unterschieden/ Ausreißern in Datenbeständen, Klassifikationen/Gruppierung von Objekten, Ableitung von Regeln, Modellierung); › Datenauswahl und -aufbereitung (Prüfung der Dateneignung, Fehlerbereinigungen, Umrechnungen, Erstellung von Analyse-/Trainingsdatensätzen); › Datenanalyse (je nach Aufgabe und Datenform kommen unterschiedliche Verfahren in Betracht, einige gibt es seit Jahrzehnten [z. B. Cluster-/Regressions-/Assoziationsanalysen], andere wurden erst durch die erheblichen Steigerungen der Rechenleistung der letzten Jahre anwendungsreif [z. B. Bayes'sche oder künstliche neuronale Netze]); › Ergebnisvalidierung (verfahrensintern mittels spezifischer Kennziffern sowie extern durch Vergleiche oder Beweise). Data-Mining wird meist mit Analysen bereits vorhandener Datenbestände in Verbindung gebracht, die neu verknüpft oder zu neuen Zwecken weiterverwendet werden. Damit ist die originäre Datenerfassung dem Data- Mining-Prozess zwar vorgelagert, gleichwohl ist ein Verständnis des Erhebungskontextes wichtig, u. a. um die Eignung für die jeweilige Untersuchungsaufgabe einschätzen, Auffälligkeiten von Fehlern unterscheiden oder Ergebnisse interpretieren zu können. Es gibt unterschiedliche Meinungen, wie weit der Data-Mining-Prozess zu fassen ist, welche Schritte als vor- oder nachgelagert gelten. Ein hoher Automatisierungsgrad ist bei der unmittelbaren Anwendung mathematisch-statistischer Verfahren auf einen aufbereiteten, standardisierten (Trainings-)Datensatz möglich (Data-Mining im engen Sinn), weil Algorithmen alle analytischen Schritte definieren, die maschinell ausgeführt werden. Bei der Aufgabendefinition, der Datenaufbereitung und der Ergebnisprüfung sind nach wie vor vielfältige menschliche Tätigkeiten erforderlich. Meist werden in mehreren Schleifen (Zwischen-)Ergebnisse geprüft, das analytische Vorgehen angepasst sowie Daten hinzugezogen oder ausgeschlossen, bis die Resultate als ausreichend valide angesehen werden. Validitätsanforderungen variieren je nach Anwendungsbereich und möglichen Folgen. Datenanalytische Vorgehensweisen sind seit jeher ein Kernelement wissenschaftlichen Arbeitens, jedoch längst nicht mehr auf diesen Bereich beschränkt. Datenbasierte Regeln und angepasste Modelle werden teilweise in gewerblichen Kontexten zu digitalen Werkzeugen und Informationsdiensten (algorithmische Entscheidungs[unterstützungs]systeme) weiterentwickelt oder der gesamte Prozess gewerblich realisiert. Aus technischer Sicht benötigt man für Data-Mining Daten(bestände), analytische Verfahren sowie Hard- und Softwarearchitekturen, durch die Ressourcen bereitgestellt und Prozesse effizient realisiert werden können. Für die maschinelle Verarbeitung müssen Daten eine gewisse Struktur haben. Wenn standardisierte Terminologien und Codierungen sowie normierte Formate verwendet werden, können verschiedene Daten(sätze) verknüpft und erweitert werden. Metadaten geben Auskunft, welche Codierungen und Formate jeweils verwendet wurden. Diese Standardisierung gespeicherter Daten ist für Data-Mining-Aktivitäten hochrelevant und oft aufwendig. Unter dem Oberbegriff Data-Mining werden vielfältige strukturerkennende mathematisch-statistische Verfahren subsummiert. Klassische Verfahren (z. B. für Regressions- oder Clusteranalysen) stellen Strukturen anhand von Parametern, Formeln oder Entscheidungsbäumen explizit dar (symbolische Verfahren). Künstliche neuronale Netze sind eine besondere Form mathematisch-statistischer Modelle, die an Trainingsdaten angepasst werden und maschinell lernen, definierte Aufgaben zu lösen, ohne Entscheidungsregeln darzustellen (subsymbolische Verfahren). Unter Analyst/innen gibt es unterschiedliche Meinungen, ob das Training künstlicher neuronaler Netze als Data-Mining aufgefasst werden sollte oder eine eigene Kategorie bildet. Die unterschiedlichen analytischen Ansätze können als sich ergänzende Möglichkeiten zur datenbasierten Lösung definierter Untersuchungsaufgaben aufgefasst werden. Jedes Verfahren hat eigene Stärken, Schwächen und Grenzen. In der Summe bilden sie ein umfangreiches methodisches Repertoire. Erhebliches Fachwissen ist erforderlich, um das für eine Untersuchungsaufgabe und einen verfügbaren Trainingsdatensatz passende Verfahren auszuwählen, deren Ergebnisse einzuordnen und zu bewerten. Data-Mining lässt sich sowohl mit lokalen, weitgehend geschlossenen Hard- und Softwaresystemen (Data- Warehouses) als auch mit dezentral vernetzten Systemen (Cloudstrukturen) realisieren, beide koppeln Datenspeicher mit Analysetools. Die Abläufe in Data Warehouses lassen sich tendenziell besser kontrollieren. Cloudstrukturen haben eine größere Ressourcenflexibilität für die Datenspeicherung und -verarbeitung. Beide Ansätze ergänzen sich oftmals. Rechtliche Grundstrukturen Der Begriff Data-Mining findet derzeit über das Urheberrecht Eingang in das Rechtssystem. Er wird dort definiert als automatisierte Analyse von digital vorliegenden Daten, mit deren Hilfe Informationen, u. a. über Muster, Trends und Korrelationen, gewonnen werden können (aus der Berichtsperspektive: Data-Mining im engeren Sinn). Betrachtet man Data-Mining als Prozess im weiteren Sinn, wird deutlich, dass die Erhebung, Bereitstellung und Analyse von Daten sowie der Umgang mit den resultierenden Informationen oder algorithmischen Systemen weit über den Regulierungshorizont des Urheberrechts hinausgehen. Einige Aspekte wie der Datenschutz oder die Datennutzung in öffentlichen Aufgabenbereichen werden bereits seit Jahren reguliert, wobei Data-Mining meist unter dem Oberbegriff Datenverarbeitung subsumiert wird. Der Umgang mit daraus resultierenden Informationen, datenanalytischen Werkzeugen und digitalen Anwendungen wird erst ansatzweise in einigen Anwendungsbereichen reguliert. Schutz und Nutzung von Daten Der Schutz und die Nutzung (insbesondere komplexe Analysen) von Daten können über zwei Spezifika erschlossen werden. Zum einen haben Daten Kontextbezüge zu vielfältigen Sachverhalten, teilweise auch zu einzelnen Personen. Letztere sind besondere Datenobjekte, weil sie Grundrechte haben (u. a. auf informationelle Selbstbestimmung, Privatheit, Gleichbehandlung, Unversehrtheit, Eigentum und Informationszugang), die bei jeglicher Datenverarbeitung zu schützen sind. Zum anderen verfügen nur Unternehmen, Institutionen oder öffentliche Einrichtungen über die nötigen Ressourcen für komplexe Datenanalysen. Die Datenschutz-Grundverordnung (DSGVO)1 zielt darauf ab, die Schutzinteressen betroffener Personen mit den Nutzungsinteressen datenverarbeitender Stellen abzuwägen. Grundsätzlich bedarf jegliche Verarbeitung personenbeziehbarer Daten der freiwilligen und informierten Einwilligung durch Betroffene (Standard in privatwirtschaftlichen Bereichen) oder gesetzlicher Grundlagen (Standard bei Aufgaben im öffentlichen Interesse). Im zweiten Fall behalten nationale Regelungen zur Datenerhebung, zur primären Nutzung sowie zu Weiterverwendungsmöglichkeiten ihre Gültigkeit. Die DSGVO gilt nicht bei der Verarbeitung von Daten ohne Personenbezüge (z. B. vollständig anonymisierte Daten, Daten über Personengruppen, Geo- oder Umweltdaten, Metadaten). Betroffene Personen haben gegenüber datenverarbeitenden Stellen Rechte auf Auskunft, Widerspruch, Berichtigung, Löschung, Übermittlung und Verarbeitungsbeschränkung sowie das Recht, keiner nur auf automatisierter Datenanalyse beruhenden rechtlich relevanten Entscheidung unterworfen zu werden. Außerdem haben sie Beschwerde- und Klagerechte. Datenverarbeitende Stellen können im Rahmen der ihnen vertraglich erteilten Nutzungsrechte personenbeziehbare Daten analysieren, müssen dabei jedoch Grundsätze (u. a. rechtmäßige, zweckgebundene, transparente und vertrauliche Verarbeitung) und Pflichten (zur Dokumentation, Rechenschaft, Einhaltung angemessener Sicherheitsmaßnahmen) einhalten. Die Spanne der Sicherheitsmaßnahmen reicht von Pseudonymisierung und Verschlüsselung der Daten über IT-Schutz vor Cyberattacken bis zur Datenschutzfolgenabschätzung bei Analyseprojekten, die erhöhte Risiken der Grundrechteverletzung bergen. Bei Verstößen drohen Geldbußen, bei finanziellen und gesundheitlichen Schäden haften datenverarbeitende Stellen. Datenweiterverwendungen, u. a. zu wissenschaftlichen Forschungszwecken, gelten als mit einem ursprünglichen Erhebungszweck vereinbar. Diesbezüglich sollen Schutz- und Nutzungsinteressen spezifisch abgewogen und Einwilligungen möglichst eingeholt werden – eine Forderung, die nicht immer eingehalten werden kann (u. a. weil einige Pseudonymisierungsverfahren keine späteren Einwilligungen zulassen). Datentreuhandverfahren, bei denen neutrale Stellen Schutz- und Nutzungsinteressen spezifisch abwägen, werden in solchen Situationen oftmals als vermittelndes Bindeglied eingesetzt. Aus der Perspektive des Grundrechtsschutzes sollte dieses Bindeglied durch persönliche Einwilligungsmanagementsysteme ergänzt werden. Datenverarbeitende Stellen haben als juristische Personen ihrerseits Rechte auf Geheimhaltung (Geschäftsbzw. Amtsgeheimnisse). Unternehmen und Forschungseinrichtungen können ihre Tätigkeitsfelder im Rahmen des geltenden Rechts frei bestimmen und dürfen ihre Leistungen allein verwerten. Sie müssen bisher in der Regel weder Daten noch interne Data-Mining-Aktivitäten und deren Ergebnisse allgemein offenlegen. Zudem ist die 1 Verordnung (EU) 2016/679 des Europäischen Parlaments und des Rates vom 27. April 2016 zum Schutz natürlicher Personen bei der Verarbeitung personenbezogener Daten, zum freien Datenverkehr und zur Aufhebung der Richtlinie 95/46/EG (Datenschutz- Grundverordnung – DSGVO) Leistung zur Erstellung komplexer Datensätze (u. a. Bilder, Filme, Karten, Pläne) und zur Zusammenstellung großer Bestände (Datenbanken) urheberrechtlich durch alleinige Verwertungsrechte trotz Veröffentlichung geschützt – wobei Data-Mining zu wissenschaftlichen Forschungszwecken seit 2018 explizit zulässig ist. Datenbereitstellungen können vertraglich vereinbart werden (z. B. bei öffentlicher Förderung). Das datenanalytische Aufgabenspektrum öffentlicher Einrichtungen ist gesetzlich definiert. Es gibt vielfältige bereichsbezogene gesetzliche Regelungen auf Bundes- oder Landesebene zu datenanalytischen Möglichkeiten und Pflichten sowie Weiterverwendungsmöglichkeiten und -grenzen. In der Summe entsteht bei Aufgaben im öffentlichen Interesse oftmals ein mehrschichtiges System von Erlaubnis- und Nutzungstatbeständen. Eine detaillierte Rechtsbetrachtung kann daher nur aufgabenbezogen erfolgen. Datenverarbeitende Stellen können aufgrund gesetzlich oder vertraglich definierter Schutz- und Nutzungsrechte große Datenbestände aufbauen, exklusiv analysieren und verwerten und dadurch marktdominierende oder gar monopolartige Stellungen einnehmen, wodurch Wettbewerbsstrukturen verzerrt und Innovationen erschwert werden könnten. Um den Datenmonopolen in öffentlichen Aufgabenbereichen entgegenzuwirken, werden zum einen öffentliche Einrichtungen zunehmend verpflichtet, Daten unter Achtung von Schutzverpflichtungen zugänglich zu machen (Stichwort Open Data). Zum anderen werden (Forschungs-)Datenzentren und - infrastrukturen aufgebaut, über die Weiterverwendungen rechtssicher realisiert werden sollen. Das nationale Geoinformationswesen gilt als ein Vorreiter beim Aufbau von Dateninfrastrukturen und von Open-Data-Ansätzen bei Daten, die keinen Schutztatbeständen unterliegen. Zwar zielen diverse Gesetze auf Bundes- und Landesebene auf Verbesserungen des Zugangs zu Daten, die im Rahmen öffentlicher Aufgaben entstanden. Inwiefern damit eine stärkere Nutzung real gelingt, kann bisher kaum bewertet werden. Auf europäischer Ebene werden derzeit Verfahren diskutiert, um Datenmonopolen auch in privatwirtschaftlichen Strukturen entgegenzuwirken. Rechtliche Herausforderungen in Bezug auf Data-Mining-Ergebnisse Data-Mining-Prozesse können Informationen zu Strukturen in Datenbeständen sowie verallgemeinerbare Regeln und datentrainierte Modelle hervorbringen, die ggf. zu digitalen Anwendungen, algorithmischen Systemen oder allgemein zu Software weiterentwickelt werden können. Entsprechende wissenschaftliche Aktivitäten werden sowohl datenschutz- als auch urheberrechtlich privilegiert und im Rahmen der Forschungsförderung umfangreich unterstützt. Für die kontinuierliche Anwendung müssen diese Ansätze in der Regel jedoch in gemeinnützige oder gewerbliche Strukturen überführt und weiterentwickelt werden. Zudem wird Data-Mining auch gänzlich im Rahmen öffentlicher Aufgaben sowie gewerblicher Aktivitäten betrieben. Einrichtungsintern können Resultate als Geschäfts-, teilweise auch als Amtsgeheimnis deklariert werden. Herstellerverantwortlichkeiten greifen – wenn überhaupt – erst, wenn Informationen oder Software für Dritte erstellt werden. Die Informationsgenerierung für Dritte wird rechtlich als Dienstleistung aufgefasst. Dienstleistungen werden vertraglich vereinbart (privatwirtschaftlicher Bereich) oder gesetzlich definiert (öffentlicher Aufgabenbereich). Beide Wege bieten die Möglichkeit, Verantwortlichkeiten in Bezug auf Richtigkeits-, Sicherheits- und Haftungsfragen weitgehend auszuschließen. Algorithmische Systeme sind als Softwarebestandteile rechtlich Produkte. Sie werden vom allgemeinen Produktrecht erfasst, sofern nicht in einzelnen Anwendungsbereichen spezielle Regularien existieren. Zwar sind Hersteller während der gesamten Lebensdauer ihres Produktes für dessen Sicherheit verantwortlich, jedoch sind Hersteller nur in bestimmten Produktbereichen, die mit besonderen Risiken für Mensch und Umwelt einhergehen, verpflichtet, vor der allgemeinen Anwendung explizite Sicherheits- und Leistungsnachweise zu erbringen sowie Risiken und Nutzen einzelner Verfahren abzuschätzen und zu überwachen (z. B. in der Medizin). Je nach Anwendungskontext und Aufgabenstellung können Data-Mining-Prozesse mit unterschiedlichen Folgedimensionen sowohl für einzelne Personen (auch solche, die keine Datengeber waren) als auch für die Gemeinschaft und die freiheitliche Grundordnung einhergehen. Da mögliche Folgen aus derartigen Aktivitäten weder mit den bisherigen Datenschutzregeln noch mit dem allgemeinen Produktrecht adäquat adressiert werden können, werden Forderungen nach einem eigenen Rechtsrahmen für datentrainierte algorithmische Systeme zur Entscheidungsfindung (teilweise kurz als KI-Systeme bezeichnet) lauter. Erste Konzepte sprechen sich für einen risikoadaptierten Regulierungsansatz aus, der unterschiedliche Schadensdimensionen minimieren und Rechtssicherheit in der Entwicklung und Anwendung algorithmischer Systeme bringen soll. Sie knüpfen an die etablierten Verfahren des Medizinprodukterechts an. Meinungsumfragen zeigen regelmäßig, dass betroffene Personen trotz definierter Schutzelemente skeptisch sind gegenüber datenverarbeitenden Stellen und bezweifeln, eine ausreichende Kontrolle über die Verarbeitung ihrer Daten zu haben. Die Verbesserung der Grundrechtedurchsetzung ist eine der gesellschaftlichen Herausforderungen im Kontext der zunehmenden analytischen Möglichkeiten, die datenverarbeitende Stellen haben. Diverse Fachgremien und Kommissionen setzen sich seit einigen Jahren mit den immer umfangreicheren Datenerhebungen, den kontinuierlich größer werdenden Datenbeständen, den zunehmenden Möglichkeiten der Verknüpfung und Analyse und den damit einhergehenden gesellschaftlichen Herausforderungen auseinander, um sicherzustellen, dass diese Möglichkeiten unter Wahrung der freiheitlichen Grundordnung und zum Wohle der Menschen realisiert werden. Die daraus resultierenden Empfehlungen von Enquete- und Ethikkommissionen sowie die Stellungnahmen zahlreicher Fachvertretungen gelten mehrheitlich auch in Bezug auf Data-Mining- Prozesse. Statt deren Empfehlungen auf der allgemeinen datenanalytischen Ebene (u. a. zur Digitalisierung zahlreicher Prozesse, zur Schaffung interoperabler Datenstrukturen, zum Ausbau nationaler Kompetenzen und der Weitentwicklung des Rechtsrahmens) zu reproduzieren, werden in der vertiefenden Betrachtung bereichsspezifische Herausforderungen für Data-Mining in der Medizin und im Gesundheitssystem in den Blick genommen – zwei Bereiche, denen regelmäßig sowohl besondere Potenziale für den Einsatz komplexer datenanalytischer Verfahren als auch besondere Herausforderungen im Kontext der Digitalisierung zahlreicher Prozessabläufe unterstellt werden. Data-Mining in der Medizin Die Erhebung vielfältiger Daten und deren Analyse sind in der Medizin seit langem fest verankert, die Entwicklung und der Einsatz algorithmischer Systeme zur Behandlung von Krankheiten spezifisch reguliert. Erhebung und Verwaltung medizinischer und administrativer Daten Medizinische Daten werden aufgrund der Entwicklung unterschiedlicher Erhebungstechniken (z. B. bildgebende Verfahren, Sequenzierungstechniken, Tests) kontinuierlich detailgenauer. Sie bilden Kernbereiche der Persönlichkeit von Patient/innen ab und müssen in besonderem Maße geschützt und gesichert werden. Für Data-Mining vorrangig relevante medizinische Daten werden vor allem in Studien- oder Behandlungskontexten generiert. In klinischen Studien werden sehr viele Daten entsprechend der jeweiligen Studienpläne standardisiert erhoben, geprüft, befundet und analysiert (Rechtsgrundlage freiwillige informierte Einwilligung in die Nutzung zu Forschungs- und Entwicklungszwecken). Man unterscheidet öffentlich finanzierte Studien, deren Daten und Analysen der allgemeinen Wissenserweiterung dienen, von industriefinanzierten Studien, mit deren Daten die Sicherheit und Wirksamkeit/Leistungsfähigkeit neuer therapeutischer Produkte nachgewiesen werden. Die durch öffentlich finanzierte Studien generierten Daten werden zunehmend über Treuhandstrukturen verwaltet und auf Antrag bereitgestellt. Daten kommerzieller Studien können von den jeweiligen Sponsoren bisher allein genutzt werden. Zentrale Repositorien oder Dateninfrastrukturen für klinische Studiendaten gibt es bislang nicht. Im Rahmen der medizinischen Behandlung entscheiden Ärzt/innen anhand ihrer fachlichen Expertise und möglicherweise existierender Behandlungsleitlinien situativ, welche patientenbezogenen Daten erhoben und befundet werden. Sie sind zur Dokumentation ihres Vorgehens und zur Speicherung relevanter Behandlungsdaten in dezentralen arztgeführten Primärakten gesetzlich verpflichtet. Diese Akteninhalte dienen der medizinischen Behandlung und der Klärung von Haftungsfragen. Für sekundäre Data-Mining-Aktivitäten sind sie bisher weder technisch noch rechtlich unmittelbar nutzbar. Viele Aktenbestandteile können zwar maschinell verwaltet, wegen der geringen Standardisierung bisher jedoch kaum maschinell analysiert werden. Zudem unterliegen sie strengen Datenschutzvorgaben und der ärztlichen Schweigepflicht. Einrichtungsüberschreitende Datenzusammenführungen und -analysen bedürfen entweder weiterer gesetzlicher Regelungen (für Aufgaben im öffentlichen Interesse, wie z. B. die Überwachung von Krankheitsausbreitungen) oder der Einwilligung betroffener Patient/innen (u. a. um Teile von Behandlungsdaten in krankheitsspezifische Register oder medizinische Forschungsdatenbanken einstellen zu können). Bisher werden diese Einwilligungen zu möglichst weit formulierten Forschungszwecken (broad consent) schriftlich eingeholt und mit Treuhandstrukturen Datenzusammenführungen und Weiterverwendungen auf Antrag und nach Prüfung organisiert. Wenn die seit 2021 angebotene, von Patient/innen selbst zu führende, sekundäre elektronische Patientenakte in der Praxis auf allgemeine Akzeptanz trifft, sollen Patient/innen mit dieser ihre bisher verteilt gespeicherten Behandlungsdaten nach und nach zusammenführen sowie perspektivisch auch ihr Einwilligungsmanagement u. a. bezüglich weiterer Datenanalysen bis hin zur Datenspende zu Forschungszwecken darüber organisieren können. Ob sich die damit verbundenen datenanalytischen Hoffnungen realisieren lassen, bleibt abzuwarten. Medizinische Einrichtungen müssen für diverse administrative Aufgaben standardisierte Datensätze zusammenstellen und an unterschiedliche Institutionen übermitteln. Für die Leistungsabrechnung extrahieren sie z. B. definierte patientenbezogene Diagnose- und Behandlungsinformationen aus den jeweiligen Primärakten, codieren sie anhand spezifischer administrativer Klassifikationen und leiten die jeweiligen Vergütungskennziffern bzw. - pauschalen ab. Aufgrund der vergleichsweise geringen Digitalisierung vielfältiger Prozessabläufe und der begrenzten Interoperabilität diverser IT-Systemkomponenten sind sowohl Behandlungsdokumentationen als auch Datenaufbereitungen, Codierungen und Datenzusammenstellungen personell aufwendig. Längst nicht alle in den Primärakten enthaltenen medizinischen Daten werden aufbereitet und codiert. Derartige Aufbereitungen sind notwendige Vorbereitungen für Data-Mining. Medizinprodukte: Ausgangspunkt und Resultat von Data-Mining in der Medizin Das Medizinprodukterecht rahmt Data-Mining-Prozesse in der Medizin in besonderem Maße: Zum einen sind die Messgeräte, die Daten zur Diagnose und zur Behandlung von Krankheiten erfassen, Medizinprodukte. Zum anderen fallen aus Data-Mining möglicherweise resultierende algorithmische Systeme, sofern sie zu digitalen Anwendungen oder Softwarebestandteilen weiterentwickelt werden und krankheitsbezogene Informationen über einzelne Personen liefern, unter das Medizinprodukterecht. Dieses Recht definiert ein spezifisches Qualitätsmanagementsystem mit unterschiedlichen Elementen je nach Gesundheitsschädigungspotenzial des Produktes. Ziel ist die Gewährleistung einer hohen Produktsicherheit, für die die jeweiligen Hersteller die Verantwortung tragen. Sie müssen die Sicherheit und Leistungsfähigkeit ihres Verfahrens prüfen (Produktentwicklungsphase), bevor es zertifiziert (Markteintritt) und umfangreich eingesetzt werden kann (Anwendungsphase). Im Medizinprodukterecht werden vier Risikoklassen unterschieden. Zur niedrigsten Risikoklasse gehören Messgeräte, die lediglich krankheitsbezogene Vitalwerte aufzeichnen und anwendende Personen (Ärzt/innen oder Patient/innen) informieren. In die zweite Risikoklasse gehören einfache Berechnungsverfahren, mit denen u. a. Trends oder einfache medizinische Risikoscores (z. B. zur Bewertung von Erkrankungswahrscheinlichkeiten) berechnet werden. Anwendende Personen interpretieren diese datenbasierten Informationen selbst, sie ziehen Schlüsse, treffen Entscheidungen und bleiben verantwortlich. Medizinprodukte dieser beiden Klassen gelten insgesamt als relativ risikoarm. Hersteller prüfen eigenverantwortlich deren Sicherheit und Leistung und indizieren mittels CE-Kennzeichen, dass sie gesetzliche Vorgaben einhalten. Prüfinstanzen können Einsicht in die entsprechenden Unterlagen nehmen und weitere Prüfungen vornehmen. Zu hohen Risikoklassen gehören zum einen Verfahren, die Ärzt/innen bei Diagnose- und Therapieentscheidungen maßgeblich unterstützen und die bei Anwendungsfehlern gravierende Gesundheitsgefahren mit sich bringen (z. B. Monitoring von Herzfunktionen). Zum anderen sind es Verfahren, die Behandlungsentscheidungen automatisiert treffen und Ärzt/innen situativ ersetzen (z. B. Dosierung und Verabreichung hochwirksamer Arzneimittel). Bei Medizinprodukten hoher Risikoklassen müssen Hersteller sowohl Sicherheit und Leistung als auch den gesundheitsbezogenen Nutzen mit klinischen Studien nachweisen. Prüfinstanzen nehmen die entsprechende Zertifizierung vor. Auch in der Anwendungsphase muss die Qualität jedes Medizinprodukts gesichert werden, u. a. durch Produktregistrierungen, genaue Anwendungsinstruktionen (z. B. Einsatz nur durch Fachkräfte), regelmäßige technische Verfahrensprüfungen, ein kontinuierliches Risikomonitoringsystem während der Anwendung (Vigilanz) oder Verwendungskorrekturen bis hin zu Rückrufen. Die Umsetzung der Qualitätssicherungsmaßnahmen ist vor allem bei Medizinprodukten hoher Risikoklassen aufwendig. Die Maßnahmen zur Sicherung einer hohen Produktqualität werden ergänzt durch Haftungsregeln: Hersteller haften bei Schäden sowohl in der Produktentwicklungsphase (Gefährdungshaftung) als auch in der Anwendungsphase (Verschuldenshaftung). Um Anwendungsrisiken zu reduzieren, werden risikoreichere Medizinprodukte meist in ärztlicher Verantwortung verwendet. Damit teilen sich Medizinproduktehersteller und anwendende Ärzt/innen die Verantwortung. Zugleich werden Schuldnachweise komplexer, die über Sorgfaltspflichtverletzungen von Herstellern oder Ärzt/innen nachgewiesen werden müssen. Beim Einsatz datentrainierter kontinuierlich lernender Systeme dürfte es für Geschädigte noch schwerer werden, ein Verschulden von Herstellern und anwendenden Ärzt/innen nachzuweisen, denn auch die Trainingsdaten können die Qualität des Medizinproduktes beeinflussen, Ursache für Fehleinschätzungen sein und dadurch Gesundheitsschäden verursachen, ohne dass Hersteller oder Ärzt/innen ihre Sorgfaltspflichten verletzten. Die Weiterentwicklung des medizinischen Haftungsrechts in Bezug auf datentrainierte algorithmische Systeme zur Entscheidungsfindung ist somit eine sehr wichtige und große Herausforderung. Integration datentrainierter Algorithmen in die medizinische Versorgung Mit der Zertifizierung sind Medizinprodukte zwar marktverfügbar, für die breite Anwendung ist jedoch die Akzeptanz des Einsatzes sowohl bei medizinischen Fachgesellschaften (Aufnahme in Behandlungsleitlinien) und Kostenträgern (Aufnahme in die Leistungskataloge der Krankenkassen) als auch bei Patient/innen und behandelnden Ärzt/innen wichtig. Dafür spielen neben der Praktikabilität während der Behandlung vor allem Fragen zum mit dem Medizinprodukteeinsatz verbundenen (Zusatz-)Nutzen eine entscheidende Rolle. Dieser Nutzen kann auf unterschiedliche Art und Weise definiert und bewertet werden. Gesetzliche Krankenkassen fordern zunehmend Belege für einen gesundheitsbezogenen Nutzen, bevor sie die Kosten für den Einsatz entsprechender Verfahren im Rahmen der Regelversorgung tragen. Zwar wurde die Vorgehensweise für die Aufnahme medizinischer Apps bzw. Medizinprodukte der unteren zwei Risikoklassen in die Leistungskataloge der gesetzlichen Krankenkassen 2020 beschleunigt. Dennoch ist das Verfahren aufwendig im Vergleich zu nichtmedizinischen Produkten, wie z. B. Gesundheits-Apps. Der Aufwand für die Integration datenbasierter algorithmischer Systeme in die medizinische Versorgung steigt mit der Risikoklasse, in die sie eingestuft werden. Die für klassische Medizinprodukte existierenden vielschichtigen Wege in die medizinische Versorgung sollten bezüglich ihrer Passfähigkeit für datenbasiert lernende Entscheidungs(unterstützungs)systeme geprüft und ggf. weiterentwickelt werden. Dies erfordert situative Betrachtungen einzelner Verfahren in spezifische Anwendungskontexten. Anwendungsbeispiel: algorithmenbasierte Mammografiebefundung Seit Jahren wird die Mammografiebefundung als ein möglicher Einsatzbereich für datentrainierte Algorithmen zur Bilderkennung genannt, u. a. weil im Rahmen nationaler Screeningprogramme Mammografieaufnahmen massenhaft erzeugt, fachärztlich befundet und Befundergebnisse durch weitere Untersuchungen verifiziert und geprüft werden. Um in der medizinischen Praxis bestehen zu können, müssen zum einen Sicherheit und Leistungsfähigkeit dieser datentrainierten Algorithmen geprüft und diese zertifiziert sein. Zum anderen müssen medizinische Fachgesellschaften und Kostenträger einen (Zusatz-)Nutzen zum Status quo der Mammografiebefundung anerkennen. Mammografiescreeningprogramme werden national eigenständig organisiert. In etlichen europäischen Ländern befunden zwei Radiolog/innen unabhängig voneinander, bei Unstimmigkeiten wird zu dritt beraten, bei Auffälligkeiten folgen weitere Diagnose- und Behandlungsschritte. Im US-amerikanischen Programm befundet auf der ersten Stufe nur ein Radiologe bzw. eine Radiologin. Ziel der Programme ist die frühe Erkennung von Brustkrebs. Befürworter/innen betonen, dass dadurch schwere Behandlungsverläufe reduziert werden. Kritiker/innen verweisen auf die Überdiagnostik, die in Überbehandlung münde und mehr schade als nütze. Die erste Generation datentrainierter Assistenzsysteme zur Mammografiebefundung baute auf symbolischen Verfahren auf, erzielte in den USA unter Studienbedingungen gute Ergebnisse, wurde zertifiziert und dort in kurzer Zeit nahezu flächendeckend eingesetzt. In der Routineanwendung stellte sich heraus, dass durch den Einsatz dieser Assistenzsysteme weder die Befundqualität gehalten (Überdiagnosen nahmen leicht zu) noch der erhoffte Zeitgewinn realisiert werden konnten. Die neueste Generation solcher Assistenzsysteme nutzt datentrainierte künstliche neuronale Netze und konnte unter Studienbedingungen im US-amerikanischen Programm erstmals leichte Verbesserungen zur Einzelbefundung erzielen. Im europäischen Ansatz mit Doppelbefundung und Konsensusentscheidung wurden vergleichbare Ergebnisse, aber keine Verbesserungen erzielt. Befürworter/innen derartiger Assistenzsysteme betonen, dass vor allem datentrainierte künstliche neuronale Netze in der medizinischen Diagnostik zunehmend in Anwendungsnähe kommen (z. B. bei der Erkennung von Hautkrebs oder Herzrhythmusstörungen) und fordern mehr nationales Engagement. Trainings- und Testdaten, die die nationale Bevölkerung repräsentativ abbilden, sollten erstellt, Zertifizierungsverfahren und spezifische Qualitätssicherungssysteme definiert werden. Zudem sollte die Akzeptanz bei den Akteuren der jeweiligen medizinischen Versorgungstrukturen in den Blick genommen werden. Bezüglich der algorithmenbasierten Mammografiebefundung sind die relevanten nationalen Fachgesellschaften bisher eher skeptisch. Sie halten die Umstellung von der 2-D- auf die 3-D-Aufnahmetechnologie für vielversprechender als die automatisierte Bildbefundung. Wenn sich die Aufnahmetechnologie ändert, dann müssen auch neue Trainingsdaten erstellt sowie Algorithmen erneut trainiert, geprüft und zertifiziert werden. Die Technikdiffusion ist bei allen risikoreichen Medizinprodukten eine Herausforderung, egal ob sie aus Data-Mining-Prozessen resultieren oder nicht. Sinnvollerweise könnte daher zunächst ein Verfahren als Add-on- Technologie in speziellen Zentren unter Alltagsbedingungen weiter getestet werden. Zeichnet sich in der Anwendung ein Zusatznutzen im Vergleich zu den etablierten Verfahren ab, kann eine Integration in die Regelversorgung abgestimmt werden. In der Folge könnten sich u. a. Fragen zur Veränderung organisatorischer Arbeitsabläufe ergeben, die personalintensive Doppelbefundungen könnten zur Disposition gestellt und Ressourcen umverteilt werden. Fraglich ist, ob durch derartige Assistenzsysteme Kosten gesenkt und Patient/innen mit schweren Erkrankungen in der Praxis intensiver betreut werden könnten, oder ob nur der Dokumentationsaufwand weiter steigt. Datenstrukturen und Data-Mining im Gesundheitssystem Seit Jahren werden diverse gesundheitssystemische Aufgaben mithilfe strukturerkennender datenanalytischer Verfahren realisiert. Die Spanne reicht von der Fehlersuche in administrativen Daten bis zur Fortschreibung von Gruppierungsalgorithmen zur Klassifikation erbrachter Behandlungsleistungen für die Fallpauschalenzuweisung oder versicherter Personen für den morbiditätsorientierten Risikostrukturausgleich gesetzlicher Krankenkassen. Zudem werden in vielfältigen Forschungsprojekten Strukturen und Muster in verfügbaren Datenbeständen gesucht, um z. B. Informationen zur räumlichen Verteilung oder zeitlichen Entwicklung von Gesundheitsrisiken zu gewinnen, nach unerwünschten gesundheitlichen Ereignissen durch therapeutische Maßnahmen zu suchen oder die Qualität medizinischer Leistungen abschätzen zu können. Die derzeit wichtigste Basis für solche Data-Mining-Prozesse sind die gesetzlich definierten Leistungsabrechnungsdaten, die medizinische Einrichtungen erstellen und an unterschiedliche Institutionen des nationalen Gesundheitssystem hochgradig standardisiert übermitteln. Diese Datensätze haben vielfältige Bezüge und Informationen: zu Patient/innen und deren gesundheitlicher Situation, zu Ärzt/innen, medizinischen Einrichtungen und deren Behandlungsleistungen, zu Krankenkassen und deren Leistungsvergütung sowie zu Zeit und Raum. Alle Personen und Einrichtungen sind über eindeutige Nummern lebenslang identifizierbar. Die Nummern dienen einerseits als Pseudonym und erlauben andererseits eine regelmäßige zeitliche Fortschreibung der Abrechnungsdatenbestände bei datenempfangenden Institutionen. Alle gesundheits-, behandlungs- und vergütungsbezogenen Angaben werden mit Klassifikationen codiert, die für administrative Zwecke entwickelt wurden (es sind keine medizinisch hochdifferenzierenden Nomenklaturen). Die Datenzusammenstellung ist für medizinische Einrichtungen aufwendig, denn Diagnosen und Behandlungsleistungen werden nicht automatisiert codiert. Oftmals gibt es vergütungsrelevante Ermessensspielräume. Umfangreiche Datenprüfungen sind erforderlich, dennoch können Fehler und Verzerrungen (z. B. Überdiagnosen, Doppelerfassungen) nicht gänzlich ausgeschlossen werden. In der Summe bilden diese maschinell gut verarbeitbaren Versorgungsdaten sowohl die gesundheitliche Situation gesetzlich Versicherter als auch Behandlungs- und Abrechnungsprozesse auf Einzelfallebene im Zeitverlauf vollständig ab. Auch wenn sie keine allzu hohe medizinische Detailgenauigkeit aufweisen, haben sie gleichwohl ein erhebliches analytisches Potenzial. Ein komplexes Regelwerk definiert für jede Institution der gesundheitssystemischen Selbstverwaltung › welche Datenbestände sie aufbauen darf, › welche datenanalytischen Aufgaben sie in welchem Umfang eigenverantwortlich realisieren soll, › welche Daten sie ggf. an wen weiterleiten muss sowie › welche Datenschutzkonzepte jeweils gelten. Neben diesen gesetzlich definierten primären datenanalytischen Aufgaben (im öffentlichen Interesse) haben einzelne Institutionen zudem sekundäre Analysemöglichkeiten (z. B. für Entwicklungs- oder Forschungsaktivitäten), bei denen ein Kontrollgremium situativ Schutz- und Nutzungsinteressen bei komplexen Datenanalysen bzw. Data-Mining-Prozessen abwägt. Mitunter dürfen die Institutionen dafür spezielle datenanalytische Abteilungen einrichten oder Institutionen gründen. Zwar legitimieren die primären Aufgaben im öffentlichen Interesse die Beschränkungen der informationellen Selbstbestimmung. Das Fehlen jeglicher Widerspruchsmöglichkeiten für Betroffene in sekundäre Weiterverwendungen derartiger Daten besonderer Kategorie wird mitunter jedoch als paternalistische Fremdbestimmung kritisiert, zumal unterschiedliche Teilbestände in mehreren Etappen weitergeleitet und von unterschiedlichen Institutionen weiterverwendet werden können. Beispielsweise fließen personenbezogene ambulante Rezeptdaten zeitnah zur Arzneimittelabgabe bei wenigen deutschlandweit agierenden Apothekenrechenzentren zusammen, die diese Daten einerseits zur Abrechnung mit den unterschiedlichen Krankenkassen benötigen, denen sie die Rezeptdaten ihrer Versicherten dazu weiterleiten. Andererseits können die Rechenzentren anonymisierte Rezeptdaten zeitnah selbst weiterverwenden, um z. B. datenbasierte Informationsdienste für ihre Kund/innen zu entwickeln oder das Marktgeschehen zu analysieren. Sie können diese Daten auch anderweitig verwerten und z. B. Nutzungsrechte verkaufen. Auch Krankenkassen können Rezeptdaten ihrer Versicherten im Rahmen ihrer Aufgaben und zu Forschungszwecken relativ zeitnah selbst verwenden, allerdings nicht anderweitig verwerten. Zudem übermitteln alle Krankenkassen pseudonymisierte Jahresdatensätze (mit allen Leistungsabrechnungsdaten ihrer Versicherten) an den Spitzenverband der Krankenkassen. Dieser prüft alle Jahresdatensätze, nutzt sie im Rahmen seiner Aufgaben selbst und leitet sie weiter an das Bundesamt für soziale Sicherung (zur Fortschreibung des morbiditätsorientierten Risikostrukturausgleichs) und an das inzwischen beim Bundesinstitut für Arzneimittel und Medizinprodukte angesiedelten Forschungsdatenzentrum, das alle Versorgungsdaten speichert, kontinuierlich fortschreibt und in engen Grenzen für nichtkommerzielle Forschungszwecke bereitstellt. Bisher war das Nutzungsinteresse an den vom Forschungsdatenzentrum bereitgestellten Daten begrenzt. Ein Grund sind die bisherigen mehrjährigen Zeitverzögerungen bis zur Bereitstellung, ein anderer die engen Grenzen der Nutzungsberechtigung. Ausschließlich Institutionen der gesundheitssystemischen Selbstverwaltung und der wissenschaftlichen Forschung sind antragsberechtigt. Einige von ihnen (z. B. Krankenkassen) können jedoch aktuellere Teildatenbestände unmittelbar nutzen und dafür teilweise mit akademischen Institutionen kooperieren. Gesundheitssystemische Data-Mining-Prozesse starten in der Regel zunächst in kleinerem Rahmen als Forschungsprojekte oder als Machbarkeitsstudien, deren Ergebnisse anschließend fachlich diskutiert werden. Dabei wird regelmäßig deutlich, dass auch methodisch und analytisch geeignete Verfahren nur solche Strukturen und Informationen extrahieren können, die in den Analysedatensätze enthalten sind. Eine räumlich zu geringe Auflösung kann keine lokalen Spezifika aufzeigen, alte Analysedaten können keine Risiken neuer Arzneimittel oder Behandlungsmethoden zeitnah sichtbar machen, und die Richtigkeit einzelner Angaben kann kaum rückwirkend geprüft werden. Jeder datenanalytische Ansatz und die resultierenden Ergebnisse werden in Fachkreisen diskutiert, situativ abgewogen und bewertet. Danach können Verfahren ggf. verstetigt und Algorithmen z. B. in epidemiologische Informationsdienste oder in größere gesundheitssystemische Prozesse, wie das Fallpauschalensystem, integriert werden. Einen Produktstatus erreichen dieserart Algorithmen in der Regel nicht. Fazit und Handlungsoptionen Data-Mining ist ein unscharfer Begriff – ähnlich wie Big- oder Smart Data, maschinelles Lernen oder künstliche Intelligenz. Sie alle werden mit komplexen datenanalytischen Verfahren assoziiert und haben erhebliche Schnittmengen, insbesondere wenn man die damit einhergehenden gesellschaftlichen Herausforderungen in den Blick nimmt. Mit diesen Begriffen verbundene Visionen beruhen oftmals auf der Grundannahme, dass immer mehr Daten die Realität so umfangreich abbilden, dass Regeln und Modelle weitgehende Allgemeingültigkeit erreichen und zur Klassifikation, Gruppierung oder Prognose neuer Sachverhalte eingesetzt werden können. Datenanalyst/innen betonen zudem, dass einerseits auch große Datenmengen reale Sachverhalte kaum vollständig abbilden und Regeln und Modelle stets Vereinfachungen einer komplexeren Realität seien, und dass andererseits real existierende strukturelle Probleme, wie z. B. die Diskriminierung einzelner Personengruppen, durch derartige Ansätze reproduziert werden könnten. Folglich können die Resultate derartiger Prozesse situativ nützlich sein, aber auch Risiken mit sich bringen. Die Schaffung eines Mehrwerts unter Achtung der freiheitlichen Grundordnung ist folglich eine Frage der Ausgestaltung derartiger Prozesse. Zahlreiche Sachverständigenräte und Kommissionen auch des Deutschen Bundestags und der Bundesregierung haben sich in den letzten Jahren mit den Möglichkeiten und Herausforderungen der Digitalisierung im Allgemeinen sowie den wachsenden Datenbeständen, mit den Möglichkeiten und Grenzen deren Analyse und mit dem Umgang der Ergebnisse im Besonderen auseinandergesetzt sowie diesbezüglich Empfehlungen und Handlungsoptionen erarbeitet, zu denen wiederum zahlreiche Stakeholder Stellung genommen haben. Unisono wird empfohlen, Digitalisierungsaktivitäten zu forcieren, Infrastrukturen zur Weiterverwendung von Datenbeständen auf- und auszubauen, die Datennutzung stärker in den Blick zu nehmen, datenanalytisches Know-how zu stärken, die Entwicklung entsprechender Anwendungen zu fördern und risikoreiche stärker zu regulieren sowie eine größere nationale oder europäische digitale Souveränität anzuvisieren, auch um hohe Schutzstandards und die Grundrechtesicherung zu gewährleisten. Diese Empfehlungen lassen sich auch aus den Ausführungen dieses Berichts und den dafür in Auftrag gegebenen Gutachten ableiten. Bei einer vergleichenden Betrachtung unterschiedlicher datenanalytischer Anwendungsbereiche wird zudem deutlich, dass es bereichsspezifische Besonderheiten, Stärken und Schwerpunktsetzungen gibt, die sich teilweise zu ergänzen scheinen. Eine abschließende vergleichende Gesamtschau soll Handlungsoptionen für das Parlament fundieren. Standardisierung, Zugänglichkeit und Nutzbarkeit von Daten verbessern Der Geodatenbereich gilt als ein Vorreiter beim Aufbau interoperabler Dateninfrastrukturen über die standardisierte amtliche Referenzdatenbestände rechtssicher bereitgestellt werden. Die ursprüngliche Differenzierung der Datenbereitstellung für öffentliche Aufgaben, Forschungstätigkeiten und kommerzielle Weiterverwendungsabsichten wird zunehmend aufgegeben, Open-Data-Ansätze gewinnen an Bedeutung und Zugangshürden sinken. Wie intensiv die bereitgestellten Geodaten für komplexe Datenanalysen mittels Data-Mining tatsächlich genutzt werden, lässt sich bisher kaum abschätzen. Der Deutsche Bundestag könnte in den regelmäßig vorzulegenden Geo-Fortschrittsberichten Untersuchungen zur Entwicklung der Datennutzung einfordern, um die Potenziale der Datenangebote gezielter erfassen, bewerten und auszuschöpfen zu können. Einrichtungen des Gesundheitssystems wird seit Jahren erheblicher Entwicklungsbedarf bezüglich der Digitalisierung unterschiedlicher datenverarbeitender Prozesse, der Entwicklung und Nutzung von Datenstandards und dem Aufbau interoperabler Datenzugangsstrukturen attestiert. Um den zukünftigen Aufwand für unterschiedliche Datenaufbereitungen zu senken, sollte die Entwicklung und Verwendung einheitlicher medizinischer Terminologien und interoperabler Formate bereits bei der primären Behandlungsdokumentation vorangetrieben und perspektivisch vorgeschrieben werden. Dabei gilt es den Arbeitsaufwand von behandelnden Ärzt/innen im Blick zu behalten und nach Lösungen zu suchen, die den Dokumentationsaufwand so gering wie möglich halten. Die Daten der arztgeführten Primärakten unterliegen der Schweigepflicht und höchsten Datenschutzvorgaben. Sie werden in spezifischen Informationssystemen einrichtungsinternen gespeichert. Diese Systeme sind nicht für Data-Mining-Aktivitäten konzipiert. Um Behandlungsdaten dafür weiterverwenden zu können, müssen diese aufbereitet und in zumeist einrichtungsübergreifende sekundäre Register oder Datenzentren überführt werden. Dafür sind gesetzliche Regelungen (bei Aufgaben im öffentlichen Interesse) oder Einwilligungen erforderlich. Beide Verfahrensformen werden seit langem genutzt, um vielfältige, spezifisch definierte Datensätze aus den Primärakten abzuleiten und an unterschiedliche medizinische Register oder Datenzentren zu übermitteln, die diese Daten für administrative und gesundheitssystemische Aufgaben aber auch zu Forschungs- und Planungszwecken bereitstellen. Diese Register und Datenzentren fungieren als Datentreuhänder in vielfältigen Organisationsformen. Die bereits etablierten Datentreuhandformen sollten bezüglich ihrer Praktikabilität geprüft, weiterentwickelt und harmonisiert werden. Sie könnten beispielgebend auch für andere Bereiche sein, in denen geschützte Daten nicht monopolisiert gehalten, sondern unter Berücksichtigung relevanter ethischer Aspekte weiterverwendet werden sollen (z. B. Mobilitätsdaten). Im Laufe der Zeit haben vielfältige spezialgesetzliche Regelungen zum Umgang mit gesundheitsbezogenen Daten in den unterschiedlichen Einrichtungen des Gesundheitssystems eine erhebliche Komplexität erreicht, die zu Unsicherheiten bezüglich der Möglichkeiten und Grenzen der Datenweiterverwendung führt und dadurch Datenanalysen erschwert. Bisher gibt es keine Gesundheitsdateninfrastruktur, die unterschiedliche Datenzentren und Register vernetzt und die Daten des nationalen Gesundheitswesens rechtssicher zugänglich macht. Das 2021 verabschiedete Datennutzungsgesetz2, das die Nutzungsmöglichkeiten der Daten des öffentlichen Sektors harmonisieren und befördern soll, gilt nicht für die Daten, die im nationalen Gesundheitswesen verarbeitet werden. Ein diesbezügliches Spezialgesetz, das die Vielfalt der gesundheitssystemischen datenbezogenen Regelungen harmonisiert und vereinfacht, erscheint dringend geboten. 2 Gesetz für die Nutzung von Daten des öffentlichen Sektors (Datennutzungsgesetz – DNG) Mit der seit 2021 allen Versicherten anzubietenden elektronischen Patientenakte werden derzeit große Hoffnungen verbunden, vielfältige gesundheitsbezogene Daten vor allem aus Behandlungskontexten in der Verantwortung einzelner Patient/innen zusammenzuführen und perspektivisch auch das Einwilligungsmanagement für die Datenweitergabe bis hin zu Datenspenden zu Forschungszwecken damit zu organisieren. Dieses Einwilligungsmanagement ist von zentraler Bedeutung für sekundäre Datenverwendungen einschließlich Data-Mining. Wie viele Versicherte dieses Angebot zur Datenselbstverwaltung annehmen und in die Datenweiterverwendung zu Forschungszwecken einwilligen werden, ist derzeit unklar. Eine Begleitforschung Entwicklung zur Akzeptanz dieser Akten und der Nutzung unterschiedlicher Funktionalitäten und Services scheint dringend geboten. Das Parlament könnte sich berichten lassen. Konkretion der privilegierten Datenverwendung zu Forschungszwecken Datenweiterverwendungen zu Forschungszwecken einschließlich Data-Mining werden zum einen datenschutzrechtlich privilegiert, zum anderen begrenzen sie Urheber- bzw. Leistungsschutzrechte. Etliche Formulierungen zum Forschungsprivileg sind jedoch auslegungswürdig. Die europäische Datenschutz-Grundverordnung empfiehlt lediglich, den wissenschaftlichen Forschungsbegriff mit der Einhaltung anerkannter ethischer Forschungsstandards zu verknüpfen, ein entsprechendes Einwilligungsmanagement vorzusehen, Forschungsabsichten im Einzelfall zu prüfen und sowohl öffentliche als auch privatwirtschaftlich finanzierte Forschung bis hin zu technologischen Entwicklungen und Anwendungsdemonstrationen zuzulassen. Über Öffnungsklauseln lässt sie jedoch nationale Spezifikationen zu. Ethische (Forschungs-)Standards und die Prüfung von Analyseanträgen sind in der Medizin und im Gesundheitssystem seit langem verankert. Handlungsbedarf gibt es derzeit vor allem bezüglich der Vereinheitlichung, Beschleunigung und Straffung der Antragsprüfungen. Das Einwilligungsmanagement in Datenweiterverwendungen ist derzeit bei medizinischen und gesundheitssystemischen Einrichtungen jedoch eine gewisse Schwachstelle, weil Einwilligungen bisher schriftlich erteilt werden müssen und rückwirkend oftmals nicht eingeholt werden können. Auch deshalb wird der Forschungsbegriff im deutschen Gesundheitssystem bisher enger ausgelegt als in der europäischen Datenschutz-Grundverordnung. Für die in unterschiedlichen Registern und Datenzentren gespeicherten personenbezogenen Gesundheitsdaten sind in der Regel nur bestimmte öffentliche (Forschungs-) Einrichtungen nutzungsberechtigt, Forschungsabsichten müssen im öffentlichen Interesse liegen. Dadurch können u. a. Medizinproduktehersteller nur in Kooperation mit öffentlichen Forschungseinrichtungen entsprechende Daten nutzen, um z. B. algorithmische Assistenzsysteme zu trainieren. Parallel dazu sind Unternehmen, die klinische Studien zum Sicherheits- und Leistungsnachweis von medizinischen Produkten finanzieren, nicht zur Bereitstellung ihrer Studiendaten verpflichtet. Vertreter/innen der freien Wirtschaft, der (medizinischen) Forschung sowie öffentlicher Einrichtungen kritisieren seit Jahren die derzeitigen Verfahren sowie die damit einhergehenden Ungleichbehandlungen und betonen im medizinischen Kontext die gesundheitsbezogenen Risiken durch die Nichtnutzung von Daten, wenn beispielsweise Erkrankungsrisiken, Infektionsherde oder unerwünschte Nebenwirkungen von Behandlungsverfahren nicht erkannt werden. Die Etablierung offenerer Datennutzungskonzepte sollte daher diskutiert bzw. geprüft werden. Dazu könnten die Reichweite des Forschungsbegriffs und bestehende Datenverarbeitungsprivilegien diskutiert und gesetzlich klargestellt werden. Qualitätsmanagementsysteme bei Medizinprodukten – Vorbild für den Umgang mit Data- Mining-Ergebnissen in anderen Bereichen? Inwiefern Data-Mining-Prozesse zum Wohle der Gemeinschaft beitragen, Grundrechte Einzelner schützen oder gefährden, transparent gestaltet oder aber mit menschlichen Kontrollverlusten in Entscheidungssituationen einhergehen und welche Folgen daraus erwachsen, kann nur situativ abgewogen und bewertet werden. Die im medizinischen Kontext über Jahrzehnte entstandenen Verfahren zur Qualitätssicherung medizinischer Produkte mit ihren risikoajustierten abgestuften Zertifizierungsverfahren in Kombination mit kontinuierlichen produktbezogenen Sicherheitsprüfungen und Risikoüberwachungen während der Anwendung könnten beispielgebend für andere risikoreiche Anwendungsbereiche sein, in denen datenanalytische Verfahren und algorithmenbasierte Systeme zunehmend eingesetzt werden (z. B. innere oder äußere Sicherheits-, Fin- oder Legal-Tech-Bereiche). Die Forderungen nach risikoadaptierten Regulierungen und Algorithmen-TÜVs oder der derzeit auf europäischer Ebene verhandelte Digital Service Act greifen unterschiedliche qualitätssichernde Maßnahmen des Medizinprodukterechts bereits auf. Mit diesbezüglichen Vorgehensweisen, deren Konkretisierung und Harmonisierung vor allem in risikoreichen Anwendungskontexten sollten Stakeholder sich intensiver befassen. Dadurch könnten Analyst/ innen und Prüfinstanzen wichtige Informationen zur Sicherheits- und Leistungsbewertung erhalten sowie Prüf- und Monitoringverfahren etabliert werden, mit denen Risiken während der Anwendung algorithmischer Systeme überwacht und ggf. reduziert werden könnten. Die unterschiedlichen Elemente der im medizinischen Bereich etablierten Qualitätsmanagementsysteme zielen primär auf eine hohe Produktsicherheit und die Generierung eines gesundheitsbezogenen Nutzens durch die Produktanwendung ab. Jedoch lassen sich auch mit höchst umfangreichen Qualitätsmanagementsystemen beim Einsatz datentrainierter algorithmischer Systeme nie alle vorrangig gesundheitsbezogenen Risiken vollständig ausschließen, denn auch große Datenbestände und komplexe mathematisch-statistische Modelle bilden die Realität vereinfacht ab, kommen bei höchstseltenen Situationen an ihre Grenzen, können real existierende Diskriminierungen reproduzieren und liefern Ergebnisse, die mitunter selbst für Expert/innen im Detail nur schwer nachzuvollziehen sind. Deshalb sind die Klärung von dauerhaften Produktverantwortlichkeiten und von Haftungsfragen relevante Aspekte für die Akzeptanz und den Einsatz algorithmischer Assistenzsysteme. Forschungseinrichtungen, die Daten privilegiert nutzen dürfen, um Modelle zu trainieren und Assistenzsysteme zu entwickeln, kommen regelmäßig bereits bei der Produktzertifizierung an ihre Grenzen. Die kontinuierliche Gewährleistung einer hohen Produktsicherheit und Haftung im Schadenfall gehört nicht mehr in das Tätigkeitsspektrum von Forschungseinrichtungen. Spätestens dafür sind wirtschaftlich agierende Unternehmen erforderlich. Bereits bei klassischen Softwareprodukten wird die Eignung des derzeitigen Haftungsrechts in medizinischen, aber auch in anderen Einsatzbereichen kontrovers diskutiert. Besondere haftungsrechtliche Herausforderungen ergeben sich durch kontinuierlich lernende, medizinische Assistenzsysteme. Produktverantwortlichkeiten und Haftungsfragen sollten daher systematisch und spezifisch durchdacht, abgewogen und rechtlich geklärt werden. 1 Einleitung Hintergrund Seit Jahren wird eine gewisse Dateneuphorie geschürt, die sich wesentlich darauf stützt, dass durch die Digitalisierung nahezu aller Lebensbereiche kontinuierlich nicht nur mehr Daten erhoben und gespeichert, sondern durch deren Analyse auch Informationen gewonnen, Erkenntnisse abgeleitet, Wissen erweitert und Nutzen gestiftet werden können. Dadurch sollen sich vielfältige Prozessabläufe verbessern, Effizienzgewinne erzielen sowie neue Informations-, Leistungs- oder Serviceangebote entwickeln lassen. Neue Begriffe mit semantischen Unschärfen lassen Spielraum zur Interpretation: Daten werden als Rohstoff der Wissensgesellschaft oder als Öl des 21. Jahrhunderts bezeichnet, wobei die Bestände immer größer (Big Data) und die Techniken zu deren Erhebung und Verwendung als immer smarter oder intelligenter bezeichnet werden. Dazu passt der in den 1990er Jahren eingeführte Begriff Data-Mining (wörtlich Datenbergbau), der mit dem suggestiven Bild des Schürfens nach Rohstoffadern und des Findens von Nuggets in den wachsenden Datenbeständen des heutigen Datenzeitalters spielt (Schepers et al. 2015, S. 20). Damit einher geht jedoch auch eine diffuse Skepsis gegenüber ausufernder Erfassung, intransparenter Weiterleitung und Zusammenführung von Daten sowie immer ausgefeilteren Analysetechniken, insbesondere dann, wenn es um persönliche Daten geht. Diese Skepsis wird u. a. dadurch befördert, dass etliche Personen sich weder als Herrschende über ihre Daten sehen noch die Analysetechniken nachvollziehen und deren Intention abschätzen können. Seit Jahren befassen sich Teile der Wissenschaft und Wirtschaft, der Zivilgesellschaft und der Politik intensiv mit den zunehmenden Möglichkeiten der Verknüpfung und Analyse vielfältiger Datenbestände, den damit verbundenen Innovationspotenzialen und gesellschaftlichen Herausforderungen sowie mit ethischen Aspekten und Regulierungsoptionen. Der Bundestag hat dazu Enquetekommissionen eingerichtet, sich mit vielfältigen Facetten der Thematik beschäftigt und umfangreiche Berichte verabschiedet; die Bundesregierung hat Ethikkommissionen beauftragt und zahlreiche Strategien zur Digitalisierung, dem Umgang mit Daten und künstlicher Intelligenz (KI) im Allgemeinen oder zu Geoinformationen oder Innovationen in der Medizintechnik im Besonderen entwickelt. Auch für die parlamentarische Technikfolgen-Abschätzung bilden vielfältige Fragen in Bezug auf die immer detailliertere Erfassung und umfangreichere Verknüpfung von Daten, die Entwicklung komplexer Analysetechniken bis hin zur gesellschaftsverträglichen Ausgestaltung digitaler Geschäftsprozesse seit einiger Zeit – und aller Voraussicht nach auch in den kommenden Jahren – einen Hauptuntersuchungsgegenstand. Dabei besteht eine zentrale Herausforderung darin, die schnellen analysetechnischen Veränderungen sowie die sozioökonomischen und gesellschaftspolitischen Entwicklungen so zu analysieren, dass die Ergebnisse nicht bereits nach kurzer Zeit überholt erscheinen. Um das zu gewährleisten, müssen die Debatten zeitnah aufgegriffen und mit der derzeitigen realen Situation sowie substanziell begründeten Wissensbeständen, die u. a. aus früheren TA-Projekten resultieren, abgeglichen werden. Denn es sollte nicht übersehen werden, dass viele der verbundenen Fragestellungen und Herausforderungen nicht grundsätzlich neu sind, sondern vorrangig quantitativ neue Dimensionen erlangt haben bzw. sich in neuen Anwendungskontexten stellen. Zielsetzung und Vorgehensweise Ursprüngliche Projektziele Das Büro für Technikfolgen-Abschätzung beim Deutschen Bundestag (TAB) ist vom Ausschuss für Bildung, Forschung und Technikfolgenabschätzung des Deutschen Bundestages mit dem Projekt »Data-Mining – gesellschaftspolitische und rechtliche Herausforderungen« beauftragt worden. Die ursprüngliche Planung sah vor, anhand von zwei öffentlichen Aufgabenbereichen, für die der Gesetzgeber in besonderem Maße verantwortlich ist, sowohl relevante große Datenbestände als auch die Vielfalt der analytischen Möglichkeiten, die als Data-Mining bezeichnet werden können, anhand von Anwendungsbeispielen darzustellen und die damit einhergehenden Herausforderungen herauszuarbeiten. Zum einen sollten Data-Mining-Ansätze in der Medizin und im Gesundheitssystem vorgestellt werden, die insbesondere die Verwendung personenbezogener Gesundheitsdaten einschließt. Zum anderen sollten Data-Mining-Prozesse unter Verwendung von Geodaten thematisiert werden. Die Annahme war, dass zwei sehr unterschiedliche Anwendungsbereiche erforderlich seien, um gesellschaftlich Herausforderungen in Bezug auf Data-Mining-Prozesse herauszuarbeiten. Folgende leitende Fragestellungen wurden formuliert: Welche traditionellen und welche neuen (öffentlichen) Akteursgruppen können welche Datenbestände aufbauen und für wen sind diese zugänglich? Welche Datenbestände werden bereits heute zu welchen Zwecken zusammengeführt und genutzt? Wem gehören diese Daten, wer entscheidet bezüglich der Verarbeitung und wer kontrolliert die Verfahren? Welche Qualität, welche Verlässlichkeit und Aussagekraft haben Data-Mining- Ergebnisse in analytischer und prognostischer Hinsicht? Wofür und von wem können und sollen Data-Mining-Resultate genutzt werden? Welche neuen Möglichkeiten und Grenzen gibt es bezüglich immer detailgenauerer Erfassungs- und Analyseverfahren? Welche neuen Geschäftsmodelle entstehen? Im ursprünglichen Projektplan war zudem vorgesehen, neben den Fallstudien ggf. internationale TA- und andere interdisziplinäre Studien zum Thema Big Data/Data-Mining synoptisch auszuwerten, um einen Überblick über die Debatten, Aktivitäten und Einschätzungen zu ethischen Fragestellungen auch in anderen Ländern zu erhalten. Auch eine vertiefte rechtswissenschaftliche Auseinandersetzung zu ausgewählten Aspekten (z. B. zum Eigentums-, Urheber- und Datenschutzrecht) sollte ggf. in Erwägung gezogen werden. Gutachtenerstellung Mithilfe von Gutachten sollten zunächst die Datenstrukturen und analysetechnischen Komponenten beim Data- Mining einschließlich der resultierenden Ergebnisse, bestehende nationale Regularien und die damit einhergehenden gesellschaftlichen Herausforderungen anhand von Anwendungsbeispielen untersucht/analysiert und dargestellt werden. Dabei sollte ein Überblick über wesentliche Datenbestände unterschiedlicher Akteursgruppen und ein Ausblick auf sich abzeichnende neue Geschäftsmodelle gegeben werden. Zwei Gutachten wurden zu Projektbeginn in Auftrag gegeben: › Data-Mining in der Medizin und im Gesundheitssystem − gesellschaftspolitische und rechtliche Herausforderungen. Dr. Josef Schepers, Irene Schlünder, Dr. Johannes Drepper, Sebastian Claudius Semler; TMF – Technologie- und Methodenplattform für die vernetzte medizinische Forschung e. V.; Dr. Stefan Rüping; Fraunhofer IAIS; Dr. Christoph Quix; Fraunhofer FIT; Dr. Karl Stroetmann, Jonas Rennoch; empirica GmbH › Data-Mining: Gesellschaftspolitische und rechtliche Herausforderungen. Dr. Bodo Bernsdorf, Heide Bierbrauer, Olaf Büscher Andreas Müterthies, Dr. Kian Pakzad, Thomas Wenzel, Sascha Woditsch; EFTAS Fernerkundung Technologietransfer GmbH Die Zusammenarbeit mit den Gutachterteams und deren Gutachten schufen die Grundlagen für die weitere Projektarbeit. Den Gutachter/innen sei für ihre Kooperationsbereitschaft bei der mehrmaligen Überarbeitung ihrer Ausführungen und der finalen Erstellung ihrer Gutachten sehr herzlich gedankt. Im Rahmen dieser aufwendigen Zusammenarbeit wurde u. a. deutlich, dass › der Begriff Data-Mining je nach fachlicher Perspektive unterschiedlich weit gefasst und unscharf verwendet wird; › eine Fokussierung auf den bloßen Einsatz datenanalytischer Verfahren zur Mustererkennung (Data-Mining im engeren Sinn) nicht ausreicht, um gesellschaftlich relevante Herausforderungen aufzuzeigen und zu diskutieren; › infolgedessen eine weitergefasste Prozessbetrachtung (Data-Mining in weiterem Sinn) erforderlich erscheint, wodurch jedoch Aspekte angesprochen werden, die auch mit der Digitalisierung im Allgemeinen verbunden und nur bedingt Data-Mining-spezifisch sind; › Data-Mining-Prozesse jeweils einzeln anwendungsbezogen betrachtet werden müssen, um Möglichkeiten und Grenzen der Implementierung derartiger Verfahren in bestehende Strukturen aufzuzeigen. Die Gutachten zeigten auch, dass ein Überblick über wesentliche Datenbestände unterschiedlicher Akteursgruppen sowie über die Regulierung der Erhebung, Haltung, Bereitstellung, Weiterverwendung und Analyse von Daten in öffentlichen Aufgabenbereichen wegen der geteilten Bund-/Länderzuständigkeit (über)komplex ist. Vor allem im Geodatenbereich ist aufgrund dieser geteilten Zuständigkeit und der zunehmend ubiquitären Erhebung, Bereitstellung und Verwendung von Geodaten ein allgemeiner Überblick über relevante Datenbestände kaum möglich und wenig zielführend. Da der Fokus vorrangig auf öffentlichen Aufgabenbereichen liegt, konnten fundamental neue Geschäftsmodelle kaum herausgearbeitet werden. Herausforderungen ergeben sich vielmehr bei der Datenaufbereitung und -bereitstellung sowie der Integration neuer datenanalytischer Verfahren in die jeweiligen Abläufe öffentlicher Aufgabenbereiche. Anpassungen im Projektverlauf und Berichtszuschnitt Die Ausführungen der Gutachten wurden durch umfangreiche eigene Recherchen in mehreren Schleifen überarbeitet und ergänzt. Die hohe Relevanz, die der Digitalisierung im Allgemeinen und datenanalytischen Prozessen im Besonderen derzeit beigemessen wird, führt zu immer neuen Stellungnahmen, Positionierungen, Gutachten und Regulierungsvorschlägen von Kommissionen, Verbänden oder Think-Tanks und zu vielfältigem politischen Engagement – ein sicheres Zeichen, dass neue technologische Möglichkeiten zunehmend anwendungsreif werden und mit gesellschaftlichen Herausforderungen verbunden sind. Die Berücksichtigung der diversen Positionierungen und politischen Aktivitäten erforderte eine kontinuierliche Auseinandersetzung mit dem nach wie vor unscharfen und vielfältig interpretierbaren Oberbegriff Data-Mining. Sie ging zudem mit einem Entscheidungsdilemma einher, einerseits neue Entwicklungen kontinuierlich zu integrieren und andererseits die Arbeiten am Bericht zu beenden. Dies führte zu einer intensiven Befassung mit datenerhebenden und -analysierenden Prozessen im Rahmen des Projekts, aber leider auch zu erheblichen Verzögerungen bei der Berichtsfertigstellung. Deutlich wurde, dass der Rechtsrahmen für komplexe datenanalytische Prozesse in öffentlichen Aufgabenbereichen vielschichtig und teilweise nur bedingt Data-Mining-spezifisch ist. Die ursprünglich in Betracht gezogene vertiefende Auseinandersetzung mit rechtswissenschaftlichen Fragen sowie ergänzenden Diskursanalysen anderer TA-Einrichtungen hätten die Ausführungen kaum Data-Mining-spezifisch erweitern können. Die Sondierung vielfältiger TA-Diskurse ergab, dass bei einer Betrachtung auf einer höheren Abstraktionsebene (Datenanalytik im Allgemeinen) ähnliche ethische Aspekte thematisiert werden, u. a. zum Grundrechteschutz, zur Zulässigkeit, zur Transparenz und Kontrollierbarkeit von Datenerhebung und -analyse, zu Verantwortlichkeiten, zu potenziellen Nutzen- und möglichen Risikodimensionen und deren Verteilung. Dazu kann inzwischen auf die Stellungnahme des Deutschen Ethikrats zu Big Data und Gesundheit (Deutscher Ethikrat 2017) und das Gutachten der Datenethikkommission der Bundesregierung (DEK 2019) verwiesen werden. Data-Mining-spezifische Herausforderungen werden eher in unterschiedlichen Anwendungskontexten sichtbar. In öffentlichen Aufgabenbereichen treffen neue datenanalytische Ansätze auf jeweils national eigenständig regulierte, historisch gewachsene datenverarbeitende Strukturen, die spezifische Besonderheiten mit sich bringen. Statt allgemeine internationale Diskurse zu Big Data, komplexen Algorithmen oder KI synoptisch darzustellen, wird daher im vorliegenden Bericht für einzelne Data-Mining-Anwendungsbeispiele die nationale Vorgehensweise punktuell mit der in ausgewählten anderen Ländern verglichen. Damit soll der Berichtsfokus stärker auf anwendungsbezogene datenanalytische Prozesse sowie die Weiterverwendung/Operationalisierung von Data- Mining-Ergebnissen gelegt werden – zunächst auf einer allgemeineren technischen und rechtlichen Ebene und anschließend spezifischer für medizinische und gesundheitssystemische Kontexte. Denn in diesen Bereichen werden komplexen Datenanalysen nahezu unisono besondere Potenziale unterstellt. Zugleich attestieren unterschiedliche vergleichende Studien dem nationalen Gesundheitssystemeinen erheblichen Entwicklungsbedarf bei der Digitalisierung vielfältiger Prozesse (z. B. BMWi 2018; svr Gesundheit 2021; Thiel et al. 2018). Ein Einblick in die bestehenden Strukturen und Aufgabenspektren beteiligter Akteursgruppen soll die Auseinandersetzung mit den Chancen und Herausforderungen komplexer datenanalytischer Prozesse fundieren. Zudem können ethische Aspekte zum Grundrechteschutz betroffener Personen, zur Verantwortlichkeit, Nachvollziehbarkeit und Kontrollierbarkeit datenanalytischer Prozesse sowie der Nutzenbewertung daraus hervorgehender Ergebnisse anwendungsbezogen thematisiert werden, denn diese sind in der Medizin und im Gesundheitssystem seit langem in besonderem Maße normativ verankert. Auf eine separate Fallstudie zu den Möglichkeiten, Grenzen und Herausforderungen komplexer raumbezogener Datenanalysen wird in diesem Bericht verzichtet. Das hat mehrere Gründe: Die Ausführungen des Gutachtens von Bernsdorf et al. (2015) zu bereits weitgehend normierten Geodaten, zu den analytischen Verfahren der datenbasierten räumlichen Mustersuche sowie zu den gesetzlichen Vorgaben der Bereitstellung von Geodaten aus öffentlichen Aufgabenbereichen sind ein wesentlicher Bestandteil der technischen und rechtlichen Grundlagenkapitel dieses Berichts. Bezüglich des Ausbaus nationaler Geodateninfrastrukturen ist Deutschland im europäischen Vergleich sehr gut positioniert (Cetl et al. 2017). Die Aktualisierung der Geo(basis)daten und die Georeferenzierung vielfältiger Fachdaten auf kommunaler, Landes- und Bundesebene und deren Bereitstellung über diese Infrastrukturen ist eine Daueraufgabe. Dem Bundestag wird regelmäßig darüber berichtet.3 Geodaten sind zunehmend ubiquitär verfügbar und raumbezogene Analysen sind eine Querschnittsaktivität in vielfältigen Bereichen. Einige Data-Mining-Anwendungsbeispiele werden sowohl in den Grundlagenkapiteln als auch in der gesundheitssystemischen Fallstudie diskutiert. Zudem wurden Möglichkeiten und Grenzen, Chancen und Risiken sowie allgemeine gesellschaftliche Herausforderungen datenbasierter räumlicher Struktur- und Mustersuchen auch schon in diversen anderen TAB-Arbeitsberichten ausführlich anwendungsbezogen thematisiert.4 Eine weitere Auseinandersetzung mit derartigen Verfahren im Rahmen dieser Überblickstudie hätte nach Einschätzung des TAB kaum substanziellen Mehrwert geboten. Der vorliegende Endbericht führt die Ausführungen der Gutachten, die eigenen Recherchen und die daraus gewonnenen Schlussfolgerungen zusammen. Die Verantwortung für die Auswahl, Strukturierung und Verdichtung des Materials liegt bei der Verfasserin dieses Berichts, Dr. Katrin Gerlinger. Dank geht an Dr. Alma Kollek, Dr. Christoph Revermann und Dr. Arnold Sauter, die durch Gegenlesen und detailliertes Kommentieren zur Verbesserung des vorliegenden Berichts entscheidend beigetragen haben sowie an Carmen Dienhardt und Brigitta- Ulrike Goelsdorf für die sorgfältige Durchsicht des Manuskripts, die Bearbeitung der Abbildungen und die Erstellung des Endlayouts. Berichtsaufbau Der Begriff Data-Mining wird im Rahmen dieses Berichts weit ausgelegt und umfasst nicht nur die unmittelbare Anwendung mathematisch-statistischer Verfahren auf Datensätze oder -bestände (Data-Mining im engeren Sinn), sondern den gesamten Prozess der datenbasierten Mustererkennung und Regelableitung bzw. Informations-/ Erkenntnisgewinnung (Data-Mining im weiteren Sinn). Dessen besonderes Potenzial besteht darin, dass ausreichend valide Ergebnisse und analytische Vorgehensweisen generalisiert und in neuen Situationen des gleichen Sachverhalts angewendet werden können. Die (analyse)technischen Komponenten und Vorgehensweisen sowie vielfältige normative Aspekte bei Data-Mining-Aktivitäten werden im Bericht stufenweise erschlossen. In Kapitel 2 werden zum einen die für Data-Mining notwendigen maschinenlesbaren Daten, deren Bestandshaltung und Bereitstellung und zum anderen die einzelnen Schritte des Data-Mining-Prozesses bis zur Entwicklung algorithmischer Systeme aus (informations)technischer Perspektive dargestellt. Ein historisches Beispiel soll den Einstieg in die Thematik veranschaulichen und zeigen, dass die datenbasierte Mustererkennung und Informationsableitung keineswegs fundamental neu ist, auch wenn das, was einzelne Menschen früher manuell bzw. intellektuell erledigten, inzwischen in viel größerem Umfang durch die Verknüpfung unterschiedlicher Datenbestände mittels diverser Analysetechniken und leistungsstarker Computerarchitekturen weitgehend maschinell realisiert werden kann. In Kapitel 3 werden rechtliche Aspekte zum Umgang mit Daten und den aus Data-Mining-Prozessen resultierenden Ergebnissen umrissen. Dazu gehören die schutzwürdigen Interessen sowohl von betroffenen Personen bei personenbeziehbaren Daten (durch die Datenschutz-Grundverordnung definiert) als auch von datenerhebenden Stellen (teilweise durch das Urheberrecht definiert) sowie die sich daraus ergebenden Data-Mining- Möglichkeiten und -Grenzen. Die Datenschutz-Grundverordnung und das Urheberrecht (Anhang 1) ermöglichen Datenweiterverwendungen zu Forschungszwecken und Data-Mining. Deren Resultate können zunehmend weiterentwickelt und gewinnbringend vermarktet werden, ohne dass sie spezifischer Regulierung unterworfen sind. Vor allem 3 Geo-Fortschrittsberichte (Bundesregierung 2005, 2008, 2012a, 2017 u. 2021b) 4 Erdfernerkundung: Anwendungspotenziale in Afrika (TAB 2012); Digitalisierung der Landwirtschaft (TAB 2021); Beobachtungstechnologien im Bereich der zivilen Sicherheit – Möglichkeiten und Herausforderungen (https://www.tab-beim-bundestag.de/projekte_be- obachtungstechnologien-im-bereich-der-zivilen-sicherheit.php); Innovative Technologien, Prozesse und Produkte in der Bauwirtschaft (www.tab-beim-bundestag.de/projekte_innovative-technologien-prozesse-und-produkte-in-der-bauwirtschaft.php; 10.01.2022); Chancen und Risiken der Digitalisierung kritischer kommunaler Infrastrukturen an den Beispielen der Wasser- und Abfallwirtschaft (www.tab- beim-bundestag.de/projekte_chancen-und-risiken-der-digitalisierung-kritischer-kommunaler-infrastrukturen-an-den-beispielen-der- wasser-und-abfallwirtschaft.php; 10.01.2022); Chancen der digitalen Verwaltung (www.tab-beim-bundestag.de/projekte_chancen-der-di- gitalen-verwaltung.php; 10.01.2022). bei risikoreichen algorithmischen Entscheidungs(unterstützungs)systemen wird eine stärkere Regulierung zunehmend gefordert. Diesbezüglich bietet das Medizinprodukterecht möglicherweise Regulierungsoptionen. Damit wird die Brücke zur vertiefenden Fallstudie »Data-Mining in der Medizin« geschlagen. In Kapitel 4 werden zunächst die rechtlichen und technischen Besonderheiten der Erhebung, Haltung und Analyse medizinischer Daten dargestellt. Diese Daten sind die Basis für die Entwicklung von Scoringverfahren, prädiktiven Modellen und Bilderkennungsverfahren, die in einem weiteren Schritt zu algorithmischen Entscheidungs(unterstützungs)systemen ausgebaut werden können. Anhand unterschiedlicher Beispiele wird gezeigt, welche Herausforderungen die in der Medizin notwendigen Sicherheits-, Leistungs- und Nutzennachweise mit sich bringen und wie aufwendig der Weg derartiger Ergebnisse aus Data-Mining-Prozessen in die Regelversorgung ist. Medizinische Einrichtungen müssen zudem für vielfältige administrative Aufgaben regelmäßig standardisierte Datensätze zusammenstellen und an unterschiedliche Institutionen der gesundheitssystemischen Selbstverwaltung übermitteln. In Kapitel 5 werden einige dieser Institutionen mit ihren jeweiligen datenbezogenen Aufgaben und den bei ihnen entstehenden Datenbeständen vorgestellt. Auch diesen Versorgungsdaten werden große Data-Mining- Potenziale unterstellt. Anhand weiterer Anwendungsbeispiele werden Möglichkeiten und Grenzen diskutiert, aus diesen Daten Informationen zu gesundheitssystemischen Herausforderungen zu extrahieren. Das abschließende Kapitel 6 fasst wesentliche Punkte zum nach wie vor vielfältig interpretierbaren Data- Mining-Begriff zusammen. Die Fallstudien zu Data-Mining-Prozessen in der Medizin und im öffentlichen Gesundheitssystem zeigen, dass vor allem die Datenbereitstellung und der Umgang mit den aus Data-Mining resultierenden Informationen und Algorithmen gesellschaftliche Herausforderungen mit sich bringen. 2 Data-Mining aus analytisch-technischer Sicht 2.1 Data-Mining – was ist das? Der Begriff Data-Mining wird seit Anfang der 1990er Jahre verwendet (z. B. Fayyad et al. 1996; Frawley et al. 1992), zunächst vorwiegend aus analytischer, dann auch aus softwaretechnischer und anwendungsorientierter Sicht (umfassender verfahrenstechnischer Einblick z. B. in Witten et al. 2011). Aus analytischer Sicht wird Data- Mining mit der Anwendung von unterschiedlichen mathematisch-statistischen Verfahren assoziiert, um in Datenbeständen neue, potenziell nützliche Strukturen und Muster zu identifizieren (Schepers et al. 2015, S. 32). In diesem Verständnis wird Data-Mining assoziiert mit einem Prozess, den Fayyad et al. (1996) als »knowledge discovery in databases« bezeichneten. Eine wie auch immer geartete größere Datenbasis ist eine notwendige Bedingung, Daten einzelner oder weniger Datenobjekte reichen dazu in der Regel nicht aus. Dieses datenbasierte »knowledge discovery« hat erhebliche Schnittmengen mit den neueren Schlagworten Big oder Smart Data, maschinelles Lernen oder künstliche Intelligenz (KI). Im Kern zielen alle mit diesen Schlagworten assoziierten Vorgehensweisen darauf ab, in großen, nur noch maschinell verwalt- und verarbeitbaren Datenmengen Strukturen und Muster zu erkennen, Informationen abzuleiten und durch Regeln zu generalisieren, die auf neue Situationen zu übertragen und angewendet werden können. Eine Abgrenzung der analytischen Verfahren, die eher zu dem einen oder zu einem anderen Schlagwort gehören, ist schwierig. Rückblickend scheint der Begriff Data-Mining eher in der mathematischen Statistik generiert worden zu sein, wohingegen die Begriffe maschinelles Lernen und künstliche Intelligenz eher in der Informatik entstanden sind (DEK 2019, S. 59; Witten et al. 2011, S. 28 f.). Die Begriffe Big und Smart Data betonen stärker die kontinuierlich wachsenden Datenmengen, die im Zuge der Digitalisierung zahlreicher Alltags- und Geschäftsprozesse entstehen, sowie die darin enthaltenen Informationen, die nur noch maschinell extrahiert werden können. Witten et al. (2011) plädieren dafür, keine Trennlinie zwischen diesen Begriffen zu suchen, sondern sie eher als eine Art Kontinuum aufzufassen, zumal gleiche Prozessabläufe entstanden und oft ähnliche Verfahren und Algorithmen eingesetzt werden. Auch bei Betrachtungen zu gesellschaftlichen Chancen und Herausforderungen ergeben sich bei all diesen unscharfen Begriffen viele Gemeinsamkeiten. Aus dieser Perspektive wird mitunter empfohlen, statt von Data-Mining besser von komplexen Datenanalysen zu sprechen (Schepers et al. 2015, S. 20 ff.; Triaille et al. 2014, S. 9 f.). Dieser nüchterne Begriff biete zudem eine Möglichkeit, die philosophischen Auseinandersetzungen zu den Begriffen Lernen bzw. maschinelles Lernen, Formen der Wissenserweiterung oder der (künstlichen) Intelligenz sowie zwischen menschlichen Fähigkeiten und technischen Möglichkeiten zu umgehen.5 Weitgehend übereinstimmend werden mit Data-Mining mathematisch-statistische Verfahren verbunden, die in Datenbeständen strukturelle Muster (Ähnlichkeiten, Zusammenhänge, Unterschiede) erkennen und darstellen (anhand von Parametern, Formeln, Entscheidungsregeln, mathematisch-statistischen Modellen). Diese Muster und deren Darstellungen können in wissenschaftlichen Auseinandersetzungen diskutiert und hinterfragt und sofern sie verallgemeinerbar sind, auf neue Situationen übertragen und angewendet werden. Text- oder Web-Mining sowie Bilderkennung gelten als Spezialbereiche für besondere Datentypen und -quellen (TAB 2014, S. 43; Witten et al. 2011, S. 3 ff.). Teilweise werden mit Data-Mining nur sekundäre Analysen von Daten, die in anderen Kontexten entstanden sind (z. B. Tracking des Internetverhaltens durch Analysen von Verkehrsdaten), assoziiert oder nur ausgewählte strukturerkennende Verfahren darunter gefasst (Knobloch/Weidner 2000, S. 346). Im Rahmen dieses Berichtes werden komplexe und aufwendige datenanalytische Verfahren zur Erkennung von Strukturen und Mustern in Datenbeständen und zur Ableitung von Informationen mit dem Begriff Data-Mining assoziiert und einerseits triviale statistische Verfahren und andererseits vollautomatisierte Prozesssteuerungen davon abgegrenzt. Diese Grenzziehung ist jedoch dynamisch: Was vor Jahren als komplex und aufwendig galt, kann durch den technischen Fortschritt trivial einfach werden, und Softwareprogramme, die zunächst lediglich einzelne Berechnungen durchführten, können im Laufe der Entwicklung immer umfangreichere und komplexere Aufgaben automatisiert bewältigen (Bernsdorf et al. 2015, S. 36; Schepers et al. 2015, S. 20 ff.). Insbesondere bei der Analyse großer Datenmengen erscheinen eingesetzte Verfahren mitunter nur deshalb komplex, weil auf unterschiedliche Datenbestände zugegriffen wird und Analyseschritte zerlegt und umfänglich parallel ausgeführt werden. Die 5 Diese philosophische Debatte wurde im TAB-Bericht »Technologien und Visionen der Mensch-Maschine-Entgrenzung« aufgegriffen (TAB 2016b). Sie wird in diesem Bericht nicht vertieft. eigentlichen mathematisch-statistischen Verfahren gibt es jedoch teilweise seit langem, z. B. zur Klassifikation, Zusammenfassung, Gruppierung oder Ausreißerkennung. Insbesondere wenn der Frage nach den mit den Analysetechniken verbundenen gesellschaftlichen Chancen und Herausforderungen nachgegangen werden soll, liegt es auf der Hand, nicht nur den unmittelbaren Einsatz von mathematisch-statistischen Verfahren zur Erkennung von (neuen) Strukturen und Mustern in Datenbeständen (Data-Mining im engen Sinn), sondern den gesamten Prozess des knowledge discovery in databases zu betrachten (Data-Mining im weiteren Sinn) (Bernsdorf et al. 2015, S. 36; Schepers et al. 2015, S. 31). Im Rahmen dieses Berichts werden folgende Prozessschritte mit Data-Mining im weiteren Sinn assoziiert:6 › Aufgabendefinition bzw. Spezifikation des Untersuchungsauftrags: Data-Mining ist eine im weiten Sinn zweck- oder nutzungsgetriebene Analyse von Daten. Sie beginnt mit der Formulierung eines Untersuchungsziels, das sich aus einem anwendungsbezogenen Kontext ergibt (z. B. Suchen von Gemeinsamkeiten oder Auffälligkeiten, Klassifizierung oder Gruppierung von Objekten, Ableitung von Prognosen). › Datenauswahl und -aufbereitung: Je nach Aufgabe sind aus oftmals unterschiedlichen Datenbeständen geeignete Teile auszuwählen, mitunter ist die Nutzungsberechtigung zu prüfen), die ausgewählten Daten werden bereinigt (z. B. ist der Umgang mit fehlenden und fehlerhaften Werten zu klären) und aufbereitet (z. B. Merkmale/Variablen umrechnen, transformieren oder zusammenfassen). › Datenanalyse: Je nach Aufgabe und Datentypen (Zahlen, Orts-/Zeitangaben, Zeichenketten/Texte, Bilder) kommen unterschiedliche mathematisch-statistische Verfahren in Betracht, die mittels Algorithmen und Software auf dem aufbereiteten Analysedatensatz ausgeführt werden und Ergebnisse liefern. › Ergebnisvalidierung: Analyseergebnisse werden auf unterschiedliche Weise verfahrensintern und/oder verfahrensextern geprüft und bewertet. Diese Data-Mining-Prozessschritte sind in Abbildung 2.1 grafisch dargestellt. Auch der Prozess des Data-Mining im weiteren Sinn baut zum einen auf unterschiedliche Verfahren der vorgelagerten Datenerfassung und -speicherung auf. Zum anderen können deren Ergebnisse auf unterschiedliche Art und Weise genutzt werden. Sie werden in der Regel fachlich inhaltlich diskutiert, um deren allgemeine Gültigkeit bzw. Generalisierbarkeit zu untermauern bzw. eine spezifische Bewertung und Validierung ermittelter Ergebnisse zu ermöglichen sowie Hypothesen abzuleiten, Erkenntnisse zu fundieren oder in Frage zu stellen und bestehendes Wissen zu erweitern (wissenschaftliche Verwendung). Ausreichend valide Regeln und Modelle können auch auf neue Situationen übertragen und angewendet werden, um je nach Aufgabendefinition, diese zu klassifizieren, Prognosen zu erstellen und dadurch situativ neue Informationen bzw. Daten zu generieren (operative Anwendung). Operationalisierbare Regeln, Modelle und Algorithmen können als neue Funktionalitäten in bestehende Software und Services integriert oder als eigenständige Informations-, Assistenz- oder Entscheidungsunterstützungssysteme genutzt und verwertet werden. Es gibt unterschiedliche Meinungen, inwiefern diese vor- und nachgelagerten Prozesse ebenfalls zum Data-Mining-Prozess gehören. Folgen derartigen Vorgehens und gesellschaftliche Herausforderungen lassen sich jedoch nur herausarbeiten und abschätzen, wenn der Gesamtprozess in den Blick genommen wird. 6 Fayyad et al. (1996, S. 40) schlüsselte den Data-Mining-Prozess aus verfahrenstechnischer Sicht etwas differenzierter auf. Die für diesen Bericht definierten Prozessschritte lehnen sich stärker an das um die Jahrtausendwende von Shearer (2000) entwickelte und unter Datenanalytikern bekanntere CRISP-DM-Modell (Cross Industry Standard Process of Data Mining) an (ausführlicher z. B. in Schepers et al. 2015, S. 31 ff.). Bei der Befassung mit den gesellschaftlichen Chancen und Herausforderungen von Data-Mining ist eine differenzierte Prozessbetrachtung aus Sicht des TAB nicht erforderlich. Abb. 2.1 Data-Mining: schematische Darstellung der Prozessschritte Eigene Darstellung Wenn Data-Mining als automatisierte Analyse definiert wird, bezieht sich diese Definition auf Data-Mining im engeren Sinn. Betrachtet man den gesamten Prozess (Data-Mining im weiteren Sinn) wird deutlich, dass ein hoher Automatisierungsgrad bisher vor allem bei der eigentlichen Datenanalyse möglich ist, weil die einzelnen Schritte spezifischer mathematisch-statistischer Verfahren durch Algorithmen und Software ausgeführt werden. Bei der Aufgabendefinition, der Datenauswahl und -aufbereitung wie auch bei der Ergebnisprüfung und -validierung sowie der Informations- und Wissensableitung sind nach wie vor viele gedankliche und manuelle Arbeitsschritte erforderlich (Schepers et al. 2015, S. 33 f.). Auch der Übergang von einem Prozessschritt zum nächsten ist bisher nicht automatisiert. Vielfach werden (Zwischen-)Ergebnisse geprüft, Eingangsparameter angepasst, Daten nach und nach hinzugezogen oder ausgeschlossen und einzelne Schritte wiederholt, bis Resultate als richtig, valide oder nützlich eingestuft werden können. Wenn dieser Punkt erreicht ist, kann eine operative Anwendung ermittelter Regeln in neuen Situationen in Erwägung gezogen werden. Ein historisches Beispiel soll zunächst den Data- Mining-Prozess und die Weiterverwendung der Ergebnisse veranschaulichen. Historisches Beispiel: Choleraepidemie in London 1854 Als historisches Beispiel für Data-Mining wird oftmals eine Datenanalyse des britischen Arztes John Snow aus dem 19. Jahrhundert herangezogen (Bernsdorf et al. 2015, S. 47; Schepers et al. 2015, S. 27): Er bezweifelte, dass die Ursache der Cholera mit der bis dato unter Ärzten gängigen Miasmentheorie (Infektionskrankheiten würden durch üble Dünste oder in der Luft zirkulierende faulige Stoffe übertragen, die aus dem Boden entweichen oder aus Gewässern kommen könnten) erklärt werden kann. Snow vermutete, dass das Übertragungsmedium von Cholera verunreinigtes Trinkwasser sei. Als im Londoner Stadtteil Soho 1854 eine Choleraepidemie ausbrach, sammelte er vielfältige Informationen zu den Choleraopfern, u. a. zu deren Wohnorten, die er auf einer Karte des Stadtteils markierte (Punkte in Abb. 2.2). Zudem markierte er in dieser Karte auch die Positionen der örtlichen Wasserbrunnen (B1 bis B9 in Abb. 2.2). Allein durch die grafische Darstellung wurde die Häufung der Todesopfer um ein Zentrum offensichtlich (Mustererkennung). In diesem Zentrum stand der Broad-Street-Brunnen (B5). Snow interpretierte sein Analyseergebnis nicht nur als Beziehung zweier Sachverhalte (Wasserbrunnen und Choleraopfer), sondern unterstellte eine Ursache-Wirkungs-Beziehung. Obwohl auch in weiterer Entfernung vom Brunnen einige Todesfälle zu verzeichnen waren und Snow zu diesem Zeitpunkt keine biologisch dezidierte Begründung liefern konnte, forderte er die sofortige Stilllegung des Brunnens (Ableitung einer operativen Entscheidung). Wahrscheinlich stieß er nicht auf allseits offene Ohren, widersprach er doch den vorherrschenden Meinungen zur Krankheitsübertragung. Überliefert ist, dass Snow den Pumpenschwengel in der Broad Street eigenmächtig abmontierte und so die Nutzung des Brunnens unterband, woraufhin die Zahl der Choleraopfer sank (Gerste 2014, 2020). Was hat Snow analytisch getan? Er hat zunächst eine Beziehung (Korrelation) zwischen zwei Sachverhalten/Datenobjekten (Choleraopfer und Wasserbrunnen) über ein verbindendes Merkmal (Standort) anhand der jeweiligen Merkmalsausprägungen (jeweilige Adresse der Choleraopfer und Position der Wasserbrunnen) hergestellt. Was er 1854 mit Zettel und Stift manuell vollzog, bezeichnet man heute als räumliches Clustern und Hotspot-Analyse. Die zur Interpretation von Geodaten nach wie vor wichtige Visualisierung ist eine Überlagerung von Geobasisdaten (Londoner Stadtplan) mit spezifischen Geofachdaten (Standorte der Brunnen und Wohnorte der Choleraopfer). Derartiges Vorgehen wird heute mittels spezieller Software realisiert, die auf große Datenbestände und standardisierten Algorithmen zugreift (auch als Geoinformationssysteme bezeichnet). Abb. 2.2 Position der Choleraopfer und der Wasserbrunnen in London 1854 Quelle: Bernsdorf et al. 2015, S. 47 nach https://de.wikipedia.org/wiki/John_Snow_(Medizi- ner) (8.12.2021) Um seine von der damaligen Mehrheitsmeinung abweichende Hypothese zur Ursache-Wirkungs-Relation und seine eigenmächtige operative Handlung zu fundieren, ging Snow methodisch einige Schritte weiter. Zum einen hinterfragte vermeintliche Datenausreißer und stellte fest, dass vom Brunnen weiter entfernte Opfer Wasser aus diesem Brunnen getrunken und Häuser in Brunnennähe ohne Choleraopfer eine eigene Wasserversorgung hatten. Damit konnte er die Kausalität von Brunnen und Choleraerkrankung erhärten. Zum anderen nahm er Stuhl- und Wasserproben. Mit seinen damaligen Möglichkeiten konnte er die Choleraerreger als eigentliche biologische Ursache der Cholera nicht zweifelsfrei nachweisen. Diese biologischen Beweise lieferte Robert Koch 30 Jahre später. Rückblickend fällt Snows Vorgehen in die Zeit, in der der medizinische Fokus auf überindividuelle Ebenen erweitert wurde (Public-Health-Ansatz) und die datengestützte Forschung an Bedeutung gewann. Er selbst gilt als einer der Pioniere räumlicher Datenanalysen und Mitbegründer der Epidemiologie. Was ist heute anders, was nicht? Die heute maschinell generierten und gespeicherten Datenbestände haben mehrheitlich eine viel höhere Detailgenauigkeit (Granularität) als früher und fallen zugleich in zunehmend großer Menge an, sind in der Summe extrem heterogen und nicht immer fehlerfrei. Für einzelne Fragestellungen sind oft nur einzelne Segmente großer Datenbestände erforderlich, teilweise können dafür auch nur bedingt spezifische Daten genutzt werden. Wichtig ist zumeist, dass sie schnell verarbeitet werden und sofort Ergebnisse liefern können (Big-Data-Konzept z. B. in Holzinger/Jurisica 2014, S. 4; Wiegerling et al. 2018, S. 2). Solche Datenmengen sind für den Menschen selbst kaum noch unmittelbar erfassbar und verständlich. Es gibt jedoch kontinuierlich leistungsstärkere und nutzerfreundlichere Informationstechnologien, mit denen Daten immer einfacher erfasst, dauerhaft gespeichert, bereitgestellt und analysiert werden können. Zudem haben der Schutz der Daten und der Rechte beteiligter Personen heute einen viel höheren Stellenwert. Datenanalytiker/innen weisen darauf hin, dass auch mit immer nutzerfreundlicheren Informationssystemen und zunehmender Automatisierung einzelner Prozessschritte für Data-Mining-Aktivitäten nach wie vor erhebliche Fachkenntnisse erforderlich sind, um spezifische Analysefragen als mathematisch-statistische Probleme zu definieren, die dafür erforderlichen Daten und Verfahren problemorientiert auszuwählen, interne Gütekriterien ggf. einzuordnen, Ergebnisse zu prüfen und zu bewerten, Grenzen der Analysen und Fehler zu erkennen sowie falsche Schlüsse zu vermeiden (Knobloch/Weidner 2000, S. 354). Nichtdurchdachte Data-Mining- Untersuchungen können bedeutungslose, irreführende oder falsche Strukturen und Muster hervorbringen – mitunter auch als Data-Dredging bezeichnet (in freier Übersetzung auch als Schlammbaggern bezeichnet) (Bernsdorf et al. 2015, S. 37). Einen Unterschied gibt es mitunter bei den mit neuen wahrscheinlichkeitstheoretischen analytischen Verfahren ermittelten Ergebnissen und deren Darstellung. Im Unterschied zu klassischen mathematisch-statistischen Verfahren (z. B. Cluster- oder Regressionsanalysen) werden die aus Trainingsdaten ermittelten Beziehungen zwischen Sachverhalten, resultierende Entscheidungsstrukturen und Prognosemodelle bei neuronalen Netzen nicht mittels Kennziffern, Regeln oder Formeln ausgewiesen (Kap. 2.3.2). Ob ein solches Vorgehen, dass keine Entscheidungsstrukturen offenlegt, noch Data-Mining im Sinne des »knowledge discovery in databases« ist, oder nur künstliche Intelligenz (KI), weil lediglich Algorithmen trainiert werden, definierte Aufgaben zu lösen, diese Algorithmen dann in neuen Situation (Fach-)Menschen Informationen anbieten, ohne dass letztere ihr datenanalytisches Wissen selbst erweitern, scheint eher eine philosophischen Frage zu sein. Um jenseits dieser Debatte (ausführlicher z. B. in TAB 2016) die gesellschaftspolitischen und rechtlichen Herausforderungen komplexer Datenanalysen schrittweise zu erschließen, werden nachfolgend sowohl der Umgang mit Daten als auch die Analysetechniken und die Nutzung resultierender Ergebnisse ins Zentrum der Betrachtung gestellt. 2.2 Daten: Formen, Strukturen und Bereitstellung Obwohl Daten heute nahezu allgegenwärtig sind, gibt es bisher keine allgemeingültige Datendefinition. Teilweise werden die Begriffe Daten und Informationen synonym verwendet, teilweise sind Daten eine Oberkategorie für diverse Aufzeichnungen (DEK 2019, S. 52). Ohne den Anspruch zu erheben, die bestehende kategoriale Unbestimmtheit grundsätzlich aufzulösen zu können, soll der Datenbegriff für den nachfolgenden Bericht zunächst aus informationstechnischer und im Anschluss in Kapitel 3 aus rechtlicher Perspektive konkretisiert werden. 2.2.1 Wesensmerkmale und Formen Aus informationstechnischer Sicht sind Daten (maschinen)lesbare Informationen. Um sie maschinell verarbeiten und analysieren zu können, müssen sie eine gewisse Minimalstruktur erhalten. Dazu werden die inzwischen oft mit technischen Hilfsmitteln (Sensoren, Messgeräte, Kameras) primär erhoben Messwerte als Angaben/Werte (Dateninhalte) deklariert und mit Kontexten verbunden, d. h. sie erhalten Referenzen zu Objekten und werden mittels Merkmalen strukturiert dargestellt (Abb. 2.3 links). Dateninhalte, Objekte und Merkmale können vielfältig klassifiziert, gruppiert und strukturiert werden. In diesem Kontext sind Features oder Klassen abstrahierte Fachobjekte (z. B. können Choleraopfer eine Klasse unter den Todesfällen einer Region bilden). Attribute sind Eigenschaften von Objekten oder Features/Klassen, die diesen über ein Merkmal zugeordnet werden (Bernsdorf et al. 2015, S. 30). Im Beispiel wäre u. a. die Wasserprobe (Merkmal) des Brunnens B5 (Objekt) der Londoner Wasserversorgung (Feature) verseucht (Attribut) mit Vibrio cholerae (Angabe). Bei komplexen semistrukturieren Datensätzen (z. B. genetischen Daten, Bilder, Videos) bezeichnet man solche Strukturierungen auch als Datenlabeling. Dazu gehören u. a. Markierungen auf Bildsegmenten (Annotationen, Tags), Schlüsselwörter bei Texten, Kategorisierungen von Videos nach ihrem Inhalt. Dies ist ein wichtiges Element der Datenaufbereitung für komplexe Datenanalysen (Training künstlicher neuronaler Netze mit maschinellen Lernverfahren [Kap. 2.3.2]). Abb. 2.3 Datenstrukturen (schematische Darstellung) Eigene Darstellung Derartige Zusatzangaben zu Objekten/Features, Merkmalen/Attributen und Klassifikationen werden auch als Metadaten (Daten über Daten) bezeichnet. Sie können vielfältige technische, administrative oder organisatorische Kontextangaben liefern z. B. zum Messverfahren, zur Bezeichnung, Darstellung und Codierung, mitunter zu Zeit, Ort und/oder Objekten. Durch die Digitalisierung werden vielfältige Prozessschritte automatisiert in Logfiles immer detaillierter dokumentiert, wodurch immer umfangreichere Metadatenbestände entstehen. Teilweise werden diese Metadaten auch als Rand- oder Verkehrsdaten bezeichnet. Etliche (Zusatz-)Angaben wie z. B. Zeit- oder Ortsangaben können in einer Datenstruktur als Merkmal direkter Bestandteil des Datensatzes sein und in einer anderen Darstellung einen Datensatz ergänzend beschreiben. Auch Metadaten müssen für eine maschinelle Datenverarbeitung in strukturierter Form vorliegen. Für Data-Mining-Aktivitäten sind Metadaten in mehrfacher Hinsicht relevant: › Über die Metadatenfiles werden Datensätze in umfangreichen Repositorien katalogisiert (ähnlich der Registerkarte einer Publikation in einem Bibliothekskatalog; ausführlicher z. B. EK 2013). Über die Kataloge können Datensätze maschinell gesucht, visualisiert und ggf. extrahiert werden. › Für die Programmierung der Ausführungsskripte von Datenanalysen und/oder die Parametrisierung von Algorithmen reicht es zunächst zu wissen, wie Merkmale/Variablen bezeichnet und Dateninhalte codiert sind, ohne dass ein Zugang zu den Dateninhalten erforderlich ist. › Metadaten können selbst Gegenstand von Datenanalysen sein (insbesondere Verkehrsdaten, die Segmente des Verhaltens von Personen aufzeichnen und die Erstellung von individuellen Verhaltensprofilen, anhand derer Personen identifiziert werden könnten, technisch ermöglichen [Kasten 3.7]). Aufgrund der hohen datenanalytischen Relevanz von Metadaten zeichnet Pasquinelli (2018) das Bild einer » Gesellschaft der Metadaten«, die mittels Data-Mining auch neue Formen der Überwachung oder der Verhaltenssteuerung hervorbringen kann. Zunehmend wird darauf hingewiesen, dass situativ untersucht werden müsse, welche gesellschaftlichen Folgen mit dem jeweiligen datenanalytischen Ansatz einhergehen. Im Rahmen dieses Berichts werden Daten als Angaben/Informationen zu Objekten (z. B. Situationen, Gegenständen, Ereignissen aber auch Personen als rechtlich besondere Datenobjekte [Kap. 3.1]) aufgefasst, die maschinenlesbar zumindest temporär gespeichert und verarbeitet werden. Sie haben folgende wesentliche Eigenschaften: › Dateninhalte werden zwar kontinuierlich detailgenauer (z. B. können genetische Daten bis auf molekularer Ebene erhoben werden), dennoch bilden sie Objekte und Realitäten nicht in voller Komplexität ab. › Daten sind von unterschiedlicher Qualität und nicht immer fehlerfrei. › Daten werden strukturiert gespeichert. Die Strukturierung hat eine semantische (betrifft die Dateninhalte und die dafür verwendeten Terminologien und Codierungen [Kasten 2.1]) und eine syntaktische Ebene (betrifft die Anordnung, Darstellung und Formate u. a. Tabellen, Texte, Bilder, Videos, Genomsequenzen). Dadurch werden sie maschinell verarbeitbar. › Daten können vervielfältigt und gelöscht, über die Kontextbezüge und die Strukturierung verknüpft, erweitert und verändert werden (u. a. können Dateninhalte sowie Datenobjekte und Merkmale klassifiziert, gruppiert und zusammengefasst werden). › Aufgrund der Maschinenlesbarkeit können Daten informationstechnisch vielfältig verknüpft und analysiert werden. In diesem Sinne sind Daten(sätze) mehr als bloße Ziffernfolgen – das Mehr liegt in den jeweiligen Strukturen und den Bezügen. Diese Strukturen mit den jeweils definierten Datentypen und der Syntax (der Aufbau der Zeichenkette) spielen für die maschinelle Datenverarbeitung eine wichtige Rolle. Im Data-Mining-Kontext relevant ist die Unterscheidung zwischen (Abb. 2.3 rechts) › konkreten Datentypen, die meist einzelne numerische Werte mit unterschiedlichen Mess- oder Skalenniveaus haben (bei der weiteren Differenzierung unterscheidet man u. a. zwischen stetigen Merkmalen mit metrischen Werten wie z. B. Längen- oder Gewichtsangaben sowie kategoriellen Merkmalen mit ordinalskalierten Werten [haben Rangfolgen wie z. B. Schulnoten oder Scores] oder nominalskalierten Werten [Klassen ohne Ränge, z. B. Blutgruppe]) und › abstrakten Datentypen, die komplexere Strukturen statt einzelner Werte haben (bei der weiteren Differenzierung unterscheidet man u. a. Bilder, Videos, akustische Aufnahmen, Texte, Webseiten, Genomsequenzen). Für konkrete Datentypen gibt es bereits seit langem vielfältige mathematisch-statistische Analyseverfahren (Kap. 2.3.2). Abstrakte Datentypen gewinnen seit einigen Jahren erheblich an Bedeutung. Oft wird datentechnisch Abstraktes in einem ersten Schritt mittels Datenlabeling und Codierung ganz oder zumindest sequenziell in Konkretes überführt und dann weiterverwendet (Kasten 2.1). Teilweise gibt es dafür bereits standardisierte Zuordnungs-, Berechnungs- und Darstellungsvorschriften. Zu den Vorreitern zählen u. a. Zeit- und Raumangaben (ISO 8601 für Zeitangaben und die Serie ISO 19100 durch die nicht nur Raumbezüge, sondern auch vielfältige Metadatenelemente definiert werden). Im Cholerabeispiel ist die Ortsangabe mit Straßenbezeichnung und Hausnummer an sich abstrakt, die Geoposition mit der definierten Syntax jedoch konkret (Abb. 2.3). Die maschinelle Analyse vielfältiger Sachverhalte wird durch die Überführung von abstrakten in konkrete Datentypen erheblich befördert. In Bezug auf das historische Beispiel des Choleraausbruchs in London können die Adressen der Todesopfer und die Standorte der Wasserbrunnen zwar seit langem in einer Datenbank als abstrakte Datentypen gespeichert werden, aber erst seitdem jedes Objekt numerisch georeferenziert werden kann und es digitale Oberflächenmodelle mit spezifischen Karten diverser infrastruktureller Komponenten und Netze gibt, auf denen diese Objekte verortet werden können, lassen sich Entfernungen auch maschinell berechnen und z. B. räumliche Cluster- und Hotspot-Analysen maschinell durchführen. Kasten 2.1 Codierungen von Objekten und Merkmalen (DIN 6763) Ein Code ist eine festgelegte Folge von Zeichen. Man unterscheidet: › Identifizierende Codes: Sie sollen Objekte eindeutig identifizieren und werden deshalb möglichst nur einmal vergeben. Ortsbezogenen Merkmalen wird dieser eindeutige Code z. B. mittels Georeferenzierung zugewiesen. Identifizierende Codes für Personen (z. B. Versicherten- oder lebenslange Arztnummern; Kap. 4 u. 5) können auch zur Pseudonymisierung verwendet werden, wenn die jeweilige Referenzierungsvorschrift bzw. die Schlüsseltabelle nicht allgemein zugänglich sind. › Klassifizierende Codes: Sie sollen Objekte anhand von Merkmalsausprägungen definierten Klassen oder Gruppen zuordnen. Sie können sehr grob einteilen (z. B. Gesundheitszustände gesund, auffällig, krank) oder hochdifferenziert systematisieren (z. B. die internationale Krankheitsklassifikation ICD7 mit inzwischen mehr als 14.000 Kategorien). Dafür gibt es unterschiedliche Klassifikationsverfahren, z. B.: – Scoringverfahren weisen Objekten/Sachverhalten anhand definierter Merkmalsausprägungen Klassen mit Rangfolgen zu, damit kann ein Zustand (z. B. Krankheit) beschrieben aber auch eine Prognose abgeleitet werden (z. B. Risiken). – Objekterkennungsverfahren identifizieren Objekte anhand von Merkmalsausprägungen und ordnen sie Klassen/Features zu (z. B. Zeichen/Worte in der Texterkennung; Personen/Gewebsstrukturen in der Bilderkennung; Bewegungen/Situationen bei der Videoüberwachung). – Indexieralgorithmen sind regel- oder wahrscheinlichkeitsbasierte Zuordnungen von Objekten/ Sachverhalten zu komplexeren Systematiken (z. B. Zuweisung von Vergütungspauschalen in Krankenhäusern; Kap. 4.4.1). › Mischung aus identifizierenden und klassifizierenden Codes sollen neben der eindeutigen Identifikation zusätzlich einzelne Merkmalsausprägungen mitcodieren. 2.2.2 Datenspeicherung und -bereitstellung: von Datenbanken bis Systemarchitekturen Für heutige Data-Mining-Verfahren relevante Daten werden in Datenbanken gespeichert, die unterschiedliche Formen und Strukturen haben können. Tabellen sind die klassische Form, um Daten objektbezogen strukturiert zu speichern (Abb. 2.3). Mit relationalen Datenbanken können vielfältige Daten in diversen, im Vorfeld definierten Tabellen strukturiert abgelegt und über Schlüsselmerkmale bzw. deren Werte in Relation zu anderen Tabellen und deren Daten gesetzt werden. Dadurch lassen sich vielfältige Bezüge zu anderen Objekten und/oder Sachverhalten herstellen. Relationale Datenbankmodelle sind vor allem beim Umgang mit konkreten Datentypen gebräuchlich. Aufgrund der weiten Verbreitung und langjährigen Dominanz dieser Datenbankmodelle gibt es vielfältige Algorithmen, die speziell zur Analyse derart merkmalsbetont strukturierter Datenbestände entwickelt wurden. Diese Algorithmen können als Funktionalitäten in die Datenbank- und/oder Datenanalysesoftware integriert werden und sind dadurch leicht einsetzbar. Relationale Datenbanken kommen im Umgang mit komplex strukturierten Objekten/ Sachverhalten an ihre Grenzen (TAB 2014, S. 46 ff.). An diesen Grenzen werden sie zunehmend durch nichtrelationale Datenbankmodelle ergänzt und erweitert, z. B. objekt- oder dokumentenorientierte Datenbankmodelle oder Mischformen. Objektorientierte Datenbanken strukturieren Dateninhalte statt in zweidimensionalen Tabellen in mehrdimensionalen Datentensoren (vielschichtige mathematische Konstrukte). Einzelne Datenobjekte werden nach wie 7 Internationale statistische Klassifikation der Krankheiten und verwandter Gesundheitsprobleme (International Statistical Classification of Diseases and Related Health Problems, derzeit in der 10. Version – ICD-10) ist ein weltweit anerkanntes Klassifikationssystem für die Diagnose von Krankheiten. Sie wird von der Weltgesundheitsorganisation (World Health Organisation – WHO) herausgegeben und weiterentwickelt (ab 2022 in 11. Version). vor anhand von Merkmalen/Attributen beschrieben (vorzugsweise mittels konkreter Datentypen), können über Klassen/Features jedoch besser strukturiert und klassifiziert werden. Objektorientierte Datenbanken erlauben komplexere Datenstrukturen, die sich bei großen Datenmengen effizienter maschinell verwalten und verarbeiten lassen, auch wenn sie kaum anschaulich dargestellt werden können (ausführlicher z. B. in Bernsdorf et al. 2015, S. 30 f.). Objektorientierte Datenbanken sind gegenwärtig noch nicht so weit verbreitet wie relationale Datenbanken. Deren Analysetools sind tendenziell weniger vielfältig und rechenintensiver als die von zweidimensionalen Matrizen/Tabellen. Bei dokumentenorientierten Datenbanken ist jeder Eintrag ein eigenes Dokument. Sie sind besonders geeignet für abstrakte Datentypen (z. B. Genomsequenzen, Texte, Bilder, Videos), die oft nur semistrukturiert vorliegen. Über eindeutige Identifikatoren (Objektstammdaten, Schlüsselmerkmale, Datenlabel) ist eine Verknüpfung unterschiedlicher Datenbankmodelle und der darin gehaltenen Datenbestände möglich. Derartig vielfältig verknüpfbare Bestände werden auch als poly- oder heterogen strukturiert bezeichnet. Die Möglichkeit, unterschiedliche Datenbestände auf der Grundlage von gemeinsamen Standards und Schlüsseln miteinander zu verknüpfen, wird mit dem Begriff Interoperabilität assoziiert. Interoperabilität hat zwei wesentliche Ebenen, eine semantische (Verwendung einheitlicher Codierungen in Bezug auf die die Dateninhalte) und eine syntaktische (Nutzung einheitlicher Darstellungsstrukturen, Formate, Metadaten). Der Geodatenbereich mit seiner Normungsserie ISO 19100 kann als ein Vorreiter in Bezug auf interoperable Datenstrukturen aufgefasst werden. In anderen Bereichen (z. B. in medizinischen Bereich) sind interoperable Datenstrukturen noch eine große Herausforderung (Kasten 4.2). Für die dauerhafte Speicherung und Mehrfachnutzung großer polystrukturierter Datenbestände gibt es unterschiedliche Systemarchitekturen: Data Warehouses in einrichtungsinternen Rechenzentren in Eigenverantwortung dieser Einrichtung (Abb. 2.4), und Cloudstrukturen mit mehreren vernetzten Rechenzentren, deren Hard- und Softwarekomponenten teilweise geöffnet und temporär vermietet werden. Beide Systeme können ihre Datenbestände nur dann effizient verwalten, wenn alle enthaltenen Daten strukturiert durch Metadaten(files) beschrieben werden. Data Warehouses sind zentrale, permanente Datenrepositorien einer Einrichtung, in die potenziell relevante Daten aus diversen heterogenen Primärdatenbanken regelmäßig physisch zusammengeführt, geprüft, konsolidiert, verdichtet, in definierte Formate transformiert und dauerhaft gespeichert werden (Bernsdorf et al. 2015, S. 36; Rahm 2015; Schepers et al. 2015, S. 130 ff.; TAB 2014, S. 43). Zwar können administrative Prozesse des Datenzugangs und der Datenverwaltung zentral organisiert werden, dennoch sind Aufbau, kontinuierliche Datenkonsolidierung, Betrieb und Weiterentwicklung mit erheblichem Aufwand verbunden. Je geringer der Interoperabilitätsgrad primärer Datenquellen ist, desto aufwendiger ist der Transfer. Dieser Aufwand lohnt sich nur, wenn eine Weiterverwendung der Daten explizit anvisiert wird. Für jede Weiterverwendung werden dann spezifische Auszüge erstellt (Data-Marts [Abb. 2.4]). Fallweise können dabei spezifische Datenschutzmaßnahmen (z. B. Anonymisierungen und/oder Vergröberungen) vorgenommen werden, ohne die zentrale Datenbasis zu verändern. Abb. 2.4 Grobarchitektur von Datenhaltung und Analyse Quelle: Rahm 2015, S. 11 Auch die datenanalysierenden Softwarekomponenten werden in der Regel fachlich kontrolliert, genutzt und weiterentwickelt. Sie halten diverse anwendungsbezogene Analysewerkzeuge bereit, mit denen z. T. nach neuen Strukturen und Mustern in den Daten gesucht werden kann (Schepers et al. 2015, S. 183 ff.). Gegebenenfalls lassen sich einzelne Verfahren oder mathematisch-statistische Modelle operationalisieren und z. B. zu Berichts-, Abfrage- oder Informationssystemen verstetigen (z. B. Wetterdienste). Informationssysteme stellen das Informationsbedürfnis von Anwendenden in den Mittelpunkt und bieten Services an, die aus maschinenlesbaren Daten für Menschen unmittelbar erfassbare Informationen extrahieren (soziotechnische Perspektive). Beispielsweise können mit spezifischen Geoinformationssystemen (GIS) sowohl Wege zwischen zwei Punkten mathematisch optimiert werden als auch ermittelte Ergebnisse auf den digitalen Landkarten visualisiert und damit leichter erfasst werden. Bei Data-Warehouses ist der Zugang zu den Daten und den Analysetools sowie zu den damit generierten Ergebnissen und Informationen kontrolliert und begrenzt. Sie werden u. a. in der medizinischen Forschung und im Gesundheitssystem genutzt (Fallstudien in Kap. 4 und 5).8 Data Warehouses kommen beim Umgang mit sehr großen Datenbeständen und bei Analysen, die möglichst zeitnah zur Datenerhebung realisiert werden sollen, an ihre Grenzen. Denn erst müssen Daten in das Repositorium integriert werden und dann werden die Daten zu den Auswertesystemen transferiert und nicht umgekehrt. Insbesondere wenn Festplatten, die zu den vergleichsweisen langsamen Bestandteilen der Rechnerarchitektur gehören, als Datenspeicher fungieren, werden Datenabfragen und -analysen relativ zeitaufwendig. Mehrere hardwaretechnologische Entwicklungen befördern die schnelle 8 Der Begriff des Data Warehouse wird wegen der Warenhausassoziation teilweise abgelehnt, vor allem wenn datenhaltende Stellen hochsensible Daten sicher verwahren, keinesfalls weitergeben und vor dem Zugriff unberechtigter Dritter in besonderem Maße schützen. Das Nationale Centrum für Tumorerkrankungen (NCT) bezeichnet sein Repositorium genetischer Daten als Data ThereHouse (www.nct-heidelberg.de/forschung/nct-core-services/nct-datatherehouse.html; 13.12.2021). Analyse immer größerer Datenbestände.9 Dennoch eignen sich derartige permanente Datenrepositorien nicht für Echtzeit- oder Nahe-Echtzeitanalysen von Daten, die nur temporär relevant sind (z. B. zur Automatisierung unterschiedlicher Arbeitsprozesse im Rahmen von Industrie 4.0 oder des autonomen Fahrens). Die Möglichkeiten des massiv-parallelen Rechnens mit verteilt arbeitenden Computerprogrammen und die Nutzung von Computerclustern, die über Serverknoten sowohl die Datenspeicherung dezentralisieren als auch die Rechenleistung erweitern (skalieren) können, führen zu einer neuen Systemarchitektur – Cloudcomputing (ausführlich z. B. in TAB 2014). Dafür muss die Hardware nicht mehr lokal in einem Rechenzentrum stehen, sondern kann bedarfsorientiert und flexibel über ein Netzwerk eingebunden werden. Daten werden temporär oder permanent auf unterschiedlichen Servern verteilt gelagert und dann unter Minimierung des Datentransfers dezentral und parallel verarbeitet. Die sich über viele miteinander vernetzte Computer erstreckende Datenverarbeitung erfordert flexible Strukturen und Interoperabilität aller beteiligten Komponenten. Zentrale Elemente sind Verteilsysteme, die Daten und Rechenoperationen über ein Netzwerk unterschiedlicher Rechner verteilt verwalten und parallel ausführen können (ausführlicher z. B. Bernsdorf et al. 2015, S. 162 ff.). Dadurch entstehen unterschiedliche Cloudservicebereiche. Sie ermöglichen die flexible Bereitstellung und Nutzung von: › Hardwareressourcen (Infrastructure as a Service) mit seinen Komponenten Rechner, Netze und Speicher; › Programmierumgebungen (Platform as a Service), um neue datenanalytische Funktionalitäten und Anwendungen leicht entwickeln und Serviceangebote kontinuierlich erweitern zu können; › Analysesoftware (Software as a Service), wobei Anbietende ihre Software auf ihren Computerclustern betreiben und Clienten erlauben, diese ebenfalls zu nutzen; › Daten (Data as a Service), können nicht nur aufbewahrt, sondern auch geteilt und genutzt werden, wobei sich unterschiedliche Möglichkeiten eröffnen, je nachdem ob lediglich Datenstrukturen, inhaltlich relevantere Rand- /Verkehrs-/Metadaten oder auch Dateninhalte zugänglich gemacht werden; › Sicherheitskonzepten (Security as a Service), für alle Elemente der Datenverarbeitung können das Identitätsmanagement (Autorisierung, Authentifizierung), die Datenverschlüsselung, Sicherheitsüberwachungen sowie Wartung und Aktualisierung von Sicherheitsprogrammen übernommen werden; › sodass durch diese unterschiedlichen Serviceelemente zum Teil ganze Geschäftsprozesse (Business Process as a Service) über Cloudstrukturen abgewickelt werden können. Cloudcomputing benötigt zentrale Steuerungseinheiten, die diverse parallellaufende Transaktionen und Aktivitäten orchestrieren.10 Auch wenn viele Datenanalysen ohne Cloudstrukturen durchgeführt werden können und Cloudcomputing zahlreiche Anwendungsfelder auch jenseits der Datenanalytik hat, wird insbesondere bei der sehr schnellen Analyse großer Datenmengen Cloudcomputing ein besonderes Potenzial zugeschrieben. Data- Mining-Prozesse mit rechenintensiven Ansätzen wie z. B. das Training künstlicher neuronaler Netze (Kap. 2.3.2) benötigen Datenverarbeitungsleistungen, die bisher am ehesten durch Cloudstrukturen erreicht werden können (Anwendungsbeispiele in Kap. 4.3.3). Cloudservices werden mit diversen Geschäftsmodellen betrieben. Die Spanne reicht von privaten Clouds, die von einem Unternehmen selbst in eigenen Rechenzentren betrieben und ausschließlich firmenintern genutzt werden, bis zu öffentlichen Clouds mit weltweit verteilten Rechenzentren, die Speicher- und Rechenleistungen skalieren und hochflexibel bereitstellen können. In private Clouds können wie in Data-Warehouses diverse ex- 9 Durch die In-Memory-Technologie können die schnelleren, zunehmend großen Arbeitsspeicher als Datenspeicher genutzt und langsamere Festplattenoperationen vermindert werden (TAB 2014, S. 48). Der Einsatz von Multi- oder Many-Core Prozessoren, von Graphikprozessoren bzw. -karten oder von spezifischen Chips wie Tensorprozessoren ermöglichen schnelles und paralleles Ausführen von Rechenoperationen (DEK 2019, S. 63). Damit steigt die Leistungsfähigkeit von Data Warehouses erheblich. 10 Das TAB hat bisher keine Hinweise, die darauf hindeuten, dass gänzlich andere Architekturen mit dezentral autonomen Organisationseinheiten ohne zentrale Instanz (z. B. dezentrale Peer-to-Peer-Netzwerke oder Blockchainkonzepte) im Kontext von Data-Mining als knowledge discovery in databases von besonderer Relevanz sind. terne Datenbestände integriert werden, deren Weiterverwendung ist jedoch begrenzt und kontrolliert. Bei öffentlichen Clouds können Nutzende kaum Einfluss darauf nehmen, wie und wo ihre Daten gespeichert und verarbeitet werden. Die größten öffentlichen Clouds werden teilweise auch als Hyperscaler11 bezeichnet. Besonderes Potenzial wird Systemarchitekturen unterstellt, bei denen Betreiberorganisationen zum einen Wert legen auf interoperable Datenkomponenten und auf einen effizienten Zugang zu Datenbeständen Dritter und zum anderen attraktive Programmierumgebungen und Angebote für Nutzende schaffen. Datenkomponenten benötigen Kommunikationskanäle, über die datengebende und datenverarbeitende Akteure eine Datennutzung situativ vereinbaren und rechtskonform realisieren können. In einer begrifflichen Erweiterung werden teilweise Dateninfrastrukturen gefordert. Durch diese sollen vor allem Daten, die im Rahmen öffentlicher Aufgaben entstanden, aus vielfältigen Quellen rechtskonform zugänglich und maschinell nutzbar gemacht werden. Das erfordert Harmonisierung und Katalogisierung (standardisierte Metadatensätze) von Datenbeständen sowie die Vernetzung von Repositorien und rechtssichere Zugänge über Portale. Öffentliche Geodatenbereiche gelten diesbezüglich als Vorreiter (Kap. 3.2.). Wenn dazu Betreiber attraktive Programmierumgebungen schaffen, sodass viele Softwareentwickler neue datenbezogene Anwendungen leicht erarbeiten und anbieten können, mit denen wiederum die Zahl der Nutzenden steigt, die darüber immer vielfältigere wirtschaftliche und private Prozesse abwickeln können, bezeichnet man dies teilweise auch als digitale Ökosysteme (Kasten 2.2). Ansätze, die nicht nur im Geschäftskundenbereich agieren (Business-to-Business), sondern auch Privatpersonen/Verbraucher/Patienten ansprechen können (Business-to-Consumer), wird besonderes Potenzial auch für gesellschaftliche Veränderungen unterstellt. Kasten 2.2 GAIA-X GAIA-X ist eine maßgeblich durch deutsche Akteure aus Politik, Wirtschaft und Wissenschaft vorangetriebene Initiative, ein europaweit vernetztes digitales Ökosystem aufzubauen (BMWi 2019). Ziel ist es, ein modulares, sicheres, vertrauenswürdiges und nutzerfreundliches Verbundsystem von europäischen Anbietern unterschiedlicher Cloudservices zu schaffen, das europäische Vorgaben zu Rechts-, Daten- und Cybersicherheit technisch umsetzen kann und einen souveränen Umgang mit Daten und Anwendungen (Analysetools) gewährleistet. Laut Bundesregierung (2020b) handelt es sich um ein neues Konzept einer vernetzten Dateninfrastruktur, das weitgehend auf bereits vorhandenen Elementen aufbauen und diese über offene Schnittstellen und Standards verbinden soll (kein gänzlich neuer Hyperscaler). Ziel sei ein gemeinsames digitales Ökosystem von Anbietenden und Anwendenden aus Wirtschaft, Wissenschaft und öffentlichen Diensten. U. a. sollen die über die nationale Forschungsdateninfrastruktur (NFDI) vernetzten Forschungsdatenzentren (S. 119) an diese IT-Architektur angeschlossen werden.12 Mit GAIA-X wird die Hoffnung verknüpft, dass damit interoperable Datenstrukturen entstehen, durch die auch im nationalen Gesundheitssystem hunderttausende Lerndatensätze in geprüfter Qualität für vielfältige Data-Mining-Projekte rechtskonform bereitgestellt werden können (BMWi 2019, S. 27 ff.). Eine prototypische Implementierung der Basisfunktionalität war ursprünglich für Ende 2020 geplant. Danach müsse sich GAIA-X am Markt beweisen. Die Bundesregierung kündigte an, GAIA-X als Kernelement der souveränen Datennutzung entschieden voranzutreiben (Bundesregierung 2021a, S. 21) und fördert inzwischen vielfältige Anwendungsentwicklungen auch im Gesundheitsbereich.13 Data Warehouses und Cloudcomputing haben etliche Gemeinsamkeiten aber auch jeweils spezifische Stärken und Grenzen, beide haben datenhaltende und datenanalysierende Komponenten. Cloudstrukturen können durch die Vernetzung von Hard- und Softwarekomponenten je nach situativem Bedarf flexibel genutzt werden. Durch standardisierte Datenkomponenten und Programmierumgebungen können viele softwareentwickelnde Akteure eingebunden werden und lassen sich datenanalytische Werkzeuge tendenziell schneller weiterentwickeln. Je offener Cloudstrukturen sind, desto aufwendiger und schwerer ist die Kontrolle der ablaufenden Prozesse sowie die rechtliche Klärung von Verantwortungs- und Haftungsfragen. In Data Warehouses lassen sich datenverarbeitende 11 Hyperscaler verbinden Tausende bis ggf. Millionen Server in einem Netzwerk. Dadurch werden hohe Zugriffsraten und fluktuierende Nutzung gleichermaßen ermöglicht, man spricht von horizontaler Leistungsskalierung oder auch von Grid-Computing (TAB 2014, S. 57). Vor allem die großen Clouds von Amazon, IBM, Google und Microsoft gelten als Hyperscaler. 12 www.nfdi.de/fair-data-spaces/ (13.05.2022) 13 www.bmwi.de/Redaktion/DE/Dossier/gaia-x.html (13.12.2021) Prozesse tendenziell besser kontrollieren und Verantwortlichkeiten rechtlich einfacher zuweisen. Data Warehouses und Cloudcomputing können sich ergänzen. Daten mit besonderer Kritikalität werden oftmals in Data Warehouses gehalten. Offene Cloudstrukturen werden für die Verarbeitung weniger kritischer Daten oder für spezielle Berechnungen genutzt, wenn eigene Ressourcen temporär nicht ausreichen. Sicherheit von Systemkomponenten Um die Anwendungsmöglichkeiten von Data-Mining zu erweitern sowie das Vertrauen in und die Akzeptanz von entsprechenden Prozessen zu stärken, sind sichere und verlässlich funktionierende Hard- und Softwarekomponenten erforderlich (Müller-Quade/ et al. 2020). Spezifische Sicherheitskonzepte nehmen die gesamte Prozesskette von der Primärdatenerhebung und deren Bereitstellung als Trainingsdaten über die Analyse und Ableitung von Informationen bis hin zur Operationalisierung datenanalytischer Verfahren und der Entwicklung von Informationsdiensten in den Blick und versuchen, alle Komponenten zuverlässig und unter Einhaltung normativer Vorgaben bereitzustellen. Derartige Sicherheitskonzepte haben mehrere Teilbereiche mit jeweils spezifischer Ausrichtung: IT-Sicherheit, Datenschutz und -sicherheit sowie Sicherheit/Richtigkeit im Rahmen des analytischen Vorgehens. IT-Sicherheitskonzepte sind auf die zuverlässige Bereitstellung von Hard- und Softwarekomponenten ausgerichtet und zielen darauf ab, Störungen möglichst prospektiv zu verhindern. Störungen werden in der heutigen Praxis wesentlich durch Cyberattacken verursacht. Sie können auch Data-Mining-Aktivitäten auf unterschiedliche Art und Weise gefährden, u. a. wenn › Roh- und/oder Trainingsdaten gelöscht oder unzugänglich gemacht werden und in Folge Data-Mining- Prozesse nicht mehr realisiert, reproduziert oder geprüft werden können; › Trainingsdaten manipuliert werden (teilweise können bereits geringfügige Datenmanipulationen Data- Mining-Ergebnisse verändern [Kap. 2.3.3]) oder › Analyseverfahren oder resultierende Ergebnisse manipuliert oder blockiert werden. Die Bewertung der Gefährdungslage von IT-Systemkomponenten erfolgt situativ und soll mögliche Folgedimensionen prospektiv in den Blick nehmen. Dabei wird vor allem rechtlich differenziert nach der gesellschaftlichen Bedeutung der jeweiligen Anwendungsbereiche (Einstufung als Komponenten kritischer Infrastrukturen [ Kasten 3.1]), aber auch nach den jeweiligen Dateninhalten und Geheimhaltungsinteressen. IT-Sicherheits- und Datenschutzkonzepte (Kap. 3.3.3) sind sich ergänzende notwendige Elemente für vielfältige Data-Mining-Prozesse. Die Sicherheit von IT-Systemen kann mit unterschiedlichen Ansätzen angestrebt werden. Der klassische Ansatz versucht, alle Komponenten mit unterschiedlichen technischen, organisatorischen und personellen Maßnahmen präventiv vor Angriffen zu schützen. Dazu gehören u. a. Datenverschlüsselungstechniken, der Einsatz von Firewall-Software, Zertifizierungs- und Autorisierungsverfahren, Protokollierungen und kontinuierliche Systemüberwachungen bezüglich unberechtigter Zu- und Eingriffe. Die Expertenkommission Forschung und Innovation (EFI) fordert, der Thematik Cybersicherheit mehr Bedeutung beizumessen und u. a. diesbezügliche nationale Kompetenzen auszubauen, Qualität entsprechender Produkte und Dienstleistungen zu verbessern sowie bestehende Standards und Zertifizierungen weiterzuentwickeln (ausführlich EFI 2020, S. 42 ff.). IT-Sicherheitsexpert/innen bezweifeln jedoch, dass es in absehbarer Zeit möglich sein wird, vernetzte Systemkomponenten vollständig sicher auszugestalten. Sie empfehlen deshalb zusätzlich zum klassischen IT- Sicherheitsansatz, auch mögliche Folgen solcher Attacken zu antizipieren und zu versuchen, diese möglichst gering zu halten. Die Datenethikkommission betont in diesem Zusammenhang auch die Bedeutung des Erhalts menschlicher Kompetenzen und Kontrollfähigkeiten (DEK 2019, S. 165). Die IT-Sicherheitsperspektive ist darauf ausgerichtet, Angriffe von außen abzuwehren und damit möglicherweise verbundene Schäden möglichst zu minimieren. Die Richtigkeit des analytischen Vorgehens, der verwendeten Roh- und Analysedaten sowie der jeweiligen mathematischen Verfahren und Algorithmen und die Zuverlässigkeit der eingesetzten Analysesoftware wird dabei nicht hinterfragt. Derartige Prüfungen sollten Bestandteil des eigentlichen Data-Mining-Prozesses (Kap. 2.3). bzw. in bestimmten Anwendungskontexten wie z. B. in der Medizin auch von Prüfinstanzen sein. 2.3 Data-Mining als Prozess: Schritte, Verfahren, Ergebnisse 2.3.1 Spezifikation der Untersuchungsaufgabe und Datenaufbereitung Data-Mining-Prozesse sind sowohl daten- als auch anwendungsgetrieben, d. h. es gibt zum einen Datenbestände und zum anderen spezifizierbare Untersuchungsaufgaben oder konkrete Fragestellungen, wie z. B.: Wo sind potenzielle Zielgruppen für ein Produkt oder eine Kampagne? Was sind relevante Risikofaktoren für Krebs? Welche Datenmuster sind spezifisch für bestimmte Sachverhalte oder Objekte? Bei einer datengetriebenen Aufgabenbearbeitung wird jede Untersuchungsfrage dann als ein mathematisches Problem formuliert, um dieses möglichst anhand verfügbarer Datenbestände mit einem bereits existierenden Analyseverfahren zu lösen (Knobloch/ Weidner 2000; Schepers et al. 2015, S. 43; Zweig 2016). Aus analytischer Sicht werden mit Data-Mining folgende Problemkategorien und Verfahren in Verbindung gebracht: › Erkennen von Ähnlichkeiten/Clusteranalysen: Verfahren suchen nach ähnlichen Objekten und nach Ähnlichkeitsstrukturen. Ziel ist es, Ballungen/Häufungen in Datensätzen zu erkennen und Gruppen ähnlicher Objekte zu identifizieren (Klassen/Features erstmals bilden), ohne dass Vorwissen berücksichtigt wird (z. B. bereits bestehende Klassifikationen). › Erkennen von Anomalien/Ausreißern: Verfahren suchen Auffälligkeiten in Datenbeständen, die auf Besonderheiten oder auf mögliche Datenfehler hindeuten und genauere Untersuchungen erfordern. › Objektzuweisungen/Klassifizierung: Verfahren ordnen neue Objekte bereits bestehenden Klassen oder Gruppen zu. › Erkennen von häufigen Zusammenhängen/Assoziationsanalysen: Verfahren suchen nach Beziehungen zwischen unterschiedlichen Merkmalen/Variablen (Korrelationen) und leiten daraus Regeln ab (welche Merkmalsausprägungen treten häufig zusammen auf, z. B. beim Kaufverhalten). › Erkennen von Strukturen zwischen Merkmalen und deren Ausprägungen/Regressionsanalysen: Verfahren quantifizieren Beziehungen vorzugsweise zwischen metrischen Merkmalen/Variablen. Die Resultate (Formeln, Modelle) können im nächsten Schritt zur Prognose fehlender Werte eingesetzt werden. › Reduktion der Datenmenge/Zusammenfassungen (nutzen alle genannten Verfahren): Verfahren zielen darauf ab, repräsentative Datenteilmengen zu finden, die möglichst nur die relevanten Teile einer Gesamtheit enthalten. Sie sind vor allem bei abstrakten Datentypen mit komplexen Strukturen (Texte, Bilder, Videos) relevant, um Trainingsdatensätze zu ermitteln (Extraktion) oder Schlüsselsequenzen, -begriffe abzuleiten (Abstraktion), anhand derer im nächsten Schritt z. B. Suchmaschinen14 optimiert werden. Da für unterschiedliche Datentypen unterschiedliche Verfahren in Betracht kommen und jedes Verfahren Stärken und Grenzen hat, sind bei der Verfahrensfestlegung erhebliche Fachkenntnisse erforderlich. Auch muss sich bereits abzeichnen, welche Rohdatenbestände genutzt werden sollen. Fehler bei der Spezifikation des methodischen Vorgehens können Ergebnisse und damit den ganzen Data-Mining-Prozess unbrauchbar machen. Aus verfügbaren Datenbeständen werden entsprechend der Untersuchungsaufgabe erforderliche Analysebzw. Trainingsdatensätze definiert, extrahiert und aufbereitet. Der Aufwand für die Datenaufbereitung in einem Data-Mining-Projekt ist oftmals erheblich. Er liegt Schätzungen zufolge bei 50–80 % der Projektressourcen (Knobloch/Weidner 2000, S. 354; Phillips 2017, S. 731). Die notwendigen Datenaufbereitungsschritte werden in der Regel projektspezifisch definiert und realisiert, wobei u. a. Verfahrensregeln und Filter kontinuierlich geprüft und weiterentwickelt werden (anwendungsbezogene Darstellung in Kap. 4 und 5). Um relevante Auffälligkeiten und Anomalien in Daten von Fehlern unterscheiden zu können, sind vielfältige Kenntnisse zum Entstehungsprozess der Daten, zu den abgebildeten Sachverhalten und den jeweiligen Kontexten erforderlich. Dafür erforderliche Arbeitsschritte lassen sich bisher weit weniger standardisieren oder gar automatisieren als die eigentliche Datenanalyse. Weitgehend übereinstimmend warnen Experten vor einem bedingungslosen Vertrauen in die Richtigkeit 14 Suchmaschinen sind Programme zur Recherche von Begriffen und Dokumenten, um Anfragen gezielt zu beantworten und Ergebnisse in einer möglichst sinnvollen Form bereitzustellen. der Inhalte großer Datenbestände und dem blinden Einsatz von Data-Mining-Techniken. Welches Maß an Richtigkeit ein Analysedatensatz haben muss bzw. welches Maß an Fehlern für eine Datenanalyse toleriert werden kann, lässt sich oft nur situativ entscheiden. 2.3.2 Datenanalytische Verfahren Data-Mining zielt darauf ab, in Datenbeständen enthaltene strukturelle Muster aufgabenbezogen zu ermitteln und darzustellen. Diese Darstellungen können sehr unterschiedlich sein. Die Spanne reicht von einzelnen statistischen Koeffizienten oder Ähnlichkeitsmaßen über die Ableitung von Regeln und Zuordnungsvorschriften bis zur Anpassung und Parametrisierung von Funktionen – auch als mathematisch-statistische Modelle bezeichnet. Die zunehmende Datenerhebung öffnet in vielfältigen Lebensbereichen Türen für die mathematische Modellierung, die versucht, wesentliche Phänomene eines Sachverhalts mittels Formeln zu beschreiben. Beim datenbasierten Vorgehen werden in einer Trainingsphase mit unterschiedlichen analytischen Verfahren aufgabenbezogen anhand von (Trainings-)Daten strukturelle Besonderheiten und Muster gesucht, Entscheidungsregeln aufgestellt oder Parameter allgemeiner mathematischer Modelle an diese Trainingsdaten angepasst. Mathematische Modelle können trivial einfach sein (z. B. einfache logische Verknüpfungen und Entscheidungsregeln) oder hochkomplex (wenn Modelle viele Variablen mit nichtlinearen Beziehungen abbilden und viele Parameter anhand umfangreicher Datenbestände angepasst werden z. B. Wettermodelle). Diese Darstellungen der ermittelten strukturellen Muster sind das primäre Data-Mining-Ergebnis. Sie ermöglichen eine spezifische Auseinandersetzung mit den jeweils ermittelten Mustern und Beziehungen sowie deren Prüfung. Dabei wird untersucht, inwiefern ermittelte Strukturen und Modelle verlässlich, valide und generalisierbar sind, d. h. sie ggf. zu prognostischen Zwecken auf neue Situationen übertragen werden können. Diverse klassische mathematisch-statistische Verfahren und Analysetechniken führen zu strukturellen Beschreibungen (logische Entscheidungsregeln, parametrisierte Formeln und Modelle), die zumindest für Fachleute nachvollziehbar und verständlich sind. Witten et al. (2011, S. 5 ff.) sind der Ansicht, dass derartige Strukturbeschreibungen in vielen Fällen mindestens so wichtig seien, wie deren möglicher Einsatz in neuen Situationen. Denn Data-Mining-Ergebnisse würden nicht nur genutzt, um neue Situationen zu bewerten, sondern wesentlich auch, um die ermittelten strukturellen Muster verstehen und Klassifikationsprozesse oder Vorhersagen nachvollziehen zu können – um im Sinne eines knowledge dicovery in databases auch Erkenntnisse abzuleiten bzw. Wissen zu erweitern. Deshalb sei es wichtig, in welcher Form Ergebnisse einer datenbasierten Trainingsphase präsentiert werden, entweder › als nachvollziehbares mathematisches Modell, dessen Entscheidungsstruktur anhand von Formeln explizit dargestellt wird (symbolische Ansätze) oder › als Black Box, die weder relevante Merkmale ausweist noch Entscheidungsstrukturen nachvollziehbar darstellt (nichtsymbolische Ansätze). Dieser Ansatz von Witten et al. (2011) erlaubt es, die Begriffe Data-Mining, maschinelles Lernen15 sowie klassische mathematisch-statistische Verfahren und künstliche neuronale Netze (KNN) einzuordnen. Witten et al. interpretieren Data-Mining als anwendungsgetriebenes maschinelles Lernen und klassische mathematisch- statistische Verfahren sowie das Training künstlicher neuronaler Netze als sich ergänzende methodische Vorgehensweisen. Maschinelles Lernen Maschinelles Lernen steht für den Aufbau und die schrittweise Anpassung mathematisch-statistischer Modelle an einen Trainingsdatensatz, die nach der Trainings- und Validierungsphase zur Beurteilung neuer Fälle oder Situationen des gleichen Sachverhalts eingesetzt werden können. Dafür gibt es unterschiedliche Herangehensweisen. Grob unterscheidet man: 15 Witten et al. (2011, S. 7 f.) plädieren dafür, statt Begriffe zu verwenden, die in erster Linie mit menschlichen Fähigkeiten assoziiert sind wie Intelligenz, Lernen oder Wissen und diese mit Adjektiven wie künstlich und maschinell abzugrenzen, nüchterner von komplexer Datenanalytik, von Trainingsprozessen und Modellanpassungen zu sprechen. › Überwachte Lernverfahren beruhen auf Trainingsdatensätzen, in denen aufgabenspezifische Zielmerkmale explizit enthalten und kategorisiert sind. Anwendungsbereiche sind Klassifizierungen/Objekterkennungen oder die Entwicklung klassischer parametrisierter Modelle u. a. für prognostische Aufgaben wie z. B. Szenarioberechnungen. › Unüberwachte Lernverfahren beruhen auf Trainingsdatensätzen, in denen aufgabenspezifische Zielmerkmale nicht explizit enthalten sind. Anwendungsbereiche sind Objekt- oder Merkmalsgruppieren (fassen ähnliche Objekte oder ähnliche Merkmale/Eigenschaften zusammen) oder Hauptkomponentenanalysen (strukturieren und vereinfachen umfangreiche Datensätze, fassen Merkmale zusammen). Etliche klassische statistische Verfahren werden aktuell mit maschinellem Lernen assoziiert (z. B. Regressions-, Cluster-, Faktor- oder Hauptkomponentenanalysen). Sie parametrisieren mathematisch-statistische Modelle anhand eines (Trainings)Datensatzes und führen zu Entscheidungsregeln für einen definierten Sachverhalt. Auch das Training künstlicher neuronaler Netze, um spezifische Sachverhalte zu erkennen und Aufgaben gezielt zu lösen, erfolgt mit speziellen, automatisiert ablaufenden (maschinellen) Lernverfahren bzw. -algorithmen. Man spricht vom Training bzw. der Anpassung eines allgemeinen statistischen Modells an einen Sachverhalt. Die Begriffe Data-Mining und maschinelles Lernen haben eine große Schnittmenge. Eine detaillierte Beschreibung unterschiedlicher datenanalytischer Werkzeuge und Verfahren, die mit maschinellem Lernen assoziiert werden, gibt z. B. Bishop (2006). Klassische statistische Verfahren (symbolische Verfahren) Viele Data-Mining-Aufgaben lassen sich mit klassischen multivariaten Verfahren lösen, insbesondere Bestände mit konkreten Datentypen können mit ihrer Hilfe vielfältig untersucht werden. Knobloch/Weidner (2000, S. 347) bezeichnen sie auch als nutzergeführte Verfahren, da Nutzende im Rahmen eines Data-Mining-Prozesses definieren, anhand welcher Merkmals-/Objektbereiche und mit welchen Verfahren und Algorithmen Untersuchungsaufgaben gelöst werden. Je nach Datentyp kommen unterschiedliche Algorithmen in Betracht, oder andersherum haben einzelne Algorithmen meist bestimmte Voraussetzungen und Annahmen in Bezug auf die zu analysierenden Daten (z. B. dass die Werte eines Merkmals normalverteilt sind, oder dass unterschiedliche Merkmale unabhängig voneinander sind). Wenn diese Annahmen nicht erfüllt und eingehalten werden, kann man sich nicht darauf verlassen, dass die ermittelte Struktur generalisierbar ist. Teilweise werden klassische multivariate Verfahren auch als symbolische Verfahren bezeichnet, da die aus den Trainingsdaten ermittelten strukturellen Muster, Auffälligkeiten oder Zusammenhänge durch Kennziffern, Formeln oder Regeln explizit dargestellt werden. Beispiele für ermittelte Strukturen sind u. a. Checklisten oder Entscheidungsbäume zur Objektklassifikation oder prognostische Modelle (Anwendungsbeispiele in Kap. 4.3). Klassische multivariate Verfahren liefern neben den Strukturen in der Regel auch verfahrensspezifische Gütekriterien (z. B. Bestimmtheitsmaße, Homogenitätskoeffizienten, Signifikanzniveaus), anhand derer abgeschätzt werden kann, wie gut das ermittelte Ergebnis den Trainingsdatensatz repräsentiert (interne bzw. datenbasierte Prüfung in Kap. 2.3.3). Bei komplexen Sachverhalten (die durch sehr viele Merkmale und/oder abstrakte Datentypen dargestellt werden) oder bei sehr selten auftretenden Ereignissen/Sachverhalten kommen klassische multivariate Verfahren an ihre Grenzen. Auch nach jahrelanger Weiterentwicklung liefern sie fehlerbehaftete oder unbrauchbare Ergebnisse, weil sie die Komplexität der jeweiligen Sachverhalte auch mit tausenden von Regeln und Formeln nicht adäquat abbilden können. Beispiele sind Objekterkennungen auf Bildern oder Videos, Texterkennungen und - übersetzungen. Auf unterschiedliche wahrscheinlichkeitstheoretische Ansätze aufbauende Verfahren können teilweise auch dann noch zuverlässige Ergebnisse liefern, wenn klassische multivariate Verfahren an ihre Grenzen kommen. Beispiele sind Fuzzylogiksysteme, die neben klaren Wahr- oder Falschaussagen bzw. eindeutigen Wenn-Dann- Beziehungen auch unscharfe Aussagen zulassen (z. B. wenn X, dann zu 70 % Y), oder Bayes'sche Netze, die Wahrscheinlichkeitsmodelle faktorisieren und auch bei kleineren (Trainings)Datensätzen eingesetzt werden oder auch bei sehr seltenen Ereignissen noch sinnvolle Ergebnisse liefern können (ausführlicher in Kap. 5.5.3). Derartige Ansätze können sinnbildlich als Brückenglied zwischen klassischen statistischen Verfahren und künstlichen neuronalen Netzen aufgefasst werden. Eine detaillierte Beschreibung unterschiedlicher datenanalytischer Werkzeuge und Verfahren, die beim Data-Mining eingesetzt werden können, geben z. B. Witten et al. (2011). Training künstlicher neuronaler Netze (subsymbolische Verfahren) Künstliche neuronale Netze können als eine Art allgemeines mathematisch-statistisches Modell mit höherer Komplexität aufgefasst werden. Deren Grundstruktur hat gewisse Ähnlichkeiten mit dem Aufbau des Gehirns, deshalb werden sie als künstliche neuronale Netze (KNN) bezeichnet oder mit dem Begriff künstlicher Intelligenz (KI) assoziiert. KNN bestehen aus künstlichen Neuronen/Knoten (es gibt unterschiedliche Formen), die auf Schichten (layer) angeordnet und über gewichtete Verbindungen (mathematische Funktionen) miteinander verknüpft sind. Leistungsstarke KNN haben viele Knoten auf mehreren hintereinanderliegenden Schichten.16 Auch die einzelnen Schichten sind über Aktivierungsfunktionen miteinander verbunden. Diese Funktionen können ebenfalls unterschiedliche Formen und formgebende Parameter haben (lineare, nichtlineare, auch mit Differenzialgleichungen wird experimentiert). Durch die jeweils eingesetzte Form der künstlichen Neuronen, die Anzahl der Schichten und die jeweilige Form der Verbindungsfunktionen mit ihren Gewichten und Parametern entstehen unterschiedliche Netzstrukturen (Topologien). Auch KNN werden in der Trainingsphase an einen spezifischen Sachverhalt angepasst und trainiert, um eine bestimmte Aufgabe zu lösen (z. B. Objekte auf Abbildungen zu erkennen). Dafür werden überwachte oder unüberwachte Lernverfahren eingesetzt. Die einzelnen Schritte eines Lernverfahrens sind in Algorithmen definiert und verändern sich während des Lernprozesses nicht. Die Lernalgorithmen bauen auf unterschiedlichen wahrscheinlichkeitstheoretischen Ansätzen auf. Sie definieren, wie zuerst in der Trainingsphase über die Aktivierungsfunktionen die jeweiligen Aktivierungsschwellenwerte von künstlichen Neuronen angepasst, die Funktionen zwischen den Neuronen und zwischen den Netzschichten modifiziert (verstärkt oder abgeschwächt), die jeweils ermittelte Lösung der Aufgabe kontrolliert und die Richtig-/Falschbewertung als Feedback in den Trainingsprozess eingespeist werden. Dadurch wird eine Entscheidungsstruktur innerhalb eines KNN aufgebaut. Da diese Entscheidungsstruktur von den vorgelegten Daten und den spezifischen Lernalgorithmen beeinflusst wird – sie durch diese lernt –, wird dieser Ansatz immer mit maschinellem Lernen assoziiert. KNN funktionieren mit großen Datenmengen oft besonders gut, denn die anhand von bedingten Wahrscheinlichkeiten ermittelten internen Entscheidungsstrukturen werden meist besser, je mehr Daten eingespeist werden. Deshalb sind KNN und deren Lernalgorithmen meist so aufgebaut, dass bei jedem neuen Datensatz die Gewichtung der simulierten Verbindungen zwischen den künstlichen Neuronen und die Parameter der Aktivierungsfunktionen der Netzschichten entsprechend der jeweiligen Lernregel angepasst werden können und KNN folglich auch in der Anwendungsphase kontinuierlich weitertrainiert werden (ausführlicher z. B. Angerer 2018; Bitkom 2019; Nielsen 2018; Rey/Wender 2018; Silver et al. 2017; Welzel/Grosch 2018.) Das Training künstlicher neuronaler Netze wird mitunter auch als sub- oder nichtsymbolisches Verfahren aufgefasst, weil die erlernten Lösungswege und die Entscheidungsstrukturen nicht durch das sich mit jedem Trainingsschritt verändernde Modell explizit dargestellt werden und in Folge auch nicht jeder Schritt des Lernprozesses nachvollzogen werden kann. Datenanalyst/innen wählen anhand der jeweiligen Aufgabenstellung die Form des KNN und die Lernverfahren aus und bereiten die jeweiligen Trainingsdaten auf, ohne dass sie explizit definieren, anhand welcher Merkmals-/Datenbereiche Strukturen und Muster ermittelt werden sollen. Übereinstimmend wird darauf hingewiesen, dass die Qualität und Repräsentativität der jeweiligen Trainingsdatensätze von entscheidender Bedeutung sind (z. B. Ching et al. 2018; Jones 2014; Rey/Wender 2018; Wolfangel 2015) – genau wie bei klassischen statistischen Verfahren. Künstlichen neuronalen Netzen werden gegenwärtig besondere Potenziale unterstellt. Mit ihnen werden große Hoffnungen geschürt (z. B. dass sie die Medizin individualisieren und optimale Behandlungsabläufe ermitteln können), aber auch Ängste verbunden (z. B. vor nicht nachvollziehbaren Entscheidungen und unkontrollierbaren Robotern). Auch wenn sich viele Anwendungsvisionen zum Einsatz von KNN z. B. in der medizinischen Diagnostik, beim autonomen Fahren, bei der Technikwartung, Spracherkennung oder Identitätsfeststellung (ausführlicher z. B. in Bitkom 2015; Hecker et al. 2017) bisher kaum realisierten, hat durch große Forschungs- und Entwicklungsprogramme weltweit das diesbezügliche Technikverständnis zweifellos zugenommen und können Möglichkeiten und Grenzen realistischer eingeschätzt werden. Deutlich wird u. a., dass die jeweiligen Verfahren bisher nicht immer robust sind. Bereits geringfügige Datenveränderungen (z. B. durch technische Fehler bei der 16 2000 vernetzten KNN 102 Neuronen, 2015 bereits 106 Neuronen (Bitkom 2019, S. 12). Das 2012 von Google entwickelte Deep Convolutional Neural Network hatte 9 hintereinanderliegende Schichten. 2015 stellte Microsoft Research Asia das Project Oxford mit mehr als 150 Schichten vor. Sogenannte ResNets, mit denen biologische kognitive Prozesse abgebildet werden sollen, haben mehr als 1.000 Schichten (Gelitz 2019). Datenerhebung, durch Verschleierungen oder Verzerrungen zur Erhöhung der Datensicherheit [Kap. 3.3.3] oder durch cyberkriminelle Aktivitäten) können Entscheidungsprozesse verändern. Diese Anfälligkeit erschwert den Übergang vom experimentellen KNN-Einsatz in die operative Anwendung (Ching et al. 2018; Finlayson et al. 2019; Heaven 2019). Aspekte der Produkt-, IT- und Cybersicherheit müssen beim KNN-Einsatz in besonderem Maße berücksichtigt werden (ausführlicher z. B. in Bitkom 2019, S. 43 ff.). Trainierte künstliche neuronale Netze werfen auch Fragen zur Nachvollziehbarkeit der Ergebnisgenerierung und den Folgen auf. Welche Merkmale und Merkmalsausprägungen (Attribute) für die Unterscheidung und Zuordnung in die jeweiligen Zielkategorien entscheidungsrelevant sind und welche Lösungswege entstehen, erschließt sich weder anhand der sich verändernden Netzstruktur noch anhand der eingesetzten Lernalgorithmen. Nur die Ausgaben der letzten Schicht sind als Ergebnisse außerhalb des Netzes sichtbar. Bisher werden auch keine Gütekriterien ermittelt und ausgegeben, anhand derer abgeschätzt werden kann, wie aussagekräftig ein ermitteltes Ergebnis ist (interne Prüfung [Kap. 2.3.3]). In Folge werden KNN teilweise auch als Black Box bezeichnet. An Verfahren, mit denen die Entscheidungsfindung und die Ergebnisse besser nachvollzogen werden können (teils auch als erklärbare KI bzw. explainable artifical Intelligence [XAI] bezeichnet) und an Prüfansätzen zur Bewertung der Robustheit der Verfahren wird derzeit gearbeitet (Bitkom 2019; Samek et al. 2019). Da die ermittelten strukturellen Muster nicht explizit dargestellt werden und auch Fachkräfte daraus keine Erkenntnisse ableiten können, wird das Training von KNN zwar immer als maschinelles Lernen und komplexes datenanalytisches Verfahren, aber mitunter nicht als Data-Mining im Sinne des knowledge discovery in databases aufgefasst. Das ist jedoch eher eine unter Analyst/innen geführte Diskussion zur Abgrenzung unterschiedlicher Verfahren. 2.3.3 Ergebnisprüfungen Es gibt unterschiedliche Möglichkeiten, die Richtigkeit von Data-Mining-Ergebnissen abzuschätzen und zu bewerten: Zum einen verfahrensinterne Prüfansätze (vor allem klassische statistische Verfahren liefern unterschiedliche Gütekennziffern), die unmittelbar an den In- und Outputkomponenten (Analysedaten und daraus abgeleitete strukturelle Muster) anknüpfen. Zum anderen gibt es verfahrensexterne Prüfansätze. Sie nehmen die Anwendung ermittelter Regeln und Modelle zur Bewertung neuer Sachverhalte in den Blick. Auch die Suche nach möglicherweise vorliegenden Fehlern erfordert externe Prüfungen. Da diese vielfältige Ursachen haben können (unpassende Trainingsdatensätze oder Analyseverfahren, weitere zufällige Faktoren), sind diese methodisch inhaltlichen Prüfungen besonders aufwendig (Zweig 2019a, S. 150). Interne Prüfung: Möglichkeiten und Grenzen Algorithmen, die bei klassischen mathematisch-statistischen Verfahren eingesetzt werden, berechnen nicht nur definierte Parameter von Zielfunktionen und -modellen (u. a. Gruppenmittelpunkte ähnlicher Objekte, Korrelationen zwischen Merkmalen oder mögliche Minima von Zielfunktionen). Sie liefern regelmäßig auch verfahrensspezifische Kriterien (z. B. Bestimmtheitsmaße, Homogenitätskoeffizienten, Signifikanzniveaus), anhand derer abgeschätzt werden kann, wie gut das jeweils ermittelte strukturelle Muster die Analysedaten repräsentiert. Diese Kriterien steuern einerseits einzelne Prozesse der zunehmend automatisiert ablaufenden Analyseverfahren (z. B. als Lenkungs- oder Abbruchkriterien iterativer Prozesse). Andererseits können sie als Indikatoren für die Verlässlichkeit und Genauigkeit der ermittelten mathematisch-statistischen Modelle interpretiert werden und sind folglich bei der Ergebnisbewertung höchst relevant. Oft geben sie den Ausschlag, ob ein ermitteltes Ergebnis überhaupt als verwendbar eingestuft wird. Verfahrensspezifische Gütekriterien haben methodische Grenzen. In bestimmten Situationen, z. B. bei sehr selten auftretenden Sachverhalten (Anwendungsbeispiel Kap. 5.5.3) oder wenn viele Merkmale in eine Analyse einfließen, die für eine spezifische Aufgabenstellung kaum relevant sind (Problem der Überanpassung), sind einzelne Kriterien keine guten Indikatoren zur Bewertung der Modellqualität.17 Eine andere Prüfmöglichkeit basiert auf dem Prinzip der Kreuzvalidierung (Abb. 2.5). Dafür wird ein für eine Analyse verfügbarer Datenbestand geteilt in einen Trainings- und einen Testdatensatz. Mit den Trainingsdaten wird ein mathematisch-statistisches Modell spezifiziert, das dann die ausgeschlossenen Testdatensätze bewertet oder prognostiziert. Durch wiederholte Neuaufsplittung der Analysedaten lassen sich mittlere Fehlerraten für das jeweilige Modell berechnen. Mit diesem Verfahren kann vor allem die Qualität von Modellen bewertet werden, die mit klassischen statistischen Verfahren spezifiziert wurden. Ergebnisbewertungen mit Kreuzvalidierungen werden mit größeren Analysedatenbeständen aufwendiger. Abb. 2.5 Teilung eines Analysedatenbestandes zur Kreuzvalidierung Eigene Darstellung Auch wenn das Training von KNN derzeit mit großen Hoffnungen verbunden wird, sind Ergebnisprüfungen oftmals eine Herausforderung. Bisher liefern die jeweiligen maschinellen Lernverfahren keine internen Gütekriterien als Indikatoren für die Genauigkeit der Verfahren bzw. für die Richtigkeit der Ergebnisse. Grundsätzlich können beim KNN-Training mit überwachten Lernverfahren Fehler in der Trainingsphase verfahrensintern erkannt (wenn berechnete Zielwerte nicht mit den im Trainingsdatensatz mitgelieferten Zielwerten übereinstimmen) und durch iterative Anpassung der Stärke der Neuronenverbindungen minimiert werden (bis errechnete und mitgelieferte Zielwerte passen). Unüberwachte Lernverfahren haben diese Anpassungsmöglichkeit nicht. Auch die Berechnung von mittleren Fehlerraten durch wiederholte Neuaufsplittungen von Analysedaten in Trainings- und Testdaten ist nicht praktikabel, da KNN kontinuierlich lernen und der Lernprozess nicht rückgängig gemacht werden kann. Aufgrund der begrenzten verfahrensinternen Prüfmöglichkeiten steigt die Relevanz externer Prüfverfahren. Externe Prüfungen: Möglichkeiten und Grenzen Je komplexer Untersuchungsaufgaben und je weniger verfahrensinterne Prüfmöglichkeiten existieren, desto relevanter werden verfahrensexterne Prüfungen – sowohl bei symbolischen als auch bei subsymbolischen Verfahren. Externe Prüfungen können an den zugrundeliegenden Analysedaten, den eingesetzten mustererkennenden Verfahren sowie den abgeleiteten Regeln und Modellen und den möglicherweise damit ermittelten Informationen ansetzen. Derartige Prüfungen sind in der Regel aufwendig und erfordern spezifische Fachkenntnisse. Eine Herangehensweise knüpft an die Ermittlung von Gütekriterien und Fehlerraten anhand von Testdatensätzen an. Ein anderer Ansatz ist die fachlich inhaltliche Auseinandersetzung mit den eingesetzten Analysedaten, -verfahren und 17 Bei klassischen statistischen Verfahren (die jeweiligen erklärenden Merkmale/Variablen werden vorab festgelegt) kann es zur Überanpassung (overfitting) kommen, wenn für die Modellbildung zu viele Merkmale als erklärende Variablen definiert wurden, darunter auch solche, die für eine spezifische Fragestellung nicht relevant sind. Durch die Ausweitung der Anzahl erklärender Merkmale sinken die Werte der Gütekriterien nicht ab, sodass die tatsächlich geringer werdende Anpassungsgüte des Modells verschleiert wird. Dennoch fehlt dem Modell die Generalität (ermittelte Strukturen können nicht auf neue Situationen übertragen und/oder in einer größeren Grundgesamtheit sinnvoll eingesetzt werden). Das Gegenteil ist Unteranpassung (underfitting) eines Modells, wenn tatsächlich relevante Merkmale bei einer Analyse außer Acht gelassen wurden. Auch dann fehlt dem Modell die Generalität, was die Gütekriterien jedoch anzeigen. den ermittelten Ergebnissen. Oftmals ergänzen sich diese Ansätze, da Gütekriterien mögliche Fehler indizieren und methodisch inhaltliche Prüfungen nach Fehlerursachen suchen. Statistische Gütekriterien Anhand von Testdatensätzen, die nicht bereits in ein Data-Mining-Verfahren zum Finden struktureller Muster und zur Modellparametrisierung eingesetzt wurden, kann geprüft werden, in welchem Umfang ermittelte Regeln und Modelle neue Situationen richtig erkennen und definierte Aufgaben korrekt lösen können. Vor allem bei Klassifikationsaufgaben sind folgende Gütekriterien zur externen Prüfung und Qualitätsbewertung von diversen diagnostischen und prognostischen Verfahren relevant – und in der Medizin seit Jahren genutzt (Tab. 2.1; Kap. 4.2): › Sensitivität (Richtig-positiv-Rate): tatsächlich Kranke werden durch ein datenbasiertes Verfahren bzw. statistisches Modell richtig als krank klassifiziert; › Spezifität (Richtig-negativ-Rate): Gesunde werden richtig als gesund klassifiziert; › positiver Vorhersagewert (Falsch-positiv-Rate): Gesunde werden als krank befundet; › negativer Vorhersagewert (Falsch-negativ-Rate): Kranke werden als gesund befundet; › Genauigkeit (Treffsicherheit): Anteil aller richtig befundeten Personen; › Fehlerrate (Gegenstück zur Genauigkeit): Anteil aller falsch befundeten Personen. Tab. 2.1 Statistische Gütekriterien von Klassifikationsverfahren Prüfobjekte/neuer Fall total Gütekriterien krank (positiv) gesund (negativ) T es te rg eb n is krank (positiv) richtig positiv RP falsch positiv FP (Fehler 2. Art) RP+FP positiver Vorhersagewert RP/(RP-FP) gesund (negativ) falsch negativ FN (Fehler 1. Art) richtig negativ RN FN+RN negativer Vorhersagewert FN/(FN+RN) total RP+FN FP+RN RP+FP+FN+RN Gütekriterien Sensitivität RP/(RP+FN) Spezifität RN/(FP+RN) Genauigkeit (RP+RN)/ (RP+FP+FN+RN) Fehlerrate (FP+FN)/ (RP+FP+FN+RN) Quelle: nach https://en.wikipedia.org/wiki/Evaluation_of_binary_classifiers (13.12.2021) Diese Gütekriterien ermöglichen unterschiedliche Prüfungen: Einerseits kann die Richtigkeit/Güte einzelner Entscheidungsregeln und Modelle im Zeitverlauf geprüft werden, andererseits können unterschiedliche mathematisch-statistische Verfahren (symbolische und subsymbolische Verfahren) auch mit menschlichen Fähigkeiten verglichen werden. Zur Qualitätsbewertung trainierter KNN sind diese externen Prüfungen hochrelevant, da weder verfahrensinterne Qualitätskriterien ausgegeben noch Entscheidungsprozesse transparent dargestellt werden (Black-Box-Problematik). Auch können bei trainierten KNN Überanpassungen auftreten (Finlayson et al. 2019; Heaven 2019), was anhand der Fehlerrate festgestellt werden kann.18 Seit einigen Jahren werden für die Objekterkennung auf Abbildungen spezielle Wettbewerbe organisiert, bei denen anhand einheitlicher Testdatensätze diese Gütekriterien für unterschiedliche Klassifikationsverfahren ermittelt und verglichen werden. Laut Jones (2014) nehmen seit 2012 trainierte KNN an diesen Wettbewerben teil. Sie waren von Anfang an besser als symbolische Verfahren (Fehlerraten: subsymbolische Verfahren ca. 15 %; symbolische Verfahren ca. 25 %) und erreichen bei einfachen Objekten seit 2014 in etwa menschliches Niveau. Dieserart Wettbewerbe sind nicht auf die Erkennung fachspezifischer komplexer Objekte ausgerichtet (z. B. die Befundung von Mammografieaufnahmen). Liu et al. (2019) haben im Rahmen einer umfangreichen Metaanalyse erstmals systematisch Publikationen zu Studien erfasst, die unterschiedliche datenbasierte Verfahren sowie menschliche Fachexpertisen zur Erkennung von Auffälligkeiten auf medizinischen Abbildungen thematisierten. Sie fanden nur wenige methodisch hochwertige Studien (insgesamt 14), die statistische Gütekriterien vergleichbar auswiesen und dadurch extern validierbar waren. Vor allem Studien, in denen trainierte KNN eingesetzt wurden, waren häufig schlecht dokumentiert. Mitunter wurden nur einzelne statistische Gütekriterien ausgewiesen, teilweise ohne diese in einen analytischen Kontext zu stellen und ohne auf deren Grenzen der Aussagefähigkeit hinzuweisen oder die Ergebnisse mit anderen Verfahren zu vergleichen.19 Die Ergebnisse der wenigen methodisch hochwertigen Studien deuten darauf hin, dass in unterschiedlichen Krankheitskontexten die anhand von statistischen Gütekriterien definierte diagnostische Leistung (vor allem Sensitivität, Spezifität und Fehlerrate) von trainierten KNN mit der von Radiologinnen und Radiologen vergleichbar sind (Ching et al. 2018, S. 33; Liu et al. 2019, S. 21). Um methodisch korrekter vorgehen zu können, werden seit einigen Jahren für definierte Untersuchungsaufgaben Trainings- und Testdatensätze zusammengestellt.20 Mit den Testdatensätzen können nach der Trainingsphase auch Gütekriterien für unterschiedliche Verfahren unter gleichen Bedingungen retrospektiv ermittelt und verglichen werden. Bei klassischen symbolischen Verfahren sollten sich die jeweiligen statistischen Kennziffern über die Zeit nicht verändern, da die Zuordnung immer nach der gleichen Berechnungsvorschrift erfolgt. Da sich bei subsymbolischen Verfahren diese Kennziffern im Zeitverlauf ändern können, müssen Methoden zur Qualitätsbewertung und zum Leistungsvergleich entsprechend weiterentwickelt werden. Liu et al. (2019) fordern entsprechend neue Berichterstattungsstandards für externe Ergebnisvalidierungen, die insbesondere die spezifischen Herausforderungen von trainierten KNN berücksichtigen. Auch sollten Studiendesigns methodisch weiterentwickelt und die Studienqualität verbessert werden, um mehr Vertrauen zu dieser vielversprechenden Technologie aufzubauen und Ergebnisse extern bewerten zu können. Methodisch inhaltliche Prüfungen und Data-Mining-Grenzen Als Ursachen für Fehler im Rahmen von Data-Mining-Prozessen kommen die jeweils eingesetzten Trainingsdaten, die verwendeten Analyseverfahren und diverse weitere zufällige Faktoren in Frage (Zweig 2019a, S. 150). Einige Aspekte sollen nachfolgend angerissen werden, um die Bedeutung von Fachkenntnissen und methodisch inhaltlichen Fehlerprüfungen zu unterstreichen. Derartige Fehlerprüfungen erscheinen umso dringender, je einfa- 18 Überanpassung kann auch bei trainierten KNN in der längerfristigen Anwendung auftreten. Nachdem ein KNN anhand eines speziell zusammengestellten Trainingsdatensatzes beispielsweise überwacht lernte, die Ziffern von 0 bis 9 auf Bildern zu erkennen, kann es im Anschluss neue handschriftliche Ziffern zuordnen. Die Erkennungsleistung des KNN steigt in der Trainingsphase und darüber hinaus zunächst kontinuierlich (Fehlerrate sinkt) bis sie ein gewisses Niveau erreicht (Fehlerrate erreicht ein Minimum, auch als Sättigungsphase bezeichnet). Mitunter steigt die Fehlerrate danach wieder, wenn sich das KNN zu sehr an die kontinuierlich vorgelegten Anwendungsfälle anpasst und sich nicht mehr an den ursprünglich vorgelegten Formen orientiert. Mitunter reichen bereits geringfügige Veränderungen aus. Um eine mögliche Überanpassung zu erkennen, sollte in regelmäßigen Abständen mit einem neuen Testdatensatz die Fehlerrate ermittelt werden. Steigt sie im Zeitverlauf, ist dies ein Hinweis auf Überanpassung. Dann sollte ein neues KNN trainiert und eingesetzt werden. 19 Insbesondere bei (sehr) selten auftretenden Ereignissen werden Vorhersagewerte oftmals intuitiv fehlinterpretiert. Im Rahmen der vom Max-Planck-Institut für Bildungsforschung herausgegebenen Unstatistik des Monats werden regelmäßig Fehlinterpretationen diskutiert (www.mpib-berlin.mpg.de/de/presse/dossiers/unstatistik-des-monats; 13.12.2021). 20 Umfangreiche themenspezifische Listen von Trainings- und Testdatensätzen gibt es beispielsweise unter wikipedia.org/wiki/List_of_ datasets_for_machine-learning_research (13.12.2021) cher vielfältige Datenbestände mit voreingestellten Analysetools von datenanalytischer Software verarbeitet werden können und die im Hintergrund arbeitenden Algorithmen so programmiert sind, dass die immer Ergebnisse liefern (Kasten 2.3). Kasten 2.3 Beispielhafte externe Prüfung voreingestellter Analysetools Seit ca. 25 Jahren wird in der neurowissenschaftlichen Forschung die funktionale Magnetresonanztherapie (fMRT) eingesetzt, ein bildgebendes Verfahren zur Messung der Hirnaktivität. Methodisch anerkannt ist die Zusammenführung von fMRT-Messdaten mehrerer aktiver Probanden und der Vergleich mit ebenfalls zusammengeführten fMRT-Daten mehrerer ruhender Probanden. Abweichungen in den Aktivitätsmustern von aktiven und ruhenden Probandengruppen zeigen an, welche Hirnregion bei der jeweils ausgeführten Aktivität wie stark beteiligt ist. Dieses Vorgehen wird inzwischen mittels in fMRT-Analysesoftware integrierten Algorithmen weitgehend automatisiert realisiert. In sich auf fMRT-Datenanalysen stützenden wissenschaftlichen Publikationen der letzten Jahre dominierten drei Analyseprogramme. Alle nutzten für den Vergleich einen synthetischen Datensatz einer ruhenden Probandengruppe. Die Programme sind anerkannt und werden bei Forschungsprojekten regelmäßig eingesetzt, ohne dass bei jedem Einsatz jedes methodische Detail neu geprüft wird. Auch Peer-Reviews entsprechender Publikationen forderten keine explizite Validierung der Vergleichsdatensätze mehr ein. 2016 prüften Analysten diese Vorgehensweise (Eklund et al. 2016). Sie verglichen die voreingestellt hinzugezogenen synthetischen Datensätze mit inzwischen vielfach öffentlich verfügbaren realen fMRT-Daten ruhender Probanden und stießen auf erhebliche Abweichungen. Sie stellten fest, dass in einzelnen Studien kaum noch geprüft wurde, inwiefern der vom Algorithmus standardmäßig genutzte Datensatz alle Voraussetzungen für einen korrekten Vergleich mit den jeweiligen Studiendaten erfüllt. Da diese Voraussetzungen oft nicht erfüllt waren, die Algorithmen aber so designt sind, dass sie trotzdem eingesetzt werden können und Ergebnisse liefern, produzierten sie häufiger falsch positive Werte, d. h. sie wiesen Hirnaktivität aus, wo eigentlich keine war. Die Überprüfung deutete auf deutliche Überschreitungen der normalerweise tolerierten Fehlerraten hin. Dies war kein Fehler des Algorithmus an sich, vielmehr wurden voreingestellte Vergleichsdatensätze für die Berechnung herangezogen, die situativ nicht passten. Die Autoren wiesen nachdrücklich darauf hin, Algorithmen nicht blind anzuwenden, sondern sich vor jedem Einsatz mit deren spezifischer Methodik und deren jeweiligen Grenzen auseinanderzusetzen. Bei der methodischen Prüfung ist es wichtig, sich der Grenzen datenbasierten Vorgehens bewusst zu sein: Mit Data-Mining-Verfahren können nur solche Muster und Strukturen gefunden werden, die in den jeweiligen Analysedatensätzen enthalten sind. Neue Phänomene sind in alten Datenbeständen oftmals nicht, nicht gut oder genau genug enthalten (z. B. dürften Datensätze von menschlichen Blutproben, die vor 2020 erhoben wurden, keine Informationen zu SARS-CoV-2-Erreger enthalten). Hochkomplexe Sachverhalte sind oft nicht in ausreichender Detailgenauigkeit enthalten und Modelle als vereinfachte Darstellungen können nur Teilaspekte abbilden (z. B. können Wettermodelle lokale Entwicklungen in ihrer Dynamik nur schwer abbilden). Aufgrund von vereinfachten Darstellungen können extrahierte Strukturen zu Fehlinterpretationen führen, weil zufällige oder indirekte Beziehungen abgebildet werden und Korrelationen als Kausalitäten gedeutet werden (der Klassiker ist die Korrelation zwischen menschlichen Geburtenraten und der Anzahl an Storchenpaaren in unterschiedlichen europäischen Regionen [Matthews 2000]). Sehr seltene Ereignisse sind in mehrfacher Hinsicht eine datenanalytische Herausforderung: Da Trainingsdaten meist nur Stichproben sind, besteht die Gefahr, dass seltene Ereignisse unterrepräsentiert oder gar nicht enthalten sind (das Fehlen solcher Ereignisse, heißt nicht, dass es diese nicht gibt) oder Gütekriterien fehlinterpretiert werden. Trainierte KNN sind für methodisch-inhaltliche Prüfungen eine besondere Herausforderung. Wegen der Black-Box-Darstellungen kann das Vorgehen nicht direkt anhand von Parametern, Formeln oder Kennziffern nachvollzogen werden. Verfahrensspezifische Fehler, wie z. B. Fehlanpassungen in der Trainingsphase, können nur schwer gefunden werden. In der methodischen Diskussion zu den Stärken und Grenzen von Klassifikationsverfahren wird mitunter die Fehleranfälligkeit als Bewertungskriterium herangezogen. Eher allgemein logisch wird argumentiert, dass im Gegensatz zum Menschen Computer und Algorithmen nie müde und unaufmerksam werden und in Folge die Fehlerquote nicht müdigkeitsbedingt steigen würde. Aufgrund der hohen verfügbaren Rechenleistungen könnten vor allem KNN der neuesten Generation in Sekundenbruchteilen bereits kleinste Veränderungen erfassen, die selbst geschulten Experten mitunter leicht entgehen würden. Diesem Argument wird teilweise entgegengehalten, dass insbesondere trainierte KNN bereits durch geringfügige Datenveränderungen auch leicht zu täuschen und anfällig für Überanpassungen seien. Einige Analyst/innen bewerten diesen Ansatz deshalb derzeit dennoch als fehleranfälliger (auch in Bezug auf missbräuchliche Manipulationen z. B. durch Hackerangriffe) und weniger robust im Vergleich zu Fachkräftebewertungen (Finlayson et al. 2019; Heaven 2019). Diverse Verfahrensvergleiche zeigen, dass bei komplexen Sachverhalten in der Regel weder mathematisch-statistische Verfahren noch die Expertise von Fachkräften vollständige Fehlerfreiheit garantieren können. Je nach Anwendungsbereich ist deshalb die Frage nach den Folgendimensionen und der Minimierung möglicher Schäden beim Einsatz derartiger Verfahren von besonderer Bedeutung. Dafür wird dann oftmals differenziert, ob Fehler 1. oder 2. Art (Tab. 2.1) ggf. tolerierbar seien. Die Diskussion zu den Stärken und Grenzen unterschiedlicher analytischer Ansätze ist nicht fundamental neu, sie wird in der Medizin kontinuierlich geführt (Kap. 4). Eine weitere derzeit im Kontext von komplexen Datenanalysen oder Big Data thematisierte mögliche Folgedimension ist die Diskriminierung von Einzelpersonen durch den Einsatz komplexer Analyseverfahren. Sie ist einerseits gesetzlich verboten (Allgemeines Gleichbehandlungsgesetz – AGG). Andererseits lässt sie sich bei komplexen Datenanalysen kaum per se ausschließen. Wenn in einer Gesellschaft Formen von Diskriminierung real existieren und Analysedatensätze diese Realität korrekt abbilden, besteht die Gefahr, dass diese Diskriminierung durch die ermittelten Regeln und Modelle reproduziert werden. Um möglicherweise vorliegende Diskriminierung zu be- oder widerlegen, sind situative methodisch inhaltliche Prüfungen erforderlich (ausführlich z. B. Orwat 2019; TAB 2020). Aufgrund der zunehmenden Möglichkeiten datenbasierte Muster zu erkennen, Regeln und Modelle abzuleiten und mittels Algorithmen in neuen Situationen bei vielfältigen Entscheidungsprozessen einzusetzen und aufgrund der möglichen Folgen sowie der begrenzten Möglichkeiten der Prüfung für letztendlich betroffene Personen wird seit einigen Jahren die Forderung nach einer stärkeren Überwachung und einer kompetenten Prüfinstanz für algorithmische Systeme lauter (DEK 2019, S. 173 ff.), mitunter auch als Algorithmen-TÜV bezeichnet (Zweig 2019b, S. 8 ff.). In der Medizin werden entsprechende Verfahren seit Jahren auf- und ausgebaut (Kap. 4.2). 2.3.4 Weiterverwendung von Data-Mining-Ergebnissen Die Suche nach Zusammenhängen, Ähnlichkeiten, Unterschieden und Besonderheiten in Datenbeständen und die Auseinandersetzung mit der Generalisierbarkeit der ermittelten Zusammenhänge und Strukturen sind seit jeher Formen wissenschaftlichen Vorgehens, jedoch bei weitem nicht auf wissenschaftliche Kontexte begrenzt. Entsprechende Vorgehensweisen sind bei vielfältigen Entscheidungsprozessen von großer Bedeutung. Die Digitalisierung hat diesbezüglich eine erhebliche Schubkraft, weil immer umfangreichere Datenbestände generiert werden und weil maschinenlesbare Formate von Menschen schwer unmittelbar erfasst werden können. Maschinelle bzw. zunehmend automatisierte Entscheidungssysteme (automated decision making – ADM) gewinnen an Relevanz. Auch wenn es erhebliche Schnittmengen beim datenbasierten Vorgehen in wissenschaftlichen und operativen Bereichen gibt, sind die Anwendungskontexte und Zielsetzungen keinesfalls deckungsgleich. In wissenschaftlichen Bereichen werden seit jeher Ausschnitte aus der realen Welt vermessen und Daten analysiert, um Strukturen und Muster zu erkennen, Erkenntnisse zu gewinnen, oder Regeln bis hin zu (Natur) Gesetzen abzuleiten. Wissenschaftliches Arbeiten bedeutet, bisher Unbekanntes zu erschließen und im Wortsinn Wissen zu schaffen, Hypothesen zu prüfen, deren Richtigkeit zu be- oder zu widerlegen (auch mit dem Begriff der Evidenz assoziiert). Eine größer werdende Datenbasis kann beim wissenschaftlichen Vorgehen die empirische Evidenz bezüglich bestimmter Zusammenhänge (Korrelationen) zwischen Sachverhalten erhöhen. Beweise für die Richtigkeit dieses Zusammenhangs sollten möglichst auf andere Art und Weise erbracht werden. Derartige Beweisführungen erfordern regelmäßig weitere wissenschaftliche Aktivitäten, die weit über Data-Mining- Prozesse hinaus gehen. Mitunter wird diese wissenschaftliche Auseinandersetzung auch durch den Übergang des »know how« zum »know why« (Zeleny 1987) bzw. des Schrittes vom Finden von Korrelationen zur Suche nach Kausalitäten umschrieben. Im historischen Beispiel (Kap. 2.1) half John Snow die Lokalisierung des Zentrums des Choleraausbruchs zum Ersten bei der Entscheidung, den im Zentrum stehenden Wasserbrunnen sofort stillzulegen, auch wenn er seine Hypothese zur Krankheitsursache nicht zweifelsfrei beweisen konnte (Entscheidungshilfe). Zum Zweiten führte die Lokalisierung des Zentrums der Epidemiologie zu weiteren Untersuchungen bezüglich der Krankheitsursachen, die seine Erregerhypothese fundieren sollten (Wissenserweiterung). Zum Dritten wurden räumliche Analysen als Entscheidungshilfen verstetigt – John Snow gilt als einer der diesbezüglichen Pioniere. Dazu werden die einzelnen analytischen Schritte in Algorithmen übersetzt und inzwischen in Software eingebunden (Operationalisierung datenanalytischer Verfahren). Wenn das gelingt, können einzelne datenanalytische Verfahren in neuen Situationen der gleichen Untersuchungsaufgabe eingesetzt werden und zumindest situative Informationen als Entscheidungshilfen liefern. Die Automatisierung von Entscheidungsprozessen ist dann ein nächster Schritt. Je nach Betrachtungsweise geht auch die Entwicklung algorithmischer Softwaresysteme zur Entscheidungsfindung über den eigentlichen Data-Mining-Prozess hinaus. Rechtlich haben zum einen Data-Mining-Aktivitäten zu wissenschaftlichen Forschungszwecken und zum anderen automatisierte Entscheidungssysteme gewisse Sonderstellungen. Die derzeitige rechtliche Situation und die gesellschaftlichen Herausforderungen in Bezug auf die Verbesserung des Zugangs zu existierenden Datenbeständen für komplexe Datenanalysen sowie die Regulierung des Umgangs mit Data-Mining-Ergebnissen werden im nächsten Kapitel 3 thematisiert. 3 Rechtliche und normative Aspekte Seit einigen Jahren wird der Begriff Data-Mining auch aus rechtlicher Sicht diskutiert und im Allgemeinen mit komplexen Datenanalysen assoziiert (u. a. Nohr 2017; Triaille et al. 2014). Seit 2019 findet er über das Urheberrecht Eingang in das nationale und europäische Rechtssystem. Dort wird Data-Mining definiert als »eine Technik für die automatisierte Analyse von Daten in digitaler Form, mit deren Hilfe Informationen unter anderem – aber nicht ausschließlich – über Muster, Trends und Korrelationen gewonnen werden können« (Art. 2 Abs. 2 RL 2019/790/EU21). Diese Formulierung entspricht der Auffassung von Data-Mining im engeren Sinn innerhalb dieses Berichtes. Betrachtet man Data-Mining als Prozess im weiteren Sinn, wird deutlich, dass die Erhebung, Bereitstellung und Analyse von Daten sowie der Umgang mit den resultierenden Informationen, Regeln, Modellen oder algorithmischen Systemen weit über den Regulierungshorizont des Urheberrechts (Kap. 8.1) hinaus geht. Einige Aspekte wie der Datenschutz oder die Datennutzung in öffentlichen Aufgabenbereichen werden bereits seit Jahren reguliert, wobei Data-Mining meist unter dem allgemeinen Oberbegriff Datenverarbeitung subsumiert wird. Der Umgang mit daraus hervorgehenden Informationen, datenanalytischen Werkzeugen und digitalen Anwendungen nimmt erst schrittweise Gestalt an. Die Erhebung und Analyse von Daten durchdringen das tägliche Leben und das Miteinander zunehmend, betreffen sowohl einzelne Personen als auch Personengruppen oder die Gemeinschaft, öffentlichen Aufgabenbereiche sowie gewerbliche Aktivitäten. Nach einem Einblick in datenbezogene rechtliche Grundstrukturen (Kap. 3.1) wird erst der Bereich der Daten ohne Personenbezug betrachtet. In diesem können die Rechte und Möglichkeiten datenverarbeitender Stellen ins Zentrum der Betrachtung gestellt werden, ohne dass die Rechte von Personen als von Datenverarbeitung betroffene berücksichtigt werden müssen. Datenzugangsstrukturen werden beispielhaft anhand der nationalen Geodateninfrastruktur öffentlicher Einrichtungen mit dem derzeitigen Open- Data-Konzept umrissen (Kap. 3.2). Dieser Datenzugang ist oft eine notwendige Bedingung für Data-Mining- Aktivitäten. Der Bereich der personenbezogenen bzw. -beziehbaren Daten hat eine größere rechtliche Komplexität, denn natürliche Personen haben Grundrechte, die bei jeglicher Datenverarbeitung zu achten und zu schützen sind. Das Datenschutzrecht hat den Anspruch, Datenanalytik unter Achtung der Grundrechte betroffener Personen zu ermöglichen. Unterschiedliche Schutzmaßnahmen sowie grundrechteschützende Datenzugangsstrukturen und Analyseansätze (privacy preserving data mining) werden skizziert. Diese Maßnahmen und Ansätze bilden das Fundament, auf dem Data-Mining-Aktivitäten im Rahmen der wissenschaftlichen Forschung Sonderkonditionen im Datenschutzrecht gewährt werden (Kap. 3.3). Der Umgang mit den aus Data-Mining-Prozessen ggf. hervorgehenden Informationen, datenbasierten Werkzeugen, Produkten und Services ist ein Gegenstand der derzeitigen regulativen Debatten (Kap. 3.4). 3.1 Datenbezogene Grundstrukturen Daten versus Information Der Umgang mit Daten wird durch vielfältige Rechtsnormen angesprochen und reguliert. Dennoch gibt es bisher keine Definition, die für alle Rechtsbereiche gleichermaßen gilt. In einigen Rechtsnormen werden die Begriffe Daten und Informationen weitgehend synonym verwendet (z. B. Datenschutz-Grundverordnung oder Umweltinformationsgesetze auf Bundes- und Länderebene), in anderen wird der Datenbegriff stärker mit strukturierten, zumindest temporär gespeicherten, maschinenlesbaren Aufzeichnungen verknüpft (z. B. § 202a StGB22) und der Informationsbegriff eher mit für Menschen direkt verständlichen Aussagen verbunden (Riehm 2018, S. 74). Laut den für öffentliche Einrichtungen auf Bundes- und Landesebene gültigen Informationsfreiheitsgesetzen23 sind Informationen jegliche, amtlichen Zwecken dienende Aufzeichnungen (Schriften, Tabellen, Diagramme, Bilder, Pläne, Karten, Tonaufzeichnungen, nicht aber Entwürfe und Notizen), unabhängig von der Art der Speicherung. Auch bei der Definition von Metadaten wird die begriffliche Nähe von Daten und Informationen deutlich. Laut 21 Richtlinie (EU) 2019/790 des Europäischen Parlaments und des Rates vom 17. April 2019 über das Urheberrecht und die verwandten Schutzrechte im digitalen Binnenmarkt und zur Änderung der Richtlinien 96/6/EG und 2001/29/EG 22 Strafgesetzbuch (StGB) 23 Gesetz zur Regelung des Zugangs zu Informationen des Bundes (Informationsfreiheitsgesetz – IFG) S. 2722) (BGBl. I S. 1328) Geodatenzugangsgesetzen24 auf Bundes- und Landesebene sind Metadaten Informationen, die (Geo)Daten beschreiben und es möglichen, (Geo)Daten und (Geo)Datendienste zu ermitteln, in Verzeichnisse auszunehmen und zu nutzen (§ 3 Abs. 2 GeoZG). Aus der Schutz- bzw. Geheimhaltungsperspektive werden die Begriffe Daten und Informationen bereits mit sehr kleinen Elementen oder Einheiten in Verbindung gebracht. Bereits Einzelangaben sind als Privat- oder Geschäftsgeheimnisse durch das Strafgesetzbuch geschützt (§ 203 StGB). Auch von der Datenschutz- Grundverordnung werden alle Daten bzw. Informationen, die auf natürliche Personen bezogen oder beziehbar sind, unabhängig von der Größe eines Datensatzes erfasst (Art. 4 Abs. 1 DSGVO). Zudem wird die Leistung zur Erstellung komplexer Datensätze und -bestände zum Teil durch das Urheberrecht geschützt (Kap. 8.1). Dennoch ist Data-Mining zu wissenschaftlichen Forschungszwecken möglich, sofern diese Daten dafür zugänglich sind. Der Rechtsraum zum Umgang mit Daten kann in erheblichem Maße anhand von zwei Spezifika erschlossen werden: zum einen über die Bezüge zu vielfältigen Sachverhalten einschließlich Personen (technisch allgemein als Datenobjekte aufgefasst), zum anderen über die Tatsache, dass kaum diese Datenobjekte selbst, sondern vor allem andere Akteure die Möglichkeit haben, Daten zunehmend detailreich erheben, dauerhaft in großen Mengen halten sowie über diverse Bezüge vielfältig verknüpfen, verändern und ergänzen sowie u. a. Data-Mining durchführen zu können (rechtlich als datenverarbeitende Stellen aufgefasst). Datenobjekte und Datenbereiche Datenobjekte sind höchstdivers und vielfältig, jedoch sind einzelne Personen aufgrund ihrer subjektiven (Grund- )Rechte besondere Datenobjekte. Natürliche Personen haben u. a. Grundrechte auf Privatheit und informationelle Selbstbestimmung bzw. Datenschutz. Ähnlich haben am Wettbewerb teilnehmende Organisationen und Unternehmen als juristische Personen des privaten Rechts Grundrechte auf Berufsfreiheit bzw. Geschäftsgeheimnisse. Juristische Personen des öffentlichen Rechts (Behörden, Ämter oder Gebietskörperschaften) haben im Rahmen ihrer definierten Aufgaben teilweise Amts-, Dienst- oder sogar Staatsgeheimnisse zu wahren. Neben ihren Geheimhaltungsrechten haben Personen in der nationalen Rechtsordnung auch Grundrechte auf Eigentum an materiellen und immateriellen Gütern (Kap. 8.1). Keines dieser (Grund-)Rechte ist schrankenlos. Jedes kann bei überwiegendem öffentlichem Interesse gesetzlich begrenzt werden. Alle Grundrechte sind entsprechend der jeweiligen normativen Grenzen bei jeglicher Form der Datenverarbeitung einschließlich Data-Mining zu beachten und zu schützen. In Folge wird der Datenraum rechtlich in erheblichem Maße zweigeteilt: in den Bereich der Daten ohne Bezüge zu einzelnen Personen (z. B. Geodaten [Kap. 3.2]) und in den Bereich der Daten mit Bezügen zu einzelnen Personen (Kap. 3.3). Auch heute bilden diese Bereiche gewisse Pole. Jedoch werden die dazwischen liegenden Graubereiche immer größer, weil eine Personenbeziehbarkeit bei sehr vielen Datensätzen möglich wird (Kap. 3.3.5) und teilweise sogar Bezüge zu unterschiedlichen Personen existieren (in besonderem Maße z. B. bei Leistungsabrechnungsdaten im nationalen Gesundheitssystem [Kap. 4.4.1]). Trotz der zunehmenden Graubereiche hilft diese Strukturierung, um den Rechtsraum grundsätzlich zu erschließen und sich der Frage zu nähern, inwiefern Data-Mining rechtlich erfasst, ermöglicht oder begrenzt wird. Einzelne Personen sind zwar besondere Datenobjekte. Da sie in der Regel keinen Zugang zu Daten von vielen anderen Einzelpersonen haben, können sie selbst kaum datenbasierte Muster und Strukturen mittels Data- Mining extrahieren. Das können nur datenverarbeitende Stellen, sofern sie entsprechende Datennutzungsrechte haben. Datenverarbeitende Stellen Aus datenschutzrechtlicher Sicht sind datenverarbeitende Stellen verantwortliche oder im Auftrag handelnde Personen, die Daten erheben, ordnen, speichern, verändern, verwenden, verbreiten, verknüpfen, löschen oder vernichten (Art. 4 DSGVO). Aus Data-Mining-Perspektive relevant sind vor allem juristische Personen entweder des 24 Bundesebene: Gesetz über den Zugang zu digitalen Geodaten (Geodatenzugangsgesetz –GeoZG) (BGBl. I S. 278); Übersicht und Zugang zu den Geodatenzugangsgesetzen auf Landesebene z. B. unter www.bmu.de/themen/bildung-beteiligung/umweltinformation/ umweltinformationsgesetz/uebersicht-der-geodatenzugangsgesetze-der-bundeslaender/ (13.12.2021) privaten oder des öffentlichen Rechts, da de facto nur diese über die notwendigen Data-Mining-Ressourcen verfügen (Nutzungsrechte und Know-how). Juristische Personen des privaten Rechts sind gewerblich oder gemeinnützig agierende Unternehmen oder Organisationen. Sie haben Grundrechte auf Berufs- bzw. Vereinigungsfreiheit und können im Rahmen des geltenden Rechts u. a. Data-Mining-Projekte durchführen, digitale Analysewerkzeuge entwickeln, die sie im Wettbewerb mit anderen mit oder ohne Gewinnerzielungsabsicht vermarkten können. Einige Internetunternehmen bieten mit ihren digitalen Plattformen Möglichkeiten, um viele geschäftliche und private Kunden einzubinden, wodurch teils bewährte, aber auch neue digitale Geschäftsmodelle vorangetrieben werden können (teilweise auch als Plattformökonomie bezeichnet, ausführlicher z. B. Rüchardt 2019). Mit ihnen gehen unterschiedliche gesellschaftliche Herausforderungen einher, u. a. weil marktbeherrschende Stellungen Wettbewerbsstrukturen verzerren und globale Akteure sich vielfältigen nationalen Regelungen entziehen können. Gemeinnützige Organisationen setzen mit ihren digitalen Plattformen auf mehr Offenheit und gemeinsamer Nutzung von Daten (Kasten 3.3), Standards und Programmen, wodurch ebenfalls neue Geschäftsmodelle entstehen, die nicht auf geistigem Eigentum sowie gewerblichen Entwicklungs- und Vermarktungsprozessen beruhen. Für juristische Personen des privaten Rechts gelten bei der Verarbeitung personenbezogener Daten Vorgaben der Datenschutz-Grundverordnung vollumfänglich, d. h. Betroffene haben auf vertraglicher Basis in die Datenverarbeitung eingewilligt und den datenverarbeitenden Stellen Nutzungsrechte gewährt (ausführlicher z. B. Riehm 2018). Datenverarbeitende Stellen des privaten Rechts haben ihrerseits ein Recht auf Geschäftsgeheimnisse, das Datenbestände und Verarbeitungsvorgänge im Rahmen ihrer Geschäftstätigkeiten (bei personenbezogenen Daten unter Achtung der Vorgaben der DSGVO) einschließt. Diese Geheimhaltungsrechte und -pflichten werden durch unterschiedliche Informations-, Offenlegungs- und Meldepflichten begrenzt. Juristische Personen des öffentlichen Rechts sind u. a. Behörden, Ämter [Gebiets-]Körperschaften, die mit öffentlichen Aufgaben betraut sind (nachfolgend vereinfachend als öffentliche Einrichtungen bezeichnet). Diese öffentlichen Aufgaben und die dafür ggf. nötige Datenerhebung und -verarbeitung werden gesetzlich definiert und wesentlich aus öffentlichen Mitteln (einschließlich solidarisch finanzierter gesetzlicher Sicherungssysteme [Kapitel 5]) finanziert. Teilweise dürfen/müssen die jeweiligen Einrichtungen für ihre Leistungen Gebühren erheben. In Deutschland sind einige Aufgaben auf kommunaler, andere auf Landes- oder auf Bundesebene zu erfüllen, sodass unterschiedliche Landes- oder Bundesgesetze die Vorgehensweisen spezifizieren. Öffentliche Einrichtungen haben in ihrem Aufgabenfeld regelmäßig eine Sonder- oder sogar Monopolstellung. Um an öffentliche Aufgaben angrenzende wettbewerbliche Marktstrukturen nicht zu verzerren, sollen sie nicht jenseits ihrer definierten Aufgaben agieren.25 Datenbezogene Kooperationen mit juristischen Personen des privaten Rechts können ggf. vertraglich vereinbart werden. Öffentliche Einrichtungen haben einerseits Dienst-/Amts-/Staatsgeheimnisse zu wahren und werden andererseits zunehmend zur Offenlegung und Transparenz verpflichtet. Um deren Datenbestände rechtskonform zugänglich zu machen, werden gegenwärtig bereichsspezifische Datenzentren und - infrastrukturen aufgebaut. Nicht alle datenverarbeitenden Stellen sind eindeutig entweder dem einen oder dem anderen Bereich zuzuordnen. Teilweise tragen wirtschaftlich agierende Unternehmen zur Erfüllung öffentlicher Aufgaben bei (z. B. erheben Vermessungsingenieure amtliche Geodaten oder liefern medizinische Einrichtungen Daten zur Überwachung der gesundheitlichen Situation), teilweise agieren öffentlich finanzierte Einrichtungen in Wettbewerbsstrukturen (z. B. Krankenhäuser oder Krankenkassen) oder relativ frei (z. B. wissenschaftliche Einrichtungen). Wissenschaftlichen Einrichtungen werden bei Data-Mining-Aktivitäten mit geschützten Daten Sonderrechte gewährt (Kap. 3.3.4 und 8.1). In der weiteren normativen Differenzierung wird teilweise zwischen vorrangig datenbereitstellenden und datenauswertenden Stellen sowie zwischen verantwortlichen und auftragsverarbeitenden Stellen unterschieden. Auch bei dieser Differenzierung gibt es Überschneidungen und Graubereiche. Dennoch hilft auch hier die Strukturierung, um sich den Rechtsraum grundsätzlich zu erschließen und sich der Frage zu nähern, wer in welcher Form Data-Mining befördern, realisieren und ggf. Mehrwert generieren kann. 25 Beispielsweise hat der Deutsche Wetterdienst (DWD) als Bundesoberbehörde die Aufgabe, kontinuierlich umfangreiche Wetterdaten zu erheben, öffentlich zugänglich zu machen, sie zu analysieren und die Öffentlichkeit vor Unwetter zu warnen (§ 4 DWD-Gesetz). Der Bundesgerichtshof entschied 2020, dass der DWD jenseits der kostenlosen Unwetterwarnungen, keine vollständigen Wetterinformationen kosten- und werbefrei anbieten darf, da dies nicht in seinem gesetzlichen Aufgabenbereich liege und den Wettbewerb verzerren würde. (www.bundesgerichtshof.de/SharedDocs/Pressemitteilungen/DE/2020/2020028.html; 13.12.2021) Daten, Analysen und IT-Systeme mit besonderer Kritikalität In vielen gesellschaftlichen Bereichen werden Datensegmente mit besonderer Relevanz, aber auch mit besonderer Kritikalität erkannt und in Folge die Datenerhebung teilweise als öffentliche oder hoheitliche Aufgaben definiert, mitunter die Datenverarbeitung spezifisch reguliert, besonders geschützt und teilweise begrenzt. Beispiele für gesetzlich definierte kritische und besonders kritische Datensegmente sind hochaufgelöste Geodaten [Kap. 3.2] oder personenbezogene Daten besonderer Kategorie [Kasten 3.6]). Auch bei einzelnen datenanalytischen Verfahren wird zunehmend eine besondere Kritikalität unterstellt, spezifische Folgenabschätzungen verlangt (Kap. 3.3.2) und für risikoreiche Verfahren eine stärkere Regulierung diskutiert (Kap. 3.4.3). Zudem werden in bestimmten gesellschaftlich relevanten Bereichen datenverarbeitende Stellen insgesamt als kritisch bewertet und deren gesamte IT-Systeme als kritische Infrastrukturkomponenten aufgefasst, gesichert und überwacht (Kasten 3.1). Kasten 3.1 Kritische Infrastrukturen Der Begriff Kritische Infrastrukturen (KRITIS) wird vor allem aus der Sicherheitsperspektive verwendet. Die Richtlinie 2008/114/EG26 fasst darunter Anlagen und (Teil-)Systeme, die für die Realisierung und Aufrechterhaltung wichtiger gesellschaftlicher Aufgaben wie z. B. für die gesundheitliche Versorgung oder die Sicherung des Wohlergehens der Bevölkerung bedeutsam und folglich in besonderem Maße zu schützen sind. Da diese zunehmend auf sicher funktionierende IT-Systeme einschließlich kontinuierlicher Datenbereitstellung angewiesen sind, müssen auch diese besonders geschützt werden. In der diesbezüglichen Sicherheitsarchitektur hat das Bundesamt für Sicherheit in der Informationstechnik (BSI) eine zentrale Funktion.27 Diese Sicherheitsarchitektur wird stufenweise definiert. In Deutschland gibt es gegenwärtig neun KRITIS-Sektoren mit insgesamt 29 Branchen, die eine wichtige Bedeutung für das staatliche Gemeinwesen haben, bei deren Beeinträchtigung nachhaltig wirkende Versorgungsengpässe, erhebliche Störungen der öffentlichen Sicherheit oder andere dramatische Folgen zu erwarten sind.28 Der Gesundheitssektor ist seit 2017 einer davon. Krankenhäuser mit jährlich mindestens 30.000 vollstationären Behandlungsfällen gelten als KRITIS-Betreiber (DKG 2017, S. 10 f.), d. h. sie sind u. a. beim BSI registrierungs- und überwachungspflichtig, müssen bis 2019 ihre IT nach dem Stand der Technik angemessen absichern und die Sicherheit zweijährlich nachweisen (BSI 2017, S. 16). Die Deutsche Krankenhausgesellschaft und das BSI haben sich Ende 2019 auf generelle Cyber-Sicherheitsstandards für Krankenhäuser geeinigt.29 Ab 2022 sind alle Krankenhäuser zur Einhaltung dieser Sicherheitsstandards verpflichtet (§ 75c SGB V). Auch die Telematikinfrastruktur, das gesundheitssystemische Kommunikationsnetz und deren Anwendungen und mögliche datenanalytische Werkzeuge gelten als KRITIS-Elemente und sind u. a. IT-sicherheitstechnisch zertifizierungspflichtig (Kap. 4.1). Die Kritikalitätsbewertungen von Daten, analytischen Verfahren und IT-Systemen sind vielschichtig und dynamisch. Unterschiedliche Faktoren, Risiken und mögliche Folgen werden berücksichtigt. Durch den technischen Fortschritt und durch gesellschaftliche Entwicklungen ergeben sich immer wieder neue Konstellationen, die situativ neue Lagebeurteilungen erfordern. Die Weiterentwicklung der Sicherheitsarchitektur vor allem kritischer Segmente ist ein kontinuierlicher Prozess. In Bereichen mit besonderer Kritikalität gewinnen normative Sicherheitsvorgaben sowie Zertifizierungs- oder Zulassungsverfahren kontinuierlich an Bedeutung. 26 Richtlinie 2008/114/EG des Rates vom 8.12.2008 über die Ermittlung und Ausweisung europäischer kritischer Infrastrukturen und die Bewertung der Notwendigkeit, ihren Schutz zu verbessern (ABl. Vom 23.12.2008 L345/75) 27 Organisation und Aufgaben des BSI sind definiert im Gesetz über das Bundesamt für Sicherheit in der Informationstechnik (BSI- Gesetz – BSIG) 28 www.kritis.bund.de/SubSites/Kritis/DE/Einfuehrung/Sektoren/sektoren_node.html (10.11.2021) 29 www.dkgev.de/dkg/presse/details/bsi-gibt-gruenes-licht-fuer-dkg-sicherheitsstandard/ (10.11.2021) Eigentumsrechte, Datenbesitz und Verfügungsgewalt Eigentumsrechte sind die umfassendste alleinige Verfügungsgewalt, die natürlichen oder juristischen Personen über materielle oder immaterielle Dinge gewährt werden. Sie setzen die Existenz der jeweiligen Sache voraus und gehören in Deutschland zu den staatlich geschützten Grundrechten (Art. 14 GG). Eigentümer/innen können über ihre Sachen im Rahmen des geltenden Rechts weitgehend frei verfügen, Grenzen/Schranken sind gesetzlich zu definieren (z. B. die Beschränkung immaterieller Eigentumsrechte für Forschungsaktivitäten [Kap. 8.1]). Für die Vergabe von Eigentumsrechten muss die Frage, wem die ausschließliche Verfügungsgewalt gewährt wird, im Rahmen des geltenden Rechts geklärt werden können. Sie ist insbesondere bei personenbezogenen Daten, an denen sowohl Personen als Datenobjekte als auch datenverarbeitende Stellen, die gewisse Leistungsschutz- und Geheimhaltungsrechte geltend machen können, offen. Dies ist ein Grund, warum ein Dateneigentum aus juristischer und ethischer Perspektive kritisch gesehen und derzeit mehrheitlich abgelehnt wird (DEK 2019, S. 18 ff.). Durch die Verfügungsgewalt über die zur Datenerfassung und -speicherung erforderlichen Hard- und Softwarekomponenten sowie teilweise über definierte öffentliche Aufgaben oder über Einwilligungen kommen datenerhebenden Stellen in den Besitz von (Roh-)Datenbeständen, müssen ihn ggf. schützen und haben gewisse Nutzungsrechte. In gewerblichen Strukturen können diese Daten bisher weitgehend als Geschäftsgeheimnis30 aufgefasst werden. Verpflichtungen zu deren Offenlegung müssen gesetzlich definiert werden. Private Unternehmen haben ein Grundrecht auf Berufsfreiheit und können im Rahmen des geltenden Rechts frei entscheiden, wie sie die Daten im Rahmen ihrer Nutzungsrechte u. a. für Data-Mining-Aktivitäten weiterverwenden, wie sie ihre Datenbestände anreichern und erweitern, welche Informationen sie ableiten, welche Algorithmen und analytischen Werkzeuge sie entwickeln und wie sie diese Ergebnisse verwerten. Sie können sie unternehmensintern einsetzen, Dritten Informationsdienstleistungen anbieten und/oder die analytischen Werkzeuge als Softwarebestandteile oder -produkte vermarkten. Im letzten Fall erreichen diese datenanalytischen Werkzeuge einen Produktstatus. Herstellende sind für deren Sicherheit und Leistung verantwortlich und haften ggf. bei Schäden (Kap. 3.4.2). In öffentlichen Aufgabenbereichen regeln vielfältige Gesetze des öffentlichen Rechts einrichtungsspezifische Pflichten und Möglichkeiten zur Datenerhebung, -bereitstellung und -verwendung (z. B. Kap. 3.2 und Kap. 5). In der rechtlichen Auseinandersetzung wird teilweise dafür plädiert, statt über Dateneigentum zu diskutieren vielmehr die Verfügungsgewalt oder Hoheit über Daten und deren bessere Zugänglichkeit und Nutzung in den Blick zu nehmen (DEK 2019, S. 104; Hornung 2018, S. 17 ff.). Die derzeitigen datenbezogenen Rechtsstrukturen ermöglichen monopolartige Stellungen bezüglich der Haltung und Nutzung von Daten sowohl für Unternehmen als auch für öffentliche Einrichtungen. Diese Monopole verzerren oder verhindern Wettbewerbsstrukturen im digitalen Markt. Dazu wird derzeit diskutiert inwiefern u. a. große Plattformbetreiber ihre Datenbestände gegen Entgelt anderen datenverarbeitenden Stellen zugänglich machen und Algorithmen/Verfahren zur Datenerhebung und -verarbeitung offenlegen müssen. Zudem sollen die Interoperabilität zwischen digitalen Diensten verbessert und neutrale Mittler zwischen datengebenden und analysierenden Personen etabliert werden. Die Datenmonopole öffentlicher Einrichtungen werden eher durch Transparenz- und Open-Data-Initiativen sowie die Errichtung spezifischer Datenrepositorien und -infrastrukturen überwunden (Kap. 3.2). Mehrere derzeit in Abstimmung befindliche europäische Verordnungen zielen darauf ab, Datenmonopole zu begrenzen, Wettbewerbsstrukturen digitaler Markte zu stärken, Datenweiterverwendungsmöglichkeiten unter Achtung der Rechte Betroffener zu verbessern zu verbessern und Verbraucherrechte zu stärken (Kasten 3.2). 30 Ein Geschäftsgeheimnis ist jegliche Information unabhängig von der genauen Anordnung einzelner Bestandteile, die von wirtschaftlichem Wert und nicht allgemein bekannt ist (§ 2 Gesetz zum Schutz von Geschäftsgeheimnissen – GeschGehG) Kasten 3.2 Europäische Regulierungsinitiativen zur Verbesserung der Datennutzung Das europäische Gesetz über digitale Märkte31 soll die Marktmacht sehr großer Plattformbetreiber begrenzen und die Wettbewerbsbedingungen für kleinere Unternehmen fairer gestalten (z.B. mittels Selbstbegünstigungsverboten, Datenzugangs- und Interoperabilitätsverpflichtungen) sowie die Wahlfreiheit für Endnutzer/innen stärken (sie sollen festlegen, welche Daten miteinander kombiniert werden dürfen, und nicht nur zustimmen). Die Verhandlungen zu diesem Gesetz wurden im März 2022 abgeschlossen. Es könnte Ende 2022 in Kraft treten. Das europäische Gesetz über digitale Dienste32 definiert Verhaltensvorschriften für sich an Endverbraucher richtende Dienstleister, besonders strenge für sehr große Anbieter. Diese sollen u.a. Empfehlungen gebende oder Informationen vorsortierende Algorithmen in groben Zügen transparent machen und deren Risiken in Bezug auf Grundrechtsverletzungen von Meinungsfreiheit bis Diskriminierungsverbot (Kap. 3.3.1) jährlich bewerten. Sie sollen unter eine zentrale, bei der Europäischen Kommission angesiedelten Aufsicht gestellt werden. Die Verhandlungen zu diesem Gesetz wurden im April 2022 abgeschlossen. Nach einer Übergangsfrist könnte es 2024 in Kraft treten. Mit dem Daten-Governance-Gesetz33 soll eine sichere, branchenübergreifende, europäische Dateninfrastruktur schaffen und die rechtssichere Datenweiterverwendung erleichtert werden. Ein Dateninnovationsrat soll Leitlinien und (Interoperabilitäts-)Standards entwickeln und die Datenportabilität voranbringen. Datentreuhänder, die große, teils auch geschützte Datenmengen verwalten und diese Dritten im Rahmen des geltenden Rechts teils gegen Entgelt bereitstellen, werden zur Neutralität verpflichtet. Datenaltruismus bzw. -spenden erhalten ein rechtliches Fundament. Das Gesetz könnte 2023 in Kraft treten. Auch der 2022 vorgelegte Entwurf eines europäischen Daten-Gesetzes34 soll die bestehende Machtmacht sehr großer Plattform- bzw. Cloud-Anbieter begrenzen sowie den Zugang und die Nutzung der Daten für kleinere Unternehmen verbessern. Unfaire, Machtasymmetrien begünstigende Vertragsklauseln sollen verboten, offene Standards und Schnittstellen perspektivisch verpflichtend vorgeschrieben werden. Cloudanbieter sollen einerseits verpflichtet werden, Daten vor dem Zugriff durch Drittländer zu schützen. Andererseits sollen staatliche Stellen innerhalb Europas in besonderen Situationen (z.B. pandemischen Lagen) bei besonderem Datenbedarf für öffentliche Zwecke vereinfachten Datenzugang erhalten können. Es zeichnet sich derzeit noch nicht ab, wann und in welcher Form dieser Gesetzesvorschlag in Kraft treten wird (Stand Mai 2022). 3.2 Umgang mit nichtpersonenbezogenen Daten: Beispiel Geodaten und nationale Geodateninfrastruktur Vielfältige Sachverhalte u. a. zu Industrie-, Verwaltungs-, Gesellschafts- oder Umweltprozessen werden anhand von Datensätzen abgebildet, die keine direkten Bezüge zu einzelnen Personen haben. Der Zugang zu derartigen Daten ist zum einen von unterschiedlichen bereichsspezifischen gesetzlichen Vorgaben und zum anderen vom jeweiligen Geschäftsmodell der datenverarbeitenden Stelle und deren Auffassung in Bezug auf alleinige Datenverwendung oder Datenoffenlegung bestimmt. Bei Daten, die im Rahmen öffentlicher Aufgaben und unter Einsatz öffentlicher Mittel erhoben und gehalten werden, wird zunehmend Offenheit, Transparenz und Weiterverwendung gefordert. Durch die 2013 unter britischer Präsidentschaft von den G8-Ländern verabschiedete Open- 31 Vorschlag für eine Verordnung des Europäischen Parlaments und des Rates über bestreitbare und faire Märkte im digitalen Sektor; COM(2020) 842 final 32 Vorschlag für eine Verordnung des Europäischen Parlaments und des Rates über einen Binnenmarkt für digitale Dienste; COM(2020) 825 final 33 Vorschlag für eine Verordnung des Europäischen Parlaments und des Rates über europäische Daten-Governance; COM(2020) 767 final 34 Vorschlag für eine Verordnung des Europäischen Parlaments und des Rates über harmonisierte Vorschriften für einen fairen Datenzugang und eine faire Datennutzung; COM(2022) 68 final Data-Charta bekennt sich auch Deutschland zur Datenoffenlegung (Kasten 3.3). Die zeitgleich verabschiedete europäische Open-Data-Richtlinie (2013/37/EU)35 verpflichtet Deutschland in noch stärkerem Maße dazu. Kasten 3.3 Open-Data-Konzepte Open-Data-Konzepte sollen die Weiterverwendung von Datensätzen und -beständen erleichtern. Dazu wurden einerseits die für urheberrechtlich geschützte Werke entwickelten Creative-Commons-Lizenzen angepasst, mit denen Datensätze stufenweise offen zugänglich gemacht werden können: nur zur Ansicht; auch zur Weiterverwendung, nur nichtkommerziell oder auch zur kommerziellen Verwertung; mit oder ohne Quellenangaben. Andererseits hat die Organisation Open Knowledge International die in der freien Softwareentwicklung existierenden Lizenzen zu Open-Database-Lizenzen (ODbL) weiterentwickelt, um Nutzenden unterschiedliche Freiheiten zu gewähren: zur Vervielfältigung; Weitergabe und Nutzung von Daten in der Ursprungsform; zur kreativen Verarbeitung, um Informationen abzuleiten oder neue Informationsdienste zu entwickeln (hier wäre Data-Mining zu verorten) sowie zur Transformation und Veränderung von Primärdaten, wodurch neue Datenbestände entstehen. Open-Data-Konzepte sind weit mehr als die bloße Anpassung unterschiedlicher Lizenzmodelle. In der Realisierung verlangen sie in ihrer Maximalauslegung Primärdaten mit höchster Auflösung (nicht modifiziert), vollständig (alle Metadaten werden mitgeliefert), aktuell (zeitnah) und dauerhaft bereitzustellen, sie barrierefrei d. h. maschinenlesbar und unter Verwendung offener Standards (keine spezifische Software erforderlich) zugänglich zu machen sowie die Weiterverwendung diskriminierungsfrei (für jede Person ohne Rechtfertigung), ohne Restriktionen (keine einschränkenden Nutzungsbedingungen), entgeltfrei mit Quellenangaben zu ermöglichen. Open-Data-Konzepte werden vor allem bei Daten diskutiert, deren Erfassung und Speicherung einerseits im Rahmen öffentlicher Aufgaben oder mit öffentlichen Mitteln finanziert werden. Das sind vor allem Verwaltungsdaten (auch mit dem Begriff Open Government assoziiert). Andererseits wird der Begriff auch bei gemeinschaftlichen Datensammlungen angewendet (wie z. B. im Open-Street-Map-Projekt). Ausgenommen sind Daten, die rechtlichen Schutzmechanismen unterliegen. Das sind vor allem personenbezogene oder sicherheitsrelevante Daten sowie Daten, die Rechte Dritter (z. B. Geschäftsgeheimnisse, Urheberrechte) berühren (ausführlicher z. B. Bernsdorf et al. 2015, S. 132 f.; Dietrich 2011; Ksoll et al. 2017; Kuzev 2016). Open-Data- Konzepte erfordern erhebliche Anstrengungen zur Aufbereitung existierender Datenbestände sowie einen Kulturwandel in Bezug auf Informationsfreiheit und transparentem (Verwaltungs-)Handeln (Bundesregierung 2019d, S. 8). Open-Data-Befürwortende betonen, dass es kosteneffizient sei, wenn vorhandene Daten umfangreich genutzt werden, und dass Mehrwert vor allem dann generiert werden könne, wenn möglichst viele Stellen vorhandene Daten vielfältig verwenden können (Grüebler 2014, S. 11; Ksoll et al. 2017). Diesen Mehrwert generiert in der Regel aber nicht die Stelle, die den zusätzlichen Aufwand für die Datenaufbereitung und - bereitstellung trägt, sondern Dritte, die diese Daten mit weiteren Daten verknüpfen, eigene Analysen durchführen und Informationsdienste entwickeln. Open-Data-Kritiker/innen weisen darauf hin, dass die Bereitstellung aktueller hochaufgelöster, qualitätsgesicherter Daten trotz Automatisierung oft mit erheblichem Aufwand verbunden sei, der bei Entgeltfreiheit nicht über klassische gewerbliche Geschäftsmodelle refinanziert werden könne. Dadurch würden wirtschaftliche Anreize fehlen, quantitativ und qualitativ bessere Daten bereitzustellen. In Folge würden Wettbewerbsstrukturen verzerrt werden. Kritisiert wird auch, dass Datenfreigaben kaum kontrollierbar wären und Missbrauch begünstigen könnten (z. B. indem Personenbezüge hergestellt werden oder Daten manipuliert und dann fehlerhafte Informationen abgeleitet werden). Auch könne es Probleme bei Haftungsfragen geben (Kuzev 2016). 35 Richtlinie 2013/37/EU des Europäischen Parlaments und des Rates vom 26. Juni 2013 zur Änderung der Richtlinie 2003/98/EG über die Weiterverwendung von Informationen des öffentlichen Sektors Ein beeindruckender Wandel von alleiniger Datennutzung zur Datenoffenlegung kann seit Jahren im Geodatenbereich beobachtet werden (z. B. Bernsdorf et al. 2015, S. 132; Gerlinger 2013, S. 12; TAB 2012, S. 74). Unterschiedliche Open-Data-Konzepte wurden in diesem Bereich entwickelt und realisiert. Erste Meilensteine aus den Vorreiterländern Großbritannien und USA sind (ausführlicher McKee 2012; Wangermann 2016): › das 2004 in London initiierte Crowd-Sourcing-Projekt »OpenStreetMap«, bei dem viele Personen weltweit Geodaten erheben und zur freien Weiterverwendung bereitstellen, wobei auch die erforderliche Software zur Datenerhebung und -weiterverwendung offengelegt wird und sämtliche Aktivitäten von einer gemeinnützigen Stiftung orchestriert werden (ausführlicher z. B. Bernsdorf et al. 2015, S. 27 f.), sowie › der von der US-amerikanischen Regierung 2008 beschlossene weltweit freie und kostenlose Zugang zu allen Erdfernerkundungsdaten des seit 1972 mit öffentlichen Mitteln finanzierten Satellitenprogramms »Landsat« (TAB 2012, S. 98 ff.), der ähnliche Entscheidungen u. a. in Europa beförderte (z. B. sind seit 2013 alle sicherheitsunkritischen Daten des europäischen Erdbeobachtungsprogramms »Copernicus« frei verfügbar). Geodaten und nationales Geoinformationswesen Geodaten sind alle Daten(sätze) mit direktem oder indirektem Bezug zu einem bestimmten Standort oder geografischen Gebiet (§ 3 GeoZG). Standorte werden über zwei- oder dreidimensionale Koordinatenangaben bestimmt (auch als primäre Metrik bezeichnet), geografische Gebiete über Kennziffern z. B. Postleitzahlen sowie Wahlbezirke eindeutig bezeichnet (sekundäre Metriken) (Bernsdorf et al. 2015, S. 40). Die Verknüpfung unterschiedlicher metrischer Ebenen erfolgt über spezifische Schlüsseltabellen, die den jeweiligen Kennziffern die Koordinaten der Gebietsgrenzen zuweisen und damit die Lage im Raum definieren. Maschinelle datenanalytische Konzepte einschließlich Data-Mining basieren auf zwei Datenteilbereichen (Bernsdorf et al. 2015, S. 40 ff.): › Geobasisdaten beschreiben die Landschaft (Topografie) und die Liegenschaften (Grundstücke, Gebäude) zumindest einer Region. Sie sind die Basis für die Erstellung digitaler Landkarten bzw. Geländemodelle, die für jegliche Verortung von Objekten und Geofachdaten, für raumbezogene Analysen (z. B. Hotspot-Analysen, Routenoptimierung) sowie zur Visualisierung von Analyseergebnissen erforderlich sind. › Geofachdaten sind Datensätze aus jeglichen wirtschaftlichen, wissenschaftlichen oder gesellschaftlichen Bereichen, die einen eindeutigen Raumbezug haben, über den sie sowohl für raumbezogene Analysen nutzbar als auch auf digitalen Karten verortet werden können. Die seit den 1990er Jahren kontinuierlich ausgebaute Normungsserie ISO 1910036 ermöglicht eine hochgradig normierte Haltung jeglicher Geodaten durch standardisierte Daten- und Metadatenformate, Verknüpfungen unterschiedlicher Datensätze sowie die maschinelle Verarbeitung von Geodaten einschließlich raumbezogener Analysen. Die Anwendung dieser Normungsserie ist grundsätzlich freiwillig, sie kann jedoch gesetzlich vorgeschrieben werden z. B. zur Erfüllung öffentlicher Aufgaben. Die nachträgliche Normierung umfangreicher Bestandsdaten und deren detaillierte Beschreibung mit standardisierten Metadaten ist mit erheblichem Aufwand verbunden. Die Begriffe Geodaten und Geoinformationen haben normativ eine erhebliche Schnittmenge: Geodaten repräsentieren Geoinformationen. Aufgrund der normierten Darstellung/Codierung sind Geodaten zwar maschinenlesbar, jedoch für den Menschen inhaltlich kaum unmittelbar erfass- und verarbeitbar. Die zur Datenverarbeitung und Informationserfassung notwendigen Hilfsmittel sind die bereits erwähnten Geoinformationssysteme (GIS) – spezielle Software, mit der Geodaten verarbeitet sowie Daten und Analyseergebnisse alphanumerisch oder grafisch dargestellt werden können (Bill/Fritsch 1991). Sowohl die Datenrepositorien als auch darstellende Landkarten gelten als Datenbanken, die vom urheberrechtlichen Leistungsschutz erfasst werden (Kap. 8.1).37 Geobasisdaten können vor Ort (in situ) direkt gemessen (Landesvermessung) oder anhand von Luft- oder Satellitenbildern ermittelt werden (Fotogrammetrie, Erdfernerkundung).38 Die Erhebung von Geobasisdaten und deren dauerhafte Haltung ist in Deutschland eine öffentliche Aufgabe, die föderal aufgeteilt ist und wesentlich im 36 Das europäische Komitee und das Deutsche Institut für Normung haben weite Teile der Serie als EN ISO 19100 bzw. als DIN EN ISO 19100 übernommen. 37 Landgericht München, Urteil vom 9.11.2005, Az. 21 O 7402/02 (Datenbankschutz für topografische Landkarten) 38 Die technischen Besonderheiten bei der Erhebung und bei der Verarbeitung von Satellitendaten und deren Analysepotenziale vor allem im Kontext der Entwicklungszusammenarbeit werden TAB-Arbeitsbericht Nr. 154 ausführlich thematisiert (TAB 2012). Zuständigkeitsbereich der Länder liegt. Sie wird durch die jeweiligen Vermessungs- und Katastergesetze der Länder spezifiziert und durch das amtliche Vermessungswesen realisiert (Kummer et al. 2006). Zu diesem gehören vor allem die Vermessungs- und Katasterämter der Bundesländer sowie öffentlich bestellte, zertifizierte Vermessungsingenieur/innen (gilt als freier Beruf zur Erbringung von Dienstleistungen höherer Art).39 Letztere vermessen räumlicher Gegebenheiten vor Ort und zunehmend auch aus der Luft im Auftrag der jeweiligen Ämter und übermitteln ihre erhobenen Daten an diese. Vermessungs- und Katasterämter führen Geodaten in unterschiedlichen Formaten (Dokumente, Tabellen, Luftbilder) zusammen und pflegen die amtlichen Geobasisdatenbestände in spezifischen Repositorien, auf die unterschiedliche Geoinformationssysteme aufbauen (Kasten 3.4). Zum Vermessungswesen gehören auch einige Ämter auf Bundesebene, darunter das Bundesamt für Kartographie und Geodäsie. Es pflegt die amtlichen nationalen Referenzdatenbestände sowie die darauf aufbauenden digitalen Landkarten und Raummodelle.40 Vor allem die Landeseinrichtungen unterliegen traditionell erheblichen Selbstfinanzierungserfordernissen und arbeiten bisher weitgehend gebührenfinanziert. Kasten 3.4 Amtliche Geoinformationssysteme ATKIS und ALKIS Das amtliche topographisch-kartographische Informationssystem (ATKIS) enthält primäre topografische Geobasisdaten Deutschlands sowie zentrale Schlüsseltabellen, die geografische Objekte und Flächen anhand ihrer Lagepunkte (Koordinaten der Flächenränder) definieren, diese eindeutig bezeichnen und signieren (labeln) und damit u. a. Siedlungsflächen, Verkehrsnetze, Vegetation, Gewässer, Relief und Verwaltungsgebiete ausweisen. Diese Schlüsseltabellen ermöglichen die Verknüpfung mit diversen Datenbanken, die weitere Daten zu den jeweiligen Flächen oder Objekten halten. Diese Geobasisdaten und Schlüsseltabellen bilden das zentrale amtliche Referenzmodell Deutschlands – quasi einen digitalen Zwilling des realen Geländes. Das Geoinformationssystem ATKIS ermöglicht die kontinuierliche Aktualisierung der zentralen amtlichen Datenbasis, die Darstellung der Daten anhand digitaler Karten und deren Bereitstellung für weitere Anwendungen mittels spezifischer Dienste. Das amtliche Liegenschaftskatasterinformationssystem (ALKIS) basiert auf einer digitalen Liegenschaftskarte, deren zentrale Schlüsseltabelle alle Liegenschaften/Flurstücke als geografische Gebiete definieren und anhand der Flurstückcodierung eindeutig bezeichnen. Diese Codierung bildet die Schnittstelle u. a. zum automatisierten Liegenschaftsbuch – der Datenbank, die alle amtlichen Eintragungen laut Grundbuchordnung (GBO) für jedes Flurstück enthält (u. a. Eigentumseintrag, Nutzungsart, Grundschulden). Grundbucheintragungen bilden das juristische Fundament des Eigentums an Grund und Boden. Einzelne Liegenschaftsdatensätze haben aufgrund der Eigentumseinträge einen Personenbezug. Die Art und Weise der Datenbereitstellung werden durch Geodatenzugangsgesetze auf Bundes- und Landesebenen definiert. Diese verpflichten die jeweiligen Ämter Geo(basis)daten in ihrem Verantwortungsbereich ohne besondere Kritikalität für die Weiterverwendung öffentlich zugänglich zu machen. Die Ämter gelten als Dateneigner, die datenverarbeitenden Stellen mittels Lizenzen definierte Nutzungsrechte gewähren (teilweise gegen Gebühr). Letztere müssen bei der Datenverwendung Quellen erkennbar vermerken. Damit werden die Strukturen des Urheberrechts (Leistungsschutz) auf den öffentlichen Geodatenbereich übertragen. Die technische und rechtliche Realisierung des Datenzugangs erfolgt zunehmend über die Geodateninfrastruktur (GDI) (siehe unten). Für die Georeferenzierung und Haltung von Fachdaten anderer öffentlicher Aufgabenbereiche sind vielfältige Fachressorteinrichtungen auf Landes- und Bundesebene zuständig. Dadurch wird die Georeferenzierung von Fachdaten zu einer Querschnittsaufgabe der öffentlichen Verwaltung. Unter den Fachressorts nimmt das Umweltressort eine besondere Stellung ein. Zum einen haben die meisten Umweltdaten per se Raumbezüge. Zum zweiten ist es der Bereich, dessen Ressorteinrichtungen seit vielen Jahren durch Umweltinformationsgesetze auf Bundes- 39 Freie Berufe haben berufsspezifischen Standesregeln, die einerseits das Berufsverständnis fundieren sollen und andererseits bei Nichteinhaltung berufsrechtliche Konsequenzen haben können. In den Standesregeln von Vermessungsingenieur/innen wird u. a. die unabhängige und sorgfältige Berufsausübung im Bewusstsein der Bedeutung der Daten betont und die Schweigepflicht auch berufsrechtlich verankert (www.bdvi.de/application/files/1915/6093/1809/standesregeln_bdvi_06062009.pdf; 10.11.2021). 40 Rechtsgrundlage: Gesetz über die geodätischen Referenzsysteme, -netze und geotopographischen Referenzdaten des Bundes (Bundesgeoreferenzdatengesetz – BGeoRG) und Landesebene zu einer verständlichen, aktuellen, weitgehend entgeltfreien Information der Öffentlichkeit gesetzlich verpflichtet sind und die in Folge seit Jahren Umweltinformationssysteme ausbauen – fachspezifische GIS, bei denen grafische Darstellungen im Rahmen von Berichts- und Abfragesystemen eine wichtige Rolle spielen und die dafür auf die nationalen Referenzdatenmodelle zugreifen. Alle öffentlichen Facheinrichtungen, die Geobasis- oder Geofachdaten verarbeiten, bilden gemeinsam das Geoinformationswesen. Mit der Entwicklung der Fernerkundungstechnologie sowie der Ortungsfähigkeit mobiler Geräte und mit der zunehmenden Verfügbarkeit von Geodaten können auch Unternehmen vielfältige Geodaten erheben oder von anderen beziehen, um digitale Karten und Raummodelle zu erstellen, Fachdaten zu verorten, raumbezogene Data- Mining-Projekte durchzuführen und/oder geodatenbasierte Anwendungen/Informationsdienste zu entwickeln. Derartige Unternehmen werden auch als Geoinformationswirtschaft oder GeoIT-Branche bezeichnet (ausführlicher z. B. Bernsdorf et al. 2015, S. 22 ff.). Personensensibilität und Sicherheitskritikalität von Geodaten Aufgrund der zunehmenden technischen Möglichkeiten können raumbezogene Daten kontinuierlich detailgenauer erfasst und über unterschiedliche Bezüge vielfältig verknüpft und erweitert werden. Dadurch können Geodaten sowohl unmittelbar als auch durch die Verknüpfung mit anderen Daten und durch Analyse u. a. besondere Liegenschaften und dortige Vorgänge offenbaren, Personen identifizieren oder orten41 und damit Grundrechte von Personen (Privatheit, Geschäftsgeheimnisse, Eigentum) verletzen oder bezüglich der inneren und äußeren Sicherheit bzw. der Gefahrenabwehr als kritisch bewertet werden. Die Erhebung und/oder Weitergabe kritischer Geodaten soll auf unterschiedliche Weise beschränkt und kontrolliert werden: Öffentliche Einrichtungen des Geoinformationswesens dürfen im Rahmen ihrer gesetzlich definierten Aufgaben auch personensensible oder sicherheitskritische Geodaten erheben und halten. Der Zugang für Dritte über die Geodateninfrastruktur wird jedoch beschränkt, wenn (§ 12 GeoZG) › schutzwürdige Interessen von Personen beeinträchtigt werden (Recht auf Privatheit bzw. Betriebs-/ Geschäftsgeheimnisse, Rechte am geistigen Eigentum), es sei denn, betroffene Personen haben zugestimmt; › durch den Datenzugang laufende Ermittlungen oder Gerichtsverfahren oder › bedeutsame Schutzgüter der öffentlichen Sicherheit, die Verteidigung oder internationale Beziehungen gefährdet werden. Da Unternehmen und Organisationen des privaten Rechts jedoch zunehmend selbst hochaufgelöste Geodaten erheben und gewerblich verwerten können, sind sie auf einen Zugang zu amtlichen Referenzdaten immer weniger angewiesen. Mit diversen ortungsfähigen Geräten können sie bodennah räumliche Gegebenheiten abbilden und vermessen oder Aktivitätsmuster von gerätetragenden Personen georeferenzieren und aufzeichnen. Die Grenzen der Zulässigkeit bodennaher Datenerfassungen wurden bisher vor allem in Bezug auf die Achtung der Grundrechte von Personen durch Rechtsprechung konkretisiert und beziehen sich besonders auf georeferenzierte Abbildungen.42 Potenziell kritische Geodaten können auch aus der Luft mittels Drohnen, Flugzeugen oder Satelliten und deren spezifischen Sensor- oder Kamerasystemen erhoben werden. Um den Einsatz hochwertiger Fluggeräte und die Erhebung potenziell kritischer Geodaten zu kontrollieren, ist zum einen eine Betriebserlaubnis erforderlich (für Drohnen ab 5 kg, darunter reicht ein Kenntnisnachweis [Abschnitt 5a LuftVO43). Zum anderen gibt es 41 Eine frühere ausführliche Thematisierung gesellschaftlicher Herausforderungen im Kontext von Ortungsdaten bietet z. B. Hilty et al. (2012). 42 Beispielhaft seien gerichtliche Klärungen im Kontext von Google Street View genannt, die bei georeferenzierten Bildern immer wieder die Grenzen zwischen Urhebenden und deren Berufs- und Panoramafreiheiten (Recht von Positionen des öffentlichen Raumes aus Liegenschaften zu fotografieren) und allgemeinen Persönlichkeitsrechten und Geheimhaltung definieren. So dürfen in Deutschland mit Kameras Gebäude und private Grundstücke nur aus einer Höhe von maximal 2,9 m aufgenommen werden (Grenzwerte variieren z. T. zwischen einzelnen Ländern, in der Schweiz liegt er z. B. bei 2 m). Auf Abbildungen müssen Personen und Autokennzeichen unkenntlich gemacht werden, bei Fassadenaufnahmen dürfen Gebäudeeigentümer/innen ebenfalls die Anonymisierung durch Vergröberung bzw. Verpixelung verlangen (wobei bei Gebäuden mit mehreren Eigentumsparteien und Mietverhältnissen komplexere Rechtssituationen entstehen können) (ausführlicher z. B. Ernst 2010). 43 Luftverkehrs-Ordnung (LuftVO) (BGBl. I S. 1894) Überflug- damit auch Datenerhebungsverbote mit Drohnen über privaten Grundstücken und Gebäuden (mit Erlaubnisvorbehalt durch Betroffene)44 sowie in und über sensiblen Situationen und Bereichen (u. a. über Menschenansammlungen sowie Einsatzorten von Sicherheits- und Rettungskräften, über kritischen Infrastrukturanlagen sowie öffentlichen Einrichtungen und Industrieanlagen). Auch der Betrieb hochwertiger Erdfernerkundungssysteme (Satelliten und Bodenstationen) sowie die Erhebung und Weitergabe hochaufgelöster aktueller Satellitendaten sind erlaubnispflichtig.45 Satellitenbetreibende und -datenanbietende Stellen müssen die Kritikalität entsprechender Datenanfragen in einem zweistufigen Verfahren prüfen. Zuerst prüfen sie selbst den Informationsgehalt der gewünschten Daten und die Zuverlässigkeit der beantragenden Stelle, dann holen sie eine behördliche Bestätigung ein (§§ 17 ff. SatDSiG). Auch wenn es für die Erfassung und Bereitstellung von Geodaten einen Rechtsrahmen gibt, sind sowohl die Bewertung der Sicherheitskritikalität oder Personensensitivität von Geodaten als auch die entsprechende Regulierung der Vorgehensweisen kontinuierliche Herausforderungen, denn dafür sollten nicht nur die Auflösung und die Aktualität der jeweiligen Datenerfassungen berücksichtigt werden, sondern auch die für eine datenverarbeitende Stelle verfügbaren weiteren Datenbestände und die Leistungsfähigkeit der datenanalytischen Verfahren, die datenverwendende Stellen einsetzen können. Einen spezifischen Rechtrahmen für die Analyse von Geodaten einschließlich Data-Mining gibt es bisher nicht. Laut Bernsdorf et al. (2015, S. 213) zeigen Diskussionen unter Geodienstleistern aus Forschung und Wirtschaft sowie entsprechender Verbandsaktivitäten, dass es bezüglich der Bewertung der Kritikalität von Geodaten und deren Verarbeitung sowohl unterschiedliche Positionen als auch Unsicherheiten bezüglich der Grenzen der zulässigen Datenverarbeitung gibt. Diejenigen, die Geodaten zur Entwicklung neuer Informationsdienste nutzen wollen, bewerten die Kritikalität von (Geo-)Daten tendenziell eher schwächer und fordern eher deren Zugänglichkeit. Diejenigen, die Personen mit ihren Grundrechten oder diverse sicherheitsrelevante Dinge schützen wollen (von kritischen Infrastrukturen bis militärischen Objekten), fordern eher einen restriktiveren Umgang mit Geodaten, der jedoch ins Leere läuft, je mehr hochauflösende Geodaten aus unterschiedlichen Quellen weltweit verfügbar werden (ausführlicher z. B. Bernsdorf et al. 2015, S. 180 ff.). Auf- und Ausbau der Geodateninfrastruktur Deutschland Die Geodateninfrastruktur Deutschland (GDI-DE) soll Geodaten aus unterschiedlichen Quellen für die Weiterverwendung rechtssicher zugänglich machen (Bernsdorf et al. 2015, S. 18 ff.). Sie hat folgende technische Komponenten: › dezentrale Geodatenrepositorien in der Verantwortung datenbereitstellender Einrichtungen, die unter Anwendung von Geodatennormen und interoperablen Standards Geodatensätze halten und mittels standardisierter Metadatensätze katalogisieren, sodass Datensätze ähnlich wie Texte über Bibliothekskataloge gesucht und bereitgestellt werden können; › ein Netzwerk, das die Repositorien der sich beteiligenden Einrichtungen verknüpft sowie › Zugangsportale zu den Repositorien und deren Katalogen mit spezifischen Diensten – zur Datensuche (greifen auf die Metadatenfiles der Kataloge zu), – zur Visualisierung (stellen Geodaten anhand von Karten grafisch dar), – zur Transformation (u. a. Umrechnungen, Maßstabsveränderungen), – zum Datendownload sowie – zur digitalen Abwicklung des damit verbundenen Geschäftsverkehrs (Nutzerregistrierung, Lizenzerteilung, Bezahlung). 44 Die Abbildung von Grundstücken aus der Luft gilt als Eingriff in das allgemeine Persönlichkeitsrecht, wenn private Lebensbereiche gezeigt werden, die von öffentlichen Plätzen nicht einsehbar sind, auch wenn keine Personen abgebildet sind (BVerfG, Beschluss vom 2.5.2006, 1 BvR 507/01) 45 Gesetz zum Schutz vor Gefährdung der Sicherheit der Bundesrepublik Deutschland durch das Verbreiten von hochwertigen Erdfernerkundungsdaten (Satellitendatensicherheitsgesetz – SatDSiG) Die USA förderten bereits in den 1990er Jahren den Aufbau von Geodateninfrastrukturen, um den Zugang zu Geodaten, die mit öffentlichen Mitteln erhoben wurden, zu vereinfachen und sie leichter weiterverwenden zu können. Dieses Engagement wurde flankiert von den Aktivitäten zur Kommerzialisierung vor allem des Satellitendatenbereichs, die den Betrieb von Satelliten und die Erhebung von Geodaten auch für Unternehmen ermöglichte und die das staatliche Monopol der Geodatenerfassung beendete (ausführlicher TAB 2012, S. 96 ff.). Auch in Deutschland gab es bereits vor der Jahrtausendwende erste Schritte, um amtliche Geodaten zumindest für öffentliche Aufgaben besser nutzen zu können: Das Bundesamt für Kartographie und Geodäsie (BKG) begann mit dem Aufbau eines eigenen Geodatenzentrums, in dem ausgewählte Geobasisdaten der Länder auf Bundesebene zusammengeführt wurden, um sie anderen Fachressorteinrichtungen des Bundesebene für deren jeweilige Aufgaben bereitzustellen. Die Bundeseinrichtungen vernetzten sich im interministeriellen Ausschuss für Geoinformationswesen (IMAGI), um ihren Geodatenbedarf und ihr Vorgehen abzustimmen. Diesen Aktivitäten und dem Geodatenbedarf auf Bundesebene standen vielfältige datenerhebende öffentliche Einrichtungen als Datenhalter mit Selbstfinanzierungserfordernissen auf kommunaler und Landesebene gegenüber. Ein Wandel im Verwaltungsdenken bezüglich des Zugangs und der Weiterverwendung amtlicher Geo (basis)daten setzte in Deutschland nach der Jahrtausendwende ein. Befördert wurde er durch die entstehenden internationalen Wettbewerbsstrukturen der Geodatenanbieter, eine sich aus wissenschaftlichen Einrichtungen herauslösende, eigenständig etablierende GeoIT-Branche, immer umfangreichere informationstechnische Möglichkeiten und euphorische Marktprognosen bezüglich der Entwicklung neuer geodatenbasierter Services und damit möglicher Mehrwertgenerierung. Laut Bernsdorf et al. (2015, S. 25 ff.) könne man im Geodatenbereich seitdem beobachten, wie sich informationstechnische und normative Entwicklungsschritte sowie öffentliches und privatwirtschaftliches Engagement für einen strukturierten Zugang zu Geodatenbeständen in öffentlicher Hand wechselseitig verstärken, auch wenn es im Detail unterschiedliche Positionen, Rahmenbedingungen und Logiken bei beteiligten Akteuren gibt. Eine Art Goldgräberstimmung sei entstanden – auch bei der Schaffung gesetzlicher Rahmenbedingungen für eine breitere Nutzung von Geodaten der öffentlichen Hand. Einerseits wollte man den Markt nicht nur ausländischen Anbietern überlassen und suchte Möglichkeiten, amtliche Geodatenbestände ebenfalls wirtschaftlich nutzbar zu machen. Andererseits sollten dem prognostizierten prosperierenden Markt auch gewisse Regeln gegeben werden. Aufgrund verteilter Verantwortlichkeiten sind dafür vielfältige Abstimmungen und gesetzliche Aktivitäten auf europäischer, Bundes- und Landesebene erforderlich (Kasten 3.5). Kasten 3.5 Rechtsgrundlagen der Geodateninfrastruktur Die europäische INSPIRE-Richtlinie46 (Infrastructure for Spatial Information in the European Community) zielt darauf ab, EU-weit harmonisierte, nationale Geodateninfrastrukturen aufzubauen, um diese insbesondere für eine gemeinschaftliche Umweltpolitik nutzen zu können. Sie verpflichtet die Mitgliedstaaten Geobasisdaten und definierte Geofachdaten mit Umweltbezug zunehmend standardisiert bereitzustellen. Geodatenzugangsgesetze und deren Rechtsverordnungen auf Bundes- und Landesebene setzen diese Richtlinie national um und definieren für die jeweiligen datenhaltenden Ämter › die Gültigkeit des Urheberrechtsgesetzes (Ämter gelten teilweise als Dateneigner, dürfen Nutzungsrechte mittels Lizenzen vergeben und Gebühren erheben); › die Bereitstellung standardisierter Geodaten und Metadatenfiles (Verwendung Normungsserie EN ISO 19100, Maschinenlesbarkeit, Dauerhaftigkeit, Aktualität) sowie definierter Dienste zur Datenverarbeitung und zum Geschäftsverkehr; › die Weiterverwendung, wobei die GeoZG der meisten Bundesländer zwischen öffentlichen Aufgaben, anderer nichtkommerzieller und kommerzieller Nutzung differenzieren und letztere begrenzen; › Nutzungsbeschränkungen, um Grundrechte von Personen oder bedeutende Schutzgüter der öffentlichen Sicherheit (kritische Infrastrukturen), Verteidigung sowie internationale Beziehungen nicht zu gefährden sowie 46 Richtlinie 2007/2/EG vom 14.3.2007 zur Schaffung einer Geodateninfrastruktur in der Europäischen Gemeinschaft (INSPIRE) › Haftungsbeschränkungen und -ausschlüsse (keine Sachschäden, bei Fahrlässigkeit). Das Bundesgeoreferenzdatengesetz (BGeoRG)47 definiert die Aufgaben des Bundesamtes für Kartographie und Geodäsie bezüglich der Bereitstellung neutraler Geobasisdaten und nationaler Referenzsysteme, digitaler Karten und Raummodelle. Zugang ohne Gegenleistung erhalten Bundeseinrichtungen zur Wahrnehmung öffentlicher Aufgaben. Nach Diskussionen und Beschlussfassungen u. a. auch im Deutschen Bundestag begann 2003 das gemeinschaftliche Vorgehen von Bund, Ländern und Kommunen zum Aufbau der Geodateninfrastruktur Deutschland (Bundesregierung 2003; SPD/BÜNDNIS 90/DIE GRÜNEN 2001). Seitdem fordert das Parlament in jedem 3. Jahr der Legislaturperiode einen Fortschrittsbericht zur Entwicklung des Geoinformationswesens von der Regierung ein. Diese Berichte dokumentieren Herausforderungen beim Auf- und Ausbau der GDI-DE, erreichte Meilensteine sowie definierte neue Etappen und Ziele (Bundesregierung 2003, 2005, 2008, 2012, 2017 u. 2021b). Beim Bundesministerium des Innern (BMI) wurde eine Lenkungsgruppe eingerichtet, die alle GDI-DE-Aktivitäten koordiniert und für die Berichterstattung verantwortlich ist. In der Anfangsphase stand das technische Datenmanagement im Fokus. Parallel dazu mussten vielfältige rechtliche Fragen geklärt werden. Die Harmonisierung und Vereinfachung diverser kommunaler-, landes-, bundes- und aufgabenspezifischer Zugriffsregeln, Nutzungsbedingungen und Kostenmodelle war und ist ein Entwicklungsprozess mit vielen Etappen (Bernsdorf et al. 2015, S. 170 ff.). 2005 verständigten sich die Bundes- und Landeseinrichtungen mit den Entgeltrichtlinien auf drei deutschlandweit gültige Nutzungskategorien (öffentliche Aufgaben, Forschung und gewerbliche Nutzung), hielten jedoch an ihren Verwertungsrechten fest, was mit komplizierten Lizenzverfahren einherging. Innerhalb der Bundesverwaltung verständigte man sich auf eine entgeltfreie Nutzung von Geodaten und -diensten für gesetzlich definierte Aufgaben, sofern keine wirtschaftliche Weiterverwendung erfolgte. Im nächsten Schritt wurden Lizenzierungsverfahren digitalisiert und Abrechnungsprozesse verwaltungsübergreifend vereinheitlicht. 2008 ging man zu bundeseinheitlichen Gebührenkatalogen über und einigte sich darauf, bei der Gebührenbemessung nur die Kosten für die Bereitstellung, nicht aber die für die Datenerhebung zu berücksichtigen. Seit 2013 stellen Bundesbehörden ihre selbst erhobenen Geodaten, deren Metadaten sowie ihre Dienste zur Suche, Darstellung oder zum Download für jegliche Weiterverwendung kostenlos bereit (Quellenangaben werden gefordert, auf Nutzungslizenzen hingegen verzichtet). Jedoch werden vor allem hochaufgelöste Geodaten nicht auf Bundesebene, sondern von Landes- oder kommunalen Einrichtungen erhoben. Dieser bisher weitreichendsten Open-Data-Initiative des Bundes schlossen sich 6 Bundesländer an.48 In anderen Bundesländern werden nur Such- und Darstellungsdienste kostenlos bereitgestellt, beim eigentlichen Datendownload wird an Nutzungslizenzen und Gebührenerhebung festgehalten. Dadurch sehen sich lizenznehmende Stellen trotz einiger Vereinfachungen nach wie vor mit komplexen Strukturen konfrontiert, denn die Länder können diverse Positionen der Lizenzvereinbarungen nach wie vor individuell gestalten. Laut Bernsdorf et al. (2015, S. 199 f.) ist diese Situation in Kombination mit jährlichen Gebührenanpassungen für lizenznehmende Stellen nach wie vor kompliziert und bietet kaum längerfristige Planungssicherheit. Auch die Kritikalität insbesondere von hochaufgelösten Geodaten wurde thematisiert, um Grenzen für die Datenzugänglichkeit über die GDI festzulegen (u. a. Karg 2008). Bisher werden über die GDI nur unkritische Geodaten bereitgestellt. Eine Instanz, die ggf. die Zuverlässigkeit datenverarbeitender Stellen oder einzelner Analyseanträge prüft und ggf. hochaufgelöste Geodaten situativ für Einzelanalysen freigibt, ist bisher nicht in die GDI eingebunden. Der GDI-Aufbau wurde nach 10 Jahren evaluiert (Bundesregierung 2012a). Nicht alle ursprünglich gesetzten Zeitziele wurden erreicht, etliche Erfolge blieben hinter Notwendigkeiten zurück. Als Gründe wurden die Vielzahl beteiligter Akteure, die begrenzte Ressourcenausstattung und eine geringe Aufgabenpriorisierung genannt. Mit Blick nach vorn wurde eine Bedarfs- und Nutzungsprüfung bereitgestellter Daten und ein Vergleich mit anderen Datenanbietern empfohlen, um öffentliche Angebote auf ihre Relevanz zu prüfen. Eine Nationale Geoinformationsstrategie (NGIS) solle sich perspektivisch stärker darauf konzentrieren, welche Aufgaben zur staatlichen Grundversorgung gehören und welche von privatwirtschaftlichen Akteuren übernommen werden können. Diese Strategie wurde 2015 verabschiedet und beschreibt Aufgabenschwerpunkte und Ziele für die nächsten 10 Jahren 47 Gesetz über die geodätischen Referenzsysteme, -netze und geotopographischen Referenzdaten des Bundes (Bundesgeoreferenzdatengesetz – BGeoRG) 48 Berlin, Brandenburg, Hamburg, Nordrhein-Westphalen, Sachsen, Thüringen (AG NGIS 2015). Die Schaffung und zuverlässige Bereitstellung einer nationalen Geodatenbasis (einschließlich Metadatenbasis) wurde als staatliche Aufgabe mit geteilter Zuständigkeit von Bund, Ländern und Kommunen bestätigt. Die Entwicklungsziele sind auf die Intensivierung der Nutzung ausgerichtet, explizit auf die › Mehrfachnutzung der nationalen Geodaten; › Senkung der nach wie vor bestehenden nutzungsrechtlichen Hemmnisse (u. a. sollen Lizenzen nutzerfreundlicher werden, Kostenstrukturen vereinheitlicht sowie Haftungsfragen in Bezug auf die Richtigkeit bereitgestellter Daten und die rechtskonforme Verarbeitung unter Einhaltung von Datenschutz und Datensicherheit das Geben und Nehmen klarer regeln) sowie › Förderung von Innovationen, wobei Staat, Wissenschaft und Wirtschaft gleichermaßen verantwortlich seien, neue Angebote anzustoßen, zu erproben und die Implementierung zu unterstützen (u. a. sollen geeignete Plattformen zur Kommunikation und Koordination gemeinsamer Projekte gezielt ausgebaut werden). Die stärkere Ausrichtung auf die Datennutzung schlägt eine stärkere Brücke zu Data-Mining-Aktivitäten. Auch wenn die aufwendigen Abstimmungsprozesse und die nach wie vor bestehenden Nutzungshemmnisse im Geodatenbereich mitunter kritisiert werden, gehört Deutschland bezüglich des GDI-Aufbaus und der Implementierung der INSPIRE-Richtlinie im europäischen Vergleich zu den Vorreiterländern (Cetl et al. 2017). Von den Erfahrungen beim GDI-Aufbau könnten ggf. auch andere öffentliche Bereiche profitieren, die ebenfalls beginnen, Dateninfrastrukturen auf- und auszubauen. Bereitstellung anderer Verwaltungsdaten Nur wenig zeitversetzt zum Geodatenbereich starteten auch für andere öffentliche Bereiche Initiativen für mehr Offenheit bei den im Rahmen öffentlicher Aufgaben generierten Daten und Informationen. Gesetze auf Bundes- und Landesebene wurden erlassen, es gab jedoch keinen mit dem Geodatenbereich vergleichbaren Enthusiasmus, Verwaltungsdaten allgemein öffentlich zugänglich zu machen. Die ab 2006 in Kraft getretenen Informationsfreiheitsgesetze auf Bundes- und Landesebenen attestieren zwar einen voraussetzungslosen Anspruch für jedermann auf Zugang zu Informationen, die öffentliche Einrichtungen im Rahmen ihrer Aufgaben gewinnen. Darunter fallen nicht nur Daten, Tabellen, Karten und Bilder, sondern auch Analysen, Berichte, Schriften und sonstige Aufzeichnungen (keine Notizen, Entwürfe, Stichpunkte). Ausgenommen sind jedoch jegliche Informationen, die aus diversen Gründen geschützt sind (u. a. zum Schutz vielfältiger öffentlicher Belange und behördlicher Entscheidungsprozesse, informationeller Selbstbestimmungsrechte, von Geschäftsgeheimnissen oder geistigem Eigentum). Die jeweiligen öffentlichen Einrichtungen sind verpflichtet, Daten- und Informationsbestände zu verzeichnen und diese Verzeichnisse elektronisch zugänglich und entgeltfrei nutzbar zu machen. Sie müssen die Richtigkeit der Daten und Informationen nicht immer prüfen. Laut Informationsfreiheitsgesetzen kann die Daten- und Informationsbereitstellung mündlich, schriftlich oder elektronisch erfolgen, teilweise dürfen Aufwandsgebühren in Rechnung gestellt werden. Nach der Unterzeichnung der G8-Open-Data-Charta und infolge der europäischen Open-Data-Richtlinie wurden auf Bundes- und Landesebenen E-Government-Gesetze verabschiedet, die wesentlich auf elektronische Verwaltungsabläufe abzielen, aber auch die Bereitstellung maschinenlesbarer Verwaltungsdaten verbessern sollen. Datenbereitstellende Behörden sind bisher zu keinerlei Datenprüfung verpflichtet und übernehmen keine Haftung in Bezug auf Richtigkeit, Qualität, Aktualität und dauerhafte Bereitstellung der Daten. Der Aufbau von Dateninfrastrukturen wird bisher nicht explizit definiert. Dem Bundestag ist alle zwei Jahre über den Fortschritt zu berichten. Diverse Evaluationen weisen seit Jahren darauf hin, dass die Bereitstellung und Weiterverwendung von Verwaltungsdaten nur schleppend vorankommen. Öffentliche Einrichtungen stellen kaum Ressourcen für die Offenlegung ihrer Verwaltungsdaten bereit (Bundesregierung 2016a, S. 7 ff. 2019a; Wissenschaftliche Dienste 2019). Teilweise wird ihnen ein noch nicht ganz vollzogener Bewusstseinswandel attestiert (DEK 2019, S. 156), in Einzelfällen sogar eine Weigerung festgestellt, Informationspflichten zu erfüllen (BfDI 2020, S. 9). Im internationalen Vergleich gehört Deutschland bisher keinesfalls zu den Vorreitern offener (Verwaltungs-)Daten (Wangermann 2016).49 Die im Anschluss verabschiedeten Informationsweiterverwendungsgesetze zielen zwar auf die Intensivierung der maschinellen Weiterverwendung von Daten und Informationen – und sollten damit auch Data-Mining- Aktivitäten ermöglichen –, formulieren dann jedoch weitgehend unverbindliche Allgemeinaussagen: Öffentliche Einrichtungen sollen ihre ohnehin offenzulegenden Daten/Informationen und deren Metadaten/Beschreibungen möglichst elektronisch, in offenen und maschinenlesbaren Formaten bereitstellen, sofern das mit verhältnismäßigem Aufwand möglich ist. Sie können für die bereitzustellenden Daten/Informationen Nutzungslizenzen vergeben. Letztere sollen allgemein zugänglich sein, keine Ausschließlichkeitsvereinbarungen enthalten (Ausnahmen sind möglich) und jegliche Weiterverwendung gleichbehandeln (keine Differenzierung zwischen gewerblich und nichtgewerblich). Nutzungsentgelte dürfen in den meisten Bundesländern erhoben werden. Sofern Informationen bereits mit Metadaten beschrieben und in maschinenlesbaren Formaten über öffentliche Netze zugänglich sind, sollen diese Metadaten auch einem zentralen Webportal zur Verfügung gestellt werden (GovData.de). Ende 2019 startete die Bundesregierung eine neue Initiative, um die verantwortungsvolle Datenbereitstellung und -nutzung in Deutschland signifikant zu steigern (Bundesregierung 2019c). 2021 verabschiedete sie zum einen die nationale Datenstrategie, mit der der Bund diesbezüglich zum Vorreiter werden will (Bundesregierung 2021a). Zum anderen wurde auf Bundesebene das E-Government-Gesetz50 geändert und das Informationsweiterverwendungsgesetz durch das Gesetz zur Nutzung von Daten des öffentlichen Sektors ersetzt.51 Dadurch werden öffentliche Stellen des Bundes als Datenbereitsteller umfangreicher benannt (auch Unternehmen mit öffentlich- rechtlichen Aufgaben und Forschungseinrichtungen), jedoch gibt es nach wie vor zahlreiche Ausnahmen, u. a. wird die Datenbereitstellung und -nutzung der sozialgesetzlich definierten Selbstverwaltungskörperschaften (darunter Einrichtungen der gesetzliche Krankenversicherung [Kap. 5]) eigenständig reguliert. Die Datenbereitstellung erfolgt weitgehend im etablierten Rahmen (Metadaten sollen über das GovData-Portal bereitgestellt werden, die Datensätze über öffentlich zugängliche Netze, aller zwei Jahre soll über den Fortschritt berichtet werden). Etliche Aspekte wurden jedoch konkretisiert: u. a. der Verzicht, Urheberrechte geltend zu machen; die Möglichkeiten, über Nutzungslizenzen angemessene Entgelte für begrenzte Aufbereitungen (ggf. Anonymisierung und Fehlerbereinigung) definieren zu dürfen; die diskriminierungsfreie (Roh-)Datenbereitstellung; die Verwendung offener maschinenlesbarer Formate; die Bereitstellung dynamischer Datenbestände über offene Anwendungsprogrammierschnittstellen. 3.3 Umgang mit personenbezogenen Daten 3.3.1 Von Datenverarbeitung betroffene Personen und deren Rechte Grundrechte Einzelne natürliche Personen haben in Deutschland unterschiedliche unveräußerliche und dauerhaft einklagbare Grundrechte, die Verfassungsrang haben. Der Staat muss sie einerseits schützen, andererseits begrenzen sie die Staatsgewalt. Sie werden durch die Europäische Menschenrechtskonvention und auf nationaler Ebene durch das Grundgesetz52 definiert. Im Kontext der Datenerhebung und Verarbeitung vorrangig relevant sind das Recht auf Privatsphäre und das Recht auf informationelle Selbstbestimmung. Beide werden durch allgemeine Persönlichkeitsrechte begründet (Art. 2 Abs. 1 i.V. m. Art. 1 Abs. 1 GG). Das Recht auf Privatsphäre fußt auf der Annahme, dass ein privater, abgeschirmter Bereich nötig ist, um sich frei entfalten zu können und stellt diesen unter Schutz. Dieses Recht auf Privatsphäre wird in drei Bereichen explizit definiert und geschützt: In Bezug auf persönliche Informationen und Daten (informationelle Selbstbestimmung), Telekommunikation (Art. 10 GG) und Wohnung 49 Die Chancen der Öffnung und Bereitstellung von Verwaltungsdaten werden in einem separaten Projekt des TAB thematisiert (Chancen der digitalen Verwaltung, www.tab-beim-bundestag.de/de/untersuchungen/u40200.html; 10.11.2021). 50 Gesetz zur Förderung der elektronischen Verwaltung (E-Government-Gesetz – EGovG) 51 Gesetz zur Änderung des E-Government-Gesetzes und zur Einführung des Gesetzes für die Nutzung von Daten des öffentlichen Sektors 52 Grundgesetz für die Bundesrepublik Deutschland (GG) (Art. 13 GG). Das Recht auf informationelle Selbstbestimmung wurde vom Bundesverfassungsgericht 1983 im Volkszählungsurteil definiert und besagt, dass einzelne natürliche Personen grundsätzlich selbst über die Preisgabe und Verwendung ihrer personenbezogenen Daten bestimmen können (Schepers et al. 2015, S. 220). Grundrechte sind nicht schrankenlos. So wie Daten nicht nur ein Individuum, sondern auch soziale Realitäten einer Gemeinschaft abbilden, muss auch im Falle eines überwiegenden Allgemeininteresses die einzelne Person Einschränkungen ihrer Rechte hinnehmen, die gesetzlich zu definieren sind. Die seit 2018 EU-weit gültige europäische Datenschutz-Grundverordnung zielt darauf ab, die unterschiedlichen Interessenlagen bezüglich des Schutzes von Grundrechten und der Verwendung personenbezogener oder - beziehbarer Daten abzuwägen. In der Verordnung werden Einzelpersonen gegenwärtig als Betroffene bezeichnet (Art. 4 DSGVO). Die Verarbeitung von personenbezogenen Daten ist nur rechtmäßig (Art. 6 DSGVO) › mit freiwilliger Einwilligung der betroffenen Person zu bestimmten Zwecken, einschließlich der Erfüllung (vor)vertraglicher Maßnahmen, die auf Anfrage dieser Person erfolgen, sowie zum Schutz lebenswichtiger Interessen der betroffenen oder anderer Personen oder › zur Wahrnehmung von Aufgaben im öffentlichen Interesse. Genannt werden u. a. Aufgaben im Gesundheits- und Sozialbereich (Art. 6 Abs. 1e DSGVO).53 Dafür enthält die DSGVO Öffnungsklauseln, durch die Mitgliedsländer die Rechtmäßigkeit der Datenverarbeitung und eigenständige Verfahrensmodalitäten festlegen können; z. B. definieren – Sozialgesetzbücher (SGB), welche Daten zur Abrechnung sozialer Leistungen erhoben und für welche Zwecke von wem verarbeitet werden dürfen (Kap. 4.4.1]), – diverse Registergesetze das öffentliche Interesse an speziellen Sachverhalten (vom Einwohnerregister bis zu Krebsregistern [Kap. 4.1.4]) oder – Statistikgesetze, welche personenbezogenen Daten Statistikämter erheben dürfen (z. B. Mikrozensus statt Volkszählung) und wer diese verarbeiten darf. Damit ergibt sich bei der Verarbeitung personenbezogener Daten ein spezielles Verbotsprinzip mit Erlaubnisvorbehalt: Entweder hat die betroffene Person freiwillig zweckspezifisch und informiert zugestimmt (Standardmodell im privatwirtschaftlichen Bereich) oder die Erlaubnis ist gesetzlich definiert zur Wahrnehmung öffentlicher Aufgaben (Standardmodell im öffentlichen Bereich). Eine weitere Möglichkeit ist die Datenverarbeitung im Rahmen von sekundären Nutzungen, die mit einem ursprünglichen Zweck vereinbar sind z. B. zu Forschungszwecken [Kap. 3.3.4]). In der Summe entsteht ein komplexes System von Erlaubnistatbeständen (Siemoneit 2018, S. 7). Aus datenanalytischer Perspektive weitere besonders relevante Grundrechte sind das › Recht auf Leben, körperliche Unversehrtheit und Freiheit (Art. 2 Abs. 2 GG), infolgedessen der Staat nur auf gesetzlicher Ebene in diese Rechte eingreifen darf und er verpflichtet ist, Grundrechte aktiv zu schützen; › Gleichheitsgrundrecht, das Diskriminierung aufgrund bestimmter persönlicher Eigenschaften verbietet (national durch Art. 3 GG) und durch das Allgemeine Gleichbehandlungsgesetz54 realisiert werden soll. Es ist ein für staatliches und privates Handeln geltendes Verbotsrecht, das auch die Entwicklung und den Einsatz von Algorithmen betrifft (ausführlicher z. B. in Orwat 2019; TAB 2020); › Recht auf ungehinderten Informationszugang (national durch Art. 5 Abs. 1 GG), das durch unterschiedliche Informationszugangs- und -freiheitsgesetze realisiert werden soll, wodurch teilweise auch Daten und Informationen öffentlicher Einrichtungen u. a. für komplexe Datenanalysen zugänglich werden, sowie › Recht auf Eigentum (Art. 14 GG), dessen Reichweite und Grenzen für materielle Sachen insbesondere durch das Privatrecht (§ 903 BGB) und für immaterielle Güter durch das Immaterialgüterrecht konkretisiert wird. 53 Auch die innere und äußere Sicherheit und Gefahrenabwehr sind Aufgaben im öffentlichen Interesse (Art. 6, Abs. 1e DSGVO), die das informationelle Selbstbestimmungsrecht beschränken können. Diese Thematik wird im TAB-Projekt »Beobachtungstechnologien im Bereich der zivilen Sicherheit – Möglichkeiten und Herausforderungen« separat behandelt (www.tab-beim-bundestag.de/de/ untersuchungen/u20900.html; 10.112021). 54 Allgemeines Gleichbehandlungsgesetz (AGG) Grundrechterealisierung durch Datenschutzrechte Auch wenn eine natürliche Person einer Datenerfassung und -verarbeitung freiwillig zugestimmt hat oder wenn dies auf gesetzlicher Grundlage erfolgte, bleiben deren Grundrechte erhalten. Die in der Datenschutz- Grundverordnung definierten Rechte betroffener Personen sollen dies sichern.55 Neben allgemeinen Rechten auf transparente Information, Kommunikation und Verfahrensmodalitäten (Art. 12 DSGVO) haben Betroffene bezüglich ihrer personenbezogenen Daten folgende Rechte gegenüber datenverarbeitenden Stellen: › Auskunft zu Verfahrensmodalitäten, Datenerhebung und -verarbeitung (Art. 15 DSGVO), direkt gekoppelt mit Informationspflichten datenverarbeitender Stellen bei der Datenerhebung (Art. 13 und 14 DSGVO); › Berichtigung und Löschung – dazu gehört auch das »Recht auf Vergessenwerden«, u. a. wenn die Daten für die definierten Zwecke nicht mehr nötig sind oder bei Widerruf der Einwilligung (Art. 16 und 17 DSGVO); › Einschränkung der Verarbeitung, u. a. wenn die Richtigkeit geprüft werden muss, oder die Verarbeitung unrechtmäßig ist (Art. 18 DSGVO); › Datenübertragbarkeit, d. h. einzelne Personen haben ein Recht die sie betreffenden Daten selbst zu erhalten oder diese an eine andere verantwortliche Stelle zu übermitteln (Art. 20 DSGVO); › Widerspruch, u. a. bei Datenverarbeitung für Aufgaben im öffentlichen Interesse sowie zu wissenschaftlichen und historischen Forschungszwecken (Art. 21 DSGVO). Ähnlich wie es im Falle eines überwiegenden Allgemeininteresses möglich ist, Grundrechte gesetzlich zu beschränken, können auch die diese Grundrechte absichernden Datenschutzrechte in diesen Fällen gesetzlich beschränkt werden (Art. 23 DSGVO). Rechte in Bezug auf automatisierte Datenverarbeitung Die Datenschutz-Grundverordnung gewährt jeder natürlichen Person ein Recht, keiner ausschließlich auf automatisierter Datenverarbeitung beruhenden Entscheidung unterworfen zu werden, die ihr gegenüber rechtliche Wirkung entfaltet (Art. 22 Abs. 1 DSGVO). Dazu gehört auch das Profiling, definiert als automatisierte Datenverarbeitung, mit der auf eine bestimmte Person bezogene Aspekte wie Arbeitsleistung, wirtschaftliche Lage, Gesundheit, persönliche Vorlieben, Interessen, Zuverlässigkeit, Verhalten, Aufenthaltsort oder Ortswechsel analysiert oder vorhergesagt werden (Art. 4 Ab. 4 DSGVO). Dies gilt nicht, wenn (Art. 22 Abs. 2 DSGVO): 1. die betroffene Person ausdrücklich eingewilligt hat, 2. eine automatisierte Entscheidung im Rahmen eines Vertrages zwischen betroffener Person und datenverarbeitender Stelle erforderlich ist oder 3. es eine Rechtsvorschrift gibt, die entsprechende Vorgehensweisen zulässt (Öffnungsklausel für national eigenständige Regelungen zu Aufgaben im öffentlichen Interesse). Das Bundesdatenschutzgesetz (BDSG) konkretisiert diesbezüglich die Zulässigkeit von › Scoring und Bonitätsauskünften zum Schutz des Wirtschaftsverkehrs (§ 31 BDSG): Im Kontext von Vertragsverhältnissen können Wahrscheinlichkeitswerte über ein bestimmtes zukünftiges Verhalten einer natürlichen Person verwendet werden, wenn wissenschaftlich anerkannte mathematisch-statistische Verfahren dieses Verhalten nachweisbar erheblich vorhersagen können, dafür mehr als nur Adressdaten herangezogen werden und wenn bei Anschriftenmitbenutzung Betroffene unterrichtet wurden und dies dokumentiert ist. 55 Dieses Datenschutzrecht gilt in der EU nur für natürliche Personen. In einigen anderen Ländern gilt es auch für juristische Personen (z. B. Schweiz). In der EU haben juristische Personen ein Recht auf Geschäftsgeheimnisse, konkretisiert durch die Richtlinie 2016/94 über den Schutz vertraulichen Know-hows und vertraulicher Geschäftsinformationen (Geschäftsgeheimnisse) vor rechtswidrigem Erwerb sowie rechtswidriger Nutzung und das auf nationaler Ebene durch das Gesetz zum Schutz von Geschäftsgeheimnissen (GeschGehG) umgesetzt wird. › Automatisierter Entscheidungsfindung im Einzelfall einschließlich Profiling (§ 37 BDSG): Im Rahmen der Leistungserbringung nach einem Versicherungsvertrag insbesondere bei der medizinischen Behandlung (Kap. 4.3). Bezieht man die unterschiedlichen Rechte, die die Datenschutz-Grundverordnung betroffenen Personen gewährt, auf den Data-Mining-Prozess, so wird hier eine gewisse Sonderstellung deutlich. Während Einwilligungs- und Widerspruchsrechte vor einer Datenverarbeitung wirken und Verarbeitungsbeschränkungs- sowie Löschungsrechte auch laufende Data-Mining-Prozesse beeinflussen können (Beschränkung der Datenerhebung und - verarbeitung), setzt dieses Recht voraus, dass Daten verarbeitet bzw. Data-Mining durchgeführt und Verfahren zum Scoring oder Profiling bereits entwickelt wurden (Beschränkung der operativen Anwendung von Profiling- oder Scoringverfahren). Rechtsdurchsetzung Die Datenschutzrechte betroffener Personen sollen zum einen durch definierte Grundprinzipien und Pflichten datenverarbeitender Stellen gewährleistet werden (siehe unten). Zum zweiten sollen Aufsichtsbehörden die Einhaltung überwachen und zum dritten haben betroffene Personen, die sich bezüglich ihrer datenschutzbezogenen Rechte verletzt sehen, ein Beschwerderecht bei einer Aufsichtsbehörde sowie ein Recht auf gerichtliche Klärung (Art. 77 und 79 DSGVO). Dafür ist seit 2018 auch ein Verbandsklagerecht vorgesehen (Art. 80 DSGVO). Ist aufgrund solcher Verstöße ein materieller oder immaterieller Schaden entstanden, hat die betroffene Person ein Recht auf Schadensersatz (Art. 82 DSGVO). Jedes dieser Schutzelemente hat Stärken und Grenzen (ausführlicher z. B. Siemoneit 2018; Spindler et al. 2016). Trotz der etablierten Schutzelemente zur Rechtsdurchsetzung zeigen Meinungsumfragen regelmäßig, dass betroffene Personen skeptisch sind gegenüber vielfältigen datenverarbeitenden Stellen und bezweifeln, dass sie eine ausreichende Kontrolle über ihre Daten haben (stellvertretend z. B. Vodafone Institute for Society and Communications 2016). Die Verbesserung der Durchsetzung gewährter Grundrechte ist eine der gesellschaftlichen Herausforderungen im Kontext der Digitalisierung vielfältiger Lebensbereiche und der zunehmenden datenanalytischen Möglichkeiten. Diesbezügliche Fortschritte dürften der nach wie vor verbreiteten Skepsis u. a. gegenüber komplexen Datenanalysen in Deutschland entgegenwirken. 3.3.2 Grundsätze und Pflichten bei der Datenverarbeitung Aufgrund des Marktortprinzips (Art. 3 und 27 DSGVO) gelten für alle datenverarbeitenden Stellen, die Dienste unter Verwendung personenbezogener Daten innerhalb der EU anbieten, egal wo sie ihren Sitz haben, folgende Grundsätze (Art. 5 ff. DSGVO): › Rechtmäßigkeit, Verarbeitung nach Treu und Glauben, Transparenz: Personenbezogene Daten müssen auf rechtmäßige Weise und in einer für die betroffene Person nachvollziehbaren Weise verarbeitet werden; › Zweckbindung: Die Verarbeitung ist nur für definierte, eindeutige und legitime Zwecke zulässig, jedoch wird eine Weiterverwendung für im öffentlichen Interesse liegenden Archivzwecken, für wissenschaftliche Forschungszwecke oder statistische Zwecke als nicht unvereinbar mit ursprünglichen Zwecken angesehen (privilegierte Datenweiterverwendung);56 › Datenminimierung: Die Verarbeitung soll dem Zweck angemessen und auf das notwendige Maß beschränkt bleiben.57 › Richtigkeit: Personenbezogene Daten müssen auf dem neuesten Stand sein, Fehler sind unverzüglich zu berichtigen bzw. fehlerhafte Daten zu löschen. 56 Diese Ausweitung der Zweckbindung gab es im früheren Datenschutzrecht nicht. 57 Datenminimierung wurde früher mit Datenvermeidung und -sparsamkeit assoziiert. › Speicherbegrenzung: Daten, die eine Personenidentifizierung ermöglichen, dürfen nur solange gespeichert werden, wie es definierte Zwecke erfordern. Auch diesbezüglich ist eine Ausnahme für wissenschaftliche Forschungszwecke formuliert. › Integrität und Vertraulichkeit: Datenverarbeitende Stellen müssen eine angemessene Sicherheit personenbezogener Daten gewährleisten und diese vor unbefugtem Zugriff und Verarbeitung schützen. › Rechenschaftspflicht: Verantwortliche datenverarbeitende Stellen müssen die Einhaltung der Grundsätze nachweisen können. Auf der Basis dieser handlungsleitenden Grundsätze werden explizite Pflichten für datenverarbeitende Stellen definiert (Kap. IV DSGVO): › Definition der Verantwortlichkeit und Dokumentation: Eine verantwortliche Stelle und deren für den Datenschutz beauftragte Person sind zu benennen (ggf. auch eine bei beauftragten datenverarbeitenden Stellen). Verantwortliche und beauftragte Stellen müssen gemeinsam ein Verzeichnis über alle Verarbeitungstätigkeiten führen und der Aufsichtsbehörde auf Anfrage vorlegen (ausgenommen sind Unternehmen mit weniger als 250 Mitarbeitenden [Art. 30 DSGVO]). › Sicherheit personenbezogener Daten bei der Verarbeitung durch angemessenes Datenschutzniveau: – Datenverarbeitende Stellen haben der jeweiligen Situation angemessene und geeignete technische und organisatorische Maßnahmen zum Schutz personenbezogener Daten zu ergreifen (Kap. 3.3.3), bei Daten besonderer Kategorie (Kasten 3.6) ist ein höheres Schutzniveau anzusetzen (Art. 32 DSGVO). – Es gibt umfangreiche Meldepflichten bei Datenschutzverletzungen gegenüber der Aufsichtsbehörde (Art. 33 DSGVO). Wenn eine Verletzung des Schutzes personenbezogener Daten mit einem voraussichtlich hohen Risiko für die persönlichen Rechte und Freiheiten natürlicher Personen einher geht, sind auch betroffene Personen zu benachrichtigen (Art. 34 DSGVO). – Insbesondere bei der Verwendung neuer Verarbeitungstechnologien müssen bei hohem Risiko der Rechteverletzung natürlicher Personen die datenschutzbezogenen Folgen durch solch eine Verarbeitung im Vorfeld abgeschätzt werden (Datenschutz-Folgenabschätzung [Art. 35 DSGVO]). Kasten 3.6 Personenbezogene Daten besonderer Kategorie Daten besonderer Kategorie bilden den Kernbereich der Persönlichkeit und der persönlichen Lebensführung ab. Die Datenschutz-Grundverordnung nennt in einer nicht abschließenden Liste einerseits Daten zur eindeutigen Identifizierung natürlicher Personen (darunter biometrische und genetische Daten) und andererseits Daten, die als besonders diskriminierungssensibel gelten (darunter Gesundheitsdaten, Daten aus denen eine rassische und ethnische Herkunft, sexuelle Orientierung, religiöse oder weltanschauliche Überzeugungen, politische Meinungen oder Gewerkschaftszugehörigkeiten hervorgehen [Art. 9 Abs. 1 DSGVO]). Zum Kernbereich der persönlichen Lebensführung gehören zweifellos vielfältige weitere Kategorien von Gefühlen, Gedanken, Absichten, Gewohnheiten über Beziehungen zu anderen Personen bis zur wirtschaftlichen oder finanziellen Situation, die durch die Digitalisierung vielfältiger Lebensbereiche zunehmend anhand von Daten abgebildet werden können. Als Daten besonderer Kategorie werden diese bisher nicht explizit genannt. Bezüglich der Verarbeitung gilt ein Verbotsprinzip mit Erlaubnisvorbehalt, jedoch sind diverse Ausnahmen gesetzlich definiert, darunter die Sicherstellung und Überwachung der öffentlichen Gesundheit oder die Gewährleistung der Gesundheits- und Sozialfürsorge. Bei diesen solle der Maßstab der Erforderlichkeit gelten. Kritiker/innen der derzeitigen Situation sind der Meinung, dass die Vielzahl der Ausnahmen auf eine weitgehende Freigabe der Verarbeitung hinauslaufen würde (Siemoneit 2018, S. 13). Bei jeglicher Datenverarbeitung sind die Grundrechte betroffener Personen in besonderem Maße zu schützen. Oftmals bestimmen nicht nur die Dateninhalte an sich die Kategorisierung. Vielmehr hängt es von den jeweiligen Möglichkeiten der Datenverknüpfung und -verarbeitung ab, ob Daten und die daraus abgeleiteten Informationen den Kernbereich der persönlichen Lebensführung betreffen – nicht nur von der jeweils betroffenen Person, sondern auch von anderen Personen in deren Umfeld (z. B. bei genetischen oder sozialen Ähnlichkeiten). Wenn dieser Kernbereich geschützt und erhalten werden soll, werden spezifische Betrachtungen von Datenverarbeitungsprozessen wichtiger, sowohl auf der Ebene einzelner Projekte mit einem Fokus auf unmittelbaren Folgen für jeweils betroffene Personen z. B. als Datenschutz-Folgenabschätzung, als auch auf übergeordneter Ebene mit einem gesellschaftlichen Fokus als Technikfolgenabschätzung. Datenschutz-Folgenabschätzung Datenverarbeitende Stellen können auch datenanalytische Projekte (darunter Data-Mining-Projekte) durchführen, bei denen ein hohes Risiko besteht, Grundrechte betroffener Personen zu verletzen. In diesem Fall müssen verantwortliche datenverarbeitende Stelle diese Risiken vorab genauer untersuchen und durch angemessene Maßnahmen möglichst vermeiden oder zumindest minimieren. Einige Länder verankerten bereits vor Jahren gewisse Vorabkontrollen oder privacy impact assessments in unterschiedlicher Ausprägung in ihren jeweiligen Datenschutzgesetzgebungen (Friedewald et al. 2017, S. 8 ff.). Durch die Datenschutz-Grundverordnung gibt es erstmals verpflichtende Mindeststandards für eine Datenschutz-Folgenabschätzung (DSFA). Dazu gehören (Art. 35 und 36 DSGVO): › eine systematische Beschreibung des geplanten Verarbeitungszwecks, der berechtigten Interessen der verantwortlichen Stelle sowie der Verarbeitungsvorgänge; › eine zweckbezogene Bewertung sowohl der Notwendigkeit einer DSFA als auch der Risiken für die Rechte und Freiheiten betroffener Personen sowie › geplante Risikominimierungsmaßnahmen (Garantien, Sicherheitsvorkehrungen). Die verantwortliche datenverarbeitende Stelle führt eine solche Folgenabschätzung eigenverantwortlich durch. Nur wenn trotz Minimierungsmaßnahmen hohe Risiken in Bezug auf die Verletzung von persönlichen Grundrechten bestehen bleiben, muss vor der Datenverarbeitung die zuständige Aufsichtsbehörde konsultiert werden. Ein solches Risiko wird stets angenommen bei der umfangreichen Verarbeitung von Daten besonderer Kategorie (Kasten 3.6), beim Einsatz neuer datenanalytischer Verfahren (Kap. 2.3.2), bei umfassenden Bewertungen persönlicher Aspekte natürlicher Personen mittels automatisierter Analyseverfahren (u. a. Profiling), bei personenbezogenen Datenverarbeitungen im Kontext der systematischen Überwachung öffentlicher Räume (TAB 2019) oder bei strafrechtlichen Verurteilungen. Die Datenschutz-Grundverordnung definiert lediglich Mindeststandards und lässt den Mitgliedsländern einen Umsetzungsspielraum bei der Übertragung in praktikable Anwendungen. Nationale Aufsichtsgremien sind z. B. aufgefordert, detailliertere Listen zu erstellen, aus denen hervorgeht, in welchen Situationen eine DSFA grundsätzlich durchzuführen bzw. nicht erforderlich ist. Derartige Positivlisten werden in Deutschland auf Bundes- und Landesebene erstellt und regelmäßig fortgeschrieben.58 Darin werden u. a. unterschiedliche Verfahren zur Geolokalisierung sowie diverse medizinische und gesundheitssystemische datenverarbeitende Prozesse genannt (die Spanne reicht von Big-Data-Analysen und telemedizinischen Anwendungen über Anonymisierungsverfahren großer medizinischer Datenbestände zur Weiterverarbeitung zu anderen Zwecken oder KI- Anwendungen zur Beihilfefestsetzung durch Krankenkassen bis zu Bewertungsportalen für Ärzt/innen). Unklar ist, inwiefern die Mitgliedstaaten an sich selbst bzw. ihre jeweiligen Ämter, die in der Regel eine vollständige Monopolstellung bei der Erfüllung öffentlicher Aufgaben haben und den Bürger/innen keine Wahlfreiheit bei Verwaltungsangelegenheiten lassen, die gleichen Anforderungen stellen, wie an privatwirtschaftlich agierende datenverarbeitende Stellen. Da diese öffentlichen Aufgaben gesetzlich zu definieren sind, kann eine DSFA bereits im Gesetzgebungsprozess erfolgen (Gesetzes-Datenschutz-Folgenabschätzung; Friedewald et al. 2017, S. 17). National wurde von dieser Option erstmalig im Rahmen des Digitale-Versorgungs-und-Pflege- Modernisierungs-Gesetzes Gebrauch gemacht und für unterschiedliche zulassungspflichtige Komponenten und Dienste der 58 www.bfdi.bund.de/DE/Fachthemen/Inhalte/Technik/Datenschutz-Folgenabschaetzungen.html (10.11.2021) Telematikinfrastruktur des Gesundheitswesens (Kap. 4.1.3) eine zentrale DSFA durchgeführt, um zur Nutzung dieser Komponenten verpflichtete (medizinische) Einrichtungen von der Erstellung eine DSFA zu entlasten.59 Friedewald et al. (2017, S. 24 ff.) weisen darauf hin, dass bei einer DSFA eigentlich aus der Betroffenenperspektive prospektiv untersucht werden sollte, inwiefern ein datenanalytischer Prozess die Grundrechte Betroffener gefährdet. Wenn eine datenverarbeitende Stelle eine DSFA durchführt, gäbe es stets einen Interessenkonflikt zwischen der eigenen Analyseabsicht bzw. dem eigenen Geschäftswillen und der Betroffenenperspektive. In einer solchen Situation würden datenverarbeitende Stellen tendenziell dazu neigen, die originäre Zweckbindung vorhandener Datenbestände zu überdehnen. Die Autoren sprechen sich dafür aus, eine DSFA von einer unabhängigen Instanz prüfen oder sogar ganz durchführen zu lassen und sie empfehlen, Betroffene bzw. deren Interessenvertretungen am Verfahren zu beteiligen. Bei datenverarbeitenden Stellen, die große Datenbestände aufbauen und/oder monopolartige Stellungen einnehmen sei dies besonders wichtig. Für datenverarbeitende Stellen sind DSFA aufwändig, denn bisher gibt es noch keine klaren Vorgaben zur Durchführung. Erste Anwendungserfahrungen zeigen, dass vor allem für kleine und mittlere Unternehmen DSFA eine Herausforderung sind (KI-Enquete-Kommission 2020, S. 67). Da die Länder gegenwärtig einen erheblichen Spielraum bei der Umsetzung haben, werden DSFA kaum von allen datenverarbeitenden Stellen in gleicher Qualität durchgeführt oder einheitliche Bewertungsmaßstäbe angewendet werden. Es wird eine Aufgabe der nächsten Jahre sein, die eingeführten Verfahren auf ihre Praktikabilität und Zielerfüllung zu prüfen und weiterzuentwickeln. Grundsätzlich sind vorab durchzuführende produktbezogene Untersuchungen und Evaluationen Standardinstrumente des Vorsorgeprinzips. Aus der Vorsorgeperspektive ist die DSFA-Verankerung in der Datenschutz- Grundverordnung ein wichtiger erster Schritt. Sie nimmt ausschließlich mögliche Grundrechteverletzungen bei einem datenanalytischen Prozess in den Blick. Zuverlässigkeits- Sicherheits-, oder Leistungsaspekte werden nicht untersucht und bewertet. Eigenverantwortung, Haftung und Sanktionen Mit der Einführung der Datenschutz-Grundverordnung erhielten datenverarbeitenden Stellen mehr Eigenverantwortung, die Beweislast regelkonformen Handelns gegenüber Aufsichtsbehörden wurde umgekehrt. Statt jede Verarbeitung zu melden, müssen sie auf Anfrage nachweisen können, dass sie Daten verordnungskonform verarbeiten, wobei Unternehmen mit bis zu 250 Mitarbeitenden nicht zur Dokumentation verpflichtet sind (ausführlicher z. B. Siemoneit 2018). Neben den definierten allgemeinen Grundsätzen und Pflichten und den Verfahrensvorgaben zur Realisierung enthält die Datenschutz-Grundverordnung auch etliche Kann- oder Soll-Formulierungen, die einen datenschutzkonformen und verantwortungsvollen Umgang mit personenbezogenen Daten konkretisieren und befördern sollen: › für einzelne Verarbeitungsbereiche können u. a. Verbände und Vereinigungen spezifische Verhaltensregeln erarbeiten (z. B. zur fairen und transparenten Verarbeitung, Pseudonymisierung oder Ausübung der Rechte betroffener Personen in der Medizin [Art. 34 DSGVO]); › für datenverarbeitende Stellen sollen datenschutzspezifische Zertifizierungsverfahren sowie Datenschutzsiegel und -prüfzeichen eingeführt werden (Art. 42 DSGVO). Unabhängige Aufsichtsbehörden sollen die Anwendung und Einhaltung der Regelungen überwachen (Art. 51 ff. DSGVO). Nichteinhaltungen können mit Geldbußen bis 20 Mio. Euro bzw. 4 % des Jahresumsatzes geahndet werden. Jenseits von Geldbußen können Mitgliedsländer weitere wirksame, verhältnismäßige und abschreckende Sanktionen erlassen (Art. 83 und 84 DSGVO). Diese Nichteinhaltung muss nicht zu einer tatsächlichen Schädigung betroffener Personen geführt haben. Ist durch eine Datenverarbeitung ein Schaden entstanden, haften die dafür verantwortlichen datenverarbeitenden Stellen (Art 82 DSGVO). 59 Gesetz zur digitalen Modernisierung von Versorgung und Pflege (Digitale-Versorgung-und-Pflege-Modernisierungs-Gesetz – DVPMG; Datenschutz-Folgenabschätzung S. 1350 ff. Privatwirtschaftliche und öffentliche datenverarbeitende Stellen Privatwirtschaftlich agierende datenverarbeitende Stellen sollen sich im Rahmen des geltenden Rechts in Marktstrukturen möglichst frei entfalten können. Im Wettbewerb mit anderen Unternehmen können sie u. a. Data- Mining betreiben, Analysewerkzeuge und digitale Dienste entwickeln und anbieten. Es gilt das Privatrecht einschließlich Datenschutz-Grundverordnung vollumfänglich. Grundlage jeglicher Verarbeitung personenbezogener Daten einschließlich Data-Mining ist aus rechtlicher Sicht die Einwilligung Betroffener, die laut DSGVO freiwillig, informiert und zweckgebunden sein soll. Unternehmen holen sie auf vertraglicher Basis durch Individualabreden60 oder Allgemeine Geschäftsbedingungen (AGB) (§ 305 BGB) in breiter Form ein und informieren dazu anhand von Datenschutzerklärungen (ausführlicher z. B. Riehm 2018). Auf diese Weise erhalten sie regelmäßig umfangreiche Rechte zur Datenerhebung und -nutzung, die vor allem dann vielfältige Weiterverwendungen einschließlich Data-Mining-Aktivitäten zulassen, wenn viele Personen die jeweiligen Digitalangebote eines Anbieters nutzen und dafür umfangreiche Datennutzungsrechte erteilen. AGB und Datenschutzerklärungen sind hochflexible rechtliche Instrumente, die sich digital schnell verändern lassen. Die Praxis zeigt, dass viele betroffene Personen nahezu blind in AGB einwilligen. Dazu kommt, dass marktdominierende Stellungen einzelner Anbieter oftmals kaum Alternativen zulassen. Die freiwillige, zweckgebundene und informierte Einwilligung gilt als eine der derzeitigen normativen Herausforderungen der Digitalisierung im Allgemeinen und komplexer Datenanalysen im Besonderen. Öffentliche Einrichtungen als datenverarbeitende Stellen erfüllen gesetzlich definierte Aufgaben im öffentlichen Interesse, oftmals ohne Konkurrenz und Wettbewerbsstrukturen. Aufgaben und Rechte zur Datenerhebung und -verarbeitung werden gesetzlich definiert und nicht über Einwilligungen eingeholt. Die Datenschutz- Grundverordnung enthält Öffnungsklauseln für den öffentlichen Aufgabenbereich. Dadurch haben die jeweiligen nationalen Normen des öffentlichen Rechts Vorrang. In Deutschland gelten bereichs- und aufgabenspezifische Regelungen (z. B. Sozialgesetzbücher [SGB]) vorrangig. Sie werden ggf. durch Bundes- bzw. Landesdatenschutzgesetze ergänzt [§ 1 Abs. 2 BDSG]). Der Gesetzgeber hat einerseits weitreichende Befugnisse, andererseits sind gesetzliche Anpassungen und Veränderungen aufwendig. Sofern dies notwendig und verhältnismäßig ist, können zur Erfüllung öffentlicher Aufgaben sowohl Grundrechte (im Kontext der Datenverarbeitung insbesondere das Recht auf Privatheit und informationeller Selbstbestimmung) als auch Datenschutzrechte betroffener Personen sowie Grundsätze und Pflichten bei der Datenverarbeitung beschränkt werden (z. B. Auskunftsrechte und Informationspflichten). Bei solchen Beschränkungen sollen jedoch die verfassungsgemäße demokratische Ordnung und der Wesensgehalt der Grundrechte und -freiheiten erhalten bleiben (Art. 23 DSGVO).61 Dafür werden im Rahmen der Gesetzgebung die jeweiligen öffentlichen Interessen gegenüber den Interessen betroffener Personen abgewogen. Überwiegen erstere, können daraus öffentliche Aufgaben abgeleitet und die dafür notwendige Datenverarbeitung gesetzlich definiert werden. Entsprechende Gesetze müssen u. a. die jeweils zulässigen primären Verarbeitungszwecke, die dafür notwendigen Analysedaten, Verantwortlichkeiten, Speicherfristen, Grundrechterisiken sowie Maßnahmen gegen Missbrauch enthalten. Darüber hinaus können sie auch Möglichkeiten für sekundäre Weiterverarbeitungen eröffnen, u. a. um erhebliche Belange des Gemeinwohls zu wahren (§ 23 BDSG; Beispiele in Kap. 5). Da es für unterschiedliche öffentliche Aufgabenbereiche und deren Einrichtungen jeweils eigene spezifische Rechtsvorschriften gibt, die das BDSG lediglich ergänzt, unterschiedliche föderale Zuständigkeiten und Regulierungen zur Datenerhebung und -bereitstellung existieren sowie öffentliche und private Akteure und öffentliche und gebewerbliche Aktivitäten mitunter bereichsspezifisch verflochten sind, entstehen teilweise komplexe rechtliche Situationen. Diese Aufgabenteilungen und Verflechtungen wurden bereits bei der Erhebung und Bereitstellung von Geodaten sichtbar, im öffentlichen Gesundheitssystem sind sie noch vielschichtiger (Kap. 4 und 5). 60 Die Übergänge zwischen Individualabreden und AGB sind fließend. Es gibt unterschiedliche spezielle Individualabreden, z. B. medizinische Behandlungsverträge (Kap. 4.1.1). 61 Die Datenethikkommission empfiehlt Datenverarbeitungen, die diesen Wesensgehalt verletzen (z. B. Totalüberwachung, die Integrität der Persönlichkeit verletzende Profilbildungen) expliziter zu benennen und gegen derart ethisch unvertretbare Datennutzungen Maßnahmen zu ergreifen (DEK 2019, S. 19). 3.3.3 Grundrechteschützende Maßnahmen Jede datenverarbeitende Stelle ist verpflichtet, personenbezogene Daten zu schützen und bei jeder Verarbeitung die Rechte der jeweiligen natürlichen Personen möglichst wenig zu gefährden. Daten besonderer Kategorie sind in besonderem Maße zu schützen. Welche Maßnahmen und Verfahren für welches Schutzniveau geeignet und angemessen sind, entscheiden sie situationsbezogen und ggf. im Rahmen einer Datenschutz-Folgenabschätzung, ggf. unter Einbeziehung von Aufsichtsbehörden. Diese Maßnahmen können an unterschiedlichen Stellen ansetzen: an den Daten, bei deren Weiterverwendung durch Dritte, an den Datenzugangsstrukturen, an den analytischen Vorgehensweisen und an den Analyseergebnissen. Alle Ansätze zielen darauf ab, bei jeglicher Datenverarbeitung betroffene Personen und deren Grundrechte zu schützen. Im Data-Mining-Kontext werden vor allem analysetechnische Ansätze teilweise unter dem Begriff »privacy-preserving data mining« subsummiert (z. B. Grosskreutz et al. 2010; Mendes/Vilela 2017; Schepers et al. 2015, S. 241 f.). An den Daten ansetzende Schutzmaßnahmen Direkt an den Daten ansetzende Schutzmaßnahmen sind regelmäßig ein aus rechtlicher Sicht zwingend notwendiges Element der Aufbereitung personenbezogener Daten, die der eigentlichen Datenanalyse im Data-Mining- Prozess vorgelagert ist (Abb. 2.1). Datenschützende und datenanalysierende Verfahren stehen in einem besonderen Spannungsfeld. Erstere sollen verhindern, dass Informationen über einzelne Personen nicht unautorisiert aus Datenbeständen herausdestilliert werden. Da jedoch die analytischen Möglichkeiten der Informationsextraktion kontinuierlich besser werden, müssen die diese Informationen schützenden Maßnahmen ebenfalls ausgebaut werden. Auch wenn die Datenschutz-Grundverordnung bezüglich der direkt an den Daten ansetzenden Schutzmaßnahmen nur noch die Begriffe Verschlüsselung und Pseudonymisierung verwendet, ist im nationalen Recht nach wie vor der Begriff der Anonymisierung verankert. In der Praxis werden Anonymisierungsverfahren massiv eingesetzt, um Datensätze und -bestände weiterverwenden zu können. Bei der Pseudonymisierung und der Anonymisierung geht man davon aus, dass sich die Merkmale von Datensätzen drei unterschiedlichen Bereichen zuordnen lassen (Abb. 3.1 oben): › Direktidentifizierender Merkmalsbereich: Merkmale bestimmen eine Person einzeln unmittelbar und eindeutig (z. B. Name plus Wohnort). › Quasiidentifizierender Merkmalsbereich: Merkmale bestimmen eine Person mittelbar entweder in Kombination (z. B. Verknüpfung von Wohnort und Ereignis) und/oder durch die Verknüpfung mit zusätzlichen Daten (z. B. Verschlüsselung identifizierender Merkmale mit Zugang zur Schlüsseltabelle). › Fachbezogener Merkmalsbereich: Merkmale repräsentieren eine fachliche Situation oder ein Ereignis, das auf mehrere Personen zutrifft. Um die Grundrechte betroffener Personen als Datenobjekte zu schützen, können einzelne Merkmale, Merkmalsbereiche, ganze Datensätze oder auch -bestände mit unterschiedlichen Verfahren und Vorgehensweisen verschlüsselt oder anderweitig verändert werden. Ein Ansatz besteht darin, zunächst nur den direktidentifizierenden Merkmalsbereich (teilweise auch die quasiidentifizierenden) zu verschlüsseln (Pseudonymisierung) oder gänzlich aus den Datensätzen zu entfernen (Anonymisierung). Während bei der Pseudonymisierung der Personenbezug über die Verschlüsselungsverfahren grundsätzlich erhalten bleibt (Datenverarbeitung unterliegt weiterhin der Datenschutzgesetzgebung), hat die Anonymisierung den Anspruch, Personenbezüge von einem Datensatz gänzlich zu entfernen (diese Daten fallen danach nicht mehr unter die Datenschutzgesetzgebung). Ein zweiter Ansatz ist es, ganze Datensätze oder -bestände zu verschlüsseln, sodass nur diejenigen, die den Schlüssel kennen, das Verfahren rückgängig machen können. Ein dritter Ansatz verändert, vergröbert, verzerrt einzelne Merkmale, Merkmalsbereiche oder ganze Datenbestände. Oft werden die unterschiedlichen Ansätze miteinander kombiniert. Für die Pseudonymisierung wird zunächst ein eindeutiger Code als Identifikator (ID) für jede Person erzeugt und dem Datensatz hinzugefügt (Abb. 3.1). Anschließend wird der direktidentifizierende Merkmalsbereich mit der ID-Kopie abgetrennt und in einer Schlüsseltabelle separat gespeichert. Es gibt unterschiedliche Codierungsverfahren. Alle zielen darauf ab, einen Code zu generieren, der jede Person eindeutig repräsentiert und die Reidentifizierung dieser Person durch Außenstehende, die keinen Zugang zu den Codierungsverfahren haben, verhindert. Mitunter werden zum eindeutigen Code (ebenfalls codierte) mitverschlüsselte Zusatzinformationen angehängt. Pseudonymisierte Datenbestände können mithilfe der Schlüsseltabellen oder Codierungsverfahren fortgeschrieben und ergänzt werden. Werden reversible Verfahren eingesetzt, kann der Vorgang, wie der Name schon sagt, rückgängig gemacht werden. Die Anonymisierung hat den Anspruch, Personenbezüge irreversibel aus einem Datensatz zu entfernen. Identifizierende Merkmale werden vollständig abgetrennt und gelöscht, ohne dass Schlüsseltabellen angelegt oder gespeichert werden. Die Anonymisierung gewährleistet in der Regel zwar ein höheres Schutzniveau, lässt jedoch keine zeitliche Fortschreibung von fachbezogenen Merkmalen zu. Eine zuverlässige Anonymisierung wird mit der zunehmenden Verfügbarkeit vielfältiger Daten und deren Möglichkeiten zur Verknüpfung mehr und mehr in Frage gestellt. Sowohl bei der Pseudonymisierung als auch bei der Anonymisierung werden auf der niedrigsten Personenschutzstufe nur direktidentifizierende Merkmale vom Datensatz abgetrennt (schwache oder auch formale Pseudonymisierung/Anonymisierung). Da man oftmals auch aus der Kombination mehrerer Merkmalsausprägungen auf eine Person schließen kann, kann auf der nächsten Stufe eine Vergröberung der quasiidentifizierenden Merkmale erfolgen (Abb. 3.1 unten). Die nächste Personenschutzstufe umfasst die Abtrennung auch quasiidentifizierender Merkmale vom Datensatz (bei Pseudonymisierung mit, bei Anonymisierung ohne separate Speicherung in einer Schlüsseltabelle). Anonymisierte einzelfallbezogene Datensätze können zusätzlich zu Fallgruppen zusammengeführt werden. Eine Standardgruppengröße gibt es nicht. Oft werden kleine Gruppen zusätzlich vergröbert, verschleiert oder unterdrückt (auch als k-Anonymisierung bezeichnet und als absolute Anonymisierung interpretiert). Der jeweilige Datentyp einzelner Merkmale bestimmt, ob und wenn ja, wie diese Zusammenführung erfolgen kann. Mittelwerte und Streuungsmaße können bei metrisch skalierten Daten (z. B. Alter, Gewicht) genutzt werden. Abstrakte Datentypen lassen sich mit derartigen Verfahren nicht zusammenfassen (es gibt weder Durchschnittsgenome noch Durchschnittsabbildungen oder -videos). Abb. 3.1 Verschlüsselung, Pseudonymisierung, Anonymisierung und Vergröberung von Datensätzen Eigene Darstellung Teilweise können mittels Codierungs- und Klassifikationsverfahren abstrakte Datentypen in konkrete überführt und dann zusammengeführt werden. Vergröberungs- und Gruppierungsverfahren sind an sich nicht umkehrbar, sie verdichten die originären Daten, bei den resultierenden Datensätzen sinkt der Informationsgehalt. Alternativ können vor allem bei komplexen Datensätzen Verschleierungs- oder Verzerrungsverfahren eine Option sein (ausführlicher z. B. Mendes/Vilela 2017, S. 10565). Sie können auf unterschiedlich große Merkmalsbereiche und auch auf abstrakte Datentypen angewendet werden und in die Generierung synthetischer Datensätze und -bestände münden (ausführlicher z. B. DEK 2019, S. 132; Drechsler/Jentzsch 2018). Synthetische Daten haben in der Regel keinerlei Personenbezüge, da sie nicht in der realen Welt erhoben wurden, sondern aus Referenzdatenbeständen in großen Mengen abgeleitet werden. Die Datenethikkommission hält derartige Ansätze für vielversprechend (DEK 2019, S. 22), auch wenn sie eine Quelle für systematische Fehler sein können (Kasten 2.3). Sie empfiehlt eine Forschungsförderung, um entsprechende Verfahren weiterzuentwickeln. Um auf einzelne Personen bezogene Datensätze (in der Statistik auch als Mikrodaten bezeichnet)62 zeitlich fortschreiben zu können und dennoch eine Reidentifikation betroffener Personen möglichst auszuschließen, kommen unterschiedliche Vorgehensweisen zum Einsatz, die zwischen Pseudonymisierung und Anonymisierung anzusiedeln sind (Revermann/Sauter 2007, S. 157 ff.). Sie werden auch als periodenübergreifende Pseudonymisierung bezeichnet und sind für jegliche Längsschnittanalysen bzw. Zeitverlaufsuntersuchungen relevant (Data-Mi- 62 In der amtlichen Statistik sind Mikro- oder Einzeldaten Daten(sätze), die Bezüge zu einzelnen natürlichen oder juristischen Personen haben und folglich der Geheimhaltung unterliegen. Das Gegenstück sind Makrodaten (aggregierte Datensätze, die sich auf unterschiedlich große Personengruppen beziehen und keiner Geheimhaltung unterliegen. ning-Beispiel in Kap.5.5.3). Ein Ansatz ist eine mehrstufige Pseudonymisierung durch unterschiedliche voneinander getrennte Instanzen, die keinen Zugang zu den unterschiedlichen Schlüsseltabellen gewähren. Ein anderer Ansatz ist die Codierung mittels schlüsselunabhängiger Verfahren (Abb. 3.1). Diese generieren mit Einwegrechenanweisungen aus den identifizierenden Merkmalen nichtrückrechenbare eindeutige Codes, die diese Merkmale ersetzen. Dadurch gibt es keinerlei codifizierende Tabellen oder geheime Schlüssel, mit denen der Prozess rückgängig gemacht werden kann. Nur die geheimen Rechenanweisungen werden aufbewahrt, die bei einer Fortschreibung des Datensatzes aus den identifizierenden Merkmalen wieder den gleichen eindeutigen Code erzeugen (ausführlicher z. B. in Ertel 2012). Beim Einsatz schlüsselunabhängiger Codierungen ebenso wie bei Anonymisierungen können nachträglich keine Einwilligungen eingeholt oder fallbezogene Informationen ggf. zurückgegeben werden. Die bisher genannten Verfahren verringern schrittweise den Informationsgehalt von Datensätzen (Schneider 2015, S. 251 f.). Eine Möglichkeit, um den Informationsgehalt vollumfänglich zu erhalten und die Daten dennoch vor unberechtigtem Zugriff zu schützen, ist deren vollständige Verschlüsselung beim Transport und der Speicherung. Dafür kommen nur reversible, also schlüsselabhängige Verfahren in Betracht. Es gibt symmetrische Verfahren (alle datenverarbeitenden Stellen nutzen den gleichen geheimen Schlüssel) und asymmetrische (Datensätze werden mit einem öffentlichen Schlüssel chiffriert und können nur mit einem privaten Schlüssel dechiffriert werden). Datensätze können damit nur bis zum nächsten Verarbeitungsknoten (Leitungsverschlüsselung) oder bis zum endgültigen Empfänger verschlüsselt werden (Ende-zu-Ende-Verschlüsselung). Bei der Übermittlung und Speicherung personenbezogener Daten besonderer Kategorie wird der Einsatz von Verschlüsselungstechniken explizit verlangt (Art. 32 DSGVO). Vollständig verschlüsselte Datensätze sind ohne Dechiffrierung einer Weiterverwendung und damit auch dem Data-Mining bisher weitestgehend entzogen. Jedoch wird an kryptografischen Verfahren geforscht, die trotz Verschlüsselung gewisse Analysen zulassen (homomorphe Verschlüsselungen). Sie befinden sich in frühen Entwicklungsstufen (Mendes/Vilela 2017, S. 10570). Welche der Schutzmaßnahmen im Einzelfall zum Einsatz kommen, wird je nach Verwendungszweck und der geforderten Reidentifizierungssicherheit entschieden. Reidentifizierungssicherheit und deren Bewertung Selbst wenn (quasi)identifizierende Merkmalsbereiche von Mikrodatensätzen verschlüsselt oder abgetrennt wurden, kann immer weniger ausgeschlossen werden, dass Einzelpersonen reidentifiziert werden können. Je umfangreicher Datensätze und -bestände sind, desto eher ist eine Reidentifizierung möglich (Kasten 3.7). Kasten 3.7 Reidentifizierungsexperiment Am US-amerikanischen MIT Media Lab wurde in einem Experiment eine pseudonymisierte Stichprobe aus den Verkehrs- bzw. Metadaten eines Kreditkartentransaktionsdatenbestand gezogen (Datum und Ort/ Geschäft der Transaktionen von 1,1 Mio. Kunden in 3 Monaten) (Montjoye et al. 2015). Dann wurde anhand weniger Zeit- und Ortsdatenpaaren nach Pseudonymen gesucht, auf die dieses Transaktionsmuster zutraf. Das Experiments zeigte, dass mit den Zeit- und Ortsangaben von lediglich 4 Transaktionen 90 % der Kreditkartenkunden in der Stichprobe identifiziert werden konnten. Bei einer gröberen Auflösung (Vergröberung der Ort- und Zeitangaben zu 350 Geschäftsgruppen und Zeitintervallen von 15 Tagen) konnten mit 10 Merkmalspaaren 80 % aller Personen eindeutig identifiziert werden. Zudem konnten Frauen und Personen mit höheren Einkommen besser reidentifiziert werden als Männer und Personen mit mittleren oder niedrigeren Einkommen. Montjoye et al. geben auch zu bedenken, dass Personen durch Handynutzung oder Internetaktivitäten kontinuierlich raum- und zeitbezogene Datenspuren hinterlassen und Serviceanbieter sich an solchen Verkehrsdaten oftmals Rechte zur Weiterverwendung, teilweise auch zur Weitergabe sichern. Dies eröffnet ebenfalls Möglichkeiten der Reidentifizierung von anonymisierten Mikrodatensätzen, die in Folge erweitert und ergänzt sowie umfangreich analysiert werden könnten. Die Bewertung der Sicherheit vor Reidentifizierung von Personen aus pseudonymisierten, anonymisierten oder vergröberten Mikrodatenbeständen ist eine kontinuierliche Herausforderung. Dafür werden mehrere Faktoren berücksichtigt (Revermann/Sauter 2007, S. 163 f.): › der Umfang des jeweiligen Datenbestandes (je mehr Merkmale ein Datensatz enthält, desto wahrscheinlicher werden eindeutige Datenkonstellationen [Kasten 3.7]), › die Art und Häufigkeit der jeweiligen Dateninhalte (die Wahrscheinlichkeit auf eindeutige Datenkonstellationen steigt bei seltenen Merkmalsausprägungen) sowie › Zahl, Art und Umfang verfügbarer Vergleichskollektive (mitunter auch als Zusatzwissen einer datenverarbeitenden Stelle bezeichnet). Da sich diese Faktoren im Laufe der Zeit verändern, ist auch die Risikoabschätzung bezüglich der Personen- Reidentifizierung zeitabhängig. Was vor Jahren als sicher galt, kann durch größere Informationsverfügbarkeit und Zusatzwissen als risikoreicher bewertet werden. Wie das Reidentifizierungsexperiment verdeutlichte, müssten zum Schutz betroffener Personen immer größere Teile von Datensätzen und -beständen einer Analyse vorenthalten werden und dennoch ließe sich eine Reidentifizierung einzelner Personen kaum ausschließen. Es scheint nicht mehr ausreichend, Pseudonymisierung und Anonymisierung aus der Sicht des Datenschutzes vorzuschreiben. Um Personen bei komplexen Datenanalysen einer Reidentifizierung zu schützen, werden vertrauensvolle Datenverarbeitungsstrukturen und Selbstverpflichtungen durch datenverarbeitende Stellen empfohlen (Art. 40 ff. DSGVO). Es gibt auch Forderungen, Reidentifizierungen explizit zu verbieten z. B. über Nutzungslizenzen (DEK 2019, S. 132). Einwilligungsmanagement, Datentreuhänder und Infrastrukturen: kontrollierter Datenzugang vor allem für die Forschung Neben den technischen gibt es diverse organisatorische Maßnahmen, die die Nutzung personenbeziehbarer Daten unter Einhaltung der Grundrechte betroffener Personen ermöglichen sollen. Persönliche Datenmanagementsysteme sollen betroffene Personen bei der Verwaltung ihrer Einwilligungen in die Datenweiterverwendung unterstützen. Sie sollen damit zunehmend differenziert und revidierbar festlegen können, wem sie welche Datenbestandteile zu welchen Zwecken zugänglich machen. Diese Selbstverwaltung informierter Einwilligungen ist jedoch voraussetzungsreich: Sie erfordert zum einen spezifische Kenntnisse bei betroffenen Personen und zum anderen transparente Darstellungen von Weiterverwendungsabsichten (ausführlicher z. B. in DEK 2019, S. 133 ff.). Entsprechende Ansätze stehen noch am Anfang der Entwicklung. Datentreuhänder als vertrauenswürdige, kompetente, datenhaltende Stellen sind bereits seit Jahren etabliert. Relevant sind sie, wenn sensible Daten von vielen oder ganz bestimmten natürlichen oder juristischen Personen dauerhaft sicher gehalten und für unterschiedliche Untersuchungsfragen und komplexere Analysen nicht monopolisiert verarbeitet, sondern diversen datenverarbeitenden Stellen rechtssicher zugänglich gemacht werden sollen. Im juristischen Verständnis ist die Treuhänderschaft ein Rechtsverhältnis zwischen einem Treugebenden, der bestimmte Rechte, teilweise auch Pflichten an einem Treugut (hier Daten) hat, und einem Treuhänder, der diese Rechte im Außenverhältnis im eigenen oder auch in fremden Namen wahrnehmen darf (RfII 2020). Treugebende können sowohl betroffene Personen als auch datenverarbeitende Stellen sein, die Daten erhoben haben, und die diese für vielfältige Analysen bereitstellen wollen. Datentreuhandmodelle haben meist folgende organisatorische Elemente: › Datenannahmestellen prüfen eingehende Datensätze, ggf. werden sie in Absprache mit den Datengebern korrigiert oder ergänzt; › Vertrauensstellen realisieren nach den Korrekturen die Datenpseudonymisierung; › Registerstellen verwalten, aktualisieren und erweitern umfangreiche pseudonymisierte Datenbestände, von denen sie Auszüge für Analysen ggf. bereitstellen; › Datenzugangskommissionen prüfen Analyseanträge auf Legitimität, Rechtmäßigkeit und Einhaltung von Schutzstandards und genehmigen ggf. die Analyse (zunehmend werden sie zur transparenten Dokumentation verpflichtet) sowie › wissenschaftliche Serviceteams unterstützen Analyst/innen bei der Realisierung ihrer Projekte, führen teilweise sicherheitskritische Analysen im Auftrag durch und prüfen die Personensensibilität von Ergebnissen vor der Weitergabe. Man unterscheidet zwischen eigennützigen Datentreuhandmodellen, bei denen eine vertrauenswürdige juristische Person sowohl die datenhaltende als auch die datenanalysierende Stelle ist und fremdnützigen Datentreuhändern, die neutral zwischen datengebenden und datenanalysierenden Akteur/innen stehen und mögliche widerstrebende Interessen uneigennützig ausgleichen sollen. Um die Jahrtausendwende wurde mit den Forschungsdatenzentren der amtlichen Statistik ein fremdnütziges Datentreuhandmodell etabliert, das die im Rahmen der amtlichen Statistik erhobenen und dauerhaft zu haltenden Mikrodaten63 für die wissenschaftliche Forschung bereitstellt (§ 16 BStatG).64 Nutzungsberechtigt sind bisher ausschließlich Personen, die an Hochschulen, Universitäten und wissenschaftlichen Instituten beschäftigt sind (ab Gastwissenschaftsstatus). Antragstellende Einrichtungen werden beim Erstantrag geprüft. Eine Datennutzung darf nur für wissenschaftliche Forschungsprojekte beantragt werden (einschließlich Master-/Doktorarbeiten oder Aufträge von Ministerien). Die Datennutzung wird vertraglich vereinbart, ist zeitlich begrenzt und in der Regel kostenpflichtig. Nutzende werden zur Geheimhaltung verpflichtet, Reidentifizierungen explizit verboten. Der für eine Analyse notwendige Grad der Anonymisierung bestimmt die Form des Datenzugangs: › Formal anonymisierte Mikrodaten (nur Namen und Anschriften sind abgetrennt, alle anderen Merkmale auch die regionale Zuordnung bleiben für die Analyse erhalten [§ 5a Abs. 3 Nr. 6 BStatG]) werden nur von Zentrumsmitarbeitenden analysiert. Nutzungsberechtigte liefern das Analyseprogramm. Die Ergebnisse werden auf Einzelfallsensibilität geprüft (d. h. vom Ergebnis kann nicht auf ein einzelnes Datenobjekt geschlossen werden), Ergebnisse ggf. zusätzlich vergröbert oder unterdrückt. Nur geprüfte Ergebnisse werden zurückgesendet (kontrollierte Datenfernverarbeitung). › Faktisch anonymisierte Mikrodaten (Datensätze können nur mit einem unverhältnismäßig hohen Aufwand an Zeit, Kosten und Arbeitskraft einer Person zugeordnet werden, eine Reidentifikation ist jedoch nicht gänzlich ausgeschlossen [§ 16 Abs. 6 BStatG]) können in einer geringen Vergröberung an Gastarbeitsplätzen der Forschungsdatenzentren analysiert werden (On-Site-Nutzung). In einer stärkeren Vergröberung werden sie als Scientific-Use-Files (SUF) an die jeweilige Forschungseinrichtung übertragen (Off-Site-Nutzung) (Bundesregierung 2016b, S. 29). › Der breiten Öffentlichkeit werden nur absolut anonymisierte Mikrodaten auf Antrag als Public-Use-Files (PUF) gegen Entgelt oder in höherer Aggregation kostenlos zugänglich gemacht. Laut Bundesregierung (2016b, S. 1, 29) soll mit dem Verfahren das Statistikgeheimnis gewahrt und ein Ausgleich im Spannungsverhältnis zwischen den Grundrechten auf informationeller Selbstbestimmung und Berufsfreiheit einerseits und der Wissenschafts- und Forschungsfreiheit (Art. 5 Abs. 3 GG) andererseits erreicht sowie nationales und europäisches Recht harmonisiert werden. Verfahren, mit denen betroffene Personen in eine Datenweiterverwendung zu Forschungszwecken einwilligen könnten, sind dabei weder vorgesehen noch möglich. Zum einen ist die Weiterverwendung zu Forschungszwecken durch die nationalen Statistikgesetze legitimiert. Zum anderen sind die Daten für die dauerhafte Speicherung zumindest zu pseudonymisieren, eine spätere Reidentifizierung für eine Kontaktaufnahme ist gar nicht zulässig. Forschungsdatenzentren befragen ihre Nutzergemeinschaft regelmäßig zu ihrer Zufriedenheit.65 Positionen von nicht nutzungsberechtigten Stellen oder Betroffenen werden nicht berücksichtigt. Protagonist/innen sehen in Datentreuhändern ein praktikables Brückenglied zwischen Datenschutz und Datennutzung. Mit ihnen können die Datenverwendung anhand definierter Kriterien gesteuert und analytische Prozesse überwacht werden. Treuhandverfahren seien eine Möglichkeit, Vertrauen und Akzeptanz in die Datenweiterverwendung u. a. zum Data-Mining zu erhöhen. Da Betroffene bisher weder der Datenerfassung für öffentliche Aufgaben noch der Datenweiterverwendung zu Forschungszwecken widersprechen können, bezeichnen Kriti- 63 In der amtlichen Statistik gelten z. B. bei Häufigkeitsangaben bereits Gruppen mit 3 Objekten als anonymisiert (Moreau/Wolfsteiner 2017, S. 49). Beim Informationssystem Versorgungsdaten des Gesundheitswesens (Kap. 5.5.2) gilt eine Standardmindestfallzahl von 30 Versicherten, die in begründeten Einzelfällen auf 5 abgesenkt werden kann (DIMDI 2016, S. 36). 64 Gesetz über die Statistik für Bundeszwecke (Bundesstatistikgesetz – BstatG) 65 www.forschungsdatenzentrum.de/de/zufriedenheitsbefragung (10.11.2021) ker/innen solcherart treuhändische Weiterverwendung von Mikrodaten mitunter als paternalistische Fremdverwaltung, die de facto eine Entäußerung aller Entscheidungs- und Kontrollrechte betroffener Personen darstelle, und fordern eine Weiterentwicklung der Einwilligungsverfahren (Deutscher Ethikrat 2017, S. 181 ff.). Derzeit wird diskutiert, inwiefern persönliche Datenmanagementsysteme etablierte Treuhandverfahren ergänzen könnten, um das Grundrecht auf informationeller Selbstbestimmung in stärkerem Maße zu berücksichtigen. Expertenkommissionen empfehlen eine eingehende Befassung mit diesen (DEK 2019, S. 133; Deutscher Ethikrat 2017, S. 122; RfII 2020). Die Bundesregierung hat eine diesbezügliche Förderung zugesagt (Bundesregierung 2021a, S. 80). Diese eingehende Befassung mit persönlichen Datenmanagementsystemen und die Weiterentwicklung bestehender Treuhandverfahren scheinen geboten, denn der Aufbau der Forschungsdatenzentren der statistischen Ämter war nur ein erster Schritt hin zum Auf- und Ausbau der Forschungsdateninfrastruktur (FDI) öffentlicher Einrichtungen. Sie ist ähnlich zur Geodateninfrastruktur als dezentrales Netzwerk diverser Forschungsdatenzentren öffentlicher Einrichtungen konzipiert. Neben den Mikrodaten der amtlichen Statistik vielfältige weitere Mikrodatenbestände aus anderen öffentlichen Aufgabenbereichen (vom Kraftfahrt-Bundesamt bis zu Rentenversicherungsdaten) sowie aus öffentlich finanzierten wissenschaftsgetragenen Erhebungen (vom sozioökonomischen Panel über Wahlumfragen bis zu Umfragen der Bundesregierung) nach definierten Standards gehalten und effizienter als vorher zu wissenschaftlichen Forschungszwecken zugänglich gemacht werden können (Stand November waren 41 Forschungsdatenzentren in der FDI akkreditiert bzw. hatten Gaststatus).66 Die Aktivitäten zum Auf- und Ausbau der FDI werden vom Rat für Sozial- und Wirtschaftsdaten (RatSWD) koordiniert. Er ist ein unabhängiges gewähltes Expertengremium, dessen Mitglieder ausschließlich aus datenbereitstellenden öffentlichen sowie aus datennutzenden wissenschaftlichen Institutionen stammen und von der Bundesregierung berufen werden. Interessenvertretungen von natürlichen oder juristischen Personen, die durch die Mikrodaten immer umfassender abgebildet werden können, oder Datenschutz- oder Datenaufsichtsinstitutionen sind nicht vertreten. Ratsinterne Arbeitsgruppen sichern vielfältige Aktivitäten (u. a. zur kontinuierlichen Qualitätssicherung und Verbesserung der Interoperabilität der Daten oder zur Outputkontrolle), thematisieren die strategische Weiterentwicklung und diskutieren u. a. forschungsethische oder gesellschaftliche Herausforderungen durch die immer vielfältigeren Möglichkeiten der Datenerhebung und -verknüpfung. 2009 wurden die Aktivitäten des RatSWD vom Wissenschaftsrat evaluiert (WR 2009): Die Erwartungen bezüglich der Verbesserung des Mikrodatenzugangs für wissenschaftliche Forschungseinrichtungen seien weit übertroffen worden. Der WR empfahl den RatSWD als Interessenvertretung der datenbereitstellenden und -nutzenden öffentlichen Institutionen in seinen Kernaufgaben zu stärken, um u. a. kontinuierlich weitere Datenquellen zu integrieren (u. a. Geodaten, administrative und privatwirtschaftliche Transaktionen, Daten zu Gesundheit, Psychologie und Bildung) und die disziplinäre Basis zu erweitern. Abgeleitete Aufgaben wie z. B. die Erstellung von Lernmodulen zur Forschungsethik und zum Datenschutz sollten abgegeben werden. Seit 2015 berichtet der RatSWD jährlich über die Entwicklung der FDI.67 Die unter Leitung des RatSWD aufgebaute FDI öffentlicher Einrichtungen soll perspektivisch mit der nationalen Forschungsdateninfrastruktur (NFDI) des Wissenschaftssystems vernetzt werden. Die NFDI soll primär zu Forschungszwecken erhobene Datenbestände aus vielen Fachdisziplinen nachhaltig sichern, zugänglich machen und international vernetzen. Erste NFDI-Aktivitätsschwerpunkte sind neben dem Aufbau der technischen Infrastrukturkomponenten, die Erschließung von Datenquellen, die Erarbeitung von Metadatenstandards (Interoperabilität) sowie die Stärkung datenverarbeitender Kompetenzen bei Forschenden, um eine intensivere Datennutzung zu ermöglichen (BMBF 2020). Die anvisierte Verknüpfung mit der forschungsgetriebenen European Open Science-Cloud und der sektorübergreifenden GAIA-X-Cloud (Kasten 2.2) sollen neben der Wissenschaft auch der Gesellschaft und der Wirtschaft einen besseren Zugang zu Forschungsdaten, Analysetools und - ergebnissen ermöglichen. Dadurch werden sich vielfältige Data-Mining-Möglichkeiten eröffnen. Beim Aufbau der Forschungsdateninfrastrukturen kann derzeit eine gewisse Aufbruchstimmung und eine erhebliche politischer Förderung beobachtet werden. Gesellschaftliche Herausforderungen beim Aufbau von Forschungsdateninfrastrukturen und der Intensivierung der Datennutzung zeichnen sich erst vage ab (ausführlicher z. B. Gehring 2018). 66 www.ratswd.de/forschungsdaten/fdz (10.11.2021) 67 www.ratswd.de/publikationen/taetigkeitsberichte (10.11.2021) Analysekonzepte bei dezentraler Datenhaltung Wenn Daten aus rechtlichen Gründen nur dezentral gehalten und nicht zusammengeführt werden dürfen und trotzdem Strukturen und Muster für eine Gruppe oder Gesamtheit ermittelt werden sollen, zeichnen sich Vorgehensweisen ab, die an die Möglichkeiten des parallelen Rechnens anknüpfen. Dabei verteilt eine Zentraleinheit Analysealgorithmen an teilnehmende datenhaltende Stellen, die damit ihre jeweiligen Teiledatensätze untersuchen, ermittelte Teilergebnisse auf Einzelfallsensibilität prüfen und nur solche Ergebnisse zurücksenden, die Dritten keine vertraulichen Informationen preisgeben. Eine Zentraleinheit führt ggf. die Teilergebnisse zusammen. Klassische Data-Mining-Verfahren z. B. zur Regelsuche, Gruppierung oder Klassifikation müssten dafür jedoch umformuliert werden, denn paralleles Rechnen ist jenseits einfachster Rechenoperationen schnell voraussetzungsreich und benötigt spezielle Protokolle und Algorithmen. Dezentrale Analyseansätze werden auch als sicheres verteiltes Data-Mining, oder allgemeiner als »secure multi-party computation« bezeichnet (Grosskreutz et al. 2010; Mendes/Vilela 2017; Schepers et al. 2015, S. 241 f.). Sie sollen automatisierte Datenanalysen bei gleichzeitiger Berücksichtigung von Datenschutzaspekten ermöglichen. Eine Grundvoraussetzung für derartige Ansätze sind semantisch und syntaktisch interoperable Datenbankstrukturen (Anwendungsbeispiel »Sentinel Initiative« der US-amerikanischen Arzneimittelzulassungsbehörde [Kap. 5.5.3]). 3.3.4 Das Forschungsprivileg – ein Türöffner für Data-Mining Seit 2018 gelten Weiterverwendungen personenbezogener Daten zu Zwecken, die im öffentlichen Interesse liegen, grundsätzlich als mit einem ursprünglichen Erhebungszweck vereinbar (privilegierte Datenweiterverwendungen). Explizit genannt werden wissenschaftliche und historische Forschungszwecke sowie Archiv- und statistische Zwecke (Art. 5 Abs. 1 lit. b DSGVO). Diese Formulierungen öffnen Data-Mining als knowledge discovery in databases in besonderem Maße die Tür. Die Freiheit zu forschen und wissenschaftlich zu arbeiten gehört in Deutschland und Europa zu den allgemeinen Grundrechten (Art. 5 GG; Art. 13 GRCh), die sowohl natürlichen als auch juristischen Personen, sowohl des öffentlichen als auch des privaten Rechts gewährt werden. Wie bei der primären Datenverarbeitung müssen dabei technische und organisatorische Maßnahmen personenbezogene Daten schützen, um die Grundrechte betroffener Personen zu sichern (Kap. 3.3.1). Mit diesen Maßnahmen können ggf. sogar die in der Datenschutz-Grundverordnung definierten Rechte betroffener Personen eingeschränkt werden, wenn sonst der Forschungszweck zumindest ernsthaft beeinträchtigt werden würde (Art. 89 DSGVO). Stärker als im eigentlichen Regelwerk der Datenschutz-Grundverordnung wird in den erläuternden, aber rechtlich unverbindlicheren Erwägungsgründen der Datenschutz-Grundverordnung ausgeführt, wie der Begriff wissenschaftliche Forschung verstanden werden soll: › Sie solle im öffentlichen Interesse liegenden Zielen dienen und auf europäischen und nationalen Rechtsvorschriften beruhen (Erwägungsgrund 53 DSGVO). › Sie sei mit der Einhaltung anerkannter ethischer Forschungsstandards verknüpft. Dazu gehöre auch ein datenbezogenes Einwilligungsmanagement. Da zum Zeitpunkt der Erhebung die Forschungszwecke oftmals noch nicht vollständig angegeben werden können, sollten betroffene Personen selektiv in Teile von Forschungsprojekten oder Forschungsbereiche einwilligen können (Erwägungsgrund 33 DSGVO). › Auf dieser Basis solle der wissenschaftliche Forschungsbegriff weit ausgelegt werden, von der Grundlagenforschung bis zur angewandten Forschung reichen und auch technologische Entwicklungen und Demonstrationen sowie privat finanzierte Forschung einschließen (Erwägungsgrund 159 DSGVO). Auch zur privilegierten Datenweiterverwendung zu Forschungszwecken ermöglichen Öffnungsklauseln nationale Konkretisierungen. In Deutschland gelten bezüglich der privilegierten Datenweiterverwendung zu Forschungszwecken diverse bereichsspezifische Regelungen des öffentlichen Rechts mit verteilter föderaler Zuständigkeit (für das Gesundheitssystem ausführlicher in Kapitel 5) vorrangig. Sie werden von Bundes- bzw. Landesdatenschutzgesetzen ergänzt. Das Bundesdatenschutzgesetz betont, dass die Verarbeitung personenbezogener Daten besonderer Kategorie für wissenschaftliche Forschungszwecke nur dann ohne Einwilligung zulässig ist, wenn die Verarbeitung erforderlich ist und die Forschungsinteressen den Interessen betroffener Personen an einem Ausschluss der Verarbeitung erheblich überwiegen (§ 27 Abs. 1 BDSG). Zu den Schutzmaßnahmen gehört eine möglichst baldige Anonymisierung (sofern berechtigte Interessen betroffener Person dem nicht entgegenstehen). Eine Reidentifizierung darf bei pseudonymisierten Daten nur erfolgen, wenn ein Forschungszweck dies erfordert. Auskünfte müssen nur erteilt werden, wenn der Aufwand dafür verhältnismäßig ist. Analysedaten dürfen nur mit Einwilligung betroffener Personen veröffentlicht werden (Ausnahme: Daten sind für die Darstellung der Forschungsergebnisse unerlässlich). Etliche Formulierungen zur privilegierten Datenweiterverwendung zu Forschungszwecken sind auslegungswürdig (Siemoneit 2018). Unklar ist beispielsweise der Maßstab des öffentlichen Interesses in Bezug auf wissenschaftliche Forschung und deren Begrenzung. Inwiefern gehören Markt- und Meinungsforschung dazu? Betrifft das Einwilligungsmanagement auch öffentliche Aufgabenbereiche? Dürfen ausschließlich öffentliche Forschungseinrichtungen privilegiert werden? Welche ethischen Forschungsstandards sind heranzuziehen und bezüglich komplexer Datenanalysen bzw. Data-Mining relevant? Wie könnte die Einhaltung dieser Formulierungen kontrolliert werden, was passiert bei Verstößen? Die von der Bundesregierung eingesetzte Datenethikkommission (DEK) sieht in der Datennutzung für gemeinwohlorientierte Forschungszwecke (z. B. zur Verbesserung der Gesundheitsfürsorge) besondere Potenziale (DEK 2019, S. 20). Sie weist jedoch ebenfalls darauf hin, dass es bezüglich der Reichweite des Forschungsbegriffs und des Datenweiterverarbeitungsprivilegs im Zusammenhang mit der Entwicklung von Produkten Unsicherheiten gibt und empfiehlt diesbezügliche gesetzliche Klarstellungen. Vorgehen in der medizinischen Forschung Im medizinischen Bereich sind handlungsleitende Normen und Prinzipien der Schadensvermeidung, Vorsicht und Hilfe/Heilung (primum non nocere), Menschenwürde, Gerechtigkeit und Solidarität, der informierten Selbstbestimmung bzw. Patientenautonomie, der Geheimniswahrung und des Datenschutzes, der wissenschaftlichen Güte, Verantwortung und Integrität der medizinischen Fachkräfte in der Professionsethik seit langem verankert. Sie gelten auch in der Forschung. Spezifische Gremien (Ethikkommissionen, Zulassungsbehörden, Datenzugangskommissionen) prüfen bei neuen Datenerhebungen und bei Anträgen auf Datenweiterverwendung, inwiefern ein Forschungsbedarf begründet sowie Forschungsinteressen mit den Interessen betroffener Personen abgewogen wurden (Kap. 4 und 5). Diesbezügliche Prüfverfahren werden vor allem für größere Projekte u. a. wegen der verteilten Zuständigkeiten im föderalen Rechtssystem von Datenanalyst/innen vielfach als Barriere wahrgenommen. Perspektivisch sollen sie beschleunigt und vereinfacht werden (Bundesregierung 2021a, S. 19). 2017 prüfte der Deutsche Ethikrat die Anwendbarkeit und Passgenauigkeit (medizin)ethischer Prinzipien und Normen in Bezug auf komplexe Datenanalysen u. a. bei biomedizinischen Forschungsaktivitäten (Deutscher Ethikrat 2017). Er wies einerseits auf eine zunehmende technische Vernetzung medizinischer Einrichtungen und deren Datenbestände sowie ein grundsätzlich hohes Vertrauen betroffener Patient/innen in verantwortungsvolles Handeln datenverarbeitender Stellen hin. Andererseits hielt er die Kommunikationsmöglichkeiten zwischen den datenverarbeitenden Stellen und betroffenen Personen für mangelhaft, Einwilligungen in Datenweiterverwendungen können bisher kaum nachträglich eingeholt werden. Die sich kontinuierlich verbessernden technischen Möglichkeiten der Datenanalytik in Kombination mit fehlenden Einwilligungsmöglichkeiten seien eine der gegenwärtigen Herausforderungen bezüglich der Datenweiterverwendung zu Forschungszwecken im nationalen Gesundheitssystem (Deutscher Ethikrat 2017, S. 181 ff.). In Pilotprojekten werden neue Einwilligungsmodelle diskutiert und getestet (Kasten 3.8).68 68 www.ceres.uni-koeln.de/forschung/projekte/leg2es/; www.medizininformatik-initiative.de/de/mustertext-zur-patienteneinwilligung (10.11.2021); Kasten 3.8 Einwilligungsmodelle Bisher galten breite Einwilligungen (broad consent) in wissenschaftliche Forschungszwecke ohne Konkretisierung der Forschungsfragen zum Zeitpunkt der Erhebung in Kombination mit Datentreuhandstrukturen (Kap. 3.3.3) als praktikabelste Lösung (ausführlicher z. B. Deutscher Ethikrat 2017, S. 181 ff.; Rammos 2017). Aus ethischer Perspektive wird die de facto Entäußerung aller Entscheidungs- und Kontrollrechte betroffener Personen kritisiert.69 Eine Art Gegenmodell seien dynamische Einwilligungen, bei denen betroffene Personen selbst in einzelne Analyseanträge oder Teilprojekte informiert und zweckbestimmt einwilligen. Dieser Ansatz erfordert erhebliche Sachkenntnis, ist voraussetzungsreich und aufwendig. Die Gratwanderung zwischen ausreichend genauer und zu detaillierter Information (mit der Gefahr, dass nicht alles gelesen und verstanden wird) ist eine ständige Herausforderung (RatSWD 2020, S. 26). Auch sind direkte Kommunikationsmöglichkeiten zwischen betroffenen Personen und datenanalysierenden Stellen erforderlich, die es im nationalen Gesundheitssystem bisher nicht gibt. Zwischen diesen beiden Ansätzen liegen Kaskaden- oder Metaeinwilligungsmodelle, bei denen betroffene Personen in einem ersten Schritt über die grundsätzliche Form (broad consent mit Datentreuhänder oder dynamische informierte Einwilligung) revidierbar entscheiden und danach grundsätzlich beide Wege eröffnet werden. Der Deutsche Ethikrat bezeichnete diese Form als derzeitigen Goldstandard (Deutscher Ethikrat 2017, S. 183 ff.). Sowohl dynamische als auch Kaskadeneinwilligungsmodelle benötigen persönliche Datenmanagementsysteme, mit denen betroffene ihre Einwilligungen definieren und verwalten können. Andere Forschungsbereiche Der von der Bundesregierung berufene unabhängige (Bei-)Rat für Sozial- und Wirtschaftsdaten (RatSWD) und dessen Arbeitsgruppe Forschungsethik empfehlen auch in anderen Wissenschaftsbereichen die Auseinandersetzung mit einer professionellen Ethik zu intensivieren und diese bereits in der Ausbildung, aber auch im Forschungshandeln stärker zu verankern (RatSWD 2017). Das der wissenschaftlichen Forschung grundsätzlich entgegengebrachte Vertrauen müsse durch verantwortungsvolles, kompetentes und transparentes Handeln und förderliche Strukturen gespiegelt und begründet werden. Dazu gehöre auch, bei jeder Daten(weiter)verwendung nicht nur die jeweiligen Forschungsinteressen in den Blick zu nehmen, sondern auch die Interessen betroffener Personen und deren Grundrechte u. a. auf informationelle Selbstbestimmung, Privatheit oder Gleichbehandlung zu achten und zu schützen. Dies erfordere auch einen gewissen Kulturwandel in der Scientific Community, der mit mehr Selbstreflexion, nicht mit mehr Bürokratie einhergehen solle. Dazu sollten bestehende forschungsethische Kodizes und Leitlinien (wie z. B. die zur guten wissenschaftlichen Praxis) zusammengeführt und neue datenanalytische Entwicklungen und Herausforderungen berücksichtigt werden. Zu beobachten sei bereits, dass vermehrt Ethikkommissionen auch jenseits der Medizin eingerichtet werden (ausführlicher z. B. Unger/Simon 2016). Diese könnten sowohl bei der Fortentwicklung und Verankerung der wissenschaftlichen Forschungsethik einen Beitrag leisten, als auch bei der Interessenabwägung bei privilegierten Datenweiterverwendungen einen Beitrag leisten. Sie sollten als Datenzugangskommissionen konzeptionell in Dateninfrastrukturen eingebettet werden (RatSWD 2017, S. 24). Die Deutsche Forschungsgemeinschaft (DFG) hat ethische Standards und Leitlinien guter wissenschaftlicher Praxis erarbeitet, deren Einhaltung Voraussetzung für deren Forschungsförderung ist (DFG 2013, 2019). Sie weist darauf hin, dass die Forschungsfreiheit untrennbar mit einer hohen Selbstverantwortung verbunden ist. Im Kontext der Datenerhebung und -verarbeitung verpflichtet sie ihre Mitglieder und Fördermittelempfänger gesetzliche und vertragliche Vorgaben einzuhalten sowie Vereinbarungen zu Nutzungsrechten an Daten und Ergebnissen zu treffen und zu dokumentieren. Bei einzelnen Forschungsvorhaben sollen deren Folgen gründlich abgeschätzt und ethische Aspekte beurteilt werden, ggf. sind Genehmigungen und Ethikvoten einzuholen. Um Forschungsergebnisse nachvollziehen und diskutieren zu können, sollen diese vollständig und nachvollziehbar beschrieben und 69 2020 wurde durch das Patientendaten-Schutz-Gesetz (BGBl. I Nr. 49 vom 19.10.2020 S. 2115–2165) – PDSG) eine solche allgemeine Einwilligung in die Weiterverwendung von medizinischen Behandlungsdaten für wissenschaftliche Forschungszwecke im Rahmen der elektronischen Patientenakte ab 2023 gesetzlich verankert. Sie wird dort als Datenfreigabe oder -spende bezeichnet (§ 363 SGB V neu). möglichst öffentlich zugänglich gemacht werden, wobei die jeweiligen Autor/innen die Verantwortung für die Inhalte der Publikation tragen. Rohdaten, Methoden und Abläufe sowie Software (einschließlich Quellcodes für neue Analysesoftware) sollen offengelegt sowie fremde Vorarbeiten und Quellen vollständig ausgewiesen werden. Insbesondere bei der Erhebung von Daten und der Anwendung neuer Methoden sind Maßnahmen zur Qualitätssicherung von der Gerätekalibrierung bis zur Dokumentation einzuhalten. Bei der Datenaufbereitung und - bereitstellung sollen FAIR-Prinzipien eingehalten werden (Wilkinson et al. 2016): Metadatenfiles sollen Datensätze für Mensch und Maschine such- und auffindbar machen (Findable). Datensätze sollen offen, geschützte Daten über Treuhänder zugänglich gemacht werden (Accessible). Ausnahmen gibt es bei Patentanmeldungen. Standardisierte Begriffe und Formate sollen eingesetzt werden (Interoperability). Daten sollen bis zur Genese (eingesetzte Methoden und Geräte) rückverfolgbar sein, Nachnutzungsmöglichkeiten möglichst durch offene Nutzungslizenzen (Kasten 3.3) definiert werden (Reusability). Wissenschaftliche Einrichtungen sollen bis Mitte 2021 entsprechende technische Vorbereitungen treffen. Perspektivisch sollen die Datenrepositorien der Einrichtungen mit der nationalen Forschungsdateninfrastruktur, der European Open Science-Cloud (ein digitales Ökosystem, dessen Aufbau die Europäische Kommission von 2015 bis 2020 mit 600 Mio. Euro förderte) und der sektorübergreifenden GAIA-X-Cloud (Kasten 2.2) vernetzt werden. 3.3.5 Daten mit Bezug zu Personengruppen – (k)eine Sonderkategorie Zwar ist die Unterscheidung zwischen Daten ohne und mit Personenbezug hilfreich, um sich den Rechtsraum des Datenumgangs grundsätzlich zu erschließen. Jedoch werden dazwischen liegende Graubereiche größer und bringen in Kombination mit einigen datenanalytischen Konzepten Kontroversen bezüglich der Zulässigkeitsgrenzen mit sich. Die Zusammenführung von Mikrodaten zu Datensätzen, die sich auf kleine Personengruppen beziehen, ist ein Standardinstrument zur Anonymisierung personenbezogener Datensätze. Auch öffentliche Einrichtungen, die zunehmend zu Transparenz und Bereitstellung von Daten und Informationen verpflichtet werden, nutzen diese Instrumente u. a. zur Erstellung von scientific oder public use files, die datenverarbeitenden Stellen teils gegen Gebühr zugänglich gemacht werden. Solche sich auf Personengruppen beziehende Datensätze eröffnen seit Jahren lukrative Verwertungsmöglichkeiten: eine ist das Mikrotargeting (TAB 2017b). Dafür werden zum einen datenbasierte Profile oder Features von Personengruppen erstellt. Über diese Features können auch Einzelpersonen als Datenobjekte Gruppen zugeordnet werden. Zum anderen haben datenverarbeitende Stellen eine Möglichkeit, Einzelpersonen gezielt anzusprechen (z. B. weil sie einen digitalen Service nutzen oder weil sie über die jeweiligen AGB von digitalen Kommunikationsplattformen oder anderen Serviceangeboten, Verlosungen oder Bonusprogrammen einer Weiterverwendung ihrer Adressdaten irgendwann einmal zugestimmt haben). Damit kann jegliche Informationsübermittlung von Aufklärung über Werbung bis zur politischen Botschaft nahezu individualisiert zielgruppenspezifisch direkt adressiert werden. In Deutschland hat z. B. die Deutsche Post Direkt GmbH das Informationssystem Datafactory aufgebaut. Das Geschäftsmodell basiert auf zwei getrennten Datenbeständen: › Microdialog ist eine geografische Datenbank, deren Datenobjekte Mikrozellen mit durchschnittlich 6,6 Haushalten sind.70 Diese Mikrozellen werden kontinuierlich angereichert, u.a. mit Daten zur Wohnsituation und zum -umfeld (u. a. vom Katasteramt), zur Fahrzeugausstattung (vom Datenzentrum des Kraftfahrt-Bundesamt regelmäßig als »public use files« gekauft), zur Kaufkraft, zum Bank- und Spendenverhalten (z. B. von Marktforschungsunternehmen) oder zu politischen Affinitäten (vom Meinungsforschungsinstitut dimap auf der Basis der amtlichen statistischen Wahlergebnisse auf Stimmbezirksebene). Für jede Mikrozelle werden für unterschiedliche werbe-/informationsrelevante Merkmale statistische Wahrscheinlichkeitswerte ermittelt. Nach Firmenangaben sind die 150 Einzelmerkmale von microdialog »personenscharf« und dennoch datenschutzkonform.71 70 Nach derzeitigen Datenschutzauffassungen sind sechs Haushalte die kleinstmögliche Raumbezugseinheit, die nicht als personenbeziehbar gilt. Hat ein Gebäude mindestens sechs Haushalte, bildet es eine eigene Mikrozelle, bei kleineren Häusern erfolgt ein Zusammenschluss bis sechs Haushalte erreicht werden. 71 www.deutschepost.de/de/d/deutsche-post-direkt/microdialog.html (10.11.2021) › Die personenbezogene Adressdatei enthält die postalischen Adressen von 46 Mio. Personen oder ca. 34 Mio. Haushalten in ca. 20 Mio. Häusern.72 Laut Anbieter würde die Datei nahezu den gesamten Konsumentenmarkt abdecken. Sie ermöglicht es, Personen oder Haushalte direkt anzusprechen. Laut Goldhammer/Wiegand (2017, S. 95 ff.) ist microdialog eines der vollständigsten und umsatzstärksten mikrogeografischen Systeme am deutschen Markt. Zielgruppen würden präzise charakterisiert (mit soziodemografischen, Konsum-, Struktur- und regionalen Daten sowie Branchen- und Lebensweltinformationen). Geschäftskunden erführen, welches Profil ihre Kunden hätten, wo es neue Potenziale gäbe, sodass Direktwerbung effizient die richtigen Empfänger erreichen könne. Das auf diese Datenbestände aufbauende Informationssystem »Data Factory« mit seinen unterschiedlichen Funktionalitäten erlaubt Geschäftskunden u. a. spezifische Zielgruppen anhand von Merkmalen zu definieren. Entsprechende Mikrozellen werden selektiert und beispielsweise auf digitalen Landkarten visualisiert, die den Kunden für einen gewissen Zeitraum freigeschaltet werden. Auf Wunsch werden für diese definierten Mikrozellen auch separate Listen mit allen Adressdaten erstellt. Die Adressen werden nicht an die Geschäftskunden, sondern an einen kooperierenden Lettershop übermittelt, der das jeweilige Versandmaterial adressiert und verschickt und eine transparente Nutzung absichert (die für die Werbung verantwortliche Stelle wird benannt, Adressaten werden über ihre Werbewiderspruchsrechte informiert [Opt-out]). Weder Datenbestände noch das analytische Vorgehen werden offengelegt, (Geschäfts-)Kunden können nur das Front-End des Informationssystems nutzen. Die Aktivitäten der Deutschen Post Direkt GmbH unterliegen der Aufsicht der Bundesbeauftragten für Datenschutz, die bestätigte, dass das gewählte Verfahren im Einklang mit dem gültigen Datenschutzrecht steht. Solange das Ziel der Aktion eine gruppengenaue Information und Werbung sei, ohne dass daraus Entscheidungen mit rechtlicher Wirkung abgeleitet werden, gilt das Verfahren nicht als Profiling (Art. 22 DSGVO). Dennoch wurde das Vorgehen kontrovers auch im Bundestag diskutiert (Bundesregierung 2018a). Kritiker sehen die Grenze zum Missbrauch persönlicher Daten überschritten.73 Sie sind der Meinung, ein Unternehmen, bei dem der Staat der größte singuläre Anteilseigner ist und das zudem einen faktischen Monopolstatus hat, würde personenbezogene Daten mit intransparenten Verarbeitungsverfahren an der Grenze zur Legalität kommerziell verwerten – sogar zu Wahlkampfzwecken und ohne dass die betroffenen Personen (Zielgruppen) zweckbestimmt und informiert zugestimmt hätten. Die Bundesregierung verweist auf das positive Votum der Bundesdatenschutzbeauftragen. Auch könne sie mittels ihrer Aktienanteile in Höhe von 21 % keinen Einfluss auf die operativen Entscheidungen der Deutschen Post AG nehmen (Bundesregierung 2018a, S. 8). Dieses Beispiel soll veranschaulichen, wie sich Daten, auch solche, die im Rahmen öffentlicher Aufgaben ohne Einwilligung durch Betroffene erhoben wurden, unter Einhaltung existierender normativer Datenschutzvorgaben vielfältig anreichern lassen und dadurch ein breites Fundament für die Suche nach strukturellen Mustern bilden, anhand derer u. a. Kleingruppen gebildet und auch Personen zugeordnet und klassifiziert werden können, die selbst niemals in die Verwendung ihrer Daten zu solchen Zwecken eingewilligt haben. Auf dieser Datengrundlage können Informationssysteme entwickelt und Informationsdienste auch kommerziell vermarktet werden. Geschäftskunden erhalten keinen Zugang zur Datenbasis und müssen sich weder mit Belangen des Datenschutzes noch des analytischen Vorgehens beschäftigen. In den analytischen Maschinenraum des Informationssystems können sie nicht schauen – verkauft werden ihnen datenbasierte Informationen für ihre jeweiligen Aktivitäten. Um abzusichern, dass derartige Prozesse und die dabei entstehenden datenanalytischen Werkzeuge dem Wohle der Menschen dienen, wird zunehmend gefordert, dass neben den Maßnahmen zur Sicherung des Datenschutzes auch die Folgen durch die Anwendung derartiger datenbasierter Werkzeuge und Informationssysteme für die Gesellschaft situativ in den Blick genommen werden (DEK 2019; Jaume-Palasí/Spielkamp 2017; Siemoneit 2018). 72 Diese Daten seien nicht aus der Postverkehrsdatei abgeleitet, sondern selbst zulässig erhoben worden. Für die Adresspflege wird jedoch u. a. die Anschriftenprüfung der Deutschen Post genutzt. (https://ichsagmal.com/2018/04/03/verkauf-von-daten-fragen-an-deutschepost- dhl-und-antworten-bitte-haben-sie-verstaendnis-dass-wir-darueber-hinaus-keine-o-toene-dazu-abgeben/; 10.11.2021). 73 www.faz.net/aktuell/wirtschaft/unternehmen/cdu-fdp-und-post-weisen-kritik-an-daten-geschaeften-zurueck-15522187.html; www.heise.de/tp/features/Datenmissbrauch-Deutsche-Post-und-CDU-nach-Facebook-und-Trump-4009611.html (10.11.2021) 3.4 Umgang mit Data-Mining-Ergebnissen Für diejenigen, die umfangreiche Datenbestände nutzen können, eröffnen sich unter Einhaltung von Datenschutzmaßnahmen vielfältige Analysemöglichkeiten. Im Rahmen von Data-Mining-Prozessen können sie Informationen generieren (Kap. 3.4.1) und datenanalytische Werkzeuge und digitale Anwendungen entwickeln, die im Rahmen öffentlicher Aufgaben sowie ohne oder mit gewerblichen Absichten weiterverwendet werden können. Besonders Potenzial wird Ansätzen unterstellt, die mathematisch-statistische Modelle an Analysedaten anpassen oder Entscheidungsregeln ableiten, mit denen neue Situationen und Sachverhalte je nach definierter Untersuchungsaufgabe klassifiziert, gruppiert oder prognostiziert werden können – auch als algorithmische Assistenzoder Entscheidungs(unterstützungs)systeme bezeichnet. Solche Systeme, vor allem wenn sie auf maschinellen Lernverfahren und neuronalen Netzen basieren, werden im Rahmen der derzeitigen KI-Euphorie massiv befördert. Bisherige Regulierungen greifen erst, wenn Data-Mining-Resultate zu (Software-)Produkten und Datenanalyst/innen zu Herstellenden werden (Kap. 3.4.2). Mit der Weiterentwicklung der diesbezüglichen rechtlichen Normen beschäftigen sich zahlreiche Expert/innen und Kommissionen (Kap. 3.4.3). 3.4.1 Informationen Mit Data-Mining können vielfältige Informationen generiert werden, primär über Strukturen und Muster in Analysedatenbeständen, über Ähnlichkeiten, Zusammenhänge, Auffälligkeiten oder Unterschiede von Untersuchungsobjekten. Spezifische Fachkräfte und Datenanalyst/innen setzen sich mit diesen fachlich-inhaltlich auseinander, prüfen deren Aussagekraft, deren allgemeine Gültigkeit bzw. deren Generalisierbarkeit und verwenden sie im Rahmen der jeweiligen Tätigkeitsfelder weiter. Der Umgang mit Informationen, die aus Data-Mining-Prozessen resultieren, wird bisher kaum spezifisch reguliert. Einerseits sollen Informationen im Rahmen von Forschungsaktivitäten möglichst frei genutzt und weiterverwendet werden können. Andererseits können sie im Rahmen von Innovationsprozessen und gewerblichen Aktivitäten als Geschäftsgeheimnis aufgefasst und exklusiv verwertet werden. Für öffentliche Aufgabenbereiche wird über unterschiedliche informationsbezogene Gesetze auf Bundes- und Landesebene der Umgang mit Informationen und Daten im Allgemeinen und diesbezügliche Offenlegungspflichten reguliert. Diese sind jedoch kaum Data-Mining-spezifisch. Sofern durch Data-Mining-Prozesse generierte Informationen nicht nur organisationsintern, sondern für Dritte generiert und von diesen genutzt werden, wird diese Informationsgenerierung aus rechtlicher Sicht als (Dienst-)Leistung aufgefasst, die für Dritte im öffentlichen Aufgabenbereich auf gesetzlicher Grundlage und im privatwirtschaftlichen Bereich im Rahmen von Vertragsbeziehungen erbracht werden. Richtigkeits-, Sicherheits- und Haftungsfragen zur erbrachten Dienstleistung werden nur auf vertraglicher Ebene definiert, Verantwortlichkeiten des Leistungserbringers können weitgehend ausgeschlossen werden (eine Dienstleistung ist kein Produkt im Sinne des Produktrechts, ausführlicher z. B. Stock 2018, S. 89 ff.). Es besteht weitgehende Einigkeit, dass die in der analogen Zeit entwickelte Regulierung bei digitalen Services, Informationsprodukten oder Informationsdiensten an ihre Grenzen kommt (siehe Mikrotargeting), Rechtsunsicherheiten bringt und die Rechte von Verbraucher/ innen nur begrenzt schützen kann. Die derzeit auf europäischer Ebene in Abstimmung befindlichen Regularien zur künstlichen Intelligenz, über digitale Dienste und digitale Märkte sollen Grundrechte von Verbraucher/innen bei der Entwicklung und dem Einsatz von algorithmischen Systemen besser schützen (Kap. 3.4.3). 3.4.2 Algorithmen und Software Data-Mining-Prozesse führen oftmals zu mathematisch-statistischen Modellen, Entscheidungsregeln, verallgemeinerbaren Rechenverfahren und Algorithmen, die zu digitalen Anwendungen oder Softwarebestandteilen entwickelt werden können, um sie organisationsintern einzusetzen oder auch Dritten bereitzustellen. Software wird bei jeglicher Form der Bereitstellung und Weitergabe auf dem Markt bzw. des Inverkehrbringens in Deutschland und Europa allgemein als Produkt aufgefasst (§ 2 ProdSG) 74 Mathematische Modelle, Regeln oder Algorithmen sind als Bestandteil von Software ebenfalls erfasst. 74 Gesetz über die Bereitstellung von Produkten auf dem Markt (Produktsicherheitsgesetz – ProdSG) Das nationale Produktrecht hat eine komplexe Struktur. Produktsicherheit sowie Produzenten- und Produkthaftung sind miteinander verwoben, aber in unterschiedlichen Regularien gesetzlich verankert.75 Die herstellende bzw. inverkehrbringende Stelle ist während der gesamten Lebensdauer eines Produktes für dessen Sicherheit verantwortlich. Werden erst im Laufe der Zeit Sicherheitslücken oder -fehler erkannt, müssen diese auch nachträglich beseitigt werden. Diese grundsätzliche Verantwortung kann in Deutschland und Europa vertraglich nicht umgangen werden.76 In einigen Anwendungsbereichen werden besondere Anforderungen sowohl an die Sicherheit als auch an die Leistungsfähigkeit von Hard- und Softwareprodukten gestellt (Bereiche mit erhöhter Kritikalität). In diesen Bereichen definieren eigenständige Rechtsnormen besondere Herstellerverpflichtungen und komplexere Leistungsnachweis- und Sicherheitsarchitekturen, um die Sicherheit beim Einsatz entsprechender Hard- und Softwareprodukte zu gewährleisten. Die Einhaltung dieser definierten Anforderungen wird geprüft, zertifiziert und mit einer CE-Kennzeichnung bescheinigt. Oftmals sind definierte Prüfinstanzen daran beteiligt. Aus der Data-Mining- Perspektive relevant sind bereits heute die Sicherheitsarchitekturen u. a. für Medizinprodukte und für IT-Systeme, die als Elemente kritischer Infrastrukturen gelten: › Software, die zur Diagnose und Behandlung von Krankheiten eingesetzt werden soll, gilt als Medizinprodukt und wird je nach potenzieller Gesundheitsgefährdung einer von vier Risikoklassen zugeordnet. Hersteller müssen im Rahmen der Produktentwicklung sowohl Sicherheits- als auch Leistungsnachweise erbringen und ggf. Prüfinstanzen hinzuziehen. Für die breite Anwendung jenseits der Entwicklung ist eine Zertifizierung der Software und die Etablierung eines gestuften Risikomanagementsystems erforderlich (ausführlich in Kap. 4.2). › Betreiber kritischer Infrastrukturelemente77 müssen ihre IT-Komponenten einschließlich Datenrepositorien, Informationsdienste, Netze, Portale und Webangebote gegen unbefugte Zugriffe (Cyberangriffe) technisch absichern, zertifizieren und zweijährlich prüfen, ggf. das Bundesamt für Sicherheit in der Informationstechnik (BSI) als Prüfinstanz hinzuziehen und dem BSI erhebliche Störungen melden (Kasten 3.1). Prüfinstanzen spielen in allen Sicherheitsarchitekturen risikobehafteter Produkte eine wichtige Rolle. Sie sollen u. a. den Stand der Wissenschaft und Technik bezüglich Risikominimierung und möglicher Produktfehler definieren, Standards für produktspezifische Bewertungsverfahren erarbeiten und deren Einhaltung prüfen, die jeweiligen Produkte zertifizieren/zulassen sowie das spezifische Marktgeschehen überwachen. Bei Medizinprodukten wird einerseits die fachlich-inhaltliche Leistung und andererseits die informationstechnische Sicherheit geprüft und zertifiziert. Dafür können Prüfinstanzen unter Wahrung von Geschäftsgeheimnissen auch Einblick in Analysedaten, methodische Vorgehensweisen und Unterlagen verlangen (ausführlich in Kap. 4.2). Für derartige Prüf- und Kontrollaktivitäten sind umfangreiche Kenntnisse und Ressourcen erforderlich (FDP 2019) Die Verantwortung für die Produktsicherheit wird ergänzt durch eine eigengesetzlich definierte deliktische Haftung im Schadensfall. Bisher haften herstellende oder inverkehrbringende Stellen nur, wenn durch Softwarefehler größere Personen- oder Sachschäden (über 500 Euro) entstehen, nicht aber bei immateriellen oder digitalen Schäden (u. a. Datenveränderungen oder -verluste, Fehlinterpretationen und -bewertungen, Sperrungen oder Ausschlüsse von digitalen Aktivitäten). Ein Fehler liegt vor, wenn die Software nicht die Leistung und Sicherheit bietet, die berechtigterweise erwartet werden kann. Herstellende bzw. inverkehrbringende Stellen haften bei erkennbaren Fehlern, nicht aber bei Entwicklungsrisiken, wenn ein Fehler nach dem Stand der Wissenschaft und Technik beim Inverkehrbringen nicht erkannt werden konnte (§ 1 Abs. 2 Ziff. 5 ProdHaftG). Sie können bereits 75 Das Produktsicherheitsgesetz wird ergänzt durch die Produzentenhaftung (§ 823 Abs. 1 BGB) und das Gesetz über die Haftung für fehlerhafte Produkte (Produkthaftungsgesetz – ProdHaftG). 76 Innerhalb des US-amerikanischen Rechtssystems können Softwarehersteller in Open-Source-Lizenzen bei kostenfreier Bereitstellung ihre Gewährleistungs- und Haftungspflichten gänzlich ausschließen. Im nationalen Rechtssystem können kostenlose Softwarebereitstellungen mittels Open-Source-Lizenz als Schenkung aufgefasst werden. Herstellende bzw. inverkehrbringende Stellen unterliegen der Produzentenhaftung und haften dann nur bei arglistigem Verschweigen von Mängeln bzw. grob fahrlässigem Handeln (§§ 523 und 524 BGB). 77 Kritische Infrastrukturen (KRITIS) sind für das Gemeinwesen von großer Bedeutung und müssen in besonderem Maße prospektiv vor möglichen Gefährdungen gesichert werden. Die Bewertung von IT-Komponenten als kritische Infrastrukturkomponenten ist in ständiger Entwicklung. Das nationale IT-Sicherheitsgesetz und inzwischen neun bereichsspezifische BSI-KRITIS-Verordnungen (Verordnung zur Bestimmung Kritischer Infrastrukturen nach dem BSI-Gesetz [BSI-Kritisverordnung – BSI-KritisV]) definieren spezifische Vorgehensweisen und Verantwortlichkeiten. Entwicklungsversionen bereitstellen (Beta-Versionen) und Fehler durch Updates nachträglich beheben. Kontinuierliche Überarbeitungen und neue Versionen machen Software zu sich kontinuierlich weiterentwickelnden Produkten. Die Entwicklungsdynamik wird erhöht, wenn Software lernende Systembestandteile hat, deren Leistungsfähigkeit sich verändern kann (Kap. 2.3.2). Die Europäische Kommission beschäftigt sich im Rahmen ihrer KI- Strategie auch mit der Weiterentwicklung des Haftungsrechts. Dazu werden derzeit öffentliche Konsultationen durchgeführt (bis Januar 2022).78 Bei Data-Mining-Prozessen wird Analysesoftware von datenverarbeitenden Stellen eingesetzt, um Strukturen oder Muster in Daten zu erkennen. Auch wenn die mit der Software ausgeführten Rechenprozesse fehlerhaft sind, dürften sie kaum unmittelbare Schäden verursachen, die von der Produkthaftung erfasst werden – die Software trainiert und parametrisiert zunächst nur allgemeine mathematisch-statistische Modelle oder ermittelt Entscheidungsregeln. Tatsächliche Schäden entstehen erst, wenn diese Modelle und Regeln in neuen Situationen eingesetzt werden, um Entscheidungen zu unterstützen oder sogar automatisiert zu treffen. Dazu müssen diese nicht unbedingt in den Verkehr gebracht werden. Nur intern genutzte Softwareelemente, die nicht in den Verkehr gebracht werden und z. B. nur Informationsanfragen bearbeiten (z. B. Suchmaschinen, Wetterdienste), werden in der Regel vom Produktrecht nicht erfasst. Zudem können sich datenanalytische Werkzeuge und Software in global angelegten Cloudstrukturen europäischen und nationalen Rechtsstrukturen teilweise entziehen. 3.4.3 Rechtsunsicherheiten und Entwicklungsinitiativen Seit Jahren wird auf gewisse Rechtsunsicherheiten im Kontext komplexer Datenanalysen hingewiesen und die diesbezügliche Zukunftsfähigkeit unterschiedlicher Rechtsbereiche diskutiert. Bei der Verarbeitung personenbeziehbarer Daten ergeben sich Unsicherheiten aus der Datenschutz-Grundverordnung (Kap. 3.3.2): Sie verlangt Transparenz und Nachvollziehbarkeit bei jeglicher Verarbeitung, was aus analytischer Sicht Unsicherheiten bezüglich der Anforderungen an das Design von Berechnungsverfahren, Algorithmen oder Software mit sich bringt. Auch gewährt sie natürlichen Personen ein allgemeines Recht, keiner ausschließlich auf automatisierter Datenverarbeitung beruhenden Entscheidung unterworfen zu werden, die ihnen gegenüber rechtliche Wirkung entfaltet (Kap. 3.3.1). Dieses Recht Betroffener wird rechtlich bisher weder durch Pflichten datenanalysierender Stellen gespiegelt, noch in Ge- oder Verbote zur Entwicklung und Anwendung solcherart automatisierter Entscheidungssysteme übersetzt. Zudem sind die Vorgaben der Datenschutz-Grundverordnung in vielfältigen Anwendungsbereichen nicht bindend, weil für die Entwicklung solcher Systeme anonymisierte oder per se nichtpersonenbezogene Daten verwendet wurden und entstehende Regeln und Klassifikationsverfahren keinerlei Personenbezüge haben. Nicht die Entwicklung, sondern die Anwendung solcher Regeln und Verfahren kann (Grund-)Rechte und Freiheiten auf individueller Ebene oder die freiheitliche Grundordnung auf überindividueller Ebene verletzen. Dies betrifft unterschiedliche Datenbereiche. Bernsdorf et al. (2015, S. 213 f.) haben mit Vertretern der GeoIT-Branche diskutiert, inwiefern bei komplexen Datenanalysen unter Verwendung von Geodaten ausreichende Rechtssicherheit bezüglich der zulässigen Verarbeitung besteht oder ob ein eigener Rechtsrahmen für Data-Mining-Aktivitäten nötig sei. Es wurde darauf hingewiesen, dass es zwar sehr detaillierte gesetzliche Vorgaben zur Erhebung und strukturierten Bereitstellung von (Geo-)Daten vor allem im Rahmen öffentlicher Aufgaben gibt, die Möglichkeiten und Grenzen der Analytik würden bisher jedoch kaum normativ konkretisiert werden (Kap. 3.2). Grundsätzlich können über die Geodateninfrastrukturen und über Nutzungslizenzen (Grund-)Rechte von Datengebenden geachtet sowie Möglichkeiten und Grenzen der Datenverwendung situativ vereinbart werden. Es fehlen jedoch ein übergeordneter Rechtsrahmen sowie analysespezifische Leitlinien für eine verantwortungsvolle Datenanalytik und Entwicklung zunehmend automatisierter Entscheidungs(unterstützungs)systeme. Vor allem bei hochaufgelösten Geodaten würden datenanalysierende Stellen die Situation als rechtlich kompliziert wahrnehmen, oftmals gäbe es einen Interpretationsspielraum bei der Bewertung der Kritikalität von Daten, von Analysen und von möglichen Ergebnissen. Unsicherheiten bestünden oftmals bei der Grenzziehung: Welche Klassifikation von (Geo-)Objekten, welche Analyse von Mobilitätsdaten sind noch zulässig, wann werden Analysen bedenklich oder (Grund)Rechte gefährdet? In etlichen Berichten, Weißbüchern und Strategien werden sowohl die besonderen Potenziale vor allem datenbasiert lernender Systeme zur Unterstützung von Entscheidungen betont (auch als algorithmische oder KI- Systeme bezeichnet), aber auch auf damit verbundene Unsicherheiten im derzeitigen Rechtssystem hingewiesen 78 https://ec.europa.eu/info/law/better-regulation/have-your-say/initiatives/12979-Civil-liability-adapting-liability-rules-to-the- digitalage-and-artificial-intelligence/public-consultation_de (10.11.2021) und Vorschläge zur Weiterentwicklung der derzeitigen rechtlichen Strukturen gemacht (u. a. DEK 2019; EK 2020; KI-Enquete-Kommission 2020). Die Datenethikkommission spricht sich dafür aus, die lange Zeit dominierenden Datenschutz- und Datenzugangsperspektiven um Algorithmenperspektiven zu ergänzen (DEK 2019, S. 77). Damit könne die Dynamik datenbasiert lernender Systeme zur Entscheidungsfindung mit ihren Wirkungen und Folgen auf und für einzelne Personen und die Gesellschaft, die teilweise gar keine Datengeber waren, aber dennoch (und zunehmend) von deren Einsatz und deren Ergebnissen betroffen sein werden, besser adressiert werden. Insbesondere bei KI-Systemen spricht sie sich für eine intensivere gesellschaftliche Auseinandersetzung sowie für die Weiterentwicklung des Rechtsrahmens insbesondere des Produktrechts aus. Auch andere Stimmen halten das gegenwärtige Produktrecht diesbezüglich für ungeeignet. In digitalen Kontexten, in denen Daten zunehmend ubiquitär erhoben, gehalten und verarbeitet werden und die Entwicklung von Systemen zur Entscheidungsunterstützung kaum reguliert sei, könnten Verantwortlichkeiten und Haftungsfragen nicht eindeutig zugewiesen und adäquat beantwortet werden (Rott 2018). Es gebe erheblichen Reformbedarf u. a. zum geschützten Rechtsgut oder zur Beweislast bei Haftungsfragen. Da das jetzige Verfahren geschädigte Personen typischerweise von der Verfolgung ihrer Ansprüche abhält, könne es weder softwareherstellenden noch -anwendenden Personen gegenüber Wirkung entfalten. Es gibt unterschiedliche Meinungen, ob primär die Regelungen zur Produktsicherheit weiterentwickelt und/oder Haftungsfragen spezifischer reguliert werden sollten. Zudem müsse im europäischen Binnenmarkt auch eine EU-weite Lösung gefunden werden. Erste Vorschläge zur Weiterentwicklung des Rechtsrahmens in Bezug auf KI-Systeme wurden auf europäischer und auf nationaler Ebene erarbeitet (DEK 2019; EK 2020, 2021). Die Europäische Kommission (EK 2020) spricht sich dafür aus, eine möglichst hohe Produktsicherheit von KI-Systemen regulativ zu gewährleisten. Sie plädiert für eine Zweiteilung des künftigen Rechtsrahmens, der auf einem risikobasierten Bewertungsansatz aufbaut. Bei KI-Systemen mit geringem Risiko hält sie die europäischen Rechtsvorschriften zum Schutz von Grundrechten sowie zur Produktsicherheit und -haftung grundsätzlich für ausreichend, befürwortet jedoch freiwillige Kennzeichnungen und Gütesiegel im Rahmen der Selbstverwaltung. Erste Konzepte für derartige Gütesiegel oder Ethiklabel, die ethische Prinzipien und Grundsätze datenverarbeitender Stellen u. a. zur Transparenz, Verantwortlichkeit, Privatsphäre, Gerechtigkeit, Verlässlichkeit und Nachhaltigkeit anhand von Kriterienkatalogen konkretisieren und dadurch messbar und bewertbar machen, liegen vor (Hallensleben et al. 2020). Die gesellschaftliche Auseinandersetzung mit derartigen Konzepten hat jedoch erst begonnen. Etabliert sind solche Siegel bisher nicht. Für algorithmische Systeme mit hohem Risiko sei laut EK (2020) ein neuer Rechtsrahmen erforderlich: Bei der Risikoeinstufung sollen explizit zu benennende Anwendungsbereiche und das spezifische Risiko bei der Anwendung einzelner Systeme berücksichtigt werden. Für diese KI-Systeme sollen unterschiedliche Maßnahmen zum einen deren Transparenz und Nachvollziehbarkeit sichern (u. a. durch die Verwendung von Trainingsdaten die europäischen Normen entsprechen und EU-repräsentativ sind; durch die Aufbewahrung von Daten und Aufzeichnungen des Trainingsprozesses, durch Informationspflichten zum Einsatz). Zum anderen sollen deren Genauigkeit und Robustheit bei der Entwicklung und Anwendung überwacht und gesichert werden (u. a. sollen Fehler angemessen bewältigt werden können und der Genauigkeitsgrad während der gesamten Einsatzphase überwacht und). Auch eine Form der menschlichen Aufsicht solle vorsehen werden. Dazu soll eine vorab durchzuführende Konformitätsbewertung durchgeführt werden, die Prüfung, Zertifizierung und Inspektionen umfasst sowie kontinuierliche Marktüberwachungen durch Behörden vorsieht. Haftungsfragen und Rechtsbehelfe im Schadensfall sollten separat definiert werden. Dieser Ansatz knüpft auf der Produktebene an Verfahren des Medizinprodukterechts mit den unterschiedlichen Risikoklassen und den Sicherheits- und Leistungsnachweisen an (ausführlicher in Kap. 4.2 u. 4.3). Auch die nationale Datenethikkommission empfiehlt bei der Weiterentwicklung des Rechtsrahmens einen risikoadaptierten Regulierungsansatz, der auf Schadensvermeidung sowohl auf individueller als auch auf überindividueller Ebene zielt (DEK 2019, S. 173 ff.). Sie spricht sich dafür aus, neben den rechtlich bereits verankerten finanziellen und physischen Schäden auf individueller Ebene auch immaterielle Schäden unterschiedlicher Art, vor allem Grundrechtsverletzungen (von Teilhabebeschränkungen bis Diskriminierung) zu berücksichtigen. Das Schädigungspotenzial bzw. die Kritikalität solcher algorithmischen Systeme solle anhand der Schwere und der Eintrittswahrscheinlichkeit eines Schadens bestimmt werden. Unterschiedliche Kriterien wie Schadenshöhe, Betroffenenzahl, Reversibilität und Folgedimensionen von Entscheidungen sowie die Marktmacht der jeweils einsetzenden Stelle sollen zur Bewertung der Kritikalität solcher Systeme herangezogen werden. Je größer das Schädigungspotenzial solcher Systeme, desto stärkere Regulierungsmaßnahmen sollten in Betracht gezogen werden. Die Datenethikkommission schlägt eine fünfstufige Regulierung vor (Tab. 3.1). Die in der 5. Stufe befindlichen unvertretbaren Datenanalysen u. a. zu Profilbildungen, Totalüberwachung, Vulnerabilitäten gezielt ausnutzende Geschäftsmodelle oder Formen des Datenhandels sollten konkret benannt und explizit verboten werden. Tab. 3.1 Kritikalitätsstufen algorithmischer Systeme Stufe Schädigungspotenzial Regulierung 1 gering keine speziellen Maßnahmen 2 leicht erhöht formelle Anforderungen (Transparenzpflichten, Veröffentlichung einer Risikofolgenabschätzung) Ex-post Kontrollen 3 regelmäßig, deutlich zusätzlich Ex-ante-Zulassung 4 erheblich zusätzlich Liveschnittstelle zur kontinuierlichen Kontrolle durch Aufsichtsinstitution 5 unvertretbar Verbot Quelle: DEK 2019, S. 177 Neben der Arbeit an einer spezifischen KI-Verordnung79, die auf eine hohe (Produkt-)Sicherheit in Bezug auf lernende algorithmische Systeme abzielt, werden auf EU-Ebene auch die Verordnungen über digitale Märkte und digitale Dienste als übergeordnete Maßnahmen im Rahmen der Digitalstrategie der Europäischen Kommission verhandelt (Kasten 3.2). Sie sollen perspektivisch vielfältige digital relevante Regelungen aus unterschiedlichen Rechtsbereichen zusammenführen, harmonisieren sowie bestehende Regelungen ergänzen und Schutzlücken möglichst schließen. Zu den Verhandlungspunkten gehört auch die Weiterentwicklung der Regularien zum Umgang mit algorithmischen Systemen. Tendenziell verbrauchernahe und grundrechteschützende Akteur/innen weisen darauf hin, dass mit den etablierten Regularien vor allem bei Onlineaktivitäten weder Profilbildungen anhand von individuellen digitalen Datenspuren und umfangreichen Verkehrsdaten noch darauf aufbauende personalisierte Preisgestaltungen, Werbung und (Des-)Information adressiert und begrenzt werden können. Sie fordern strengere Verfahren zur Kontrolle algorithmischer Systeme bis hin zu expliziten Verboten. Auch eine europäische Agentur mit speziellen Kontroll- und Anordnungsbefugnissen wird im Rahmen der Verhandlungen zur Verordnung über digitale Dienste diskutiert. Große plattformbetreibende Akteure betonen vor allem Geschäftsgeheimnisse, Datenschutz und Risiken durch Algorithmenbeeinflussung, um Befugnisse von Aufsichts- und Kontrollgremien zu begrenzen. Die Abstimmungsprozesse sind noch nicht abgeschlossen (Stand November 2021).80 Parallel zu den Überlegungen, den Rechtsrahmen zur Entwicklung und zum Einsatz von algorithmischen Systemen neu zu gestalten, gibt es auch Ansätze, die unterschiedliche Data-Mining-relevante Personengruppen in den Blick nehmen und deren spezifische Kompetenzen fördern wollen. Dazu gehört die stärkere Sensibilisierung derjenigen, die algorithmische Systeme entwickeln, sich prospektiv stärker mit möglichen Folgedimensionen auseinanderzusetzen. In diesem Kontext werden bereichsbezogene ethische Leitlinien und Verhaltensregeln genannt. Mitunter wird auf die in der Medizin seit jeher verankerten medizinethischen Grundprinzipien zur Schadensvermeidung, zu Patientenwohl und -autonomie sowie zu sozialer Gerechtigkeit verwiesen (Beauchamp/Childress 2008). Diese sind seit langem in der Ausbildung, im Berufsrecht aber auch bei der Prüfung von Anträgen zu klinischen Studien sowie sekundären Datenanalysen verankert und wirken sich auch auf Verfahren zum Datenzugang (regelmäßig über Treuhandstrukturen) sowie die Entwicklung datenanalytischer Verfahren aus (Sicherheits- und Leistungsnachweise für Medizinprodukte). Auch die Kompetenzen derjenigen seien zu stärken, die algorithmische Systeme zur Entscheidungsfindung einsetzen (teilweise mit englischen Begriffen der digital/al- 79 Vorschlag für eine Verordnung des Europäischen Parlaments und des Rates zur Festlegung harmonisierter Vorschriften für künstliche Intelligenz (Gesetz über künstliche Intelligenz) und zur Änderung bestimmter Rechtsakte der Union; COM(2021) 206 final 80 Zum Stand der Verfahren siehe https://ec.europa.eu/digital-single-market/en/digital-services-act-package; https://ec.europa.eu/info/stra- tegy/priorities-2019-2024/europe-fit-digital-age/digital-markets-act-ensuring-fair-and-open-digital-markets_de (10.11.2021) gorithm literacy umschrieben). Zumindest ein Grundverständnis sowohl zur Funktionsweise der jeweiligen algorithmischen Systeme als auch zur Einordnung der ermittelten Ergebnisse sei regelmäßig nötig, um die Richtigkeit und Aussagekraft der Ergebnisse bewerten sowie mögliche Fehler erkennen zu können (Scholz et al. 2021, S. 110). Diese Kenntnisse werden bei steigendem Schädigungspotenzial der Resultate algorithmischer Systeme wichtiger. Auch diesbezüglich liefert der medizinische Bereich Anknüpfungspunkte. Dort ist sowohl der Einsatz vielfältiger Medizinprodukte als auch die Interpretation von Daten und Analyseergebnissen und die Ableitung von Therapieempfehlungen zertifiziertem Personal vorbehalten. Die nachfolgende Fallstudie zum Einsatz von Data-Mining in der Medizin stellt die bestehenden Möglichkeiten und Grenzen der Entwicklung und des Einsatzes algorithmischer Systeme zur Entscheidungsunterstützung anhand unterschiedlicher Anwendungsbeispiele vor. 4 Data-Mining in der Medizin Data-Mining in der Medizin steht für die Analyse von gesundheits- bzw. krankheitsbezogenen Daten sowie die datenbasierte Entwicklung von Entscheidungsregeln und algorithmischen Systemen, die medizinische Ziele haben: Krankheiten erkennen und diagnostizieren, den weiteren Krankheitsverlauf prognostizieren sowie die Behandlung optimieren und realisieren. Derartige Tätigkeiten fallen bisher in den Verantwortungsbereich von Ärzt/innen, die zur umfangreichen Dokumentation und Datenspeicherung verpflichtet sind. Nachfolgend werden zunächst rechtliche und technische Aspekte der Erfassung und der primären Speicherung medizinischer Daten angesprochen (Kap. 4.1). Wenn anhand derartiger Daten Strukturen und verallgemeinerbare Regeln gesucht sowie mathematisch-statistische Modelle angepasst werden und solche Data-Mining-Prozesse zu softwarebasierten algorithmischen Systemen führen, die Diagnose- und Behandlungsentscheidungen unterstützen können, unterliegt diese Software dem Medizinprodukterecht, das eine hohe Produktsicherheit gewährleisten soll. Da sich trotz hoher Sicherheitsstandards beim Einsatz algorithmischer Systeme fehlerhafte Ergebnisse und in Folge Schäden nie gänzlich ausschließen lassen, stellen sich auch Haftungsfragen (Kap. 4.2). Beispielhaft werden der Stand der Entwicklung datenbasierter algorithmischer Systeme für medizinische Aufgaben mit unterschiedlicher Tragweite, deren Wege in die Anwendung zur Diagnose und Behandlung von Krankheiten sowie damit ggf. verbundene spezifische Herausforderungen dargestellt (Kap 4.3). Ärzt/innen bzw. medizinische Einrichtungen sind zudem an vielfältigen weiteren gesundheitssystemischen Prozessen beteiligt (Aufgaben im öffentlichen Interesse). Dafür müssen sie aus ihren Behandlungsdokumentationen definierte Datensätze ableiten und an bestimmte gesundheitssystemische Institutionen übermitteln (Kap. 4.4). Es entstehen unterschiedliche gesundheitssystemische Datenflüsse und bei einzelnen Institutionen kontinuierlich größer werdende Versorgungsdatenbestände, denen ebenfalls erhebliches Data-Mining-Potenzial unterstellt wird (dazu dann Kapitel 5). 4.1 Medizinische Daten: rechtliche und technische Aspekte Bei der Erhebung medizinischer (Gesundheits-)Daten und jeglicher Verarbeitung haben Ärzt/innen (Kap. 4.1.1) und medizinische Einrichtungen (Kap. 4.1.2) Schlüsselpositionen. Sie sind die primären datenverarbeitenden Personen bzw. Stellen. Von der Datenverarbeitung betroffene Personen sind Patient/innen. Datenverarbeitende und betroffene Personen haben ein besonderes Schutz- und Abhängigkeitsverhältnis zueinander (Arzt-Patienten- Verhältnis). Ein Grundverständnis dieser Positionen und der gesetzlich definierten Rechte und Pflichten ist nötig, um Datenstrukturen bei medizinischen Behandlungsprozessen sowie Möglichkeiten und Grenzen der Weiterverwendung erschließen zu können. Unterschiedliche Initiativen zielen darauf ab, medizinische Primärdaten für komplexe Analysen zugänglicher zu machen (Kap. 4.1.3 u. 4.1.4). 4.1.1 Ärztinnen und Ärzte: Aufgaben, Pflichten, Aktenführung Ärzt/innen haben eine Schlüsselposition bei der Behandlung von Patient/innen, bei der Erhebung und Verarbeitung medizinischer Daten aber auch bei vielfältigen gesundheitssystemischen Aufgaben. Der Arztberuf ist in Deutschland ein freier Beruf.81 Um Patient/innen behandeln zu dürfen, müssen Ärzt/innen eine spezifische fachliche Qualifikation nachweisen und in einer Ärztekammer organisiert sein (fachliche Zulassung). Durch diese Kammerzugehörigkeit erhalten sie › eine Zulassung zur Berufsausübung (Approbation) und unterliegen einer spezifischen Berufsordnung, die berufsrechtliche Pflichten und Leitlinien definiert;82 81 Freiberufler erbringen eigenverantwortlich und fachlich unabhängig Dienstleistungen höherer Art im Interesse von Auftraggebern und der Allgemeinheit. 82 Das Standesrecht medizinischer Berufe ist föderal organisiert. Die meisten Landesärztekammern haben jedoch die von der Bundesärztekammer herausgegebene (Muster-)Berufsordnung der in Deutschland tätigen Ärztinnen und Ärzte (MBO-Ä) übernommen (Schepers et al. 2015, S. 230 ff.). › eine deutschlandweit gültige, eindeutige Identifikationsnummer (die bundeseinheitliche Arztnummer [BAN]), egal ob sie ambulant oder stationär praktizieren sowie › einen elektronischen Heilberufsausweis (eHBA), mit dem sie sich authentifizieren und Datenverarbeitungsprozesse (rechts)sicher durchführen (neben der analogen und elektronischen Ausweisfunktion werden qualifizierte elektronische Signaturen, Datenverschlüsselungen und Zugriffsberechtigungen auf Behandlungsdaten damit realisiert).83 Zudem führen die Ärztekammern ein vollständiges Register mit den Namen, Zulassungsdaten und Nummern aller in Deutschland zugelassenen Ärzt/innen. Ambulant tätige Ärzt/innen, die medizinische Leistungen im Rahmen der gesetzlichen Krankenversicherung (GKV) abrechnen wollen, müssen sich zusätzlich in Kassenärztlichen Vereinigungen (KVen) organisieren (Kap. 5.3). Diese Vereinigungen auf Landesebene vergeben eine zweite Identifikationsnummer (die lebenslange Arztnummer [LANR]) und führen ein spezifisches Mitgliederregister mit Stammdaten und arztspezifischen Zusatzinformationen (KBV 2021). Stationär tätige Ärzt/innen sollen ebenfalls schrittweise eine weitere Arztnummer erhalten und die Deutsche Krankenhausgesellschaft ein bundesweites Register aller in Krankenhäusern und deren Ambulanzen tätigen Ärzt/innen einrichten (§ 108 SGB V). Diese Nummern, Ausweise und Register, die alle in Deutschland tätigen Ärzt/innen eindeutig identifizieren, sind bei vielen digitalen, datenbezogenen Prozessen im nationalen Gesundheitssystem zunehmend relevant (u. a. individuelle Signierung zahlreicher datenbezogener Prozesse, Verschlüsselung, Arztpseudonymisierung) und können insbesondere arztbezogene Datenanalysen ermöglichen. Ärztliche Tätigkeiten, Pflichten und Haftung Durch die Anerkennung der Berufsordnung verpflichten sich Ärzt/innen der Gesundheit des einzelnen Menschen und der Gesundheit der Bevölkerung zu dienen. Daraus ergibt sich zum einen ein Behandlungsauftrag (Anwendung des existierenden medizinischen Wissens). Zum anderen kann auch ein Forschungsauftrag (Wissenserweiterung) abgeleitet werden, der die Forschungsfreiheit als bürgerliches Grundrecht (Art. 5 Abs. 3 GG) für Ärzt/ innen standesrechtlich anspricht. Sie verpflichten sich zudem zur gewissenhaften Berufsausübung (Sorgfaltspflicht). Dazu gehört u. a., dass sie behandlungsnotwendige medizinische Daten erheben und analysieren, sowie Daten Dritter im Zweifelsfall prüfen (Problematik: Fremdbefundung [Bundesregierung 2018d]), dass sie patientenbezogene Daten schützen und Schweigepflichten (Kasten 4.1) einhalten. Zur gewissenhaften Berufsausübung gehört auch, dass sie den anerkannten Stand des medizinischen Wissens beachten, geeignete Untersuchungs- und Behandlungsmethoden anwenden und Ergebnisse prüfen. Dazu kann auch der Einsatz algorithmischer Assistenzsysteme gehören. Rechtlich schulden Ärzt/innen ihren Patient/innen eine dem anerkannten Stand der medizinischen Wissenschaft entsprechende Behandlung (Rechtsgrundlage mündlicher Behandlungsvertrag [§ 630a ff. BGB]). Zu dieser gehört eine Informationspflicht über das Vorgehen und eine Dokumentationspflicht zum Vorgehen, jedoch kein Behandlungserfolg. Bei der Behandlung haben sie eine gewisse Therapiefreiheit. Sie können auch neue Medizinprodukte bzw. neue datenanalytische Verfahren einsetzen, sofern diese zertifiziert, sachlich gerechtfertigt und medizinisch vertretbar sind, Patient/innen darüber aufgeklärt werden, diese einwilligen und Ärzt/innen den Einsatz dokumentieren. Medizinische Fachgesellschaften geben zunehmend Leitlinien zur Behandlung heraus, in denen sie den medizinischen Wissenstand zu krankheitsspezifischen Behandlungsverfahren zusammenstellen. Sie sind eine wichtige Orientierung, um die Vertretbarkeit eines Verfahrens abzuschätzen. Der Einsatz fachlich nicht vertretbarer Verfahren sowie unzureichende Dokumentationen, die Zweifel an der informierten Einwilligung zulassen, sind Sorgfaltspflichtverletzungen bzw. Behandlungsfehler. Treten infolgedessen gesundheitliche oder materielle Folgeschäden auf, können Ärzt/innen haftbar gemacht werden. Dafür muss eine geschädigte Person mit hoher Sicherheit nachweisen, dass die Sorgfaltspflichtverletzung den Schaden verursacht hat (Verschuldenshaftung). 83 Etliche andere Heilberufler/innen sind ebenfalls in fachspezifischen Berufskammern organisiert und registriert (z. B. Hebammen, Physiotherapeut/innen), jedoch nicht alle (z. B. Notfallsanitäter/innen). Sie erhalten bisher keine eHBA (Bundesregierung 2018b). Nicht zertifizierte, neuartige Verfahren können Ärzt/innen im Rahmen von genehmigungspflichtigen klinischen Studien einsetzen. Diese basieren auf definierten Prüfplänen, in denen strukturierte Datenerhebungen und - analysen sowie detaillierte Dokumentationen und Sicherheitsmaßnahmen definiert werden. Patient/innen müssen explizit in die Teilnahme und in die Verwendung ihrer Daten zu definierten Zwecken freiwillig und informiert einwilligen. Bei klinischen Studien, in denen neue Produkte und Verfahren getestet und entwickelt werden, haften Ärzt/innen und Hersteller gemeinsam bei auftretenden Schäden ursachenunabhängig (Gefährdungshaftung). Ärztliche Berufshaftpflichtversicherungen decken ein wachsendes Spektrum möglicher Sorgfaltspflichtverletzungen ab (Wissenschaftliche Dienste 2016, S. 4). Kasten 4.1 Ärztliche Schweigepflicht und medizinische Daten Die Schweigepflicht ist sowohl straf- als auch berufsrechtlich definiert. Strafrechtlich sind Ärzt/innen und berufsmäßig tätige Gehilfen verpflichtet, über alle Dinge, die ihnen Patient/innen anvertraut haben (sowohl aus persönlichen, als auch aus betrieblichen oder geschäftlichen Lebensbereichen), zu schweigen, auch über deren Tod hinaus (§ 203 StGB). Eine unbefugte Offenbarung (auch gegenüber anderen Ärzt/innen) kann strafrechtlich mit Geld- oder Freiheitsstrafe sowie berufsrechtlich mit Geldbuße bis zum Entzug der Approbation (je nach landesrechtlichen Kammergesetzen) sanktioniert werden. Ein tatsächlicher Schaden bei Betroffenen muss damit nicht verbunden sein. Die Befugnis zur Offenbarung können nur Patient/innen erteilen. Sie muss auf freier Entscheidung beruhen, d. h. Betroffene müssen abschätzen können, welche Daten, warum, an wen übermittelt werden. Darüber hinaus gilt eine Offenbarung als gerechtfertigt, › wenn ein mutmaßliches Einverständnis angenommen werden kann (z. B. in Notfällen oder wenn mehrere Ärzt/innen eine Person gemeinsam behandeln, dann wird standardmäßig angenommen, dass sie untereinander von der Schweigepflicht entbunden sind und einer gemeinsamen Schweigepflicht unterliegen) und › wenn zum Schutz eines höherwertigen Rechtsguts Ärzt/innen zur Auskunft gesetzlich verpflichtet werden (z. B. laut Infektionsschutzgesetz84 beim Auftreten ansteckender Krankheiten oder laut SGB V zur Leistungsabrechnung [Kap. 4.4]). Arztgeführte Patientenakten Seit 2013 sind Ärzt/innen verpflichtet, Patient/innen sowohl über wesentliche Umstände ihrer Behandlung in verständlicher Weise zu informieren als auch das Vorgehen zu dokumentieren und eine vollständige Patientenakte zu führen (§ 630f BGB). In dieser arztgeführten Patientenakte sind sämtliche aus fachlicher Sicht für die derzeitige und künftige Behandlung wesentlichen Maßnahmen und deren Ergebnisse aufzuzeichnen, insbesondere Anamnese, Untersuchungen, Ergebnisse, Befunde, Diagnosen, Eingriffe, Therapien und deren Wirkungen sowie diesbezüglich notwendige Aufklärungen und Einwilligungen. Auch Arztbriefe, Überweisungsschreiben und andere Dokumente von und an andere Ärzt/innen sind aufzunehmen. Nachträgliche Änderungen müssen kenntlich gemacht werden und der ursprüngliche Inhalt erkennbar bleiben. Der primäre Zweck dieser Akte ist die Dokumentation einer sachgerechten Behandlung (Bundesregierung 2012b, S. 25 f.). Wichtige Daten und Informationen sollen aufbewahrt werden, um die Rechte von Patient/innen (insbesondere deren Recht auf Rechenschaft gegenüber behandelnden Ärzt/innen) zu wahren, die Behandlungssituationen nachvollziehen und gegebenenfalls Beweislastfragen in Haftungsfällen klären zu können. Bei dieser Klärung gilt inzwischen: Was in der arztgeführten primären Patientenakte nicht nachvollziehbar dokumentiert ist, hat nicht stattgefunden (Krokotsch 2017). Die Dokumentation erfolgt ausschließlich durch behandelnde Ärzt/innen. Sie müssen dafür weder Einwilligungen bei ihren Patient/innen einholen, noch diese explizit darüber informieren. Patient/innen haben jedoch Einsichts- und Abschriftsrechte. Die ärztliche Dokumentationspflicht beschränkt einerseits das informationelle Selbstbestimmungsrecht von Patient/innen (Kap. 3.3.1). Andererseits unterliegen alle in der arztgeführten Akte enthaltenen Daten/Ergebnisse/Informationen der ärztlichen Schweigepflicht (Kasten 4.1). 84 Gesetz zur Verhütung und Bekämpfung von Infektionskrankheiten beim Menschen (Infektionsschutzgesetz – IfSG) Bei der Einführung der Dokumentationspflicht 2013 lagen die Klärung von Haftungsfragen und die Stärkung diesbezüglicher Patientenrechte im Fokus der Regulierung, nicht die mögliche Weiterverwendung der Akteninhalte für komplexe Datenanalysen bzw. Data-Mining. Es wurde keine mögliche sekundäre Nutzung der Akteninhalte im Rahmen der ärztlichen Schweigepflicht angesprochen, keine standardisierte, elektronische Datenspeicherung definiert. Sogar die Speicherung der bei der Behandlung entstehenden (Roh-)Daten blieb im Ungefähren, lediglich Untersuchungsergebnisse und Befunde werden explizit als zu speichern benannt. Die Mindestaufbewahrungsfrist der Patientenakten beträgt 10 Jahre nach Behandlungsabschluss, teilweise ist sie länger (§ 630f BGB).85 Löschfristen wurden nicht definiert. Diese rechtliche Lösung zur Klärung von Haftungsfragen (Dokumentation ohne Patienteneinwilligung unter Achtung von Schweigepflichten) führt dazu, dass in jeder medizinischen Einrichtung eigenständige Patientenakten geführt werden. 4.1.2 Medizinische Einrichtungen: Organisation und Datenverwaltung Medizinische Einrichtungen sind die Geschäftseinheiten, in denen Patient/innen behandelt bzw. in denen diagnose- und behandlungsrelevante Spezialleistungen von Ärzt/innen und anderen medizinischen erbracht werden. Sie werden in Deutschland einem von zwei organisatorisch, verwaltungstechnisch und regulativ getrennten Sektoren zugeordnet: › Der stationäre Sektor umfasst in Deutschland knapp 2.000 Krankenhäuser in unterschiedlicher Trägerschaft (öffentliche, konfessionelle, privatwirtschaftliche). Die Spanne reicht von Allgemeinkrankenhäusern mit Grund- und Regelversorgung über spezialisierte Fachkliniken bis zu (Universitäts-)Kliniken mit Schwerpunkt- und Maximalversorgung. Krankenhäuser beschäftigen vielfältige Fachkräfte und verfügen über eigene Arzneimittelversorgungsstrukturen. Krankenhausträger agieren rechtlich und wirtschaftlich selbständig. › Zum ambulanten Sektor gehören mehr als 100.000 Einzel- und Gemeinschaftspraxen niedergelassener Ärzt/innen sowie diverse weitere Einrichtungen, die bei der Diagnostik und bei Behandlungen mitwirken (u. a. Labore, Apotheken). Ambulante Einrichtungen werden wirtschaftlich betrieben. Patient/innen werden oft über lange Zeit fachspezifisch betreut. Medizinische Einrichtungen werden im Rahmen der gesundheitssystemischen Selbstverwaltung zugelassen, registriert und überwacht. Die fachliche Zulassung von Krankenhäusern erfolgt über Krankenhausgesellschaften auf Landes- und Bundesebene. Für die Registrierung vergeben sie Kennzeichen für jede stationäre Einrichtung und führen ein Register mit vielfältigen Stammdaten und ergänzenden Informationen.86 Im ambulanten Bereich vergeben Kassenärztliche Vereinigungen eindeutige Betriebsstättennummern (BSNR) und führen entsprechende Register mit definierten Stammdaten aller Arztpraxen, die sich an der medizinischen Versorgung im Rahmen der GKV beteiligen. Bei Apotheken übernehmen die Landesapothekenkammern die Kennzeichenvergabe und Registerführung. Jedes Register enthält definierte Stammdaten und Zusatzinformationen. Alle Einrichtungen, die Leistungen mit Sozialleistungsträgern direkt abrechnen, benötigen zusätzlich ein zweites eindeutig identifizierendes Institutionenkennzeichen (IK), das die Arbeitsgemeinschaft Institutionenkennzeichen vergibt. Sie führt ein eigenes Register, das ausschließlich abrechnungsrelevante Daten enthält (Name, Anschrift, Telefonnummern, Bankverbindung), die nur für Aktivitäten der sozialen Sicherung verwendet und Dritten nicht zugänglich gemacht werden (ARGE IK 2015, S. 33). Diese Kennzeichen werden auch als Einrichtungspseudonyme für standardisierte Leistungsabrechnungsdatensätze verwendet (Kap. 4.4.1, Abb. 4.4). Über diese Nummern, Kennzeichen und Register sind alle in Deutschland zugelassenen medizinischen Einrichtungen eindeutig identifizierbar. Sie ermöglichen vielfältige einrichtungsbezogene Datenanalysen. Die unterschiedlichen Register bilden zudem ein Datenfundament für die Entwicklung spezifischer Informationsdienste, mit denen registerführende Stellen ihre Serviceangebote erweitern können, sofern dies im Rahmen ihres Aufgabenbereichs liegt. 85 Transfusionsgesetz, Röntgen- und die Strahlenschutzverordnung sowie landesweite Krankenhausgesetze verlangen Akten bis zu 30 Jahre aufzubewahren (Schepers et al. 2015, S. 96). 86 www.deutsches-krankenhaus-verzeichnis.de/das-dkv/ueber-das-dkv (10.11.2021) Praxis- und Krankenhausinformationssysteme In medizinischen Einrichtungen werden datenverarbeitende Prozesse zunehmend mithilfe von Informationssystemen realisiert. Es gibt unterschiedliche fachspezifische (z. B. Radiologie- oder Laborinformationssysteme) sowie allgemeine Praxis- oder Krankenhausinformationssysteme (PIS/KIS).87 In der Summe handelt es sich um einrichtungsspezifisch angepasste, weitgehend geschlossene Softwareinsellösungen, die bisher ausschließlich als proprietäre Software von unterschiedlichen Herstellern angeboten wird.88 Diese Konstellation erschwert u. a. die Vernetzung von Systemen unterschiedlicher Anbieter, vollständige Systemwechsel sowie Softwareentwicklungen Dritter. PIS/KIS haben unterschiedliche Arbeitsbereiche. Klinische Bereiche mit diversen fachspezifischen Modulen sind behandelnden Ärzt/innen vorbehalten und als Online-Transaction-Processing-System (OLTP) für Dateneingaben und -präsentationen optimiert (Schepers et al. 2015, S. 183). In diesen Arbeitsbereichen werden u. a. die primären Patientenakten geführt. In administrativen Arbeitsbereichen können verwaltungstechnische Aufgaben zunehmend digital realisiert werden. Dafür erhalten andere Fachkräfte z. T. selektive Leserechte, um definierte Datensätze für diverse administrative Aufgaben zusammenstellen zu können [Kap. 4.4]). PIS/KIS sind nicht dafür konzipiert, Daten aktenübergreifend zu analysieren, um Strukturen zu erkennen, Trainingsdaten abzuleiten und aufzubereiten oder Modelle zu trainieren. Anwenderzielgruppe sind Ärzt/innen und medizinische Fachkräfte, keine Datenanalysten (Schepers et al. 2015, S. 183). Sollen medizinische Behandlungsdaten für Data-Mining-Aktivitäten verwendet werden, müssten diese aus PIS/KIS exportiert werden. Entstehen bei diesen externen analytischen Prozessen algorithmische Assistenzsysteme, könnten diese im Anschluss als zusätzliche Softwaremodule in PIS/KIS integriert werden, um Ärzt/innen oder administrative Fachkräfte bei spezifischen Tätigkeiten zu unterstützen (z. B. bei der Klassifikation neuer Situationen oder Fälle). Je mehr medizinische und administrative Prozesse mithilfe dieser Informationssysteme realisiert werden, desto gravierender sind Störungen. Die IT-Systeme großer Krankenhäuser gelten bereits seit einigen Jahren als in besonderem Maße zu schützende kritische Infrastruktur (Kasten 3.1). Ab 2022 sind alle stationären Einrichtungen, die Leistungen im Rahmen der gesetzlichen Krankenversicherung erbringen, verpflichtet, ihre IT-Systeme vor Cyberattacken in besonderem Maße zu sichern (§ 75c SGB V). 4.1.3 Medizinische Primärdaten Eine allgemeingültige Strukturierung oder eindeutige Bezeichnung medizinisch relevanter Daten gibt es bisher nicht (Schepers et al. 2015, S. 85). Charakteristisch sind die personen-/patientenbezogene Erfassung sowie die gesundheitsbezogenen, medizinisch-fachlichen Inhalte. Nachfolgend werden derartige Daten anhand der Bedingungen, unter denen sie generiert und verwendet werden dürfen, unterschieden. Einerseits wird von Daten aus klinischen Studien und andererseits von Behandlungsdaten gesprochen. Mit der Behandlung sind im nationalen Gesundheitssystem vielfältige öffentliche Aufgaben verbunden, an denen Ärzt/innen und medizinische Einrichtungen beteiligt sind, und die sie als medizinische Leistungserbringer zur Ableitung und Übermittlung unterschiedlicher Daten gesetzlich verpflichten (administrative Daten [Kap. 4.4]). Daten klinischer Studien Eine seit jeher wichtige Datenquelle für Data-Mining-Prozesse in der Medizin sind geplante klinische Studien. Spezifische Prüfpläne definieren die genaue Vorgehensweise (Studienpopulation, zu erfassende Parameter, einzusetzende Messverfahren, anzuwendende Codierungen und Klassifikationen usw.). Die Standards der guten klinischen Praxis (DIN EN ISO 14155) erfordern eine Begutachtung der Prüfpläne durch eine Ethikkommission und 87 Es gibt vielfältige medizinische Informationssysteme, mit unterschiedlichen Bezeichnungen und inhaltlichen Schwerpunkten. Im Bericht wird vereinfachend von PIS/KIS gesprochen. Damit sind alle in medizinischen Einrichtungen eingesetzten datenverarbeitenden IT-Systeme gemeint. 88 Im stationären Bereich gibt es etwa 30 Systeme, im ambulanten Bereich mehr als 150. Einzelne Einrichtungen setzen Softwaresonderlösungen ein (ausführlicher z. B. Weichert 2018, S. 31 ff.) ein Qualitätsmanagement bei der Studiendurchführung. Die Ethikkommission wägt die mit einer Studie verbundenen gesundheitlichen Risiken für Teilnehmende mit dem angestrebten Gesamtnutzen der Studie ab. Jegliche Teilnahme an klinischen Studien ist freiwillig. Teilnehmende willigen in die Datennutzung zu den in der Regel weit definierten Forschungszwecken ein (auch als broad consent bezeichnet). Rechtsgrundlage sind weitgehend standardisierte Nutzungslizenzen. Die Vorgaben der Datenschutz-Grundverordnung gelten vollumfänglich (Kap. 3.3 ff.). Es gibt unterschiedliche Studienkonzepte (ausführlich z. B. TAB 2010). Bei Interventionsstudien werden quasi Behandlungen nach Plan durchgeführt und unterschiedliche Konzepte miteinander verglichen. Mit diesen werden vor allem die Sicherheit und Wirksamkeit bzw. Leistungsfähigkeit von Arzneimitteln, Medizinprodukten oder Behandlungsverfahren geprüft (Kap. 4.2). Im Rahmen der Entwicklung von Arzneimitteln aber auch von Medizinprodukten hoher Risikoklassen sind sie verpflichtend und folglich oftmals industriefinanziert (auch als kommerzielle Studien bezeichnet). Den damit generierten Datenbestand kann der Studiensponsor bisher monopolisiert verwenden, was seit Jahren kontrovers diskutiert wird (Kasten 8.1). Bei beobachtenden Studien werden vielfältige Daten zu teilnehmenden Personen entsprechend der jeweiligen Studienpläne erfasst, ohne vorzuschreiben, wie eine medizinische Behandlung im Krankheitsfall erfolgen soll. Mit Querschnittsstudien wird der Zustand teilnehmender Patient/innen situativ zunehmend detailliert erfasst, wie z. B. bei den weltweit koordinierten Aktivitäten zum Aufbau von Tumormutationsregistern (Kap. 4.3.3). Eine andere Form sind langfristige Beobachtungen größerer Personengruppen, teils auch als epidemiologische, Bevölkerungs- oder Längsschnittstudien bezeichnet. Die 2014 gestartete NAKO-Gesundheitsstudie (ehemals Nationale Kohorte)89 ist die bisher größte nationale Längsschnittstudie. Nach derzeitiger Planung sollen 200.000 Menschen über einen Zeitraum von 20 bis 30 Jahren regelmäßig befragt, medizinisch untersucht und vielfältige gesundheitsbezogene Daten erhoben werden, um in diesen retrospektiv nach Ursachen und Risikofaktoren vielfältiger (Volks-)Krankheiten zu suchen. Derartige Studien werden in Deutschland in erheblichem Maße öffentlich finanziert, im Rahmen der Forschungsförderung fachlich und ethisch geprüft und von Forschungseinrichtungen durchgeführt. Die entstehenden Datenbestände können zunehmend über Treuhandstrukturen entsprechend definierter Zugangsregeln genutzt werden (Kap. 3.3.3). Da die Datenanalyse explizites Ziel klinischer Studien ist, werden zum einen entsprechende breite Einwilligungen bei teilnehmenden Personen bereits bei der Studienteilnahme eingeholt und zum anderen Daten entsprechend der Prüfpläne strukturiert erhoben und in maschinenlesbaren Formaten in spezifischen Repositorien gespeichert (generierte Datensätze und -bestände haben im Vergleich zu normalen Behandlungsdokumentationen eine vergleichsweise gute semantische und syntaktische Interoperabilität). Daten aus klinischen Studien haben einige methodisch/inhaltliche Spezifika, die bei der Weiterverwendung u. a. für Data-Mining berücksichtigt werden sollten: In klinische Studien werden je nach Untersuchungsfrage nur bestimmte mehr oder weniger große Patientengruppen eingeschlossen. Einige Personengruppen sind oftmals unterrepräsentiert oder gänzlich ausgeschlossen (u. a. Kinder, ältere oder multimorbide Personen). Dies beschränkt mitunter die Repräsentativität von Studiendaten. Aus statistischer Perspektive handelt es sich bei klinischen Studien immer um mehr oder weniger große Stichproben (keine Totalerhebungen). Zudem gelten medizinische Daten aus Interventionsstudien als unter Laborbedingungen generiert. Mitunter gibt es Abweichungen zu Daten, die unter Alltagsbedingungen (z. B. im Rahmen der allgemeinen medizinischen Behandlung) generiert werden. Medizinische Behandlungsdaten in arztgeführten Primärakten Medizinische Daten, die im Rahmen der regulären Behandlung generiert werden, sind weniger standardisiert als Studiendaten. Zum einen wägen Ärzt/innen eigenverantwortlich das situativ notwendige medizinische Vorgehen in Abstimmung mit den Betroffenen ab (Therapiefreiheit unter Achtung des anerkannten Wissens, kein definiertes Vorgehen laut Prüfplan). Zum anderen gibt es bisher kaum normative Vorgaben zur Art und Weise der Aktenführung. Dennoch liegt es nahezu auf der Hand, dass die seit 2013 in Patientenakten gesammelten und ohnehin lange Zeit aufzubewahrenden medizinischen Behandlungsdaten Fragen bezüglich der Weiterverwendung und Analyse aufwerfen. Denn in der Summe bilden diese Daten das medizinische Behandlungsgeschehen in Deutsch- 89 https://nako.de/allgemeines/was-ist-die-nako-gesundheitsstudie/ (10.11.2021) land hochgranular und weitgehend vollständig ab (Totalerhebung). Es gibt jedoch technische Barrieren und rechtliche Vorgaben, die die Weiterverwendung für Data-Mining-Aktivitäten begrenzen und lenken. Zudem müssen einige methodisch/inhaltliche Spezifika beachtet werden. Die bisherige Rechtskonstruktion führt dazu, dass in jeder medizinischen Einrichtung eigenständige Patientenakten geführt werden. Da niedergelassene Ärzt/innen ihre Patient/innen oft über längere Zeiträume betreuen, enthalten deren Primärakten kontinuierliche Dokumentationen, die jedoch fachspezifisch begrenzt sind (bei der hausärztlichen Versorgung entstehen andere Behandlungsdaten als z. B. bei der zahnärztlichen). Für Spezialdiagnostiken und -behandlungen wird teilweise Probenmaterial verschickt oder es werden Patient/innen an andere Einrichtungen überwiesen, die z. B. spezielle labordiagnostische, genetische, radiologische (Roh-)Daten erheben und oftmals auch interpretieren und befunden. Im Rahmen beauftragter Untersuchungen oder gemeinschaftlicher Behandlung werden oft nur auffällige Untersuchungsergebnisse (Befunde) u. a. mittels Arztbriefen oder Entlass- /Überweisungsdokumenten verbal beschrieben, fachspezifisch erläutert und zurückgemeldet, nicht aber alle (Roh- )Daten, die u. a. durch genetische Untersuchungen, bildgebende Verfahren usw. erhoben wurden. In Krankenhäusern wird das Befinden von Patient/innen zwar detailliert, aber nur während eines kurzen Zeitraums erfasst. In der Summe werden das Befinden und die medizinische Behandlung von Patient/innen fragmentiert dokumentiert, in ambulanten Einrichtungen eher anhand fachspezifisch begrenzter Längsschnittdaten und in stationären Einrichtungen anhand vielfältiger Querschnittsdaten (Schepers et al. 2015, S. 130). Die Inhalte der arztgeführten Primärakten sind rechtlich durch Datenschutz- und Schweigepflichten geschützt und technisch weder behandelnden Ärzt/innen anderer Einrichtungen noch anderen Dritten unmittelbar zugänglich. Die verteilte und gekapselte Haltung von Behandlungsdaten in unterschiedlichen Akten prägt sowohl die Behandlungsprozesse als auch die Kommunikation zwischen Ärzt/innen in unterschiedlichen Einrichtungen (Stichwort: Mehrfachuntersuchungen und -datenerfassungen). Das wesentliche Kommunikationsmedium zwischen medizinischen Einrichtungen sind derzeit textbasierte Dokumente (Arztbriefe, Überweisungs- und Entlassdokumente sowie Rezepte). Darin enthaltene Daten und Informationen sind an Fachkräfte adressiert, überwiegend fachsprachlich formuliert und als Freitext aufgezeichnet (Ausnahme standardisierte Rezept-, Überweisungs- und Arbeitsunfähigkeitsbescheinigungen). In die Patientenakten empfangender Einrichtungen werden diese Dokumente oft nur als Bild- oder Textdatei aufgenommen, nicht aber in maschinenlesbaren Formaten gespeichert. In der Summe haben die arztgeführten Patientenakten einen geringen Interoperabilitätsgrad. Erst ansatzweise werden standardisierte Terminologien und Formulare eingesetzt (Kasten 4.2). Kasten 4.2 Standardisierung und Interoperabilität in der Medizin Interoperabilität bezeichnet die technische Möglichkeit, Daten systemübergreifend verarbeiten zu können (Schepers et al. 2015, S. 126 ff.). Kernelement sind gemeinsame Standards. Auf vielfältige Art und Weise wird daran gearbeitet. › Harmonisierung von Terminologien und Klassifikationen (semantische Interoperabilität): Es gibt diverse fachspezifische medizinische Klassifikationen (z. B. die radiologische Befundklassifikation für Mammografieaufnahmen [Abb. 3.1]) und Aktivitäten, diese zu einer umfassenden medizinischen Terminologie zusammenzuführen. Diesbezüglich setzt sich die Systematized Nomenclature of Medicine (SNOMED) zunehmend durch, die mit mehreren hunderttausend Begriffen und Konzepten medizinische Aussagen eindeutig und vollständig abbilden will. › Standardisierung von Datenformaten, Dokumentationen und Formularen (syntaktische Interoperabilität): Es gibt bereits etliche informationstechnische Standards z. B. für medizinische Bilder den Digital Imaging and Communications in Medicine (DICOM), der objektorientierte Datenbankmodelle [Kap. II.2.2.1] nutzt, oder für textbasierte klinische Dokumente die Clinical Document Architecture (CDA), sie nutzt die erweiterbare textbasierte Auszeichnungssprache Extensible Markup Language (XML), die die maschinelle Verarbeitung erleichtert. Die Art und Weise der Dokumentation und die Entwicklung standardisierter Formulare sind jedoch eine große Herausforderung. › Zudem gibt es internationale Initiativen, die semantische und syntaktische Interoperabilität zwischen medizinischen Bereichen fördern, z. B. Integrating the Healthcare Enterprise (IHE). Andere wollen darüber hinaus auch den Datenaustausch zu anderen gesundheitssystemischen Einrichtungen (z. B. Krankenkassen, die in der Regel administrative/statistische Klassifikationen verwenden) verbessern, z. B. Health Level 7 (HL 7)90. Auf nationaler Ebene muss entschieden werden, welche Standards sowohl in einzelnen medizinischen Fachdisziplinen als auch gesundheitssystemisch verwendet werden sollen (Kasten 3.4), welche nationalen Besonderheiten und Anpassungen erforderlich sind und wie diese dann schrittweise mit den gesundheitssystemisch und historisch gewachsenen Strukturen zusammengefügt werden können. Auch dazu gibt es vielfältige Initiativen, z. B. › arbeiten medizinische Fachgesellschaften an der Standardisierung fachspezifischer Prozesse, um einrichtungsübergreifend einheitlich zu kommunizieren (z. B. arbeitet die deutsche interdisziplinäre Vereinigung Intensiv- und Notfallmedizin [DIVI] an der Standardisierung minimaler Notfalldatensätze und an Rettungsdienstprotokollen, die in Notarztinformationssystemen zusammenlaufen sollen); › stellt das Portal für Medizinische Datenmodelle elektronische Formulare für vielfältige medizinische Versorgungsprozesse in diversen Dateiformaten bereit, um Behandlungsdaten bereits strukturiert zu erfassen;91 › engagieren sich nationale IHE- und HL 7-Akteure in Bezug auf die Vereinheitlichung von elektronischen Medikationsplänen, Arztbriefen oder gar Patienten-/Fallakten, wie im Gesetz für sichere digitale Kommunikation und Anwendungen im Gesundheitswesen (E-Health-Gesetz) von 2015 gefordert und › baut die gematik seit 2017 das elektronische Interoperabilitätsverzeichnis für technische und semantische Standards, Profile und Leitfäden für IT-Systeme im Gesundheitswesen aus.92 Sekundärnutzung zu Forschungszwecken: die rechtliche Situation Sowohl die Datenschutz-Grundordnung als auch die ärztliche Schweigepflicht verbieten zwar die unerlaubte Offenbarung von patientenbezogenen Daten gegenüber anderen datenverarbeitenden Stellen, nicht aber die eigene/interne Verwendung zu Forschungszwecken. Vor allem bei großen medizinischen Einrichtungen entstehen durch die Dokumentations- und Aufbewahrungspflichten zunehmend große Datenbestände. Bei ihnen stellt sich seit Jahren vordringlich die Frage, wie weit der Rahmen der kollegialen Schweigepflicht gespannt werden kann, um medizinische Behandlungsdaten zu Forschungszwecken weiterzuverwenden. Unikliniken, die neben dem Versorgungs- auch einen expliziten Forschungsauftrag haben, thematisieren diese Sekundärnutzung medizinischer Behandlungsdaten in besonderem Maße. Die Rechtslage zur Weiterverwendung dieser Daten zu Forschungszwecken mit ihren Verflechtungen auf Bundes- und Landesebene bezüglich Schweigepflicht, Datenschutz und Datennutzung ist komplex: Unterschiedliche Rechtsnormen auf Landes- und Bundesebene legen den Forschungsbegriff unterschiedlich weit aus (teilweise wird nur für nichtkommerzielle Forschungsabsichten Zugang zu den Behandlungsdaten gewährt); verlangen unterschiedliche Datenschutzmaßnahmen (teilweise reicht Pseudonymisierung, teils wird Anonymisierung gefordert) und gewähren einem unterschiedlich großen Personenkreis den Zugang (teilweise nur Ärzt/innen einer Krankenhausabteilung, teilweise weitere Personen) (ausführlich z. B. Schneider 2015). Aus der datenanalytischen Perspektive verlieren die Diskussionen zur Zulässigkeit der internen Datennutzung im Rahmen der Schweigepflicht ein Stück weit an Relevanz, denn besonderes Potenzial haben vor allem Datenbestände, die einrichtungsübergreifend nicht nur von behandelnden Ärzt/innen, sondern auch von Datenanalyst/innen weiterverwendet werden dürfen. Dazu sind Einwilligungen von Patient/innen in jedem Fall erforderlich. Dieser Weg wird zunehmend eingeschlagen (siehe Medizininformatik-Initiative unten). Bei einrichtungsübergreifenden Datenverwendungen könnten urheber- bzw. leistungsschutzrechtliche Fragen an Bedeutung gewinnen. Derartige Fragen werden bislang kaum thematisiert. Auch diesbezüglich ist die Situation unübersichtlich. Sind z. B. Arztbriefe oder medizinische Bilder urheberrechtlich geschützt? Dürfen sie ohne Einwilligung der erstellenden Person jenseits von Dokumentationszwecken weiterwendet werden? Wie weit reicht die dort bisher temporär verankerte Wissenschaftsschranke (Kap. 8.1)? 90 Internationale Organisation zur Harmonisierung medizinischer und administrativer Klassifikationen und der Entwicklung interoperabler Standards für Gesundheitssysteme. 91 https://medical-data-models.org/ (10.11.2021) 92 www.vesta-gematik.de (10.11.2021) Initiativen zur besseren Zugänglichkeit und Nutzbarkeit Es gibt unterschiedliche Initiativen, die darauf abzielen, die Zugänglichkeit zu und Weiterverwendbarkeit von medizinischen Behandlungsdaten zu verbessern. Ohne Anspruch auf Vollständigkeit sollen einige für Data- Mining-Aktivitäten potenziell relevante Initiativen angesprochen werden. Seit Jahren wird national und international an Interoperabilitätsverbesserungen gearbeitet (Kasten 4.2). Aufgrund der kontinuierlichen Weiterentwicklung von Diagnose- und Behandlungsmöglichkeiten ist das eine Aufgabe, die dauerhaftes Engagement erfordert. Nach jahrelangen Diskussionen konnte inzwischen eine Einigung bezüglich der Harmonisierung von Terminologien erreicht werden. SNOMED soll zukünftig als nationale Referenznomenklatur für die Haltung von Behandlungsdaten in arztgeführten Primärakten verwendet werden (Bundesregierung 2020a, S. 7). Dabei wird der Blick stärker nach vorn gerichtet. Inwiefern bereits archivierte Behandlungsdaten aufbereitet und umformatiert werden, ist dagegen offen. Klar ist, dass eine solche Aufbereitung sehr aufwendig wäre. Nur wenn umfangreiche Weiterverwendungen archivierter Daten anvisiert werden, lohnt sich der Aufwand. Seit etlichen Jahren ist die sichere Vernetzung der IT-Systeme unterschiedlicher medizinischer Einrichtungen mittels Telematikinfrastruktur (TI) ein gesundheitssystemischer Aktivitätsschwerpunkt. Die TI soll als interoperable Informations-, Kommunikations- und Sicherheitsinfrastruktur die IT-Systeme aller Beteiligten des Gesundheitswesens vernetzen – von medizinischen Einrichtungen über Kostenträger bis zu den Patient/innen bzw. Versicherten (§ 306 SGB V). Im Fokus steht die Verbesserung von Behandlungsprozessen. Dokumente sollen leichter datenschutzkonform elektronisch übertragen werden können. Ein direkter Zugang zu den arztgeführten Primärakten wird derzeit nicht diskutiert. Die Verbesserung komplexer datenanalytischer Aktivitäten wird bisher nicht explizit genannt, kann jedoch mittelbar durch die an die TI angeschlossenen patientengeführten Akten und die damit verbundenen elektronischen Kommunikationsmöglichkeiten mit den Patient/innen erwartet werden. Debatten zum pro und kontra dezentraler Datenhaltung in Patientenakten werden in Deutschland seit Jahren geführt. 2003 gab es eine politische Initiative zur Einführung einrichtungsübergreifender elektronischer Krankenakten (Schröder 2003). 2004 wurde im SGB V die Einführung einer elektronischen Patientenakte (ursprünglich als einrichtungsübergreifende arztgeführte Akte geplant) und einer elektronischen Gesundheitskarte (ursprünglich sowohl mit Ausweis- als auch mit Datenspeicherfunktionen für Versicherte geplant) verankert. Seitdem werden verschiedene Begriffe (Patienten-/Fall-/Kranken-/Gesundheitskarten/-akten/-konten oder -fächer) für gleiche oder ähnliche Konzepte sowie gleiche Begriffe für verschiedene Konzepte (bezüglich Datenhaltung [dezentral, zentral], Verantwortung [arzt- oder patientengeführt] sowie Inhalten und Zugänglichkeiten) verwendet und deren Möglichkeiten, Zwecke, Ziele aber auch Risiken (u. a. durch Cyberattacken) diskutiert. Bis heute gibt es unterschiedliche Ansichten, wie medizinische Behandlungsdaten bestmöglich geschützt, welche Funktionen Karten und Akten übernehmen und wie deren Inhalte unter Wahrung von Schweige-, Sorgfalts-, Dokumentations- und Haftpflichten für unterschiedliche Zwecke zugänglich gemacht werden können (ausführlich in Haas 2017). Nach derzeitigem Planungsstand bleiben die dezentralen, arztgeführten Patienten-/Fallakten weiterhin die primären Akten für die medizinische Behandlung und deren Dokumentation. Zusätzlich sind gesetzliche Krankenkassen seit 2021 verpflichtet, ihren Versicherten eine elektronische Patientenakte als freiwilliges, sekundäres, versichertengeführtes, individuell verschlüsseltes Datenverwaltungssystem anzubieten (§ 341 ff. SGB V). Damit soll das Recht auf Datenübertragbarkeit für Patient/innen und die Pflicht zur Datenbereitstellung für Ärzt/innen schrittweise elektronisch realisiert werden können. Nach und nach sollen unterschiedliche medizinische Behandlungsdaten und Dokumente in standardisierter Form in diese sekundären Akten übertragen werden können. Dazu müssen jedoch die primären arztgeführten Patientenakten weiterentwickelt und deren Interoperabilität erhöht werden. Zudem soll es auch möglich werden, dass Versicherte eigene Dokumente und selbst erhobene Vitaldaten sowie die von ihrer Krankenkasse gespeicherten versichertenbezogenen Daten einstellen können. Mit der zur Aktenführung notwendigen Software wird erstmalig eine elektronische Kommunikationsmöglichkeit für und mit Patient/innen geschaffen. Auch ein persönliches Datenmanagementsystem soll schrittweise etabliert werden. Nach derzeitigem Planungsstand sollen Patient/innen ab 2022 selektiv in einrichtungs-, fach- und sektorübergreifende Datenübertragungen für medizinische Behandlungs- und gesundheitliche Versorgungszwecke einwilligen können. Sie sollen auch die Möglichkeit bekommen, ihren behandelnden Einrichtungen die Forschung mit ihren Daten breit zu erlauben. Perspektivisch könnten forschende medizinische Einrichtungen ihre derzeit noch papierbasierten Einwilligungsverfahren über diesen Kommunikationskanal organisieren. Nach derzeitigem Planungsstand sollen Versicherte spätestens ab 2023 die Daten ihrer Akte als formal anonymisierte Mikrodaten auch allgemein zu wissenschaftlichen Forschungszwecken freigeben können (auch als Datenspende bezeichnet). Diese Daten sollen dann an das Forschungsdatenzentrum der GKV übermittelt werden, das vom Bundesinstitut für Arzneimittel und Medizinprodukte (BfArM) in fremdnütziger Treuhandschaft betrieben wird (Kap. 5.5.2).93 Damit sollen Personen, die selbst eine Patientenakte führen möchten, ihre Daten auch dann zu Forschungszwecken spenden können, wenn sie in medizinischen Einrichtungen behandelt werden, die selbst keine datenbasierte Forschung betreiben. Diese patientengeführte elektronische Patientenakte hat ein besonderes Data-Mining-Potenzial, weil zusätzlich zu den medizinischen Behandlungsdaten perspektivisch auch die bei den Krankenkassen gespeicherten Daten sowie individuell erhobene Vitaldaten personenbezogen zusammengeführt und für Forschungsaktivitäten zugänglich gemacht werden können. Ob dieses Konzept der versichertengeführten Haltung und Zusammenführung vielfältiger gesundheitsbezogener Daten von den Versicherten bzw. Patient/innen angenommen wird und sich die Potenziale tatsächlich realisieren lassen, kann gegenwärtig nicht seriös eingeschätzt werden. Denn viele Fragen sind zum jetzigen Zeitpunkt offen: Wie lange dauert es, bis medizinische Behandlungsdaten in interoperablen Formaten in die Patientenakten eingestellt werden können? Wie viele Versicherte bzw. Patient/innen werden das Angebot der eigenen Aktenführung annehmen und in die Weiterverwendung zu Forschungszwecken tatsächlich einwilligen oder ihre Daten dafür spenden? Können insbesondere Personengruppen erreicht werden, die in den bisher verwendbaren Datenbeständen unterrepräsentiert sind? Eine Begleitforschung zu patientengeführten Akten könnte sich derartigen Fragen widmen. Notwendige technische Datenaufbereitungen für komplexe Analysen Bisher sind weder die arztgeführten Primärakten noch die diese verwaltenden Informationssysteme für komplexe Datenanalysen oder Data-Mining-Prozesse konzipiert. Dafür müssen zumindest Teile der Patientenakten aufbereitet werden. Die Weiterverwendungsabsicht ist entscheidend für die Aufbereitung: Während für eine bloße interne Archivierung eine wenig strukturierte Ablage ausreicht, ist für eine datenanalytische Weiterverwendung ein strukturiertes Datenmanagementsystem erforderlich. Dafür ist u. a. zu entscheiden, in welchem Umfang neben den Befund- und Diagnosedaten sowie den Behandlungsdokumentationen auch die immer umfangreicheren (Roh- )Daten u. a. von genetischen oder bildgebenden Untersuchungen zu archivieren sind. Da sich mit jeder technischen Weiterentwicklung der datenerfassenden Geräte die Rohdatensätze verändern können, ist ein spezifisches Management der Metadaten erforderlich. Zudem müssen vielfältige Elemente codiert, klassifiziert und in maschinenlesbare Form gebracht werden. Die aus den Rohdaten abgeleiteten Befunde und Diagnosen, die Anweisungen und Dokumentationen zur Behandlung sowie Arztbriefe und Entlassdokumente sind in den Primärakten oft als Freitext in nicht maschinenlesbaren Formaten gespeichert. Die Aufbereitung dieser Texte ist bislang personalaufwendig. Zunehmend werden dafür computerlinguistische und sprachtechnologische Verfahren entwickelt, die zumindest Textbestandteile erkennen (Text-Mining) (Schepers et al. 2015, S. 60 ff.). Bisher müssen die damit erzeugten Daten oft noch manuell geprüft und nachbearbeitet werden (Geßner/Dugas 2017, S. 4). Zum Training künstlicher neuronaler Netze mit maschinellen Lernverfahren ist es wichtig, Rohdaten und Befunde spezifisch zu verknüpfen, relevante Datenausschnitte/- elemente/-bereiche zu markieren (Datenlabeling [Kap. 2.2.1]). Die kontinuierliche Weiterentwicklung medizinischer Terminologien und Klassifikationen ist dabei eine besondere Herausforderung. Laut Schepers et al. (2015, S. 183 ff.) setzen vor allem große Krankenhäuser zunehmend auf Data Warehouses als Datenrepositorien (Kap. 2.2.2). Datenschutzverantwortliche und Ethikkommissionen werden bereits in deren Konzeptionierung einbezogen, um sicherzustellen, dass eine mögliche spätere sekundäre Datennutzung im Rahmen geltenden Rechts erfolgt. Die Datenaufbereitung und -migration in diese Repositorien ist mit erheblichem Aufwand verbunden. Die analytischen Potenziale sind groß. Vor allem im öffentlich finanzierten Forschungsbereich gewinnen einrichtungsübergreifende Datennutzungskonzepte an Bedeutung. Derartige Ansätze benötigen sowohl die Einwilligung betroffener Personen als auch Datentreuhandstrukturen, die Datenschutzmaßnahmen sichern und die Zulässigkeit der Analysen prüfen. 93 derzeitiger Planungsstand ausführlicher in gematik (2021) 4.1.4 Aufbereitete medizinische Datenbestände Seit Jahren gibt es vielfältige Initiativen, medizinische Daten strukturiert zusammenzuführen, um sie zu unterschiedlichen Zwecken weiterverwenden zu können. Der klassische Ansatz sind medizinische Register, in denen meist auf einzelne Krankheiten bezogene medizinische Behandlungsdatensätze einrichtungsübergreifend zusammengeführt werden. Im Rahmen der Medizininformatik Initiative werden sowohl Forschungs- als auch Behandlungsdatenbestände von Universitätskliniken standardisiert, für sekundäre Analysen aufbereitet und zusammengeführt. Für komplexe Datenanalysen oder Data-Mining-Aktivitäten sind diese Datenbestände hochrelevant, teilweise unmittelbar zur Mustersuche, teilweise mittelbar für Folgeabschätzungen (Kap. 3.3.2). Medizinische Registervielfalt Medizinische Register sammeln definierte Datensätze zur Entstehung, Entwicklung und Behandlung einzelner Krankheiten. Aussagen zum Auftreten und zum Verlauf von Krankheiten oder zu den Folgen spezieller Früherkennungs- und Behandlungsmaßnahmen lassen sich empirisch besser absichern, wenn entsprechende Daten einrichtungsübergreifend analysiert werden können. Es gibt zwei methodisch unterschiedliche Formen: Epidemiologische Register erheben möglichst vollständige krankheitsbezogene Daten für eine Population (Public-Health Perspektive). Sie sind vor allem ein Instrument zur Überwachung der Verbreitung von Krankheiten und zur Planung der Gesundheitsversorgung. Im Fokus stehen einheitlich definierte Zählungen von Neuerkrankungen und von Krankheitsverläufen, um unterschiedliche epidemiologische Kennziffern berechnen zu können (u. a. Inzidenz, Mortalität). Epidemiologische Register gibt es seit langer Zeit zu Infektionskrankheiten sowie zu Krebserkrankungen. Die gegenwärtige tägliche Corona-Lagebeurteilung beruht auf epidemiologischen Fallzahlmeldungen. Um Vollzähligkeit zu erreichen bedarf es einer gesetzlichen Grundlage. Klinische Register sammeln umfangreiche Datensätze zu einzelnen Erkrankungsfällen ohne Vollständigkeit anzustreben (medizinische Perspektive auf eine Krankheit). Vorrangige Ziele sind medizinische Beobachtungen zu einzelnen Krankheiten, deren Behandlung, gesundheitsbezogene Folgen sowie Verbesserungen medizinischer Versorgungsprozesse. Je nach Organisation und Struktur der Register können sie auch den Informationsaustausch unterstützen oder zur gezielten Patientenrekrutierung für klinische Studien genutzt werden. Wesentliche Akteure sind medizinische Fachgesellschaften und spezielle medizinische Einrichtungen. Die Führung klinischer Register wird in der Regel nicht als Aufgabe im öffentlichen Interesse aufgefasst (Ausnahme klinische Krebsregister siehe unten). Für den dauerhaften Betrieb müssen eigenständige Finanzierungsformen und Geschäftsmodelle entwickelt werden. Für die Datenzusammenführung und -verarbeitung gelten die Vorgaben der Datenschutz- Grundverordnung vollumfänglich (Kap. 3.3). Laut Schepers et al. (2015, S. 194 f.) ist es kaum möglich, die Zahl der in Deutschland keinen gesetzlichen Vorgaben unterliegenden klinischen Register genau zu bestimmen. Die Bundesregierung geht von derzeit 270 aktiven medizinischen Fachregistern aus (Bundesregierung 2021c, S. 2). Dazu folgende Beispiele: Das TraumaRegister94 wurde 1993 von der Arbeitsgruppe Polytrauma in der Deutschen Gesellschaft für Unfallheilkunde (DGU) mit dem Ziel gegründet, die Qualität der Behandlung schwerverletzter Patient/innen zu verbessern. Gegenwärtig beteiligen sich ca. 650 Kliniken vor allem aus Deutschland (ca. 10 % der teilnehmenden Kliniken kommen aus derzeit 9 weiteren vor allem europäischen Ländern). Sie übermitteln entsprechend der Vorgaben des DGU-Weißbuchs pseudonymisierte einzelfallbezogene Datensätze von Traumapatient/innen, die über den Schockraum der Notaufnahmen eingeliefert werden, an das Register (DGU 2012). Der Gesamtdatenbestand des Registers enthält ca. 0,4 Mio. Behandlungsverläufe (Stand Juni 2021). Neben zeitlichen Entwicklungen und räumlichen Besonderheiten können über den Gesamtbestand häufigste, mittlere und durchschnittliche Behandlungsabläufe sowie einrichtungsspezifische Besonderheiten und Vergleiche zu anderen Einrichtungen ermittelt werden (Benchmarking; Kap. 4.4.2). Teilnehmende Einrichtungen erhalten einrichtungsspezifische Qualitätsberichte. Die Registeraktivitäten werden über Beiträge teilnehmender Kliniken finanziert. Für diese ist es ein Instrument zur Qualitätssicherung und -weiterentwicklung, wozu medizinische Einrichtungen, die Leistungen im Rahmen der GKV erbringen, inzwischen in Deutschland gesetzlich verpflichtet und befugt sind, dazu erforderliche Daten zu verarbeiten (§ 135 ff. i. V. m. § 299 SGB V; ausführlicher in Bundesregierung 2021c). Dennoch sind seit 94 www.traumaregister-dgu.de (10.11.2021) dem Inkrafttreten der Datenschutz-Grundverordnung die Meldungen aus Sorge vor Rechtsverstößen erheblich zurückgegangen.95 Gestützt auf die Empfehlungen des EU-Sachverständigenausschuss für seltene Krankheiten hat das Bundesgesundheitsministerium (BMG) die Entwicklung eines Open-Source-Registersystems für seltene Erkrankungen in Europa (OSSE) gefördert (Muscholl et al. 2016). Damit sollen Patientenorganisationen, behandelnde und/oder forschende Ärzt/innen, medizinische Einrichtungen oder andere Akteure dezentrale, krankheitsspezifische, interoperable Patientenregister aufbauen und mit Patienteneinwilligung definierte pseudonymisierte Minimaldatensätze mit möglichen krankheitsspezifischen Zusatzmerkmalen verwalten. Alle dezentralen Patientenregister werden über eine zentrale Plattform (Register der Einzelregister) orchestriert, bei der lediglich die Metadaten der Einzelregister abgelegt sind und die u. a. Suchanfragen vermittelt. Die jeweiligen dezentralen Einzelregisterbetreiber behalten als verantwortliche Stellen die Datenhoheit, sie entscheiden über das Zustandekommen einer Kooperation mit den Einrichtungen, die eine Suchanfrage gestartet haben. Die ersten zwei Referenzregister wurden 2016 eingeführt. Über die Finanzierung des dauerhaften Betriebs, die Nutzung, die weitere Entwicklung oder mögliche Evaluationen des Konzepts wird über die Homepage des Registersystems nicht berichtet (Stand Anfang 2021).96 In Analogie zum OSSE-Ansatz gab es vor einigen Jahren auch Ideen zum Aufbau einer zentralen Registerplattform für alle national existierenden klinischen Register (Stausberg et al. 2014). Realisiert wurden diese Ideen bisher nicht. Derzeit gibt es den Vorschlag, die Registerdaten über die Nationale Forschungsdateninfrastruktur (NFDI) zusammenzufügen, zu harmonisieren, nachhaltig zu sichern und der Forschung breiter zugänglich zu machen (Bundesregierung 2020a, S. 13). Es bleibt abzuwarten, ob und (wenn ja) wie sich dieser Vorschlag realisieren lässt. Krebsregister nehmen in der nationalen Registerlandschaft eine Sonderstellung ein. Nicht nur epidemiologische auch klinische Krebsregister werden inzwischen auf gesetzlicher Grundlage geführt. Die Etablierung der Register war ein jahrzehntelanger Prozess mit vielen Etappen und gesetzlichen Regelungen. Sie begann mit dem Aufbau von epidemiologischen Registern auf Landesebene. Dann wurde zusätzlich zu den Landesregistern ein nationales Zentrum für Krebsregisterdaten (ZfKD) beim Robert Koch-Institut eingerichtet, das die epidemiologischen Daten auf Bundesebene zusammengeführt und das diesbezügliche nationale Monitoring und die Berichterstattung organisiert. Zudem wurde die ursprüngliche epidemiologische Meldung einer Krebserkrankung erweitert und die Übermittlung eines umfangreichen klinischen Datensatzes für jede Neuerkrankung vereinbart. Es dauerte Jahre bis die dafür nötigen Verfahren landesrechtlich verankert wurden. Der Start war schleppend (Prognos 2016). Seit 2018 werden für jede an Krebs erkrankte Person definierte medizinische Basisdatensätze in Landesregistern zusammengeführt und zeitlich fortgeschrieben (weitgehende Vollerhebung). Den Aufbau der klinischen Krebsregister hat vor allem die Deutsche Krebshilfe finanziert. Die Kosten für die Erstellung der Einzeldatensätze trägt die GKV (§ 65c SGB V). Bei der Erstevaluierung wurde die Datennutzung insgesamt als kritisch bewertet, im Folgegutachten wurde diesbezüglich ein Fortschritt anerkannt (Prognos 2016, 2018). Um die Datennutzung zu verbessern, wurde inzwischen die Zusammenführung klinischer Krebsregisterdaten beim ZfKD gesetzlich definiert sowie die Ausweitung der Analysemöglichkeiten und die Entwicklung einer Datenplattform anvisiert.97 Bisher ist die Zusammenstellung und Übermittlung definierter medizinischer Behandlungsdatensätze in unterschiedliche Register aufgrund fehlender Primäraktenstandards und mangelhafter Interoperabilität zwischen PIS/KIS für medizinische Einrichtungen mit erheblichem Aufwand verbunden. Alle Register haben eigene Treuhandstrukturen aufgebaut. Die Prüfung der eingehenden Datensätze ist auch bei den Registerstellen aufwendig. Teilweise dauert es Jahre, bis die Daten über Registerstellen bereitgestellt werden.98 Eine automatisierte Datenübertragung von medizinischen Einrichtungen in diverse Register ist nach wie vor mehr Vision als Wirklichkeit (Schepers et al. 2015, S. 183). 95 www.dgu-online.de/news-detailansicht/dgu-praesident-uebertriebener-datenschutz-gefaehrdet-menschenleben-in-der-schwerver- letztenversorgung.html (10.11.2021) 96 www.osse-register.de (10.11.2021) 97 Gesetz zur Zusammenführung von Krebsregisterdaten 98 Beim ZfKD gibt es derzeit einen Zeitverzug von ca. 3 Jahren (www.krebsdaten.de/; 2.11.2021). Die nationale Medizininformatik Initiative Die Medizininformatik Initiative startete 2017 unter Federführung der Universitätskliniken mit Beteiligung von Forschungseinrichtungen, Unternehmen, Krankenkassen und Patientenvertretern. Das Bundesministerium für Bildung und Forschung (BMBF) fördert die Initiative zunächst für den Zeitraum von 2017 bis 2022 mit 180 Mio. Euro. Die an den Universitätskliniken vorhandenen und kontinuierlich hinzukommenden medizinischen Daten sowohl aus Forschungs- als auch aus Behandlungsprozessen sollen zusammengeführt und über die Grenzen einzelner Einrichtungen hinweg für datenbasierte Forschungsaktivitäten genutzt werden können. Nach eigenen Angaben sind die Aktivitätsschwerpunkte zur Entwicklung einer universitätsmedizinischen Dateninfrastruktur: › Aufbau von Datenintegrationszentren: Medizinische Daten aus vielfältigen Informationssystemen und den Archiven sollen strukturiert aufbereitet und klinikweit zusammenführt werden. Externe Vertrauensstellen sichern die reversible Pseudonymisierung ab, Ethikkommissionen prüfen Nutzungsanfragen. Ein Register aller datenanalytischen Projekte soll Transparenz bei der Weiterverwendung sichern. › Weiterentwicklungen arztgeführter Patientenaktensysteme: Die primäre Datenspeicherung soll standardisiert und ein hoher Interoperabilitätsgrad erreicht werden. › Entwicklung von Einwilligungsmodellen: Rechtssichere einheitliche Formulierungen sollen modulare Einwilligungsmöglichkeiten schaffen, die perspektivisch in persönliche Datenmanagementsysteme integriert werden können. Anhand der Vorgaben der Datenschutz-Grundverordnung zur privilegierten Datenweiterverwendung zu Forschungszwecken (Kap. 3.3.4) wurde ein Datenmanagementmodell sowie ein Mustertext für eine Patienteninformation und für eine breite Patienteneinwilligung erarbeitet und mit der Datenschutzaufsicht abgestimmt (MII 2020). Patient/innen werden um Einwilligung gebeten, dass die jeweils verantwortlichen datenverarbeitenden Stellen (Unikliniken) deren patientenbezogene Forschungs- und Behandlungsdaten langfristig reversibel pseudonymisiert speichern und zu Forschungszwecken verwenden dürfen (eine Kontaktaufnahme soll zu einem späteren Zeitpunkt möglich sein). Ein Treuhandverfahren wird eingerichtet, Daten werden von einer unabhängigen Stelle pseudonymisiert. Eine unabhängige Ethikkommission prüft jeden Forschungsantrag (antragsberechtigt sind öffentlichen Forschungseinrichtungen sowie forschende Unternehmen), bei positivem Votum werden anonymisierte Daten bereitgestellt. Zudem werden Patient/innen zusätzlich um eine Einwilligung gebeten, die bei den Krankenkassen gespeicherten patientenbezogenen Leistungsabrechnungsdaten des ambulanten Bereichs anfordern zu dürfen, um die eigenen Bestände ergänzen zu können. Es wird auch darauf hingewiesen, dass die verantwortliche datenhaltende Stelle diese Daten nicht verkauft, jedoch bei Weitergabe zu Forschungszwecken eine angemessene Aufwandsentschädigung erheben darf. Der Aufbau der Dateninfrastruktur wurde mit ersten datenanalytischen Aktivitäten verbunden. Nach 3 Jahren Aufbauarbeit wurde Ende 2020 vor allem auf Erfolge beim Aufbau der medizinischen Dateninfrastruktur hingewiesen. Die Aktivitäten zur intensivierten Datennutzung befanden sich durchgängig noch in der Konzeptphase.99 Die mit dieser Medizininformatik Initiative verbundenen Erwartungen sind groß, auch wenn keine schnellen datenanalytischen Durchbrüche realisiert werden konnten. Sie ist Bestandteil diverser Strategien der Bundesregierung (Bundesregierung 2018c, 2020a, 2021a). 4.1.5 Gesamteinschätzung Datenzugänglichkeit Für die Suche nach Mustern und Strukturen in medizinischen Daten werden derartige Daten von vielen Personen bzw. Patient/innen benötigt, die im nationalen Gesundheitssystem von unterschiedlichen Stellen fragmentiert erhoben und gespeichert werden. Der Datenzugang und die Weiterverwendungsmöglichkeiten werden auf mehrfache Art und Weise begrenzt und lenkt. Zum Ersten gibt es rechtliche Schutzmechanismen, die die (Grund-)Rechte betroffener Personen sowie teilweise auch die mit der Datenverarbeitung verbundene Leistung schützen. Datenschutz und ärztliche Schweige- 99 www.medizininformatik-initiative.de (10.11.2021) pflicht verlangen für Datenanalysen entweder zweckgebundene informierte Einwilligungen, die in der Forschungspraxis regelmäßig für breite Analysezwecke eingeholt werden, wobei der Zugang über Datentreuhänder kontrolliert und kanalisiert wird (Fundament klinischer Studien), oder gesetzliche Grundlagen (Fundament der Behandlungsdokumentation), die zwar die Arzt-Patienten-Kommunikation während der Behandlung vereinfacht, jedoch Datenzusammenführungen und Weiterverwendungen begrenzen. Für komplexe Analysen sind erneut entweder gesetzliche Regelungen (bei Aufgaben im öffentlichen Interesse) oder Patienteneinwilligungen erforderlich. An dieser Stelle könnten digitale Einwilligungsmanagementsysteme neue Möglichkeiten der Zusammenführung und Analyse eröffnen. Gesetzliche Datenzugangsverpflichtungen gibt es bisher nicht. Vor allem Daten aus kommerziellen klinischen Studien können Studiensponsoren allein verwerten. Parallel dazu erhalten privatwirtschaftliche Akteure kaum Zugang zu medizinischen Daten, die im Rahmen des öffentlichen Gesundheitssystems generiert wurden. Zum Zweiten gibt es technische Barrieren, die die Weiterverwendung vor allem von Behandlungsdaten begrenzen. Die im Rahmen der Behandlung genutzten primären datenverarbeitenden Systeme (PIS/KIS) und deren Datenspeicher sind weder für umfangreiche Datenaufbereitungen noch für komplexe Analysen konzipiert. Aufgrund der geringen Interoperabilität der Primärsysteme ist die Datenüberführung in Data-Mining-geeignete Repositorien bislang aufwendig. Dadurch kommen zum Dritten finanzielle und personelle Barrieren vor allem bei der Aufbereitung von Behandlungsdaten und deren Überführung in spezifische Repositorien hinzu. Diese Aufbereitung wird bisher wesentlich im Rahmen gesetzlicher Behandlungsleistungen solidarisch (über die Krankenversicherungen) oder durch Forschungsprojekte und -initiativen öffentlich finanziert. Diverse krankheitsspezifische Register werden seit Jahren meist mit Unterstützung medizinischer Fachgesellschaften aufgebaut. Im Rahmen der Medizininformatik Initiative führen die nationalen Unikliniken ihre Studien- und Behandlungsdaten in eigenen Repositorien zusammen und visieren zudem erste Data-Mining-Prozesse aber auch eine bessere Interoperabilität bei der Primärdatenhaltung an. Die dauerhafte Datenbereitstellung mittels Datentreuhandstrukturen benötigt eine eigene Finanzierung. Treuhandverfahren haben sich in der Medizin für die Datenweiterverwendung zu Forschungszwecken weitgehend durchgesetzt. Es gibt jedoch unterschiedliche Ausgestaltungen. Inwiefern die spezifisch definierten, datenanalytischen Ziele der einzelnen Repositorien realisiert werden, kann nur im Einzelfall untersucht und bewertet werden. Eine transparente Darstellung der Analyseanträge und der Resultate wären dafür hilfreich. Die inhaltlich/technischen und rechtlich/geschäftlichen Strukturen der Entstehung und Weiterverwendung medizinischer Daten sind in Abbildung 4.1 zusammengefasst. Um eine rechtskonforme Nutzung medizinischer Daten zu befördern, sollte zum einen ein besonderes Augenmerk auf die Weiterentwicklung der Einwilligungsverfahren gelegt werden. Bisher werden rechtssichere Einwilligungen in medizinischen Kontexten schriftlich eingeholt. Diesbezügliche Weiterentwicklungen sollten selektive oder dynamische Einwilligungen bis hin zu in Personal Managements Systemen ermöglichen. Die patientengeführten elektronischen Patientenakten könnten die dafür notwendige Kommunikationsplattform werden. Zum anderen sollte bei der Weiterentwicklung der Treuhandstrukturen die Datennutzung stärker in den Blick genommen werden. Dazu sollten die Prüfprozesse der Nutzungsanträge vereinheitlicht und verkürzt sowie die Transparenz bei der Weiterverwendung durch Antrags-, Ergebnis- oder Publikationsregister erhöht werden. Die Bereitstellung von datenanalytischen Werkzeugen ggf. auch von Serviceteams, die Nutzende bei ihren Aktivitäten unterstützen, könnten die Datennutzung ebenfalls erleichtern. Eine vertiefte Auseinandersetzung mit den Treuhandstrukturen in der Medizin und den gesammelten Erfahrungen, könnte auch für andere Bereiche hilfreich sein, die personenbeziehbare Daten über Forschungsdatenzentren und Dateninfrastrukturen bereitstellen (Kap. 3.3.3). Abb. 4.1 Erhebung medizinischer Datenbestände und deren Zugänglichkeit im Überblick Eigene Darstellung 4.2 Medizinprodukte zur Generierung und Analyse medizinischer Daten Das Medizinprodukterecht rahmt medizinische Data-Mining-Prozesse in besonderem Maße: Zum einen sind die Messgeräte, die Daten zur Diagnose und Behandlung von Krankheiten erfassen, Medizinprodukte. Zum anderen fallen aus Data-Mining resultierende algorithmische Systeme, sofern sie zu digitalen Anwendungen oder Softwarebestandteilen weiterentwickelt werden und krankheitsbezogene Informationen über einzelne Personen liefern, unter das Medizinprodukterecht: Produkte einschließlich Software, die u. a. Krankheiten oder Behinderungen diagnostizieren, überwachen, prognostizieren oder einen physiologischen Zustand untersuchen sollen, sind aus rechtlicher Sicht Medizinprodukte (Art. 2 Nr. 1 Verordnung (EU) 2017/745) bzw. In-vitro-Diagnostika, wenn sie aus dem menschlichen Körper stammende Proben analysieren (Art. 2 Nr. 2 Verordnung (EU) 2017/746).100 Das Medizinprodukterecht101 definiert ein spezifisches Qualitätsmanagementsystem mit unterschiedlichen Elementen je nach Gesundheitsschädigungspotenzial eines Produktes. Es soll eine qualitativ hochwertige Datenerfassung und -analytik sichern. Hersteller tragen die Verantwortung dafür. Sie müssen die Sicherheit und Leistungsfähigkeit ihres Produktes prüfen (Entwicklungsphase), bevor es zertifiziert (Markteintritt) und umfangreich eingesetzt werden kann (Anwendungsphase). 100 Verordnung (EU) 2017/745 über Medizinprodukte, zur Änderung der Richtlinie 2001/83/EG, der Verordnung (EG) Nr. 178/2002 und der Verordnung (EG) Nr. 1223/2009 und zur Aufhebung der Richtlinien 90/385/EWG und 93/42/EWG; sie ist am 26. Mai 2021 in Kraft getreten. Verordnung (EU) 2017/746 über In-vitro-Diagnostika und zur Aufhebung der Richtlinie 98/79/EG und des Beschlusses 2010/227/; diese soll am 26. Mai 2022 in Kraft treten. Nachfolgend wird vereinfachend allgemein von Medizinprodukten und vom Medizinprodukterecht gesprochen, darin sind auch In-vitro-Diagnostika eingeschlossen. 101 Überblick über alle zum Medizinprodukterecht gehörenden europäischen und nationalen Rechtsnormen z. B. unter www.pei.de/DE/ service/rechtliches/medizinprodukterecht/medizinprodukterecht-node.html (10.11.2021) Medizinprodukte werden entsprechend der jeweils möglichen gesundheitsbezogenen Folgen für betroffene Patient/innen vier verschiedenen Risikoklassen zugeordnet (dazu und im Folgenden Geißelmann 2018; Lücker 2018). Mit Inkrafttreten der europäischen Medizinprodukteverordnungen gehören in Klasse I und a. einfache Mess- und Datenspeicherprodukte (z. B. Blutdruckmesser oder krankheitsbezogene Tagebücher), sofern damit lediglich krankheitsbezogene Vitalwerte und Zustände erfasst und aufgezeichnet werden, um anwendende Personen (sowohl Ärzt/innen als auch Patient/innen) zu informieren. Schon wenn Durchschnittswerte, Trends oder Klassifikationswerte (medizinische Scores) berechnet werden, gelten sie als aktive diagnostische Medizinprodukte, die in der Regel in die Risikoklasse IIa fallen. Abhängig von möglichen gesundheitlichen Folgen können sie auch in die Risikoklasse IIb (z. B. bei der Überwachung von Herzfunktionen) oder die höchste Klasse III (z. B. Berechnung der Dosierung hochwirksamer Medikamente) fallen, vor allem wenn sie folgenschwere ärztliche Tätigkeiten übernehmen und automatisieren. Informationssysteme, die lediglich Daten speichern, präsentieren und für Versicherungs- und Abrechnungszwecke verarbeiten sowie Software ohne medizinische Zweckbestimmung (keine Anwendung im Kontext von Krankheiten) gelten nicht als Medizinprodukte. Es gibt fließende Übergänge und einen zunehmenden Graubereich zwischen Software mit und ohne medizinischer Zweckbestimmung, insbesondere im wachsenden Markt der Gesundheits-Apps, die ein immer größeres Spektrum an Vitalwerten erfassen (ausführlich z. B. TAB 2018). Unter Achtung des geltenden Rechts und der Berücksichtigung der Rechtsprechung in Einzelfällen hat ein Hersteller vor allem bei datenerhebenden und -verarbeitenden (Software-)Produkten niedriger Risikoklassen einen gewissen Entscheidungsspielraum, diese als Gesundheits-App oder als Medizinprodukt zu vermarkten. Im ersten Gesundheitsmarkt sind nur Medizinprodukte verordnungs- und erstattungsfähig. 4.2.1 Prüfung und Bewertung der Sicherheit, Leistung und Gesundheitseffekte Medizinprodukte dürfen nur mit CE-Kennzeichnung102 und nach behördlicher Anzeige (in Deutschland beim BfArM) in den Verkehr gebracht werden. Hersteller müssen dafür ein Konformitätsbewertungsverfahren durchführen und darlegen, dass ihr Produkt eine definierte Leistung erbringt (z. B. einen Vitalwert korrekt misst, einen Grenzwert richtig berechnet, ein Muster richtig erkennt) und grundlegende Anforderungen an Qualität, Sicherheit und Unbedenklichkeit erfüllt werden (einschließlich DSGVO-Standards für personenbezogene Daten besonderer Kategorie [Kap. 3.3.2; Kasten 3.6]). Die Leistung für einen vorgesehenen Verwendungszweck wird in normierten Verfahren103 anhand klinischer (medizinischer) Daten nachgewiesen. Relevante Kriterien zur Leistungsbewertung sind vor allem die Sensitivität und Spezifität eines Verfahrens (Kap. 2.3.3). Neue Datenerhebungs- und Datenanalysetechniken werden nach Möglichkeit mit bereits etablierten ähnlichen Verfahren verglichen. Schwieriger ist die Bewertung neuartiger Verfahren (z. B. Erfassung neuer Biomarker), zu denen es kaum Vergleichsverfahren und Standards gibt (ausführlicher in den Anwendungsbeispielen in Kap. 4.3.3). Die Anforderungen an die Leistungsbewertung steigen mit der Risikoklasse. Bei Medizinprodukten der Risikoklasse I führt der Hersteller die Leistungsbewertung eigenverantwortlich durch und hält entsprechende technische Dokumentationen vor, falls staatlich benannte Stellen als Prüfinstanzen (z. B. TÜV) Einsicht fordern. Ab Risikoklasse IIa werden diese Stellen an der Leistungsbewertung beteiligt. Sie übernehmen mehr Prüfungs- und Zertifizierungsaufgaben. Bei Produkten der Risikoklassen IIb und III müssen mit Inkrafttreten der europäischen Medizinprodukteverordnungen Sicherheit und Leistung anhand von klinischen (Interventions-)Studien (Kap. 4.1.3) belegt werden. Diese klinischen Studien im Rahmen der Produktentwicklung sind genehmigungspflichtig und werden registriert (in Deutschland durch das BfArM). Dafür ist auch ein positives Votum der jeweils zuständigen Ethikkommission erforderlich. Benannte Stellen prüfen die Angemessenheit der jeweiligen Verfahren sowie Sicherheits- und Leistungsbelege anhand definierter Prüfkriterien, bewerten bei Medizinprodukten hoher Risikoklassen die gesundheitsbezogenen Effekte und zertifizieren das jeweilige Medizinprodukt gegebenenfalls. Sowohl Medizinproduktehersteller 102 Mit dem CE-Kennzeichen erklärt der Hersteller, dass das Produkt den geltenden Anforderungen genügt gemäß Verordnung (EG) Nr. 765/2008 über die Vorschriften für die Akkreditierung und Marktüberwachung im Zusammenhang mit der Vermarktung von Produkten und zur Aufhebung der Verordnung (EWG) Nr. 339/93, bei Medizinprodukten, dass die Vorgaben der Verordnungen (EU) 2017/745 und 2017/746 eingehalten werden. 103 DIN EN ISO 14155 (Klinische Prüfung von Medizinprodukten an Menschen – Gute klinische Praxis [ISO 14155:2020]; Deutsche Fassung EN ISO 14155:2020) und DIN EN ISO 13485 (Medizinprodukte – Qualitätsmanagementsysteme – Anforderungen für regulatorische Zwecke [ISO 13485:2016]; Deutsche Fassung EN ISO 13485:2016 + AC:2018 + A11:2021) als auch benannte Stellen werden akkreditiert, sind mittels Kennziffer eindeutig identifiziert und unterliegen einem Qualitätsmonitoring. Mit dem Inkrafttreten des überarbeiteten Medizinprodukterechts werden auch etliche Elemente der Qualitätsmanagementsysteme für Medizinprodukte ausgebaut, die darauf abzielen, gesundheitsbezogene Risiken während der Anwendung zu minimieren. Dazu gehört u. a. die herstellerseitige Produktregistrierung auf nationaler Ebene im »Deutschen Medizinprodukte-Informations- und Datenbanksystem« (DMIDS).104 Für die Registrierung neuer Medizinprodukte werden inzwischen europaweit eindeutige Produktkennzeichnungen (Unique Device Identification – UDI105) verwendet. Weitere Elemente des Qualitätsmanagementsystems in der Anwendungsphase sind produktspezifisch definierte regelmäßige technische Prüfungen (z. B. Kalibrierungen, Ringversuche), Anleitungen und Schulungen zur Bedienung, ein Beobachtungs- und Meldesystem für mögliche Auffälligkeiten und Risiken während der Anwendung (Vigilanz), klinische Nachbeobachtungen, Hersteller- und Verfahrensüberprüfungen, Verwendungskorrekturen bis hin zu Rückrufen. Die CE-Kennzeichnung macht ein Medizinprodukt im europäischen Binnenmarkt verkehrsfähig. Insbesondere bei neuartigen aufwendigen und damit kostenintensiven Verfahren stellen sich Fragen zur Integration in medizinische Versorgung und zur Haftung im Schadensfall. 4.2.2 Integration in die medizinische Versorgung Nicht alles, was technische Geräte inzwischen mit hoher Präzision erfassen und Algorithmen errechnen oder zuordnen können und was unter Studienbedingungen positive Gesundheitseffekte erreicht und zertifiziert wird, generiert in der Anwendung auch einen tatsächlichen gesundheitsbezogenen (Zusatz-)Nutzen. Ärzt/innen sollen mit ihren Fachkenntnissen u. a. die datenanalytischen Verfahren und Medizinprodukte einsetzen, die sachlich gerechtfertigt und medizinisch vertretbar sind. Ein wichtiger Bezugspunkt dafür sind Behandlungsleitlinien, in denen medizinische Fachgesellschaften den Wissensstand zur Diagnose und Behandlung einzelner Krankheitsbilder zusammenfassen, den Einsatz datenanalytischer Verfahren und Medizinprodukte fachlich bewerten und ggf. empfehlen. Ein zweiter relevanter Bezugspunkt sind die Leistungskataloge der Krankenkassen, die die Einsatzkosten neuer datenanalytischer Verfahren ggf. tragen. Die GKV verlangt neben den zertifizierungsrelevanten Sicherheits- und Leistungsnachweisen zunehmend Belege für einen (Zusatz-)Nutzen, bevor der Einsatz neuer Medizinprodukte als Regelleistung erstattet wird. Derartige Nachweise sind sowohl für Hersteller als auch für Prüfinstanzen eine zusätzliche Herausforderung, denn Parameter, anhand derer der Nutzen definiert wird (klinische oder auch lebensstilbezogene und wirtschaftliche Endpunkte), Studiendesigns und Nachweisverfahren müssen oftmals noch weiterentwickelt und entsprechende methodische Standards vereinbart werden (ausführlicher z. B. svr Gesundheit 2014, S. 160 ff.). Bei neuartigen datenanalytischen Verfahren dauert es mitunter Jahre, um diesen (Zusatz-)Nutzen anhand klinischer Studien nachzuweisen, zu prüfen und zu bewerten (ausführlicher in den Anwendungsbeispielen in Kap. 4.3.3). Mit der Anerkennung eines solchen (Zusatz-)Nutzens sind die Voraussetzungen geschaffen, um ein Mess- und Analyseverfahren und entsprechende Medizinprodukte zum einen in krankheitsspezifischen Behandlungsleitlinien der medizinischen Fachgesellschaften zu empfehlen und diese zum anderen in die Leistungs- und Abrechnungskataloge der GKV zu aufzunehmen. Dieser Weg in das Leistungsportfolio der GKV verläuft im ambulanten und stationären Sektor in unterschiedlichen Bahnen mit vielen Zwischenstationen, Verzweigungen und mit unterschiedlichen beteiligten Institutionen: Im ambulanten Bereich können Ärzt/innen standardisiert verschreiben und abrechnen, was explizit erlaubt ist. Dieses Erlaubnisverfahren wurde für digitale Medizinprodukte der Risikoklassen I und IIa durch das Digitale Versorgungs-Gesetz (DVG)106 mit dem definierten Fast-Track-Verfahren für digitale Gesundheitsanwendungen [DiGA] beschleunigt. Mit den für die CE-Kennzeichnung notwendigen Sicherheits- und Leistungsnachweisen und einem Hinweis auf einen positiven Versorgungseffekt beantragen Hersteller die Aufnahme ihrer Gesundheitsanwendung in ein spezifisches DiGA-Verzeichnis. Das BfArM prüft die Anträge innerhalb weniger Monate und nimmt die Gesundheits-App ggf. in das Verzeichnis auf. Damit gehört die App zunächst vorläufig zum GKV-Leistungsportfolio, Ärzt/innen können sie verschreiben, gesetzliche Krankenkassen tragen die Kosten für 104 www.bfarm.de/DE/Medizinprodukte/Portale/DMIDS/_node.html (10.11.2021) 105 europaweit eindeutige Nummer für Medizinprodukte 106 Gesetz für eine bessere Versorgung durch Digitalisierung und Innovation (Digitale-Versorgung-Gesetz – DVG), BGBl. I Nr. 49 vom 18.12.2019, S. 2562–2585 ihre Versicherten und erstatten die zunächst vom Hersteller festgelegten Preise. Innerhalb eines Jahres müssen Hersteller den positiven Gesundheitseffekt ihrer App nachweisen, um dauerhaft im DiGA-Verzeichnis gelistet zu werden. Der finale Preis wird dann zwischen dem Hersteller und dem GKV-Spitzenverband verhandelt. Der ambulante Einsatz risikoreicher Medizinprodukte wird durch Richtlinien des Gemeinsamen Bundesausschusses (G- BA), dem obersten Entscheidungsgremium der GKV-Selbstverwaltung erlaubt. Ein ggf. veränderter Betreuungsaufwand bei Ärzt/innen (z. B. wenn sie Vitalwerte und daraus abgeleitete Hinweise auf gesundheitliche Veränderungen bei ihren Patient/innen kontinuierlicher prüfen und in der Behandlung berücksichtigen müssen) muss zudem in deren Abrechnungskatalogen107 verankert werden. Jenseits dieses Regeleinsatzes kann eine Kostenübernahme für einen Einsatz neuartiger Verfahren mit medizinischer Begründung auch individuell bei der jeweiligen Krankenkasse beantragt und bei Bewilligung auch abgerechnet werden. Zudem können Ärzt/innen neue datenanalytische Verfahren, auch als individuelle Gesundheitsleistung (IGeL) anbieten, Patient/innen tragen anfallende Kosten sowohl für das jeweilige Medizinprodukt als auch für den ärztlichen Aufwand selbst (zweiter Gesundheitsmarkt). Im stationären Bereich haben medizinische Einrichtungen vor allem beim Einsatz risikoreicher Medizinprodukte einen größeren Handlungsspielraum. Ärzt/innen können im Rahmen der gewissenhaften Berufsausübung eigenverantwortlich vielfältige datenanalytische Verfahren einsetzen, die dem anerkannten Stand des Wissens entsprechen, sofern sie nicht durch G-BA-Richtlinien explizit ausgeschlossen werden (Anwendungsbeispiel in Kap. 4.3.3). Bei kostenintensiven neuen Untersuchungs- und Behandlungsmethoden, wird deren schrittweise Integration in die stationären Abrechnungskataloge (G-DRG-System; Kap. 5.2.1) wichtiger. 4.2.3 Haftung und Schadensausgleich Bei jeglichen Medizinprodukten einschließlich solchen zur Datenerhebung und -analyse (algorithmische Systeme zur Unterstützung medizinischer Entscheidungen als Ergebnis von Data-Mining-Prozessen) wird die Produkthaftung in der klinischen Entwicklungsphase vor der Zertifizierung von der in der Anwendungsphase unterschieden (dazu und im Folgenden Deutscher Ethikrat 2017, S. 108). In der Entwicklungsphase, in der Sicherheit und Leistung jeglicher Medizinprodukte nachgewiesen und geprüft werden (bei hohen Risikoklassen mittels klinischer Studien), haften algorithmenentwickelnde Stellen und erprobende Ärzt/innen gemeinsam bei jeglichen Gesundheitsschäden von Proband/innen, egal wer oder was den Schaden verursacht hat und müssen sich diesbezüglich angemessen versichern (Gefährdungshaftung, Haftpflichtversicherung). Geschädigte Personen müssen nicht nachweisen, dass ein Produktfehler oder eine Pflichtverletzung algorithmenentwickelnder Stellen oder beteiligter Ärzt/innen den Schaden verursacht hat. Beim regulären Einsatz zertifizierter Medizinprodukte gelten für herstellende bzw. inverkehrbringende Stellen die Vorgaben der allgemeinen Produkthaftung laut Produkthaftungsgesetz (das Medizinprodukterecht zielt mit dem Ausbau der Qualitätsmanagementsysteme auf die Gewährleistung einer hohen Produktsicherheit, reguliert jedoch keine Haftungsfragen beim regulären Einsatz). Herstellende/inverkehrbringende Stellen sind für die Zuverlässigkeit ihrer Produkte im Allgemeinen bzw. ihrer algorithmischen Systeme zur Unterstützung medizinischer Entscheidungen verantwortlich. Sie haften, wenn sie ihre Pflichten rechtswidrig und schuldhaft verletzen oder fehlerhafte Produkte in den Verkehr bringen (z. B., wenn sie wissentlich fehlerhafte Algorithmen in eine Software implementieren) und dies ursächlich für einen tatsächlich aufgetretenen Schaden ist (§ 823 BGB, § 1 ProdHaftG). Fehlerhaft ist ein Medizinprodukt, wenn es nicht die Sicherheit bietet, die entsprechend der Leistungsbewertung erwartet werden kann (wenn z. B. die Sensitivität eines Verfahrens in der Anwendung schlechter ist, als unter Studienbedingungen errechnet). Herstellende/inverkehrbringende Stellen sind für die kontinuierliche Sicherung der Qualität ihrer Produkte in der gesamten Nutzungsphase verantwortlich und müssen dafür das skizzierte Qualitätsmanagementsystem aufbauen und einhalten. Sie haften nicht, wenn durch den ordnungsgemäßen Einsatz eines Medizinproduktes Fehler und in der Folge Schäden auftreten (d. h. sie haften nicht, wenn z. B. eine einzelne Situation falsch positiv oder negativ bewertet wird, dies aber im Rahmen der geforderten produktspezifischen Leistungsfähigkeit bzw. Sensitivität und Spezifität liegt). Im Schadensfall (ausschließlich gesundheitliche 107 Ärzt/innen rechnen ambulant erbrachte medizinische Leistungen im Rahmen der GKV regulär anhand von Kennziffern und Katalogen des Einheitlichem Bewertungsmaßstabs (EBM) bei den jeweiligen gesetzlichen Krankenkassen ab. Andere Leistungen stellen sie anhand der Gebührenordnung Ärzte (GO-Ä) in Rechnung. und materielle) muss die geschädigte Person nachweisen, dass eine Pflichtverletzung des Algorithmenbereitstellers oder ein Softwarefehler ursächlich für einen Schadenseintritt waren. Eine bloße Gesundheitsgefährdung reicht nicht aus (Verschuldenshaftung). Da Medizinprodukte im Allgemeinen und algorithmische Systeme zur Unterstützung medizinischer Entscheidungen im Besonderen derzeit wesentlich im Rahmen der Behandlung in der Verantwortung von Ärzt/innen eingesetzt werden, kommt zur Klärung der Herstellerhaftung auch die Arzthaftung (betrifft nur die sorgfältige Vorgehensweise einschließlich Dokumentation, nicht aber einen Behandlungserfolg/Gesundheitsnutzen) verbunden mit Datenschutz- und Schweigepflichten in Bezug auf den Einsatz des algorithmischen Systems bei anderen Patient/innen hinzu. Geschädigte Personen müssen den Fehlernachweis erbringen, können wegen der Datenschutz- und Schweigepflichten jedoch kaum andere möglicherweise ebenfalls Betroffene ausfindig machen, um nachzuweisen, dass Fehlerquoten nicht im Rahmen der nachgewiesenen Leistungsfähigkeit liegen und das eingesetzte algorithmische Systeme ursächlich für bestimmte Schäden waren. In dieser Konstellation ist die Produktüberwachung während der Anwendung von besonderer Bedeutung (Vigilanz). Entsprechende Monitoringstrukturen werden derzeit nach dem Vorbild der Arzneimittelüberwachung auch für Medizinprodukte ausgebaut. Auch wenn qualitätsgeprüfte zertifizierte algorithmische Systeme im Rahmen der Behandlung gewissenhaft eingesetzt werden, können deren Ergebnisse falsch sein (weil deren Sensitivität und Spezifität in der Regel unter 100 % liegen und Ärzt/innen fehlerhafte Resultate nicht immer erkennen). In dieser Konstellation haften weder Hersteller noch behandelnde Ärzt/innen. Geschädigte haben zwar grundsätzlich Anspruch auf weitere Behandlungen. Damit lassen sich jedoch nicht immer alle Folgen ausgleichen, vor allem dann nicht, wenn dauerhafte gesundheitliche Beeinträchtigungen verbleiben. In der Vergangenheit wurden bereits für einige spezielle Schadenssituationen zusätzliche Regelungen getroffen und Maßnahmen vereinbart, um Folgeschäden zumindest abzumildern: › Bei Gesundheitsschäden infolge staatlich empfohlener Impfungen erhalten Betroffene auf Antrag Unterstützung entsprechend dem Bundesversorgungsgesetz108 (§ 60 Infektionsschutzgesetz). › Der Deutsche Bundestag hat zudem mehrfach politische Weichen für spezielle Hilfsfonds gestellt. Beispiele sind die Conterganstiftung für behinderte Menschen, die Stiftung humanitäre Hilfe für durch Blutprodukte HIV-infizierte Personen oder der Hilfsfonds für Dopingopfer. In Österreich und Frankreich gibt es einen allgemeinen Medizinhilfefonds, der gesundheitliche Folgeschäden abmildert, die trotz sorgfältiger Arbeitsweise von behandelnden Ärzt/innen und von Arzneimittel- oder Medizinprodukteherstellern entstanden. In Deutschland wird ein solcher Fonds unter der Bezeichnung Patientenentschädigungs- und Härtefallfonds seit Jahren diskutiert, ohne dass dafür eine politische Mehrheit gefunden werden konnte (ausführlicher z. B. in Wissenschaftliche Dienste 2016). Folgeschäden durch falsch positive oder falsch negative Ergebnisse medizinischer Tests oder algorithmischer Systeme, die nicht durch zusätzliche Behandlungen ausgeglichen werden können, tragen nach derzeitiger Rechtslage betroffene Patient/innen allein. Die Regelungen zur Produkt- und Arzthaftung werden vor allem bei risikoreichen medizinischen Ansätzen immer wieder diskutiert. Auch in Bezug auf datentrainierte, medizinische Entscheidungs(unterstützungs)systeme sollte die Angemessenheit der existierenden Regelungen, diskutiert werden. Vor allem bei Systemen, die kontinuierlich lernende Verfahren einsetzen, durch die sich die Sensitivität und Spezifität auch während der Anwendung verändern kann, werden die etablierten Verfahren zur Produkthaftung, bei denen Geschädigte Sorgfaltspflichtverletzungen nachweisen müssen, als kritisch bewertet. Welche Maßnahmen bei datentrainierten algorithmischen Systemen zur Unterstützung medizinischer Entscheidungen am besten geeignet sind, Risiken zu minimieren sowie Schäden ggf. auszugleichen, sollte eingehender untersucht werden. Dabei könnten die österreichischen und französischen Diskussionen und Erfahrungen in Bezug auf deren Medizinhilfefonds zusätzliche Anregungen geben. 108 Gesetz über die Versorgung der Opfer des Krieges (Bundesversorgungsgesetz – BVG) 4.3 Data-Mining-Anwendungsbeispiele Unter Berücksichtigung von Leitlinien und Leistungskatalogen der Kostenträger entscheiden Ärzt/innen bei der Behandlung ihrer Patient/innen eigenständig, wie Symptome zu interpretieren, welche Untersuchungen situativ nötig und wie deren Ergebnisse zu bewerten sind, welche gesundheitliche Entwicklung erwartbar ist und welche therapeutischen Optionen möglich sind, um dann mit den Betroffenen die situativ beste Behandlungsoption auszuwählen und zu realisieren. Big-Data- bzw. KI-Protagonisten gehen davon aus, dass vielfältige Algorithmen und Spezialsoftware Ärzt/innen nicht nur bei Einzelaktivitäten wie der Bildbefundung, sondern auch bei komplexen Aufgaben zur Diagnose, Prognose oder gar der Behandlungsplanung zukünftig zumindest unterstützen können. Grundsätzlich können vielfältige ärztliche Tätigkeiten auch als mathematische Aufgabe formuliert werden, um sie mit unterschiedlichen mathematisch-statistischen Verfahren datenbasiert zu lösen (Kap. 2.3.1): › Klassifikation patientenbezogener Situationen und Sachverhalte (Scoring); › Suche nach Auffälligkeiten und Strukturen in Daten (Mustererkennung); › Vorhersagen zum Krankheitsverlauf (prädiktive Modelle) sowie › Zusammenfassung von Symptomen, Befunden, Diagnosen, Prognosen und Präferenzen sowie Optimierung von Behandlungsabläufen (medizinische Assistenzsysteme). Anhand unterschiedlicher Anwendungsspeispiele soll nachfolgend ein Einblick gegeben werden in bereits erzielte Erfolge von Data-Mining-Ansätzen sowie methodische Grenzen und spezifische Herausforderungen, die sich ergeben, wenn algorithmische Entscheidungs(unterstützungs)systeme in Behandlungsprozesse integriert werden sollen. Die Abläufe zur Früherkennung, Diagnostik und Therapie von Brustkrebs sollen nachfolgend einen anwendungsorientierten Rahmen bilden, in dem das Spektrum von Data-Mining-Ansätzen in Behandlungsprozessen umrissen werden soll. Es wird skizziert, welche Datenbestände für Data-Mining-Prozesse bereits herangezogen werden, wie Algorithmen in Behandlungsabläufen bereits eingesetzt werden und welche Herausforderungen die Integration neuer datenbasierter Verfahren in nationale Früherkennungs- und Behandlungsprogramme mit sich bringen. 4.3.1 Risikoklassifikation und medizinisches Scoring Brustkrebs ist die häufigste Krebserkrankung bei Frauen in Deutschland.109. Das von nationalen Fachgesellschaften diesbezüglich empfohlene Vorgehen für Früherkennung, Diagnostik, Therapie und Nachsorge wird in einer spezifischen interdisziplinären Leitlinie zusammenfassend dargestellt und regelmäßig aktualisiert (DKG et al. 2021). Das nationale Programm zur Brustkrebsfrüherkennung umfasst mehrere Maßnahmen, die gegenwärtig an folgenden Hauptrisikofaktoren ausgerichtet sind: › Geschlecht: Brustkrebs tritt hauptsächlich bei Frauen auf (aber nicht ausschließlich). › Lebensalter: Die Wahrscheinlichkeit an Brustkrebs zu erkranken, steigt bis zum 70. Lebensjahr kontinuierlich. Sie ist bei Frauen ohne familiäre Belastung zwischen dem 60. und 70. Lebensjahr am höchsten. › Familiäre Belastung/genetische Prädisposition: 5 bis 10 % der Neuerkrankungen treten bei Mitgliedern brustkrebsbelasteter Familien auf. Bei 25 bis 50 % dieser Neuerkrankten werden bestimmte Mutationen in mindestens einem von zwei Breast-Cancer-Genen (BRCA) gefunden. Etliche Risikofaktoren wie z. B. die Eingrenzung der Lebensphase, in der die Erkrankungswahrscheinlichkeit deutlich erhöht ist, können nur empirisch fundiert werden, wenn Daten von vielen Personen zusammengeführt und retrospektiv analysiert werden. Die Datenbasis dafür waren zunächst umfangreiche Beobachtungsstudien, inzwischen können zunehmend auch Daten von Krebsregistern genutzt werden (Kap. 4.1.3). Für die Analyse 109 Die Informationen zu Brustkrebs entstammen wesentlich dem Krebsinformationsdienst (www.krebsinformationsdienst.de/ tumorarten/brustkrebs/index.php; 10.11.2021). wurden vor allem klassische symbolische Verfahren eingesetzt (Kap. 2.3.2). Relevant sind die Schlüsse, die aus derartigen Analysen gezogen werden. Auf der gesundheitssystemischen Ebene wurde u. a. ein nationales Mammografiescreeningprogramm für alle Frauen zwischen dem 50. und dem 70. Lebensjahr aufgelegt, um Brustkrebs möglichst in frühen Entwicklungsphasen zu erkennen (dann sind die Heilungschancen am größten). Zudem gibt es ein intensiviertes medizinisches Betreuungsprogramm für Frauen mit familiärer Belastung. Nach ihnen wird mit einem gestuften Filterverfahren gezielt gesucht. Die Entwicklung dieser Filterverfahren beruht auf unterschiedlichen datenanalytischen Ansätzen. Bereits vor der Jahrtausendwende wurden anhand der Daten umfangreicher Beobachtungsstudien mit retrospektiven Analysen unterschiedliche einfachste familiäre Alltagskriterien110 ermittelt, die jeweils mit einer mehr als 10%igen empirischen Wahrscheinlichkeit einhergehen, dass bei einer Frau eine Genmutation vererbt wurde, die ein erhöhtes Erkrankungsrisiko mit sich bringt. Aus methodischer Sicht könnte man die datenbasierte Ermittlung der Kriterien als Data-Mining bezeichnen. Das Ergebnis sind trivial einfache Klassifikationsregeln, mit denen ein an sich komplexer Sachverhalt (familiäre Brustkrebsbelastung) durch einen binären Risikowert vereinfacht dargestellt wird. Natürlich haben derartig grobe Vereinfachungen methodische Schwächen (z. B. keine Differenzierung zwischen großen und kleinen Familien, Grenzwertfestlegungen, die eine Risikoberatung indizieren). Die Stärke derartig einfacher Checklisten liegt in der transparenten Darstellung der Regeln und der einfachen Anwendung im Rahmen von Ärzt/innen-Patient/innen- Gesprächen. Derartige Listen sind einfachste Hilfsmittel für Ärzt/innen. Deren Einsatz wird allgemein dem ärztlichen Handeln im Rahmen der Anamnese zugerechnet. Eine digitale Anwendung ist dafür nicht erforderlich. Die bloße Checkliste ist rechtlich kein Medizinprodukt (Kap. 4.2). Bei einem wahrscheinlich erhöhten Erkrankungsrisiko sollte eine spezifischere Risikoberatung in einem Zentrum für familiären Brust- und Eierstockkrebs empfohlen werden. Diese an etlichen Unikliniken angesiedelten Zentren bieten zunächst eine genaue prädiktive Basisdiagnostik an, um das jeweilige Erkrankungsrisiko spezifischer zu bestimmen. Dazu wird eingangs die familiäre Erkrankungssituation anhand eines Tableaus mit 26 Kriterien differenzierter abbildet und jedes Kriterium spezifisch gewichtet (da sie die erbliche Belastung unterschiedlich stark indizieren). Das Ergebnis ist ein medizinischer Risiko-Score, mit dem die Erkrankungswahrscheinlichkeit für einzelne Patient/innen genauer bewertet werden kann (DKG 2016). Die Datenbasis für die Erstellung ausdifferenzierter Kriterienkataloge bilden inzwischen Krebsregister (Kap. 4.1.4) sowie die Forschungsdatenbanken der Zentren für familiären Brust- und Eierstockkrebs. Wenn derartige Kataloge und Risiko-Score-Berechnungen digitalisiert werden, wird aus rechtlicher Sicht die Stufe zum Medizinprodukt (mit geringer Risikoklasse) überschritten. Ein Konformitätsbewertungsverfahren und eine Zertifizierung werden erforderlich (Kap. 4.2). Dieses Einstiegsbeispiel soll verdeutlichen, dass auch vergleichsweise einfache Data-Mining-Prozesse, die auf klassischen statistischen Verfahren aufbauen, zu hilfreichen Werkzeugen für die medizinische Praxis führen können. Sie müssen nicht immer in algorithmische Systeme oder digitale Anwendungen übersetzt werden. Deren Stärke ist die Einfachheit und Nachvollziehbarkeit. 4.3.2 Bilderkennung bei der Mammografie Seit einigen Jahren werden künstlichen neuronalen Netzen, die mit überwachten Lernverfahren trainiert werden (Kap. 2.3.2), große Potenziale u. a. für die Befundung von Mammografieaufnahmen unterstellt (Becker et al. 2017; Behrends 2018; Bitkom 2015; Dhungel et al. 2017; Kooi et al. 2017; Lotter et al. 2017; McKinney et al. 2020; Ribli et al. 2018; Weiden 2018). Dazu gibt es vielfältige Forschungs- und Entwicklungsaktivitäten, erste Verfahren kommen zwar schon in Anwendungsnähe, in der regulären medizinischen Praxis sind sie jedoch noch 110 In einer Linie der Familie erkrankte(n) mindestens (DKG et al. 2021, S. 55): – 3 Frauen an Brustkrebs; – 2 Frauen an Brustkrebs (davon eine unter 50 Jahre); – 2 Frauen an Eierstockkrebs; – 1 Frau an Brustkrebs und 1 an Eierstockkrebs; – 1 Frau an Brust- und Eierstockkrebs; – 1 Frau unter 36 Jahren an Brustkrebs; – 1 Frau unter 50 Jahren an bilateralem Brustkrebs oder – 1 Mann an Brustkrebs und 1 Frau an Brust- oder Eierstockkrebs. nicht ankommen. Um die Potenziale der verfügbaren Datenbestände und die Herausforderungen bei der Integration komplexer algorithmenbasierter Entscheidungs(unterstützungs)systeme realitätsnäher abschätzen zu können, wird zunächst das derzeitige Vorgehen bei der Mammografiebefundung im Rahmen des nationalen Screeningprogramms skizziert. Dort entstehen zum einen seit Jahren zunehmend große mammografische Datenbestände. Zum anderen müssten entsprechende algorithmische Systeme zur Entscheidungsunterstützung in die Abläufe dieses hochgradig qualitätsgesicherten Programms integriert werden. Vorgehen im nationalen Mammografiescreeningprogramm 2005 wurde auf Beschluss des Bundestages das nationale Mammografiescreeningprogramm als ein zusätzliches Element der Brustkrebsfrüherkennung eingeführt. Es ist ein Angebot an alle Frauen im Alter von 50–69 Jahren. Sie können im Zweijahresrhythmus eine prophylaktische Mammografieaufnahme ihrer Brust anfertigen lassen, um mögliche Gewebeveränderungen früh erkennen und ggf. behandeln zu können (die Krankenkassen tragen die Kosten [§ 25 SGB V]). Das Programm basiert auf den Empfehlungen der europäischen Leitlinie für die Qualitätssicherung des Mammografiescreenings111 und wird in Deutschland fachlich konkretisiert durch › die G-BA-Richtlinie über die Früherkennung von Krebserkrankungen (KFE-RL),112 › die interdisziplinäre S3-Leitlinie für die Früherkennung, Diagnostik, Therapie und Nachsorge des Mammakarzinoms (DKG et al. 2021) sowie › den Bundesmantelvertrag – Ärzte, Anlage 9.2: Versorgung im Rahmen des Programms zur Früherkennung von Brustkrebs durch Mammografie-Screening (BMV-Ä Anl. 9.2). Screeningeinheiten sind auf Brustkrebsfrüherkennung und Spezialdiagnostik spezialisierte, von den Kassenärztlichen Vereinigungen akkreditierte, ambulante Facharztpraxen. Sie werden von einer Radiologin bzw. einem Radiologen (Programmverantwortliche/r) geführt und haben ein Einzugsgebiet von ca. 0,8–1 Mio. Einwohnern, sodass sichergestellt wird, dass dort tätige Radiolog/innen jährlich mindestens 5.000 Mammografien befunden. Die Screeningeinheiten nutzen zertifizierte Praxisinformationssysteme mit standardisierten Patientenakten, die mit den Bildarchiven der Aufnahmegeräte verknüpft sind. Im Standardverfahren des Screeningprogramms ist kein direkter Kontakt zwischen Ärzt/innen und Programmteilnehmenden vorgesehen (er kann auf Wunsch angemeldet werden). Notwendige Informationen erhalten Frauen mit der Einladung über ein Merkblatt oder online.113 Darin wird darüber informiert, dass keine direktidentifizierenden Daten weitergegeben werden, anonymisierte medizinische Daten jedoch regelmäßig zentral ausgewertet werden, um die Qualität des Programms zu überwachen. Einwilligungen für darüber hinaus gehende Datenweiterverwendungen werden nicht eingeholt. Die Aufnahmen werden von zertifizierten Röntgenassistent/ innen gemacht und im Anschluss durch zwei zertifizierte Radiolog/innen unabhängig voneinander visuell befundet (örtlich und räumlich getrennt, keine Kenntnis des anderen Befunds). Diese müssen zum einen erkennen, ob die Qualität der Aufnahme für eine Befundung ausreicht (andernfalls muss eine weitere Aufnahme ggf. mit einem anderen Verfahren gemacht werden). Zum anderen müssen sie unauffällige Aufnahmen (normale Gewebestrukturen und sicher gutartige Gewebeauffälligkeiten [Läsionen]) von auffälligen Aufnahmen (Gewebe mit unklaren oder möglicherweise bösartigen Läsionen) unterscheiden (Abb. 4.2). 111 KOM(2003)230 endgültig 2003/0093(CNS) vom 5.5.2003 112 www.g-ba.de/downloads/62-492-2238/KFE-RL_2020-06-18_iK-2020-08-28.pdf (10.11.2021) 113 www.mammo-programm.de (20.11.2021) Abb. 4.2 Radiologische Befundung von Mammografien Quelle: Heindel et al. 2021, S. 132; Sickles et al. 2013 Die/der Programmverantwortliche führt die Ergebnisse der fachärztlichen Doppelbefundung zusammen. Wurden die Aufnahmen von beiden als unauffällig befundet, gibt es keine zusätzliche Prüfung, das Ergebnis wird der Frau innerhalb von 7 Tagen schriftlich mitgeteilt. Wurde die Aufnahme mit zusätzlichem Abklärungsbedarf befundet, wird der Fall in einer wöchentlich durchzuführenden Konsensuskonferenz kollegial mindestens zu Dritt beraten. Die/der Programmverantwortliche befundet abschließend. Wird der Befund für auffällig gehalten, wird die betroffene erneut eingeladen. Im direkten Arzt-Patientinnen-Gespräch werden der Befund (lediglich ein Tumorverdacht, keine abgesicherte Diagnose) erläutert und die nächsten Schritte zur Abklärungsdiagnostik vereinbart. Dazu gehören weitere Aufnahmen mit bildgebenden Verfahren, ggf. wird mit einer minimalinvasiven Biopsie eine Gewebeprobe entnommen, die in spezialisierten Pathologielaboren zunehmend automatisiert aufbereitet und fachärztlich mittels Mikroskop visuell befundet wird (betroffene Gewebeart, Ausbreitungsmuster, Invasiviät des Tumors, Kernteilungsrate usw.). Erst dadurch wird die finale Tumordiagnose gestellt. 2018 haben 2,9 Mio. Frauen am Screeningprogramm teilgenommen. 4 % wurden wiedereinbestellt, bei 1 % wurde eine Biopsie genommen, bei der Hälfte (16.300 Fälle) wurde ein Tumor diagnostiziert und eine operative Entfernung empfohlen (Kääb-Sanyal/Hand 2020, S. 6). Maßnahmen zur Qualitätssicherung Diverse Maßnahmen sollen die Qualität sowohl der einzelnen Arbeitsschritte auf der Ebene der Screeningeinheit (intern) als auch des gesamten Programms auf regionaler und auf nationaler Ebene absichern (Überblick z. B. in Vomweg 2017). In den Anhängen zum Bundesmantelvertrag werden diese Maßnahmen konkretisiert sowohl hinsichtlich der Datenerfassung (u. a. zur Prüfung der Bildqualität, zu Formaten der Datenspeicherung, zur Prozessierung von Bilddatensätzen sowie zum Einsatz von Bildverarbeitungsalgorithmen) als auch zur Befundung (Anhang 5 BMV-Ä Anl. 9.2). Am Screeningprogramm teilnehmende Radiolog/innen müssen ihre fachliche Befundungsbefähigung jährlich nachweisen. Dafür müssen sie 50 Mammografien aus der zentralen Fallsammlung114 befunden und dabei eine Sensitivität (auffällige Befunde werden richtig erkannt]) und Spezifität (unauffällige Befunde werden richtig erkannt]) von mindestens 90 % erreichen. 114 Screeningeinheiten schicken dem zuständigen regionalen Referenzzentrum regelmäßig geeignete pseudonymisierte Mammografien, die diese an die zentrale Kooperationsgemeinschaft des Screeningprogramms weitergeleiten. Letztere führt alle Mammografien zu einer zentralen Fallsammlung zusammen. Diese Fallsammlung soll Mammografien mit ausreichender Bildqualität von mindestens 500 Frauen enthalten, wobei das Spektrum mammografisch relevanter Erkrankungen zu berücksichtigen ist, alle Aufnahmen auffälliger Befunde durch Gewebeproben histopathologisch abgesichert sein müssen und ein Teil der Mammografien in der Fallsammlung regelmäßig ausgetauscht wird (Anhang 5 BMV-Ä Anl. 9.2). Die Kooperationsgemeinschaft stellt den Referenzzentren anonymisierte Fallsammlungen zur Prüfung der Befundbefähigung zur Verfügung. Zudem wird die Qualität des Mammografiescreenings anhand definierter Kennziffern (u. a. Anteil positiver Befunde der bildgebenden und der histopathologischen Untersuchungen, Anteile falsch positiver und falsch negativer Befunde) vereinfacht dargestellt und darüber mess- und vergleichbar gemacht (BMV-Ä Anl. 9.2). Derartige kennzahlengetriebenen Analysen werden auch als Benchmark bezeichnet (Kap. 4.4.2). Definierte Kennziffern werden quartalsweise für jede/n Radiolog/in und für jede Screeningeinheit mit einen im PIS integrierten Analysetool automatisiert ermittelt, visualisiert und anschließend einrichtungsintern diskutiert (Teil des internen Controllings). Diese QS-Datensätze haben Bezüge zu Fachärzt/innen und Screeningeinheiten, in der Regel nicht zu Patient/innen115 und werden nur programmintern verwendet. Für das programmweite Controlling übermittelt jede Screeningeinheit einen definierten arztpseudonymisierten, einrichtungsbezogenen QS-Datensatz dem zuständigen regionalen Referenzzentrum, das alle QS-Datensätze zusammenführt und sie um definierte Leistungsabrechnungs- und Registerdaten der jeweiligen Kassenärztlichen Vereinigungen ergänzt (Kap. 5.3). Die Ergebnisse dieser externen Qualitätssicherung werden mit jeder Screeningeinheit einzeln beraten. Die Regionalzentren übermitteln arzt- und einrichtungsanonymisierte QS-Gesamtdatensätze an die zentrale Kooperationsgemeinschaft Mammografie. Sie sind eine Datenbasis für die jährliche Gesamtevaluation des Screeningprogramms (Kääb- Sanyal/Hand 2020, S. 9). Nutzenbewertung des Mammografiescreeningprogramms Ähnlich wie die Qualität wird auch der Nutzen des Programms anhand von Kennziffern dargestellt und bewertet. Als wichtigste Kennziffer zur Nutzenbewertung gilt die langfristige Mortalität (Anzahl Todesfälle einer Personengruppe in einem bestimmten Zeitraum). Sie soll perspektivisch anhand der epidemiologischen Krebsregister (Kap. 4.1.4) für die Gruppe der programmteilnehmenden Frauen und für die der nichtteilnehmenden ermittelt und verglichen werden. Aussagekräftige Kennziffern zur Langzeitmortalität können erst ab 2021 ermittelt werden (Heindel et al. 2021; Vomweg 2017). Bis dahin wird das Programm anhand von Surrogatkennziffern bewertet. Dazu gehören die Diagnoserate, das Tumorstadium bei Erstdiagnose, die Falsch-Positiv-Raten sowie Überdiagnosen. In den ersten Jahren des Programms stiegen die Brustkrebsdiagnosen bzw. die Brustkrebsentdeckungsrate wie erwartet an, im weiteren Verlauf vielen diese Werte wieder. Derzeit erhalten 6 von 1.000 Frauen, die am Programm teilnehmen, eine Tumordiagnose, in 5 von 6 Fällen handelt es sich um einen invasiven Tumor, der zunehmend im Frühstadium entdeckt wird. Bei 1 von 6 Fällen wird durch die Mammografie eine Gewebeveränderung festgestellt, die sich im späteren Verlauf zu einem Tumor entwickeln kann, aber nicht muss. Zur Sicherheit wird zur Behandlung geraten, d. h. operative Entfernung der Gewebeveränderung und ergänzende systemische Behandlungen, um das Risiko eines möglichen Rückfalls zu senken. Programmbefürwortende interpretieren die gestiegenen Diagnoseraten und die zunehmende Entdeckung von Krebs im Frühstadium als Erfolg des Programms, dessen Ziel es ja ist, Krebsfrühstadien zu entdecken und Heilungschancen zu erhöhen (z. B. Heindel et al. 2021; Kettritz 2018, S. 4 ff.). Kritiker/innen weisen ebenfalls auf die gestiegenen Brustkrebsdiagnosen hin, betonen bei ihrer Bewertung jedoch in besonderem Maße die Falsch- Positiv-Raten und Überdiagnosen, die in Übertherapien münden sowie gesundheitliche Risiken durch unnötige Strahlenbelastung vieler befundfreier Teilnehmerinnen (stellvertretend Kettritz 2018, S. 7 ff. ff.). Da es unterschiedliche Einschätzungen gibt, was als Überdiagnose und als Übertherapie zu bezeichnen ist, gibt es auch unterschiedliche Berechnungen und Bewertungen. Eine diesbezügliche Vereinheitlichung der Definitionen wird gefordert, ist allerdings schwer zu realisieren (Kettritz 2018; Kooperationsgemeinschaft Mammographie 2017). Die seit Jahren durchgeführten Begleituntersuchungen der nationalen Screeningprogramme können bisher weder die Pro- noch die Kontrapositionen vor allem bezüglich der Überdiagnosen und -therapien eindeutig belegen oder entkräften. Durch die immer längere Zeiträume abdeckenden Nachbeobachtungen wird eine Reduktion der Brustkrebsmortalität bei Programmteilnehmenden von ca. 20 % als zunehmend gesichert angesehen (DKG et al. 2021, S. 49 f.).Grundsätzlich ist das Mammografiescreeningprogramm in Deutschland lediglich ein Angebot zur Früherkennung. Frauen werden ermuntert, Vor- und Nachteile individuell abzuwägen (ggf. in Absprache mit einer Ärzt/in) und eine Programmteilnahme selbst zu entscheiden (G-BA 2017, S. 6 ff.). Insgesamt nehmen gut 50 % der in Frage kommenden Frauen am Screeningprogramm teil (Programmbefürwortende hatten ursprünglich mit einer 70 %en Teilnahme gerechnet). 115 Wenn eine befundende Ärztin im Quartal nur einen falsch positiven Befund erstellte, könnte die betroffene Patientin von Dritten mit Zusatzwissen re-identifiziert werden. Computerassistierte Mammografiebefundung: Stand der Technik, Bewertung, Technikdiffusion und Folgedimensionen Die Vision, die fachärztliche Mammografiebefundung durch algorithmische Systeme zu unterstützen oder sogar teilweise zu ersetzen, gibt es seit langem. Erste Ansätze wurden bereits vor 50 Jahren beschrieben (Winsberg et al. 1967). Mit der Umstellung auf digitale Aufnahmetechniken erhielt die Vision der automatisierten Objekterkennung neue Impulse. Entsprechende Verfahren werden allgemein auch als CAD-Systeme (computer-assisted detection oder computer-aided diagnosis) bezeichnet (Cheng et al. 2016, S. 244). Einige CAD-Systeme segmentieren lediglich Bildbereiche anhand der Strukturen, vergleichen sie mit Inhalten spezifischer Referenzdatenbanken, markieren und beschreiben auffällige Bereiche (Form, Größe, Struktur). Andere CAD-Systeme gehen einen Schritt weiter und befunden die auffälligen Bereiche mittels fachspezifischer Klassifikationen (z. B. BI-RADS- Klassifikation für die Mammografiebefundung [Abb. 4.2]). 1998 hat die US-amerikanische Food and Drug Administration (FDA) die erste auf symbolischen Verfahren aufbauende CAD-Software zur Mammografiebefundung zertifiziert, nachdem deren Sicherheit und Leistung anhand von Testdatensätzen belegt wurde (Sensitivitäts- und Spezifitätsanforderungen, die für spezialisierte Fachkräfte gelten, wurden erreicht) (Lehman et al. 2015). Zudem hat die FDA Zertifizierungsleitlinien für CAD- Verfahren und spezielle Testdatensätze (z. B. public INbreast Dataset) herausgegeben (FDA 2012), um die Transparenz des Zertifizierungsprozesses zu verbessern und die Planungssicherheit für softwareentwicklende Unternehmen zu erhöhen. In den USA sind inzwischen mehrere CAD-Verfahren zur Unterstützung der Mammografiebefundung zertifiziert. Beim US-amerikanischen Screeningprogramm wird die Erstbefundung in der Regel nur von einer Radiologin bzw. einem Radiologen durchgeführt. Seit 2002 übernehmen die Träger der Screeningprogramme die Kosten für eine zusätzliche CAD-Assistenz, die seitdem zunehmend eingesetzt wird. 2008 wurden in den USA 74 % der Mammografieaufnahmen des Screeningprogramms softwareunterstützt befundet (Lehman et al. 2015). In Großbritannien und in den Niederlanden wurde der ergänzende CAD-Einsatz zusätzlich zur radiologischen Doppelbefundung getestet. Erste Nutzenbewertungen unter Anwendungsbedingungen zeigten in allen drei Ländern, dass Radiolog/ innen mit CAD-Assistenz nur annähernd ähnlich viele Tumore richtig erkannten (maximal gleich gute Sensitivität), insgesamt nicht schneller befundeten, aber häufiger unauffälliges Gewebe als tumorverdächtig bewerteten (schlechtere Spezifität) – also mehr Fälle überdiagnostizierten als Radiolog/innen, die diese Verfahren nicht einsetzten (Gilbert et al. 2008; Lehman et al. 2015; Taylor/Potts 2008; Timmers et al. 2012). Da Mammografiescreeningprogramme ohnehin wegen der Überdiagnosen in der Kritik standen und stehen, verwundert es nicht, dass in Deutschland beim Einsatz dieser CAD-Systeme kein Zusatznutzen im Vergleich zum etablierten fachärztlichen Beurteilungsverfahren anerkannt und sie nicht im Rahmen des nationalen Screeningprogramms eingesetzt wurden (DKG et al. 2012, S. 37). Diese erste Generation der CAD-Verfahren setzte noch komplexe symbolische Verfahren zur Objekterkennung ein. Inzwischen werden vor allem im Bereich der Bilderkennung künstliche neuronale Netze anwendungsreif. Die Ausgangslage für den Einsatz derartiger KNN scheint beim Mammografiescreening in einigen Punkten besonders gut (Pisano 2020): Durch die nationalen Programme werden Mammografieaufnahmen in großen Mengen digital erzeugt, strukturiert gespeichert (hoher Interoperabilitätsgrad) und langfristig aufbewahrt. Sie sind fachlich befundet, wobei Auffälligkeiten einer überschaubaren Anzahl von Befundklassen zugeordnet werden. Alle auf Mammografieaufnahmen gefundenen Auffälligkeiten werden durch Anschlussuntersuchungen mehrmals geprüft und spezifiziert. Auch werden im Rahmen der Qualitätssicherung bereits Fallsammlungen angefertigt und kontinuierlich aktualisiert. Mit ihnen wird derzeit die Befundbefähigung von Radiolog/innen regelmäßig geprüft. Diese Datenbestände könnten auch zu Trainings- und Prüfungsdatensätzen aufbereitet werden. Ein großer Vorteil von KNN gegenüber den auf symbolischen Verfahren basierten CAD-Systemen der ersten Generation sei, dass sie am Ergebnis selbst trainiert werden und keine Formeln und Modelle mehr benötigen, die das Wissen bzw. die Vorgehensweise zur Tumorerkennung explizit repräsentieren. Die bisher vielversprechendsten Studienergebnisse publizierten McKinney et al. (2020). Sie konnten Aufnahmen von 25.000 Frauen aus dem britischen und von 3.000 Frauen aus dem US-amerikanischen Mammografiescreeningprogramm retrospektiv nutzen, um ein KNN mit einem überwachten Lernverfahren zu trainieren, Auffälligkeiten auf Mammografieaufnahmen zu erkennen und zu markieren sowie zu klassifizieren. Im Rahmen der Studie wurden dann Sensitivität und Spezifität der KNN-basierten CAD-Software mit der der Screeningprogramme und mit der von einzelnen Radiolog/innen verglichen. Im Vergleich zum US-amerikanischen Screeningprogramm mit der dort verankerten Einzelbefundung war das KNN-basierte CAD-Verfahren vergleichbar sensitiv, aber erstmals spezifischer. Im Vergleich zum britischen Screeningprogramm mit Doppelbefundung und Konsensusentscheidung war das KNN-basierte Verfahren statistisch nicht unterlegen (McKinney et al. 2020, S. 93). McKinney et al. bewerten die Studienergebnisse zurückhaltend und weisen auf vielfältige Unsicherheiten und offene Fragen hin: Bevor das KNN-basierte CAD-Verfahren bei der frühen Brustkrebsdetektion assistierend eingesetzt werden könne, seien weitere Prüfungen unter Alltagsbedingungen nötig. Wie man aus den Erfahrungen mit der ersten Generation von CAD-Verfahren wisse, sind Alltagsbedingungen regelmäßig komplexer und vielschichtiger und in Folge kann die Leistung unter Alltagsbedingungen schlechter sein, als die unter Studienbedingungen ermittelte. Unsicherheiten gibt es auch bezüglich der eingesetzten Trainingsdaten. Unklar ist, inwiefern in der Studienpopulation alle Bevölkerungsteile adäquat berücksichtigt waren oder ob möglicherweise einige unterrepräsentiert waren, die das KNN in Folge schlechter befunden könne (nichtintendierte Diskriminierung). Weitere Unsicherheiten gibt es, ob sowohl bei 2-D- als auch bei den noch nicht so lange verfügbaren 3-D- Aufnahmeverfahren vergleichbare Leistungen erbracht werden können. McKinney et al. sprechen sich auch dafür aus, mögliche Folgen in Bezug auf die klinischen Arbeitsabläufe innerhalb der nationalen Screeningprogramme in den Blick zu nehmen: Verändern sich die Aufgabenschwerpunkte von Radiolog/innen? Müssen sie Ergebnissen des CAD-Systems mehr Aufmerksamkeit widmen und diese intensiver prüfen? Wie ist zu verfahren, wenn das spezifischere CAD-Programm anders befundet als Fachärzt/innen? Wer trägt die Verantwortung, wer haftet? Welche Folgen würden sich ergeben, wenn die durchgängige Doppelbefundung reduziert werden könnte? Würden dadurch lediglich Effizienzgewinne erzielt, Fachkräftemangel reduziert oder auch Arbeitsprozesse umorganisiert, sodass Ärzt/innen sich intensiver ihren schwerkranken Patient/innen widmen könnten? In der nationalen Brustkrebsleitlinie schlagen sich die vielfach unterstellten Potenziale von CAD-Verfahren bisher nicht nieder. Sie werden zwar seit Jahren erwähnt (DKG et al. 2012, S. 37 ff.), jedoch wird bisher stets betont, dass CAD-Systeme die Doppelbefundung nicht ersetzen können (DKG et al. 2021, S. 46). Bei der Darstellung technologischer Weiterentwicklungen werden vielmehr die Fortschritte bei der Bildgebung von 2-D- auf 3-D-Mammografie thematisiert. Die Fachgesellschaften bewerten die Kombination von 2-D- und 3-D- Aufnahmeverfahren aufgrund der signifikanten Erhöhung der Detektionsrate (deutlicher Sensitivitätsgewinn und sehr gute Spezifität) als den derzeit vielversprechendsten technologischen Entwicklungsansatz für das Mammografiescreening (DKG et al. 2021, S. 51 f.). Wird die Bildgebung in diese Richtung weiterentwickelt, müssen einerseits völlig neue Trainingsdatensätze bereitgestellt und andererseits CAD-Systeme mit diesen Daten trainiert, getestet und zertifiziert werden. Erste CAD-Entwicklerteams berücksichtigen diese Weiterentwicklung bereits (McKinney et al. 2020; Ribli et al. 2018). Wenn die visuelle Doppelbefundung plus Konsensusentscheidung dadurch noch sensitiver wird, steigen die Leistungsanforderungen an CAD-Systeme. Im Ausblick weisen McKinney et al. darauf hin, dass diese ersten CAD-Erfolge bei der Mammografiebefundung in etlichen anderen medizinischen Bereichen wahrscheinlich schwerer zu erreichen sind, weil die Datenbasis zum Trainieren von KNN schlechter sei. Auch etliche andere Entwicklerteams sehen die Erstellung umfangreicher qualitativ hochwertiger Trainings- und Testdatensätze als vordringliche Aufgabe und große Herausforderung an (z. B. Ribli et al. 2018; Veta et al. 2014): Denn durch die kontinuierliche Weiterentwicklung sowohl der Aufnahmetechnik (z. B. immer höhere Bildauflösung, Umstellung von 2-D-auf 3-D-Aufnahmeverfahren) als auch des Labelings auffälliger Bildelemente (textuelle und klassifizierende medizinische Notationen) müssen Bildersammlungen regelmäßig aktualisiert werden, um sie als Trainings- und Testdatensätze nutzen zu können. Einschätzung Die Mammografiebefundung wird seit einigen Jahren als ein möglicher medizinischer Einsatzbereich für Assistenzsysteme diskutiert, die künstliche neuronale Netze einsetzen. Es gibt dazu vielfältige Forschungs- und Entwicklungsaktivitäten. Erste Ansätze rücken in Anwendungsnähe. Der Durchbruch in die Anwendung könnte am ehesten in Ländern mit Screeningprogrammen gelingen, die eine vergleichsweise geringe Befundqualität erreichen. Die Integration in das in Deutschland etablierte Mammografiescreeningprogramm, das als eines der qualitativ besten in Europa gilt (Heindel et al. 2021, S. 134 f.), dürfte schwerer sein (bei bereits realisierter hoher Befundqualität ist ein Zusatznutzen schwerer zu erreichen). Trainings- und Testdatensätze sind von herausragender Bedeutung für die Entwicklung derartiger Assistenzsysteme. Durch technische Weiterentwicklungen bei den Aufzeichnungsgeräten müssen immer wieder neue Trainingsdatensätze erstellt werden (z. B. Umstellung von 2-D- auf 3-D-Aufnahmetechniken). Die im Rahmen des nationalen Mammografiescreeningprogramms generierten Datenbestände haben aufgrund der hohen Qualität und des erreichten Interoperabilitätsgrades erhebliches Potenzial. Sowohl die Möglichkeiten und Grenzen der Weiterverwendung dieser Daten als auch die schrittweise Integration derartiger Assistenzsysteme in die bestehenden medizinischen Strukturen und Arbeitsabläufe des Mammografiescreeningprogramms sollten eingehender untersucht werden. 4.3.3 Interpretation genetischer Daten für die Therapieplanung Seit vielen Jahren zielen umfangreiche Forschungsanstrengungen darauf ab, die ablaufenden biologischen Prozesse bei bösartigen Gewebeneubildungen besser zu verstehen. Diesbezüglich müssen bei der Analyse genetischer Daten zwei Besonderheiten beachtet werden: Zum einen gibt es kein Durchschnittsgenom. Jedes Gen kommt in vielfachen Varianten vor und jedes Gen ist in unterschiedlichen Zellen in unterschiedlichem Maße aktiv. Genetische Veränderungen in somatischen Zellen können individuell nur über den Vergleich mit gesunden Zellen der gleichen Person festgestellt werden. Zum anderen können mit der sich ständig weiterentwickelnden Sequenzier- und Datenspeichertechnologie genetische Daten in immer größerer Detailgenauigkeit aus einzelnen Zellen ausgelesen werden. Die entstehenden Datensätze sind sehr groß. Um die genetischen Veränderungen bei der Entstehung und Entwicklung von Krebserkrankungen zu verstehen, werden seit Jahren weltweit immer genauere genetische Daten bis auf molekularer Ebene aus einzelnen gesunden und veränderten Zellen von Krebspatient/innen ausgelesen, verglichen, Abweichungen erfasst und kartiert und so schrittweise tumorspezifischer genetischer Fingerabdrücke erstellt. Spezifische datenanalytische Verfahren sind zwingend erforderlich, um Auffälligkeiten, Übereinstimmungen oder Muster zu finden und wiederzuerkennen. Erkenntnisse aus der Grundlagenforschung finden zunehmend ihren Weg in die Anwendung, u. a. zur spezifischeren Therapieplanung oder genaueren Krankheitsprognostik. Prognostische Multigentests Bei Brustkrebserkrankungen werden seit Jahren im Rahmen klinischer Studien zusätzlich zur klassischen Befundung und Diagnostik umfangreiche genetische Daten erfasst, die Behandlung dokumentiert und der Krankheitsverlauf über längere Zeit beobachtet. Ein Data-Mining-Ansatz beruht auf der Idee, anhand des Krankheitsverlaufs die Aggressivität des Tumors zu klassifizieren und im Anschluss in den genetischen Datensätzen der Patientinnen der einzelnen Klassen nach spezifischen Mustern, Häufungen und Unterschieden zu suchen. Mit einem solchen Vorgehen haben u. a. van 't Veer et al. (2002) 70 genetische Veränderungen und Paik et al. (2004) 21 genetische Veränderungen aus Forschungsdaten in unterschiedlichen Gruppen von Brustkrebspatientinnen herausgefiltert, die sie als einen zusätzlichen Indikator für die Tumoraggressivität bewerten. Diese genetischen Auffälligkeiten sind das primäre Ergebnis des Data-Mining-Prozesses (ähnlich wie ermittelten Alltagskriterien im ersten Anwendungsbeispiel, die ein erhöhtes Erkrankungsrisiko indizieren). Um dieses Data-Mining-Ergebnis im Rahmen der Behandlung nutzbar machen und auf neue Patientinnen anwenden zu können, reicht keine Checkliste. Vielmehr hat jedes Team einen Multigentest entwickelt, der anzeigt, ob die jeweils definierten brustkrebstypischen genetischen Veränderungen in den Tumorzellen neuer Patientinnen auftreten und wenn ja, wie aktiv sie sind. Anhand des Testergebnisses könne auf die voraussichtliche Entwicklung des Tumors der neuen Patientin geschlossen und das Rückfallrisiko nach erfolgreicher Brustkrebsoperation abgeschätzt werden. Das Testergebnis könne als ein zusätzlicher Indikator zur Prognose der Krankheitsentwicklung herangezogenen werden und die Entscheidung für oder gegen eine ergänzende Chemotherapie nach erfolgreicher vollständiger operativer Entfernung eines Mammakarzinoms im Frühstadium unterstützen (Abb. 4.3). Abb. 4.3 Schematische Darstellung prognostischer Multigentests Eigene Darstellung Kern dieser Multigentests sind Microarrays mit unterschiedlichen Feldern. Jedes Feld ist mit einem spezifischen Genfragment bestückt. Für den Test werden aus dem Tumorgewebe einer Patientin erst einzelne Zellen und dann die darin enthaltene mRNA isoliert. Letztere wird mit einem Floureszenzfarbstoff markiert. Die markierte mRNA wird mit dem Array zusammengebracht. Komplementäre mRNA bindet an einzelne Felder des Arrays, der Rest wird ausgewaschen. Eine hochauflösende Laserkamera nimmt die Intensität und die Wellenlänge der Farbe jeder Position auf – es entsteht ein Genexpressionsmuster. Das erzeugte Muster einer neuen Tumorzelle wird mit den jeweiligen Originalmustern verglichen und anhand der Übereinstimmungen bzw. Abweichungen auf die Existenz und Aktivität definierter genetischer Veränderungen und in Folge auf das Rückfallrisiko der Patientin geschlossen (Abb. 4.3). Derartige Tests sind rechtlich In-vitro-Diagnostika bzw. Medizinprodukte hoher Risikoklassen (Kap. 4.2). Für die Zertifizierung reichte es bisher, die Leistung anhand retrospektiver Datenanalysen nachzuweisen. Dazu wird von Patientinnen, die vor Jahren an Brustkrebs erkrankten und bei denen man die Behandlungsform und die Rezidiventwicklung kennt, rückwirkend das Genexpressionsmuster anhand des in Biobanken konservierten Tumormaterials analysiert und das Rückfallrisiko bewertet und im Anschluss geprüft, inwiefern diese Bewertung aus heutiger Sicht richtig war. Zudem starten prospektive klinische Studien, in denen in einer Gruppe der Test zusätzlich zur etablierten Risikoabschätzung anhand klinischer Prognosefaktoren (Alter der Patientin, Tumorgröße Befunde der Gewebeuntersuchungen) eingesetzt wurde und in der anderen nicht. Anhand der weiteren Krankheitsentwicklung können dann Leistung und Nutzen dieserart datenbasierter Tests prospektiv bewertet werden. Solche Studien dauern jedoch meist sehr lange (Rezidive entstehen oftmals erst nach Jahren). Zwar sind unterschiedliche Multigentests zur Bewertung der Tumoraggressivität sowohl in den USA als auch in Europa und Deutschland zertifiziert und marktverfügbar, der Nutzen dieserart Risikoklassifizierung wird jedoch seit Jahren kontrovers zwischen Testanbietenden, medizinischen Fachgesellschaften, Prüfeinrichtungen und Kostenträgern diskutiert. Dadurch war und ist die Integration dieser auf komplexen Annahmen und Datenanalysen beruhenden Tests in medizinische Versorgung ein langer Weg. In den ersten Jahren kam es sowohl auf die behandelnde Einrichtung an, ob sie einen Multigentest für angemessen hielt und einen Kostenübernahmeantrag stellte, als auch auf die jeweilige Krankenkasse, ob sie die diesem Antrag stattgab (ausführlich in Wilkens 2017). Auch die Beauftragung des Instituts für Qualität und Wirtschaftlichkeit im Gesundheitswesen (IQWiG) brachte keine Klarheit bezüglich des Zusatznutzens etlicher zugelassener Tests. Vielmehr ist ein jahrelanger Methodenstreit um die Qualität einzelner Studien und die Aussagekraft von Zwischenergebnissen entbrannt. Anders als die US-amerikanischen und britischen Institutionen, die vorgelegte Studien und der Ergebnisse weitgehend akzeptierten und einen Zusatznutzen anerkannten, bewertete das IQWiG die Qualität der meisten vorgelegten klinischen Studien als unzureichend und sah keine ausreichend verlässlichen Belege für die Anerkennung eines Zusatznutzens (IQWiG 2016, 2018, 2020). Auch nationale Fachgesellschaften haben sich intensiv mit den methodischen Vorgehensweisen und den Argumenten zu den jeweiligen Bewertungen auseinandergesetzt. Bisher lassen sie eine Empfehlung offen (DKG et al. 2021, S. 126 ff.). Der G-BA als oberstes Entscheidungsgremium hat 2020 eine Kostenübernahme in engen Grenzen beschlossen (G-BA 2020). In der Begründung wird darauf hingewiesen, dass die Tests nur Wahrscheinlichkeiten über ein Rückfallrisiko ermitteln und nur ergänzende Informationen für Fachärzt/innen liefern, eine Behandlungsempfehlung jedoch in deren Verantwortungsbereich liegen. Die Testergebnisse könnten weder eindeutig klären, welche Frau eine Chemotherapie benötigt noch liefern sie verlässliche Vorhersagen, ob eine bestimmte Frau tatsächlich einen Rückfall haben wird oder nicht noch nicht. Einschätzung Die Suche nach Strukturen und Mustern in genetischen Daten ist analytisch anspruchsvoll und komplex. Besondere Herausforderungen ergeben sich, wenn derartige Muster für prognostische Verfahren verwendet werden, die relativ weit in der Zukunft liegende Ereignisse antizipieren. Betrachtet man den Data-Mining-Prozess im Anwendungsbeispiel im engen Sinn, führte er lediglich zu Informationen über genetische Veränderungen, die bei aggressiven Brustkrebsformen häufig – aber nicht immer – auftreten. Diese Ergebnisse wurden zunächst fachlich diskutiert und geprüft (Data-Mining zur Wissenserweiterung). Gesellschaftliche Herausforderungen und Folgen ergeben sich erst, wenn jenseits der Wissenserweiterung auch mögliche Anwendungsszenarien in den Blick genommen werden (Nutzung von Data-Mining-Ergebnissen). Im Anwendungsbeispiel mündeten die Data-Mining-Ergebnisse in die Entwicklung von Medizinprodukten bzw. in-vitro-Diagnostika hoher Risikoklassen. Für diese müssen gesundheitsbezogene Sicherheit, Leistungsfähigkeit und Nutzen im Rahmen der Produktentwicklung, also unter Laborbedingungen bzw. mittels klinischer Studien, nachgewiesen werden (3 Hürden für die Zertifizierung bzw. das Inverkehrbringen). Für die Aufnahme in die GKV-Leistungskataloge werden zudem (Zusatz-)Nutzenbelege unter Anwendungsbedingungen gefordert (4. Hürde des ersten Gesundheitsmarktes). Wie bereits bei CAD-Systemen zur Bildbefundung deutlich wurde, sind dafür national eigenständige Standards und Qualitätsanforderungen maßgeblich. Die in Deutschland über Jahre geführte kontroverse Debatte zur Nutzenbewertung von prognostischen Multigentests hat gezeigt, dass es national unterschiedliche Positionen und Meinungen gibt, welche methodischen Standards gelten und erfüllt werden sollten, um derartige Medizinprodukte hoher Risikoklassen in die Erstattungsfähigkeit der GKV zu bringen. Dazu müssen bisher explizite prospektive klinische Studien durchgeführt werden. Wenn es gelänge, entsprechende Daten aus den Krebsregistern zeitnah bereitzustellen, könnten diese eine zusätzliche Datengrundlage zur Nutzenbewertung darstellen. Um Herstellern von datenbasierten Werkzeugen zur Diagnose und Behandlung von Krankheiten mehr Planungssicherheit im Innovationsprozess zu geben, werden nicht nur für die Zertifizierung, sondern auch für die Aufnahme in den GKV-Leistungskatalog Leitlinien, einheitliche Qualitätsanforderungen und methodische Standards gefordert. Im 2020 verabschiedeten Digitale-Versorgungs-Gesetz wurden für Medizinprodukte niedriger Risikoklassen bereits Verfahren definiert und Prozesse gestrafft, sodass diese schneller in die Regelanwendung gelangen können. Für risikoreiche datenbasierte Werkzeuge zur Diagnose und Behandlung von Krankheiten sollten die Prozesse zur Integration in die Regelversorgung ebenfalls gestrafft werden. Neben der Kontroverse um den Zusatznutzen(nachweis) einzelner Tests wird mitunter auch kontrovers diskutiert, dass Verfahren in den GKV-Leistungskatalog aufgenommen werden, in deren Rahmen genetische Daten von GKV-Versicherten bei Firmen außerhalb der EU erhoben, gespeichert und (weiter)verwendet werden (Beerheide 2019). Tumor-Genomsequenzierung – Big Data in Forschung und Anwendung Im Rahmen des 2008 gestarteten International Cancer Genome Consortium (ICGC) arbeiten führende öffentlich finanzierte Krebs- und Genomforschungseinrichtungen aus 16 Ländern, darunter das Deutsche Krebsforschungszentrum (DKFZ) und das NCT gemeinsam daran, die somatischen Anomalien auf genetischer, epigenetischer und transkriptomischer Ebene (alle DNA- und RNA-Veränderungen) von 50 Krebsarten (darunter Brustkrebs) jeweils anhand von 500 Tumorpatient/innen nach einheitlichen Standards zu kartieren. Diverse Richtlinien definieren die notwendigen Qualitätskriterien, sichern hohe Datenschutzstandards, die schnelle organisatorische Datenfreigabe und den freien Zugang über Treuhandstrukturen für qualifizierte Forscher/innen sowie die freie Verfügbarkeit von publizierten Analyseergebnissen über die ICGC-Internetseiten ab (Open Data und Open Access in der medizinischen Forschung). Die Erwartungen an dieses Projekt waren und sind groß: Wichtige onkogenetische Veränderungen und deren Entwicklungsstufen sollen aufgedeckt, klinisch relevante Subtypen für Prognosen und individualisiertere Therapieformen definiert sowie bessere Wege zur Diagnose, Behandlung und Prävention vieler Krebsarten entwickelt werden. Die Datenerhebung des ICGC läuft seit mehr als 10 Jahren. Die ursprünglich favorisierte IT-Architektur mit weltweit 8 Datenrepositorien, darunter eines in Heidelberg, und die Notwendigkeit des Datendownloads für die Analyse begrenzen jedoch die Nutzung der Genomdatensätze, zumal jedes der durchgeführten Krebskartierungsprojekte mehrere Petabyte große Datensätze liefert.116 Nur wenige Institutionen weltweit haben die Kapazität, diese immensen Datensätze für eigene Analysen herunterzuladen. Um den Zugang zur genetischen Datenbank des ICGC zu verbessern, wurden 2015 erstmals ca. 5 % der 25.000 Krebsgenomdatensätze vollständig verschlüsselt in die Cloud von Amazon Web Services gestellt. Für autorisierte Forschende sind direkte Datenanalysen ohne Datendownload über die Seven-Bridges-Plattform möglich, über die Spezialsoftware für die Analyse großer genetischer Datensätze bereitgestellt wird.117 Inzwischen kann auch eine in Kanada initiierte akademische Forschungscloud für die Speicherung und Analyse eines weiteren Teildatensatzes genutzt werden. Anhand dieser Daten können unterschiedliche Wissenschaftskonsortien mit speziellen mathematischen Verfahren (u. a. Mutationssignaturanalysen) die somatische Genetik unterschiedlicher Krebsformen einschließlich epigenetischer und transkriptomischer Prozesse zunehmend besser nachvollziehen. Für Brustkrebs wurden durch den Vergleich von gesunden und Tumorzellen von mehr als 500 Patientinnen bisher 3,5 Mio. substituierte Basenpaare und 78.000 genetische Umstrukturierungen herausdestilliert (Brinkman et al. 2019). Das Konsortium erstellte ein Register aller beobachteten somatischen Mutationen von 21 Brustkrebsarten. 900 Veränderungen bewerten sie als möglicherweise relevant für die Tumorentwicklung, 93 seien hochrelevant (sogenannte Treibermutationen). Bei unklarer Befundlage (gutartige Zyste oder bösartige Gewebeveränderung) könnte die Existenz solcher Treibermutationen die Brustkrebsdiagnose auslösen. Die entstehenden ICGC-Tumormutationsregister mit den jeweiligen Bewertungen sind ein Kernelement für neue Formen der datenbasierten molekularen Tumordiagnostik. Sie bilden den Datengrundstock für spezialisierte Krebsdiagnostikdienstleister: Molecular Health GmbH (2004 in Heidelberg gegründet) nutzt die Tumormutationsregister und erweitert die Datenbank kontinuierlich um einschlägige Studienergebnisse zur Wirksamkeit und zu Nebenwirkungen von diversen therapeutischen Ansätzen, die sie von Fachkräften bewerten und zuordnen lassen (Karlberg 2018). Die von der Firma entwickelte cloudbasierte Plattformtechnologie »Molecular Health Guide« können Fachärzt/innen bzw. Tumorboards nutzen, um den genetischen Datensatz eines neuen Tumorpatienten mit den Registerdaten zu vergleichen, interaktiv zu analysieren und sich einen Report mit Therapieoptionen erstellen zu lassen. Dieser Report enthält laut Hersteller u. a. evidenzbasierte Informationen zu Biomarkern, Arzneimitteln und ihren Wechselwirkungen sowie Hinweise zu passenden klinischen Studien. Laut Herstellerangaben würde technisch im Grunde nichts anderes gemacht werden, als das, was Ärzt/innen tagtäglich tun – nur systematischer und schneller. 2017 wurde dieser Ansatz mit dem deutschen Leader Award »Sonderpreis Disruption« ausgezeichnet.118 Das Verfahren zur automatisierten Erkennung und Klassifikation von genetischen Mutationen ist als In-vitro- Diagnostikum zertifiziert. Die digital unterstützte Interpretation der Analyseergebnisse und die Reports mit Therapieoptionen für behandelnde Ärzt/innen gehen über die eigentliche Befundung genetischer Daten hinaus und können als medizinisches Entscheidungsunterstützungssystem aufgefasst werden (siehe unten). Inwiefern dieses medizinisch nützlich ist, wird untersucht. Im März 2018 startete der Anbieter zusammen mit der Charité und zwei GKK ein erstes Projekt zur Nutzenbewertung in Bezug auf Therapieempfehlungen für Kinder, die nach der ersten Tumorstandardtherapie ein Rezidiv erlitten. Die genetische Diagnostik wird an der Charité durchgeführt, die GKK tragen die Kosten. Die Analyseergebnisse werden in einer ersten Sitzung des Tumorboards bewertet und das weitere therapeutische Vorgehen besprochen und vereinbart. Danach werden mit dem »Molecular Health Guide« die Daten aus der Tumorgenomsequenzierung analysiert und der Report mit möglichen Therapieoptionen maschinell erstellt. In einer zweiten Sitzung des Tumorboards werden die Ergebnisse und Therapieempfehlungen aus beiden Vorgehensweisen miteinander verglichen. Inzwischen hat sich die Nützlichkeit dieses Verfahrens sowohl bei pädiatrischen Tumoren als auch bei Eierstockkrebs bestätigt, bei anderen Krebsarten laufen Untersuchungen. Erste individuelle Erstattungsverträge zwischen einzelnen Krankenhäusern und Krankenkassen werden vereinbart. Dies ist der erste Schritt in die GKV-Versorgung. Sophia Genetics S.A. (2011 in der Schweiz gegründet)119 nutzt einen ähnlichen Ansatz. Auch diese Firma ergänzt die Daten der Tumormutationsregister kontinuierlich um Zusatzinformationen (u. a. zu Patogenitätsklassen, Therapieoptionen, med. Publikationen) und nutzt eine firmeneigene Cloud, mit der in den Daten aus der Tumorgenomsequenzierung von Krebspatient/innen nach bekannten genetischen Mutationen gesucht werden kann. Zur genauen genetischen Diagnostik gehört auch die Zuordnung zu vordefinierten Patogenitätsklassen. Die 116 1 Petabyte entspricht dem Datenvolumen von 223.000 DVDs. 117 www.sevenbridges.com (10.11.2021) 118 www.molecularhealth.com/de/2017/07/01/charite-tk-und-molecular-health/ (10.11.2021) 119 https://www.sophiagenetics.com/company/about-us/ (10.11.2021) dafür eingesetzten Algorithmen sind als In-vitro-Diagnostika zertifiziert. Bei der Patogenitätszuordnung erreichen sie laut Herstellerangaben eine nahezu 100 %ige Sensitivität und Spezifität. Auch dieser Dienstleister bietet zusätzliche Hinweise zu erfolgversprechenden Therapieoptionen. Zudem können auch bisher unbekannte genetische Mutationen in die Datenbank aufgenommen werden, um sie perspektivisch bei der Interpretation weiterer Datensätze berücksichtigen zu können. Laut Anbieter nutzen den Diagnoseservice inzwischen mehr als 1.000 Krankenhäuser in 77 Ländern (Stand November 2021). Genetische Datensätze von hunderttausenden Patient/innen wurden bereits prozessiert. Für die jeweiligen Krankenhäuser sinkt der Aufwand für die Befundung genetischer Datensätze erheblich. Von den medizinischen Fachgesellschaften wird zunehmend anerkannt, dass sich bei sehr seltenen Krebserkrankungen oder wenn bewährte Behandlungsmöglichkeiten ausgeschöpft sind, durch Tumorgenomanalysen zusätzliche Therapieansätze ergeben können (dkfz 2020). Als »Neue Untersuchungs- und Behandlungsmethode« sollen sie schrittweise in das Leistungsabrechnungssystem des stationären Bereichs integriert werden. Einschätzung Der kontinuierliche Ausbau von Datenbeständen, die Anreicherung durch zusätzliche Informationen, die Klassifikation einzelner Elemente, der Abgleich und die Bewertung neuer Datensätze sind typische Vorgehensweisen digitaler Geschäftsmodelle. Das Marktsegment der Analyse genetischer Daten wird dafür zunehmend relevant. Wie in etlichen Bereichen der Plattformökonomie, wird derjenige, der die umfangreichsten Datenbestände aufbauen, klassifizieren und mit Zusatzinformationen anreichern kann, die besten Möglichkeiten haben, mittels automatisierter Analysen zusätzliche Informationsdienste für behandelnde Ärzt/innen bzw. medizinische Einrichtungen entwickeln und anbieten zu können. Diese Services sind mehr als bloße In-vitro-Diagnostika. Man bezeichnet sie teilweise als medizinische Entscheidungsunterstützungs- oder Assistenzsysteme. Erste Systeme zur Tumorspezialdiagnostik schaffen den Schritt von der experimentellen Anwendung in die Versorgung. 4.3.4 Medizinische Assistenzsysteme Die Vision der Entwicklung von Computerprogrammen, die unter Verwendung von Patientendaten und medizinischen Wissens Ärzt/innen bei ihrer Arbeit unterstützen, gibt es seit vielen Jahren (Shortliffe 1987). Ursprünglich wurden sie als medizinische Expertensysteme bezeichnet und grob in drei Kategorien unterteilt (Gamper/ Steimann 1996): › Informationsmanagementsysteme zielen einerseits auf eine benutzerfreundliche Verwaltung und Aufbereitung von Daten und Informationen (PIS/KIS; medizinische Bibliografien), sodass diese von medizinischen Fachkräften schnell erfasst werden können. Andererseits sollen damit administrative Prozesse unterstützt werden. › Systeme zur Fokussierung der Aufmerksamkeit sollen auffällige Werte erkennen und hervorheben (z. B. Laborsysteme), bei der Medikation und beim Behandlungsablauf assistieren (z. B. auf Kontraindikationen hinweisen) oder durch Überwachungs- und Erinnerungsfunktionen die Therapietreue [Compliance] unterstützen. › Entscheidungsunterstützungssysteme zielen drauf ab, anhand patientenbezogener Daten und einer medizinischen Wissensbasis nicht nur Analyseergebnisse zu bewerten, sondern auch Diagnosen vorzuschlagen, beste Behandlungsoptionen zu berechnen und/oder geeignete Therapien zu empfehlen. Die ersten beiden Kategorien gelten seit Jahren als technisch machbar, teilweise als realisiert, auch wenn sie kontinuierlich weiterentwickelt werden. Im Routineeinsatz sind seit Jahren z. B. weitgehend automatisiert ablaufende Programme zur EKG- und Blutgasanalyse oder zum Test von Lungenfunktionen (Pfeffer 2002). Entscheidungsunterstützungssysteme zielen darauf ab, nicht nur bei Einzelaktivitäten wie z. B. bei der Bildbefundung zu unterstützen, sondern auch komplexere medizinische Aufgaben zu realisieren. Sie gleichen Daten eines neuen Patienten mit krankheitsspezifischen Daten- und Wissensbeständen ab. Dafür nutzen sie unterschiedliche analytische Verfahren. Die Spanne reicht von relationalen Verknüpfungen (klassische symbolische Verfahren) über Wahrscheinlichkeitsnetze bis zu maschinellen Lernverfahren und trainierten KNN. Sie gelten als präziser als Universalsuchmaschinen wie z. B. Google (Tab. 4.1). Tab. 4.1 Programme zur Unterstützung med. Entscheidungen (Auswahl) Name Assistenz bei Anmerkungen Leistungsbewertung MYCIN (1970er Jahre) Nachfolger: GIDEON (kein Routineeinsatz) Therapie: Antibiotikaauswahl bei Infektionen erste Software dieser Art; nutzte maschinelle Lernverfahren 70 % Trefferquote INTERNIST (1979) Nachfolger: CADUCEUS Diagnose: innere Medizin (1.000 Krankheiten) nutzte ähnliches maschinelles Lernverfahren wie MYCIN DXplain (1980er Jahre) Diagnose: Allgemeinmedizin (2.400 Krankheiten) relationale Verknüpfung von 5.000 Symptomen/Befunden mit Krankheiten mit Wahrscheinlichkeitsranking 3,45* (im Mittel) Mole-Analyzer (1998 für Ärzte/innen) Diagnose: Hautkrebsvorsorge Klassische symbolische Verfahren zur Bilderkennung u. -bewertung 80–88 % Isabel (2000 für Ärzt/innen; 2012 für Patient/innen) Diagnose: Symptomchecker semantische Suchmaschine anhand med. Lehrbücher werden zu Symptomen Diagnosen gesucht 3,45* (im Mittel) Phenomizer (2009 für Ärzt/innen) Diagnose: seltene Erkrankungen relationale Verknüpfung von Bildern, genetischen Daten und Symptomen (Human Phenotype Ontology – HPO) mit 7.500 Erbkrankheiten, priorisiert wahrscheinlichste Diagnosen Face2Gene (2015 für Ärzt/innen) Diagnose: seltene Erkrankungen nutzt masch. Lernverfahren weist Patientenfotos mögliche HPO-Symptome zu Watson for Oncology (2014 für Ärzt/innen) Diagnose/ Therapie: Onkologie semantische Suchmaschine sucht in med. Bibliografien und Patientenakten Ähnlichkeiten zu neuen Fällen Ada (2016 für Patient/innen) Diagnose: Symptomchecker Allgemeinmedizin nutzt maschinelle Lernverfahren, stellt zielgerichtete Anamnesefragen und schlägt nächste Schritte ggf. Arztbesuche vor besser als andere Apps * Score: 0–4: falsch bis sehr ähnliche Diagnose, 5: richtige Diagnose Quellen: Bitkom 2015, S. 69 ff.; Bond et al. 2012; Gäßner 2002; Karlberg 2018; Köhler et al. 2009; Lenzen-Schulte 2017; Lüdtke 2002; Puppe 2014; Ross/Swetlitz 2017; https://ada.com/de; www.fdna.com; www.medaware.com; www.moleanalyzer.com (10.11.2021) Die erste Generation von Expertensystemes lief auf Großrechnern und basierte auf umfangreichen Abfragen und Dateneingaben (z. B. MYCIN, INTERNIST [Tab. 4.1]). Die zweite Generation erleichterte die Interaktion mit grafischen Benutzeroberflächen bereits deutlich (z. B. DXplain). Um den Benutzeraufwand weiter zu senken, setzt die dritte Generation derzeit teilweise auf Spracherkennung und semantische Suchmaschinen120 (z. B. Isabel, Watson). Einige neuere Services bieten mobile Anwendungen (z. B. Isabel, PhenIX). In der Regel werden Entscheidungsunterstützungssysteme für Ärzt/innen konzipiert. Einige Entwickler/innen sprechen mit ihren Services zum Teil auch medizinische Laien an (Direct-to-Consumer-Services, wie z. B. Ada) quasi als niedrigschwellige Erstfilter, die Symptome checken und bei der Entscheidung assistieren, ob Ärzt/innen konsultiert werden sollten. Die Watson-Initiative von IBM 2012 startete IBM medienwirksam die Watson-Initiative. Nachdem die semantische Suchmaschine »Watson« in einer US-amerikanischen Quizshow natürlichsprachliche Anfragen besser beantwortet hatte als die menschlichen Quizteilnehmer, wollte IBM u. a. mit »Watson for Oncology«121 die Krebsbehandlung weltweit revolutionieren. In einer Kooperation mit dem New Yorker Memorial Sloan Kettering Cancer Center (MSKCC), eine der renommiertesten US-amerikanischen Krebskliniken, begann man deren Wissensbestände, festgehalten in Patientenakten, med. Unterlagen, klinikeigenen Behandlungsleitlinien und Kontraindikationen bis hin zu Dokumentationen und Datensätzen aus zahlreichen klinischen Studien und fachspezifischen Publikationen aufzubereiten und einzulesen. Um sich bei einem neuen Tumorfall Rat bezüglich Diagnose und Behandlung holen zu können, muss dessen Patientenakte in vorgegebenen Formaten eingelesen werden. Zur genauen Methodik und den eingesetzten Verfahren der Datenverarbeitung, die dann Diagnose- und Behandlungsempfehlungen generieren, ist öffentlich nicht viel bekannt. Laut Bitkom (2015, S. 69 ff.) wird die semantische Suchmaschine darauf trainiert, mündlich geäußerte Fragen von Ärzt/innen sinngemäß zu erkennen und dann Empfehlungen gegebenenfalls mit Unsicherheiten und Begründungen auszugeben. IBM bietet die Nutzung des Assistenzsystems Krankenhäusern weltweit an (Nutzungsgebühr pro Tumorfall je nach Leistungsumfang zwischen 200 und 1.000 US-Dollar) (Ross/Swetlitz 2017). Teilnehmende Kliniken übermitteln Patientenakten mit möglichst umfangreicher Krankengeschichte, Gesundheitszustandsbeschreibung und gegebenenfalls existierenden Behandlungspräferenzen. Je nach vereinbartem Leistungsumfang erhalten sie Diagnose- und Therapieempfehlungen mit möglicherweise existierenden Begründungen und Fachpublikationen. Im Standardfall basieren die generierten Empfehlungen auf den von der New Yorker Klinik eingelesenen Daten, Dokumenten und deren Behandlungsleitlinien. Wenn in den vergangenen Jahren datenanalytische Verfahren mit einem Potenzial für große Veränderungen in der Medizin thematisiert wurden, wurde regelmäßig auch die IBM-Watson-Initiative genannt (z. B. Akademien der Wissenschaften Schweiz 2015, S. 28 f.; Bitkom 2015, S. 69 ff.). Denn für zwei allgemeine Herausforderungen im medizinischen Alltag wurde eine technische Lösung versprochen: Eine adressiert das allgemeine Big-Data- Problem, dass immer größere Datenbestände in unterschiedlichen Formaten generiert werden. Die andere adressiert die angeblich rasante Zunahme medizinischen Wissens (regelmäßig veranschaulicht anhand der Flut medizinischer Publikationen durch PubMed-Neueinträge). Protagonist/innen argumentieren, dass beide Datenbestände maschinell schneller gescannt und verarbeitet werden können, als durch Menschen. Der Nutzen für eine bessere Behandlung von gravierenden Krankheiten läge dann auf der Hand. Eine maschinelle Analyse spare Ärzt/innen Zeit und ermögliche auch in Krankenhäusern mit begrenztem eigenem Fachkräftestab eine schnelle und medizinisch hochwertige Diagnose und Behandlungsplanung. Kritiker/innen wiesen darauf hin, dass für »Watson for Oncology« weder Leistungsnachweise noch der postulierte Nutzen belegt und bewertet wurde. Aufgrund der fehlenden Nutzenbelege befragten Ross/Swetlitz (2017) weltweit Fachkräfte, die im IBM-Watson-Team arbeiten, die maschinelle Lernverfahren entwickeln und die Tumorpatient/innen behandeln und »Watson for Oncology« im klinischen Alltag ausprobierten, nach ihren Einschätzungen. Diese fielen wohl auch aufgrund der anfangs geschürten hohen Erwartungen eher ernüchternd aus. Die ursprünglich anvisierten großen Veränderungen in der Krebsbehandlung konnten bisher noch nicht realisiert werden (He 2020; Jie et al. 2021). Mitglieder des IBM- Watson-Teams gaben zu, dass das Assistenzsystem noch immer in den Kinderschuhen stecke. Der Aufwand, den 120 Semantische Suchmaschinen versuchen, den Sinn (Semantik) natürlichsprachlicher Anfragen zu erfassen und suchen in einem definierten Datenbestand nach passenden Antworten. Teilweise auch als kognitive Systeme oder kognitives Computing bezeichnet. Behauptet wird, dass der Computer Sprache versteht und z. B. die Relevanz von Fachartikeln für eine Diagnose erkennen und Therapieempfehlungen nebst Begründung liefern könne (Bitkom 2015). 121 www.mskcc.org/blog/mskcc-and-ibm-will-collaborate-powerful-new-medical-technology (10.11.2021) medizinische, datenverarbeitende und IT-Expert/innen seit Jahren erbringen, um »Watson for Oncology« in einzelnen Krebsarten kontinuierlich auf dem neuesten Stand des Wissens zu halten, sei nach wie vor erheblich. Kritiker/innen vermuten inzwischen, dass die Daten weit weniger intelligent verarbeitet werden, als die IBM- Marketingabteilung suggeriert. Zwar werden maschinelle Lernverfahren zur Spracherkennung eingesetzt, vermutet wird aber, dass die Diagnose- und Therapieempfehlungen weniger auf maschinellen Lernverfahren und kontinuierlichem Training beruhen, sondern vielmehr die vorgegebenen medizinischen Algorithmen der Behandlungsleitlinien des New Yorker Krankenhauses wiedergeben. Mitunter wird »Watson for Oncology« als »MSKCC in einer tragbaren Box« bezeichnet mit dem Problem, dass die Situation einer US-amerikanischen Hightech-Klinik nicht unbedingt mit der von Kliniken in anderen Ländern übereinstimmt. Insbesondere Kliniken in anderen Industrieländern stellen den Nutzen dieser Vorgehensweise in Frage. Zum einen gibt es dort vielfältige hochspezialisierte Fachkräfte, die gerade bei häufigen Krebsarten über umfangreiches Wissen verfügen und die tendenziell eher bei unklaren Befundlagen und seltenen Tumorerkrankungen zusätzliche Assistenz als nützlich bewerten dürften. Vorrangiges Ziel der Watson-Entwicklung sei es aber, ein Assistenzsystem zur Behandlung der häufigsten Krebsarten bereitzustellen. Zum zweiten behandeln diese Kliniken nicht nach US-amerikanischen Leitlinien. Ross/Swetlitz (2017) verweisen auf Pilotprojekte in niederländischen und dänischen Kliniken, bei denen »Watson for Oncology« nur in 33 % der Fälle zu den gleichen Diagnose- und Therapieempfehlungen kam wie die jeweiligen Tumorboards und man in Folge dort auf das Assistenzsystem wieder verzichtete. Aus Südkorea wurde berichtet, dass »Watson for Oncology« Tests und Behandlungen empfahl, die dort teilweise gar nicht zugelassen oder nicht im Leistungskatalog der nationalen Krankenversicherungen enthalten waren. Etwas positiver fielen die Einschätzungen des Klinikpersonals aus Thailand oder der Mongolei aus, die zumindest die schnellen Rückmeldungen und die jeweiligen Begründungen nützlich fanden. Jedoch seien die Therapieempfehlungen auf nordamerikanische Tumorpatient/innen abgestimmt, nicht auf die jeweils heimische Bevölkerung mit teilweise abweichenden Stoffwechselprozessen. Mengenangaben für Therapeutika seien nicht einfach übertragbar. Eine erste diesbezügliche systematische Literaturrecherche in den weltweit relevantesten medizinischen Literaturdatenbanken und die Meta-Analyse der extrahierten 9 Publikationen aus dem asiatischen Raum bestätigte diese Einschätzungen im Wesentlichen (Jie et al. 2021): Je schwerwiegender die Krebserkrankungen waren, desto weniger stimmten die Behandlungsempfehlungen, die Watson for Oncology gab, mit denen von Tumorboards überein. In den Industrieländern werden die fehlenden Leistungs- und Nutzenbewertungen bei Assistenzsystemen mit dieser medizinischen Tragweite als höchst kritisch angesehen. Rechtlich sind es zertifizierungspflichtige Medizinprodukte höchster Risikoklasse (Kap. 4.2). Der experimentelle Einsatz nichtzugelassener Medizinprodukte entspricht außerhalb von genehmigungspflichtigen klinischen Studien nicht einer dem anerkannten Stand der medizinischen Wissenschaft entsprechenden Behandlung. Für die Zertifizierung müssten Hersteller Sicherheit, Leistung und Nutzen der Verfahren nachweisen. Für derartig breite Ansätze gibt es bisher kaum methodische Vorgaben. Assistenzsysteme zur Erkennung seltener Erkrankungen Bei seltenen Erkrankungen ist die derzeitige Gesamtkonstellation zur Diagnostik und Behandlung ungünstiger als bei weit verbreiteten Krankheiten: Symptome und Befunddaten sind oftmals diffuser, die bestehende Wissensbasis kleiner, Leitlinien nur begrenzt erarbeitet. Da diese Krankheiten selten auftreten, begegnen primärversorgende Ärzt/innen diesen nur sehr selten. Statt eine umfangreiche Spezialdiagnostik anzuordnen, werden Symptome häufiger vorkommenden Krankheiten zugeordnet und zunächst versucht, diese zu therapieren. Oft dauert es vergleichsweise lange, bis wegen ausbleibenden Therapieerfolgs hochspezialisierte Fachärzt/innen eingeschaltet werden und selbst diesen fällt es oft nicht leicht, seltene Erkrankungen sofort richtig zu diagnostizieren (Gillessen- Kaesbach et al. 2016). Ein Assistenzsystem, das auf eine möglicherweise vorliegende seltene Erkrankung hinweist, könnte diesen Zeitraum bis zur Diagnose möglicherweise verkürzen und damit einen gesundheitsbezogenen Nutzen generieren. Unterschiedliche Teams arbeiten an Algorithmen, die Ärzt/innen frühzeitig auf möglicherweise vorliegende seltene Erkrankungen aufmerksam machen und damit mögliche Fehlbehandlungen zu Beginn vermeiden und den Zeitraum bis zur richtigen Diagnose verkürzen sollen. Das Assistenzsystem »Phenomizer« nutzt die »Human Phenotype Ontology« (HPO), eine an der Charité entwickelte Onlinedatenbank, in der mehr als 10.000 Symptome mit 7.500 seltenen Erbkrankheiten verknüpft sind. Der Algorithmus durchsucht und vergleicht genannte Symptome mit den in der Datenbank enthaltenen Daten und gibt eine Liste mit möglicherweise vorliegenden seltenen Erkrankungen aus. Der Nutzen dieses Vorgehens wird mit der Zeitersparnis assoziiert. Die Liste soll behandelnden Ärzt/innen helfen, die Krankheit schneller einzukreisen, zielgerichteter vorzugehen und ggf. eine genetische Spezialdiagnostik durchzuführen (Köhler et al. 2017). Face2Gene setzt bereits existierende Verfahren zur Gesichtserkennung ein und weist anhand von Patientenfotos möglicherweise vorliegende HPO-Symptome zu. Um den Trainingsdatensatz aufzubauen, wurden Menschen mit diagnostizierten seltenen Erkrankungen gebeten, Fotos (Gesicht, Füße, Hände) bereitzustellen. Mit maschinellen Lernverfahren werden KNN trainiert, Besonderheiten zu erkennen, die auf möglicherweise vorliegende Erbkrankheiten hinweisen. Nach diesen Besonderheiten wird dann auf Bildern von neuen Patientinnen gezielt gesucht. Ärzt/innen erhalten Hinweise für weitere spezialdiagnostische Untersuchungen.122 Die beispielhaft skizzierten Ansätze, die vom Erscheinungsbild einzelner Patient/innen – dem Phänotyp – ausgehend Auffälligkeiten und Symptome zuordnen, werden teilweise auch als »deep phenotyping« bezeichnet. Durch eine Typisierung des klinischen Erscheinungsbildes soll der Kreis von möglicherweise vorliegenden genetischen Veränderungen zielgerichtet eingegrenzt werden. Die Sicherheit und Leistungsfähigkeit dieser unterschiedlichen technologischen Lösungsversuche wird nach wie vor geprüft (Stand November 2021). Auch im Rahmen der Watson-Initiative hat man begonnen, seltene Erkrankungen als mögliches Einsatzgebiet zu sondieren. Ein umfangreicher englischsprachiger Wissensbestand wurde in den IBM-Watson-Explorer eingelesen. Im Oktober 2016 startete u. a. ein Pilotprojekt in Deutschland (Rhön-Klinikum/ IBM 2016). Am Zentrum für unerkannte und seltene Erkrankungen der Marburger Uniklinik wurde ein Fragebogen entwickelt, den neue Patient/innen digital beantworteten. Die Antworten wurden zusammen mit der im Vorfeld zu digitalisierenden Patientenakte und dem Anamnesebogen ohne direkt personenbezogene Merkmale an das Watson-System in der IBM-Cloud geleitet. Aus den teilweise in natürlicher Sprache auf Deutsch formulierten Antworten und den Daten der Patientenakte und des Anamnesebogens wurden zunächst wesentliche Informationen extrahiert, übersetzt und im »Cognitive Core« mit dem englischen Wissensbestand verglichen und eine Liste von fachlich belegbaren Hypothesen zur Diagnosefindung zurückgesendet. Nach einem hoffnungsvollen Beginn (Rhön-Klinikum 2017), wurde die Zusammenarbeit Ende 2017 beendet. Die Technik war für den Krankenhausalltag schlicht unbrauchbar gewesen (Balzter 2018). Ada Das Berliner Start-up Ada-Health123 begann 2011 mit der Entwicklung eines Assistenzsystems, das anhand von geschilderten Symptomen wahrscheinlichste Diagnosen vorschlägt. Ursprünglich sollte es Ärzt/innen unterstützen. 2016 änderte man den Fokus und konzipierte den Symptomchecker als App für medizinische Laien. Technische Grundlage ist eine medizinische Datenbank mit Symptombewertungen im Millionenbereich, die kontinuierlich ausgebaut wird. Laut Hersteller werden Symptome von neuen Fällen über einen dynamischen Fragenkatalog erfasst, dessen Kern ein KI-Verfahren bildet, das kontinuierlich trainiert wird, relevante weitere Symptome zu checken, wahrscheinliche Diagnosen einzugrenzen, nächste Schritte und ggf. ärztliche Konsultationen vorzuschlagen. Ziel der App sei es, allgemeine Internetrecherchen nicht aber ärztliche Konsultationen zu ersetzen. Vergleichstests mit anderen Apps zur Symptombeurteilung und mit telefonischen Konsultationen bei Hausärzt/innen zeigten, dass Ada zum einen besser war als andere sypmtomcheckende Apps und zum anderen Symptome ähnlich bewertet wurden wie in telefonischen Hausarztkonsultationen (Gilbert et al. 2020). Die App ist in Europa als Medizinprodukt der Risikoklasse 1 zertifiziert und wird inzwischen in sieben Sprachen angeboten. Ende 2018 startete das Unternehmen mit zwei namhaften Stiftungen eine Global-Health-Initiative, um in Ländern mit niedrigem und mittlerem Einkommen den Zugang zur Gesundheitsversorgung zu verbessern. Dadurch wurde u. a. auch eine App-Version in Suaheli erstellt. Ziel sei es, den Menschen mit begrenztem Zugang zu medizinischen Versorgungsstrukturen Gesundheitsberatungen anzubieten und Gesundheitspersonal vor Ort zu unterstützen (Ada 2018). In unterschiedlichen Ländern wurde Ada nach dem Start schnell als eine der besten Gesundheits-Apps bewertet. In Deutschland startete u.a. eine gesetzliche Krankenkasse eine Kooperation und integrierte die App. 2019 erhielt sie bei den German Innovation Awards Gold in der Kategorie »Excellence in Business to Consumer«. Die Prüfung der Einhaltung von Datenschutzstandards kann dabei keine herausragende Rolle gespielt haben. Denn zum einen 122 www.face2gene.com (10.11.2021) 123 https://ada.com/de/ (10.11.2021) war die Nutzung der App an die Datenübermittlung an US-amerikanische Tracking- und Analysedienstleister geknüpft. Zum anderen war Ada im Vergleich zu diversen anderen Gesundheits-Apps diejenige, die an die meisten Drittfirmen Daten übermittelte. Aufgedeckt wurde dies von einem investigativen Journalisten, nicht von der zuständigen Datenschutzaufsichtsbehörde (ausführlich Tremmel et al. 2019). Der Hersteller hat nach Bekanntwerden dieser datenschutzbezogenen Schwächen reagiert und die Datenübermittlung an Dritte beschränkt. Die GKK hat die Kooperation beendet und statt eines algorithmenbasierten Chatbots ein telemedizinisches Ärztezentrum eingerichtet und eine Kommunikations-App entwickelt, mit der Versicherte via Textchat oder (Video-) Telefonie mit den dort tätigen Ärzt/innen kommunizieren können.124 Gesamteinschätzung Assistenzsysteme Medizinischen Assistenz- oder Entscheidungsunterstützungssystemen wird teilweise ein erhebliches Potenzial unterstellt, Ärzt/innen nicht nur bei Einzelaktivitäten wie der Bildbefundung, sondern auch bei komplexen Aktivitäten zu unterstützen, bei denen sie viele Symptome und Befunde wissensbasiert zu Krankheitsdiagnosen und bei Therapieentscheidungen zusammenführen. Den Sprung in die breite Anwendung haben sie bisher kaum geschafft. Die Gründe dafür sind vielfältig (Castelvecchi 2016; Gamper/Steimann 1996; Gäßner 2002; Laursen 2016; Puppe 2014): Teilweise wird bezweifelt, dass ärztliches Vorgehen anhand von vorgegebenen Verfahrensschritten sowie Patient/innen anhand von Messwerten adäquat abgebildet werden können (Stichworte: Komplexitätsreduktion, Kochbuchmedizin). Auch würde die Datenerhebung und -aufbereitung immer mehr Ressourcen binden und die Zeit für den direkten Patientenkontakt kontinuierlich beschneiden (Dokumentationsflut). Teilweise gibt es Befürchtungen, zum Handlanger von Software degradiert zu werden (Kompetenzverlust). Teilweise werden allgemeine Argumente gegenüber maschinellen Lernverfahren genannt (intransparente Funktionsweise in Kombination mit fehlenden Indikatoren für die Richtigkeit im Einzelfall; Beeinflussbarkeit durch falsches Training), die zu Entscheidungsdilemmata führen (Behandlungsentscheidungen würden getroffen, ohne dass Begründungen, Risikofaktoren etc. dargestellt werden) und Fragen zur Arzthaftung aufwerfen. In der Summe können die Gründe für die bisherige Ablehnung mit einem nicht ersichtlichen Nutzen bei der täglichen Arbeit und einer überwiegenden Skepsis insbesondere bei erfahrenen Ärzt/innen zusammengefasst werden. Etliche Ressentiments ließen sich wahrscheinlich überwinden, wenn die Ergebnisqualität der Programme überzeugen könnte. In Bereichen, in denen Fachkräfte ohnehin an ihre Grenzen kommen und/oder es gesundheitsbezogene Lücken oder Defizite gibt, dürfte es leichter sein, einen gesundheitsbezogenen (Zusatz-)Nutzen zu generieren. Datenbasierte Systeme, die sich direkt an Patient/innen wenden und Arztkonsultationen teilweise ersetzen wollen, sind eine neue Servicekategorie (Stichwort Telemedizin).125 4.4 Administrative Daten: Basis vom Geschäftsprozessen Medizinische Versorgungsprozesse werden im öffentlichen Gesundheitssystem im Kern durch eine Dreiecksbeziehung geprägt. Zu ihr gehört neben der Arzt-Patienten-Beziehung im Rahmen der Behandlung auch die Geschäftsbeziehung zwischen medizinischen Einrichtungen und den Trägern des nationalen Sozialversicherungssystems (vor allem die gesetzlichen Krankenkassen [GKK]).126 Vervollständigt wird die Dreiecksbeziehung durch 124 www.tk.de/techniker/magazin/themen/spezial/das-magazin-2-19/tk-doc-app-mit-doktortitel-2074916 (10.11.2021) 125 Telemedizinische Anwendungen werden vom TAB in einem eigenständigen Projekt thematisiert: www.tab-beim-bundestag.de/de/ untersuchungen/u40600.html (10.11.2021) 126 Die medizinische Versorgung wird vor allem über Krankenversicherungen finanziert, entweder die gesetzliche Krankenversicherung (GKV; Rechtsgrundlage: Sozialgesetzbuch V – SGB V) oder private (PKV; Rechtsgrundlage: Gesetz über die Beaufsichtigung der Versicherungsunternehmen [Versicherungsaufsichtsgesetz – VAG], Gesetz über den Versicherungsvertrag [Versicherungsvertragsgesetz – VVG]). Auch die gesetzliche Unfallversicherung (GUV; Rechtsgrundlage: SGB VI), gesetzliche Rentenversicherung (GRV; Rechtsgrundlage: SGB VII) und in Einzelfällen andere Sozialversicherungen decken medizinische Leistungen finanziell ab. Jede Versicherung hat eigene Träger, die GKV z. B. mehr als 100 gesetzliche Krankenkassen (GKK). Dadurch sind das nationale Gesundheitssystem und dessen Datenhaltung stark fragmentiert. Auch wenn die unterschiedlichen Träger jeweils eigene Leistungsspektren sowie Abrechnungs- und Governancestrukturen haben, ist der durch die Sozialgesetzbücher definierte Rahmen bezüglich des Umgangs mit Daten ähnlich. Diese Fallstudie konzentriert sich wesentlich auf die datenbezogenen Strukturen und Analysemöglichkeiten, die durch die GKV geprägt werden. das Versicherungsverhältnis zwischen Patient/innen und ihren Krankenkassen (als Versicherungsträger). Medizinische Einrichtungen rechnen Leistungen, die sie für gesetzlich Versicherte Patient/innen erbringen, direkt mit deren jeweiliger Krankenkasse ab. Die Rechts- und Geschäftsbeziehungen zwischen medizinischen Einrichtungen und GKK werden durch das SGB V sowie durch diverse Einzelgesetze, nachgelagerte Ausführungsverordnungen, Verträge und Vereinbarungen im Rahmen der Selbstverwaltung definiert. Grundsätzlich muss die medizinische Versorgung der Versicherten ausreichend und zweckmäßig sein. Sie muss in der fachlich gebotenen Qualität und wirtschaftlich erbracht werden und sie darf das Maß des Notwendigen nicht überschreiten (§ 12 SGB V). Diese Vorgaben begrenzen das Spektrum medizinischer Leistungen, die medizinische Einrichtungen zu Lasten der GKV erbringen und gesetzliche Krankenkassen erstatten müssen (erster Gesundheitsmarkt). Die Einhaltung dieser Vorgaben wird auch mit umfangreichen Datenanalysen überwacht. Unterschiedliche Institutionen sind daran beteiligt. In dieser Konstellation agieren medizinische Einrichtungen als Wirtschaftsbetriebe mit aufgabenspezifischen Sonderstrukturen und kollektivvertraglichen Verpflichtungen. Medizinische Einrichtungen sind zur Erfüllung zahlreicher öffentlicher Aufgaben gesetzlich verpflichtet, definierte Datensätze zu erstellen und an unterschiedliche Institutionen des Gesundheitssystems weiterzuleiten. Für diese Datenzusammenstellung benötigen sie ihre jeweiligen PIS/KIS, die einen großen administrativen Arbeitsbereich mit vielfältigen Funktionalitäten dafür haben. Trotz dieses Arbeitsbereichs sind viele Einzelaktivitäten arbeitsintensiv. Die Datenflüsse zu unterschiedlichen Institutionen sowie die primären und sekundären Nutzungsmöglichkeiten und -grenzen werden detailliert vorgeschrieben und komplex reguliert. 4.4.1 Daten zur Leistungsabrechnung Medizinische Einrichtungen rechnen Behandlungsleistungen mittels definierter patientenbezogener (Leistungs-) Abrechnungsdatensätze ab (Kap. 10 SGB V). Viele Angaben entspringen den Patienten-/Fallakten und werden (um)codiert (Kasten 4.3). Sie werden ergänzt um Abrechnungskennziffern. Kasten 4.3 Codierungen und Klassifikationen zur Leistungsabrechnung Patientenbezogene Merkmale werden vor allem mittels Krankenversichertennummer (KV-Nr. 290 SGB V)127 verschlüsselt, Angaben zu Ärzt/innen mittels Arztnummern (BAN/LANR) und die zu medizinischen Einrichtungen mittels Institutionenkennzeichen (IK). Medizinische Sachverhalte werden mittels statistisch- administrativer Klassifikationen codiert. Derzeit vorrangig relevant sind: › die deutsche Modifikation der International Statistical Classification of Diseases and Related Health Problems, derzeit in der Version 10 (ICD-10 GM) für die Codierung von Diagnosen; sie wird vom DIMDI/BfArM128 herausgegeben, jährlich fortgeschrieben und erweitert (dadurch verändern sich regelmäßig die Strukturen der Klassifikation; sie hat inzwischen knapp 14.000 Codes); › der Operationen- und Prozedurenschlüssel (OPS) ist die deutsche Modifikation der International Classification of Procedures in Medicine (ICPM) für die Codierung von medizinischen Behandlungsleistungen, auch sie wird vom DIMDI/BfArM herausgegeben, jährlich fortgeschrieben und erweitert (inzwischen hat sie mehr als 30.000 Codes); 127 Um die Datenzusammenführung unterschiedlicher Lebensbereiche und die Erstellung umfassender Persönlichkeitsprofile durch öffentliche z. T. staatliche Einrichtungen zu verhindern, werden in Deutschland keine allgemeingültigen Personenkennzeichen für alle Administrationsbereiche vergeben. In Folge dürfen z. B. Krankenversichertennummer (§ 290 SGB V) zur Abrechnung der medizinischen Heilbehandlung und Rentenversicherungsnummer (§ 147 SGB VI) zur Abrechnung von rehabilitativen Behandlungsleistungen nicht übereinstimmen. 128 Das ehemals eigenständige Deutsche Institut für Medizinische Dokumentation und Information (DIMDI) ist seit 2020 Teil des Bundesinstituts für Arzneimittel und Medizinprodukte (BfArM). › national eigenständige Pharmazentralnummern (PZN)129 für Arzneimittelabgaben durch öffentliche Apotheken; es handelt sich um eine von der Informationsstelle für Arzneispezialitäten (IFA GmbH) für 2 Jahre vergebene achtstellige fortlaufende eindeutige Nummerierung. Erbrachte Leistungen werden anhand von Abrechnungskennziffern pauschaliert vergütet. Im Rahmen der GKV im ambulanten Bereich anhand des Katalogs zum Einheitlichen Bewertungsmaßstab (EBM) und im stationären Bereich mittels Fallpauschalenkatalog (Diagnosis Related Groups [DRG]). Für die (Um-)Codierung sind spezifische Kenntnisse erforderlich: zum einen zu den verwendeten Terminologien und Klassifikationen, die regelmäßig überarbeitet werden, und zum anderen auch spezifische betriebswirtschaftliche, weil die Diagnose- und Behandlungscodierungen die Vergütung bestimmen und auch diese Vergütungskataloge regelmäßig weiterentwickelt werden. Für die Dokumentation, Codierung und Prüfung der Leistungsdaten wurden in den vergangenen Jahren die einrichtungsinternen Kapazitäten kontinuierlich ausgebaut (Bundesrechnungshof 2019, S. 29 f.). Im ambulanten Bereich codieren Ärzt/innen ihre Eintragungen oftmals selbst. In stationären Einrichtungen übernehmen diese Tätigkeit zunehmend speziell ausgebildete medizinische Dokumentationsoder explizite Codierfachkräfte, die an administrativen Arbeitsplätzen der KIS einen selektiven Einblick in die Fallakten haben. Spezielle Zusatzmodule der PIS/KIS können bei der (Um-)Codierung zunehmend unterstützen: Unter anderem können texterkennende Verfahren bei der Codierung von Freitexteinträgen assistieren (z. B. indem beim Diagnoseeintrag Brustkrebs alle infrage kommenden Schlüsselnummern vorgeschlagen werden) oder erste Plausibilitätsprüfungen vorgenommen werden (z. B. indem geprüft wird, ob für bestimmte Leistungen auch die notwendige Diagnose gestellt wurde). Auch kann mit Simulationsrechnungen bei denen z. B. die Reihenfolge und Anzahl von Haupt- und Nebendiagnosen verändert wird, ermittelt werden, wie sich dies auf die EBM- oder DRG- Zuordnung auswirkt. Im Anschluss können die Abrechnungsdatensätze entsprechend optimiert werden (Bundesrechnungshof 2019, S. 59). Eine gänzlich automatisierte Codierung abrechnungsrelevanter medizinischer Merkmale ist bisher weder möglich noch gewollt. Nach der finalen Festlegung der Diagnose- und Leistungscodes werden im ambulanten Bereich EBM-Ziffern manuell zugeordnet. Im stationären Bereich wird ein Pauschalbetrag pro Behandlungsfall anhand unterschiedlicher Kennziffern (Haupt- und Nebendiagnosen, Behandlungsleistungen, aber auch demografische Angaben wie Alter, Geschlecht, Postleitzahl) einem zertifizierten Algorithmus automatisiert ermittelt (Kap. 5.2). Die einzelfallbezogenen Datensätze zur Leistungsabrechnung werden wie folgt weitergeleitet (Schepers et al. 2015, S. 152): › Krankenhäuser übermitteln nach Behandlungsende einen Datensatz pro Patient/in direkt an die jeweilige Krankenkasse. Außerdem stellen sie einmal pro Jahr alle einzelfallbezogenen Leistungsdatensätze zusammen (§ 21 KHEntgG) und übermitteln diesen Jahresdatenbestand an das Institut für das Entgeltsystem im Krankenhaus (InEK) zur Fortschreibung des Fallpauschalenkatalogs und des Grouper-Algorithmus (Kap. 5.2). › Arztpraxen stellen quartalsweise einen Datensatz pro behandelter Person zusammen und übermitteln alle Datensätze ihre zuständige Kassenärztliche Vereinigung.130 Letztere prüfen die Leistungsdaten, ermitteln und realisieren die quartalsweise Vergütung der Praxen, teilen den Datenbestand anschließend kassenweise auf und übermitteln jeder GKK die Leistungsdatensätze ihrer Mitglieder (Kap. 5.3). › Apotheken übermitteln alle 2–4 Wochen sämtliche eingelöste und vervollständigte Rezepte an privatwirtschaftlich betriebene Apothekenrechenzentren, die die Abrechnung gegenüber den jeweiligen GKK zentral organisieren, den Datenbestand ebenfalls kassenweise aufteilen und jeder GKK die Rezeptdaten ihrer Mitglieder übermitteln (Kap. 5.4). Abbildung 4.4 stellt die einzelfallbezogenen Leistungsdatenflüsse im Rahmen der GKV-Selbstverwaltung im Überblick dar. Medizinische Einrichtungen und die dort tätigen Fachkräfte müssen die behandelten gesetzlich Versicherten weder in die Erstellung der Datensätze zur Leistungsabrechnung einbeziehen (nur privat Versicherte erhalten im 129 Die vom DIMDI herausgegebene deutsche Version der pharmazeutischen ATC-Wirkstoffklassifikation (anatomisch therapeutisch chemisch) mit definierten Tagesdosen (Defined Daily Doses – DDD) wird bisher nicht für die Leistungsabrechnung eingesetzt. 130 Ärzte, die sich an speziellen Versorgungsformen beteiligen – z. B. hausarztzentrierte Versorgung, integrierte (sektorübergreifende) Versorgung –, rechnen diese Leistungen direkt mit den jeweiligen GKK ihrer Patienten ab. KVen sind an dieser Abrechnung nicht beteiligt. ambulanten Bereich eine Rechnung) noch über die Datenübermittlung informieren. Gesetzlich Versicherte können der Datenübermittlung nicht widersprechen. Das gesetzlich definierte Verfahren durchbricht die ärztliche Schweigepflicht und beschränkt sowohl die informationelle Selbstbestimmung gesetzlich Versicherter als auch das Recht auf Wahrung von Betriebsgeheimnissen. Datenempfangende Stellen sind jedoch zur Geheimhaltung verpflichtet und dürfen diese Daten nur für ebenfalls gesetzlich definierte Zwecke verwenden (ausführlicher in Kap. 5). Abb. 4.4 Leistungsabrechnungsdaten der gesetzlichen Krankenversicherung B A N : b u n d es ei n h ei tl ic h e A rz t n u m m er ; B SN R : B et ri eb ss tä tt en n u m m er ; EB M : Ei n h ei tl ic h er B ew et u n g s- m aß st ab ; IC D : In te rn at io n al C la ss if ic a- ti o n o f D is ea se s; z z IK : In st it u ti o n en k en n z ei - ch en LA N R : le b en sl an g e A rz tn u m - m er ; O PS : O p er at io n en - u n d P ro z e- d u re n sc h lü ss el ; PZ N : Ph ar m az en tr al n u m m er ; V -N r. : V er si ch er te n n u m m er ; ve rk ü rz te D ar st el lu n g ; w eg en a b - w ei ch en d en S ta ti st ik en n ic h t en th al te n : - H ei l- /H il fs m it te le rb ri n g er n ( A b re ch n u n g sd at en sä tz e n ac h § 3 0 2 S G B V ) - H eb am m en ( § 3 0 1 a SG B V ) (r ec h n en d ir ek t m it K ra n k en k as se n a b ) ** v er k ü rz te D ar st el lu n g , w ei te re S o z ia ll ei st u n g st rä - g er f eh le n ( u .a . R en te n ve r- si ch er u n g st rä g er , U n fa ll - k as se n ) Ei g en e D ar st el lu n g a u f d er B as is d es S G B V ; D at en : w w w .d es ta ti s. d e (1 0 .1 1 .2 0 2 1 ) Alle Datensätze zur Leistungsabrechnung haben Bezüge zu behandelten und behandelnden Personen, zu med. Einrichtungen, Sozialversicherungsträgern sowie zu Zeit und Raum (in der amtlichen Statistik werden derartige einzelfallbezogene Datensätze auch als Mikrodaten bezeichnet). Sie bilden die gesundheitliche Situation der gesetzlich Versicherten, das Vorgehen von Ärzt/innen sowie Geschäftsprozesse medizinischer Einrichtungen ab. Anders als die Behandlungsdaten der Patientenakten sind die zu erstellenden Leistungsdatensätze hochgradig standardisiert. Jenseits der Leistungsabrechnung ergeben sich vielfältige sekundäre Analysemöglichkeiten, insbesondere wenn Datensätze zur Leistungsabrechnung einrichtungsübergreifend verarbeitet werden dürfen. Sowohl für die Leistungsabrechnung als auch für weitere Datenanalysen ist Richtigkeit der Daten von großer Relevanz (Stichwort Data-Dredging; Kap. 2.1). Richtigkeit von Leistungsabrechnungsdaten Inwiefern Leistungsabrechnungsdaten die gesundheitliche Situation von Versicherten und den Behandlungsverlauf korrekt abbilden, wird immer wieder kontrovers diskutiert (z. B. Baas/Scherff 2016; Balling 2018; Borchardt 2012; Bundesrechnungshof 2019; Dirschedl 2012). Die Menge der angegebenen (Neben-)Diagnosen und Behandlungsprozeduren steigt seit Jahren. Die Möglichkeiten, diese Daten auf ihre Richtigkeit zu prüfen, sind systemisch begrenzt. Diagnose- und Behandlungsabläufe finden im geschützten Arzt-Patientenverhältnis statt, auch die Dokumentation unterliegt der ärztlichen Schweigepflicht. Gesetzlich Versicherte sind weder an der Behandlungsdokumentation noch am Leistungsabrechnungsverfahren beteiligt. Eine Kontrollfunktion in Bezug auf die Richtigkeit der Daten können Patient/innen kaum wahrnehmen. Im ambulanten Bereich prüfen Kassenärztliche Vereinigungen teilweise in Kooperation mit Krankenkassen die quartalsweise eingehenden einzelfallbezogenen Leistungsabrechnungsdaten auf Rechtmäßigkeit und Plausibilität (Kap. 5.3). Die aus deren Sicht unkorrekten Positionen werden in der Regel ohne Rücksprache mittels weitgehend automatisierter Verfahren gestrichen, danach die jeweiligen Honorare berechnet. Eine Revision erfolgt nur, wenn Ärzt/innen bei gestrichenen Positionen Widerspruch einlegen. Im stationären Bereich prüfen die Krankenkassen die Leistungsabrechnungsdatensätze ihrer Versicherten in unterschiedlichem Maße selbst. Der Prüfungsfokus liegt auf kostenrelevanten Angaben, die finanzielle Nachteile für die eigenen Geschäftsprozesse bringen. Nicht alle Krankenkassen prüfen in gleichem Umfang. Zudem haben die jeweils eingesetzten Algorithmen unterschiedliche Treffergenauigkeiten (Bundesrechnungshof 2019, S. 6). Bei Auffälligkeiten werden zum einen die jeweiligen Krankenhäuser um Aufklärung und ggf. um Datenberichtigung gebeten (Vorverfahren). Zum anderen kann der Medizinische Dienst der Krankenversicherung, (MD) mit der Prüfung beauftragt werden (§ 275 SGB V). Nur deren Ärzt/innen dürfen dafür die jeweiligen arztgeführten Patientenakten einsehen (GKK-Angestellte haben keine Einsichtsrechte). Der Aufwand für die Prüfung der Leistungsabrechnungsdaten steigt seit Jahren. Laut Bundesrechnungshof (2019, S. 6) hat der MD 2016 mehr als 2 Mio. Prüfverfahren durchgeführt, also ca. 10 % aller Leistungsabrechnungsdatensätze geprüft (2008 waren es 1,2 Mio.). Bei etwa der Hälfte wurden Auffälligkeiten oder Fehler bei der Codierung und/oder der Abrechnung festgestellt, die, teilweise gerichtlich geklärt werden. Seit Jahren werden die etablierten Vergütungsverfahren anhand definierter Leistungsabrechnungsdatensätze in Verbindung mit den Prüfungsmöglichkeiten kontrovers diskutiert. Das Leistungsabrechnungssystem wird kontinuierlich stärker ausdifferenziert, dadurch komplexer, aufwendiger und interpretierbarer. Deren Anwendung lässt sich immer schwerer nachvollziehen. Aus finanziellen Erwägungen müssen medizinische Einrichtungen ihre Leistungsabrechnung über die Dokumentation und Codierung im Rahmen des Möglichen optimieren und Kostenträger dies begrenzen, sofern sie dadurch wirtschaftliche Nachteile haben (Bundesrechnungshof 2019, S. 8). Kritiker unterstellen dem Verfahren eine generelle Neigung vor allem zur Überdiagnostizierung, teilweise auch zur Überbehandlung (Baas/Scherff 2016; Dirschedl 2012). Denn medizinischen Einrichtungen wird die Betreuung Schwererkrankter von den GKK tendenziell besser vergütet und gleichzeitig erhalten GKK für schwerkranke Versicherte über den morbiditätsorientierten Risikostrukturausgleich höhere Zuweisungen aus dem Gesundheitsfonds (Kap. 5.5.1). Diese Prozesse binden einerseits immer mehr Ressourcen, andererseits lassen sich systematische Datenverzerrungen nicht ausschließen. Das Ausmaß einer abrechnungsbedingten systematischen Verzerrung von Leistungsabrechnungsdaten, lässt sich kaum sicher abschätzen. In Folge kann die Eignung von Leistungsabrechnungsdaten für bestimmte Data-Mining-Prozesse in Frage und damit die Validität ermittelter Ergebnisse in Abrede gestellt werden (Anwendungsbeispiel Pharmakovigilanz [Kap. 5.5.3]). 4.4.2 Daten zur Qualitätssicherung der medizinischen Versorgung Sowohl Ärzt/innen als auch medizinische Einrichtungen sind zu Maßnahmen verpflichtet, mit denen die Qualität der medizinischen Versorgung gesichert werden soll (§ 630a BGB; §§ 135–139c SGB V; § 2 MBO-Ä). Sie müssen zum einen diverse einrichtungsinterne Maßnahmen zur Sicherung der Strukturqualität durchführen und dokumentieren (Qualitätsmanagement; Anwendungsbeispiel Mammografiescreening [Kap. 4.3.2]) und zum anderen an einrichtungsübergreifenden, externen Verfahren zur Qualitätssicherung (QS) teilnehmen. Umfangreiche Datenanalysen, vor allem Benchmarkanalysen, gehören zunehmend zum Methodenspektrum. Bei Benchmarkanalysen zur Qualitätssicherung werden unterschiedliche Behandlungsprozesse in medizinischen Einrichtungen zum Untersuchungsobjekt. Dafür wird das nicht direkt messbare Konstrukt »Qualität medizinischer Versorgung« mehrstufig zerlegt und in unterschiedlichen Dimensionen und Teilbereichen anhand vielfältiger Indikatoren vereinfacht dargestellt und mittels Kennziffern quantitativ erfasst. Diese Kennziffern sind meist statistische Indexzahlen (z. B. zur quantitativen Darstellung der Häufigkeit von Behandlungskomplikationen – konkrete Datentypen [Kap. 2.2.1]), die mit unterschiedlichen mathematisch-statistischen Verfahren analysiert werden können. Wenn Datensätze mehrerer Einrichtungen zusammengeführt werden, können Mittelwerte, Varianzen, oder Grenzwerte oder Abweichungen errechnet oder Auffälligkeiten und (un)typische Muster ermittelt (ein qualitätsbezogenes Profiling einzelner Einrichtungen), aber auch direkte Vergleiche unterschiedlicher Einrichtungen möglich werden (qualitätsbezogene Rankings/Scorings von Einrichtungen). Benchmarkanalysen spielen bei der externen Qualitätssicherung im Rahmen der Selbstverwaltung des Gesundheitssystems eine zunehmend wichtige Rolle. Der Gemeinsame Bundesausschuss ist für die Definition unterschiedlicher Qualitätsdimensionen und entsprechender Indikatoren/Kennziffern verantwortlich. Er kann freiwillige Initiativen zulassen (z. B. Analysen anhand von Traumaregisterdaten für die Notfall- und Intensivmedizin [Kap. 4.1.4]) und medizinische Einrichtungen zur Teilnahme an QS-Verfahren verpflichten, sofern Analysekonzepte entwickelt und in Fachgremien abgestimmt und akzeptiert wurden. Inzwischen gibt es diverse, vor allem sektorspezifische QS-Verfahren. Eine besondere Herausforderung sind jedoch die Konzeption sektorübergreifender QS-Verfahren und die Festlegung der jeweiligen Datenmodelle (ausführlicher Döbler/Follert 2021; Mühr 2018). Vor allem Behandlungsprozesse, die unter Public-Health-Gesichtspunkten höchstrelevant sind (z. B. die Versorgung chronische erkrankter und/oder multimorbider Personen), sind fachlich oft komplex, weil mehrere medizinische Einrichtungen an der Behandlung beteiligt sind. Zudem sind etliche relevante Aspekte (wie z. B. Kooperation unterschiedlicher an der Behandlung beteiligter Einrichtungen) aufwendig in der Erfassung, teilweise fehlen Konzepte, wie diese mittels Kennziffern dargestellt werden können. Im Gegenzug sind Kennziffern, die aus der Behandlungsdokumentation und/oder aus Leistungsabrechnungsdaten relativ leicht abgeleitet werden können, zwar nötig, erfassen jedoch nicht immer die relevantesten Aspekte eines Sachverhalts (Döbler/Follert 2021, S. 244). Insbesondere patientenzentrierte Kennziffern (z. B. ausreichend Zeit für und gut verständliche Arzt- Patienten-Kommunikation) werden national bei QS-Verfahren kaum berücksichtigt (Mühr 2018, S. 7 ff.). Aus pragmatischen Gründen bauen QS-Verfahren bisher überwiegend auf Daten auf, die medizinische Einrichtungen aus ihren Behandlungsdaten ableiten. Ergänzend werden mitunter Registerdaten verwendet (z. B. aus klinischen Krebsregistern [Kap. 4.1.4]). Bereits diese Datenzusammenstellungen sind aufgrund der geringen Standardisierung der primären Behandlungsdokumentationen mit erheblichem Aufwand verbunden. Medizinische Einrichtungen übermitteln ihre QS-Datensätze an die mit den externen QS-Analysen betrauten Institutionen (Kassenärztliche Vereinigungen im ambulanten Bereich [Kap. 5.3]; Landesgeschäftsstellen für Qualitätssicherung bei den Landeskrankenhausgesellschaften im stationären Bereich). Bei sektorübergreifenden QS-Analysen leiten diese Institutionen die Datensätze an das Institut für Qualitätssicherung und Transparenz im Gesundheitswesen (IQTIG) weiter. Alle haben separate Stellen für die Datenannahme, die periodenübergreifende Pseudonymisierung sowie für die Verwaltung der zunehmend großen QS-Datenbestände, bei den beteiligten Institutionen in einem geschützten Datenraum bleiben, nur für QS-Analysen verwendet und nicht mit anderen Daten verknüpft werden dürfen (§ 299 SGB V). Standardisierte einrichtungsspezifische Auswertungen können über die Vertrauens-/Pseudonymisierungsstellen den jeweiligen medizinische Einrichtungen zugeordnet und übermittelt werden (individuelles Feedback). Ergebnisse verpflichtender QS-Verfahren werden im Rahmen der Selbstverwaltung diskutiert und können sich inzwischen auch auf die Vergütung der medizinischen Einrichtungen auswirken (Zu- oder Abschläge) und rechtliche Konsequenzen haben (bis zum Entzug von Genehmigungen). Bisher sind nur Krankenhäuser verpflichtet, jährlich strukturierte Qualitätsberichte über ihre Homepage zu veröffentlichen (§ 136b SGB V) und maschinenlesbare Versionen an den G-BA zu übermitteln. Dafür führen sie die Ergebnisse aller durchgeführten Maßnahmen zum Qualitätsmanagement und zur Qualitätssicherung zusammen. Arztpraxen müssen keine praxisspezifischen Qualitätsberichte veröffentlichen. Bisher veröffentlichen die Kassenärztlichen Vereinigungen nur aggregierte Berichte des ambulanten Bereichs. Es gibt unterschiedliche Auffassungen, inwiefern der Aufwand für die Datenzusammenstellung und der Nutzen aus den QS-Analysen in einem angemessenen Verhältnis stehen. Insbesondere im ambulanten Bereich wird teilweise massive Kritik geäußert: Die grundsätzlich gute Idee der sektorübergreifenden QS-Verfahren hätte sich verselbständigt; man habe ein für medizinische Einrichtungen hyperkomplexes und aufwendiges System geschaffen, bei dem der unmittelbare Nutzen für Patient/innen oftmals unklar sei.131 Besondere Hürden für die Realisierung von QS-Verfahren sehen Döbler/Follert (2021, S. 240 ff.) nach wie vor in der geringen Interoperabilität medizinischer Behandlungsdaten. Dadurch könnten insbesondere medizinische Leistungen, die Patient/innen in unterschiedlichen Einrichtungen erhalten, nicht immer eindeutig dem primär zu untersuchenden Sachverhalt zugeordnet werden. Komplexe Datenmodelle seien unausweichlich und in Folge sei auch die Entwicklung und Implementierung der Analysekonzepte aufwendig. Döbler/Follert sprechen sich dafür aus, ergänzend auch leistungsdatennutzende QS-Ansätze weiterzuentwickeln. Diese Daten haben zwar keine große medizinisch Detailgenauigkeit, dafür seien die Analysekonzepte aber auch nicht so kompliziert. 4.4.3 Daten für die amtliche Statistik Seit Jahrzenten verpflichtet die Krankenhausstatistik-Verordnung (KHStatV)132 alle Krankenhäuser in Deutschland (einschließlich Vorsorge- und Rehabilitationseinrichtungen, die teilweise von Renten- und Unfallversicherungen getragen werden) jährlich einen Datensatz mit drei Teilen (Grunddaten, Diagnosestatistik, Kosten [§ 3 KHStatV]) zusammenzustellen und an die zuständigen Statistischen Landesämter zu übermitteln. Diese Daten werden aus den medizinischen und administrativen Daten auf Einzelfallebene mit den jeweiligen KIS ermittelt, sind jedoch Zusammenfassungen (Gruppenwerte, von denen nicht auf ein einzelnes Subjekt geschlossen werden kann). Die Bezugseinheit ist das einzelne Krankenhaus. Statistische Landesämter als datenempfangende Stellen sind für die Prüfung dieser Datensätze verantwortlich, ggf. berichtigen sie diese. Diese Daten werden ebenfalls bundesweit zusammengeführt und gelten als absolut anonymisiert. Sie werden nach etwa 12 Monaten veröffentlicht (Fachserie 12, Reihe 6.1 bis 6.3). Etwa 18 Monate nach dem Berichtsjahr sind kontrolliere Datenabfragen über die Forschungsdatenzentren der statistischen Ämter möglich (Kap. 3.3.3) (Schubert et al. 2014, S. 49 ff.). 4.4.4 Gesamteinschätzung der analytischen Potenziale administrativer Daten Es steht außer Frage, dass die administrativen Daten, die medizinische Einrichtungen regelmäßig zusammenstellen müssen, für vielfältige analytische Fragestellungen auf unterschiedlichen Ebenen (innerbetrieblich wie gesundheitssystemisch) wichtig sind. Etliche Analysen sind als öffentliche Aufgaben explizit gesetzlich definiert und mit diesen Aufgaben spezifische Einrichtungen betraut worden (z. B. Analysen zur Qualitätssicherung). Für die Bewertung des analytischen Potenzials unterschiedlicher Datenbestände sind viele Faktoren relevant, darunter der aufgabenspezifische Informationsgehalt), die Aktualität und Richtigkeit der Daten, die semantisch und syntaktisch standardisierte Darstellung sowie die Zugänglichkeit. Ein besonderes analytisches Potenzial wird den Leistungsabrechnungsdaten unterstellt. Sie werden längst nicht nur zur Leistungsabrechnung mit den jeweiligen Kostenträgern genutzt. Auch für vielfältige gesundheitssystemische Planungs- und Entwicklungsaufgaben, wie z. B. der Fortschreibung der Abrechnungsverfahren (Kap. 5.2) aber auch zu Forschungszwecken, können sie verwendet werden. Die Versorgungsforschung des Gesundheitssystems basiert in erheblichem Maße auf Leistungsdatenbeständen. Die von medizinischen Einrichtungen zusammenzustellenden administrativen Datensätze können zudem auch zur Optimierung innerbetrieblicher Geschäftsprozesse genutzt. Wegen des hohen Kostendrucks in medizinischen Einrichtungen gewinnen betriebswirtschaftliche Analysen zur Erschließung möglicher Wirtschaftlichkeitsreserven seit Jahren an Bedeutung. PIS-/KIS-Hersteller bieten zunehmend spezifische Module an, mit denen u. a. die Auslastung einrichtungsinterner Kapazitäten, Aufwandskomponenten (z. B. Kosten für Personal, Material und Behandlung) und Ergebniskomponenten (z. B. von erfolgreichen Behandlungen bis zu Komplikationen, 131 www.kbv.de/html/sqs.php (2.11.2021) 132 Verordnung über die Bundesstatistik für Krankenhäuser (Krankenhausstatistik-Verordnung – KHStatV) Rehospitalisierungen) ermittelt und in Relation gesetzt werden können. Derartige Business-Intelligence-Analysen könnten ebenfalls als Data-Mining interpretiert werden. Weichert (2018, S. 46) weist darauf hin, dass es bei betriebswirtschaftlichen Optimierungen regelmäßig einen Zielkonflikt zwischen innerbetrieblicher Kostensenkung und optimaler Behandlung gibt und dass, sofern Algorithmen für derartige Berechnungen eingesetzt werden, darauf zu achten sei, dass definierte Behandlungsstandards berücksichtigt und nicht unterschritten werden. Eine substanzielle Auseinandersetzung mit den Chancen und Risiken von Data-Mining-Ansätzen in betriebswirtschaftlichen Prozessen medizinischer Einrichtungen ist im Rahmen dieser Überblicksarbeit nicht möglich. Damit werden grundsätzliche Probleme des wirtschaftlichen Einflusses auf medizinische Entscheidungen angesprochen (Stichwort Ökonomisierung der Medizin), deren Folgedimensionen substanziell nur in eigenständigen Untersuchungen thematisiert werden können. 5 Data-Mining im Gesundheitssystem Vielfältige gesundheitssystemische Aktivitäten sind als Aufgaben im öffentlichen Interesse gesetzlich definiert und werden datenanalytisch realisiert. Dafür werden medizinische Einrichtungen verpflichtet, unterschiedliche administrative Datensätze zusammenzustellen (Kap. 4.4) und an gesundheitssystemische Einrichtungen/ Organe/datenverarbeitende Stellen weiterzuleiten. Dem Untersuchungsauftrag entsprechend werden in diesem Kapitel datenanalytisch relevante Institutionen des öffentlichen Gesundheitssystems mit ihren gesetzlich definierten Aufgaben, ihren Datenbeständen und den sich dadurch eröffnenden Data-Mining-Möglichkeiten und -Grenzen dargestellt. Der Fokus der nachfolgenden Darstellung liegt auf den Leistungsabrechnungsdaten, die von den unterschiedlichen medizinischen Einrichtungen zusammengestellt werden und in mehreren Etappen zusammengeführt, analysiert, weitergeleitet und weiterverwendet werden können. Aus rechtlicher Sicht werden diese bei den gesundheitssystemischen Einrichtungen gespeicherten Leistungsdaten auf Einzelfallebene als Sozialdaten bezeichnet und geschützt (Kap. 5.1). Die nachfolgende Kapitelstruktur orientiert sich an den unterschiedlichen Bereichen des nationalen Gesundheitssystems und deren Datenflüsse. Im stationären Bereich rechnen medizinische Einrichtungen ihre Leistung zwar direkt mit den einzelnen Krankenkassen ab, jedoch laufen beim Institut für Entgeltsysteme im Krankenhaus (InEK) umfangreiche Leistungsabrechnungsdatenbestände zusammen, um mit komplexen Datenanalysen das Leistungsabrechnungsverfahren für den gesamten stationären Bereich regelmäßig fortzuschreiben (Kap. 5.2). Im ambulanten Bereich fungieren die Kassenärztliche Vereinigungen (Kap. 5.3) und Apothekenrechenzentren (Kap. 5.4) als intermediäre Einrichtungen der Leistungsabrechnung mit den Krankenkassen. Die Leistungsabrechnungsdaten der unterschiedlichen Bereiche laufen bei den Krankenkassen zusammen (Kap. 5.5). Vor allem große Krankenkassen, die Leistungsabrechnungsdaten von vielen medizinischen Einrichtungen und vielen Versicherten verwalten, haben besondere Data-Mining-Möglichkeiten. Anhand unterschiedlicher Anwendungsbeispiele werden diese Möglichkeiten aber auch die Herausforderungen und Grenzen der sekundären Nutzung von Leistungsabrechnungsdaten im Rahmen von Data-Mining-Prozessen veranschaulicht. 5.1 Sozialdaten: Rechtsrahmen der Verarbeitung Datensätze zur Leistungsabrechnung haben einerseits Patienten- und Gesundheitsbezüge. In der Datenschutz- Grundverordnung gelten sie als personenbezogene Daten besonderer Kategorie (Kasten 3.6). In der nationalen Sozialgesetzgebung werden sie allgemeiner als Sozialdaten bezeichnet (§ 67 SGB X). Andererseits haben diese Datensätze auch Bezüge zu medizinischen Einrichtungen (teilweise sogar zu behandelnden Ärzte/innen) sowie zu den jeweiligen Krankenkassen als Leistungsträger (Abb. 4.4). Da medizinische Einrichtungen und Krankenkassen als eigenständige Wirtschaftsbetriebe agieren, können zumindest Teile der Leistungsdatensätze als betriebs- oder geschäftsbezogene Daten mit Geheimnischarakter aufgefasst werden (sie sind Sozialdaten gleichgestellt [§ 35 Abs. 4 SGB I; § 67 SGB X]). Der Umgang mit diesen Daten wird grundsätzlich im zweiten Kapitel des SGB X (Schutz von Sozialdaten) in Kombination mit § 35 SGB I (Sozialgeheimnis für datenverarbeitende Stellen) definiert. Laut Bundesbeauftragtem für Datenschutz und Informationsfreiheit ist das Sozialgeheimnis der ärztlichen Schweigepflicht weitgehend gleichrangig.133 Einrichtungen, die gesetzlich definierte Aufgaben im Rahmen der sozialen Sicherung ausführen, sind grundsätzlich zum Datenschutz und zur Geheimhaltung verpflichtet und dürfen Sozialdaten nur im Rahmen ihrer Befugnis verarbeiten (§ 35 SGB I). Datenvermeidung und Datensparsamkeit werden inzwischen nicht mehr als Grundprinzipien des Umgangs mit Sozialdaten genannt. Unterschiedliche Einrichtungen der sozialen Sicherung verwalten jeweils eigenständige Stammdatenregister und Fachdatenbestände. Direktidentifizierende Angaben dürfen inzwischen über ein zentralisiertes Verfahren aktualisiert und abgeglichen werden. Für den Bereich der gesetzlichen Krankenversicherung konkretisiert das SGB V die Aufgaben unterschiedlicher öffentlicher Einrichtungen und deren Befugnis zur Analyse von Sozialdaten. 133 www.bfdi.bund.de/DE/Buerger/Inhalte/GesundheitSoziales/IhreRechte/Sozialgeheimnis.html (2.11.2021) Auch jenseits gesetzlich definierter Aufgaben ist sowohl die einrichtungsinterne Datennutzung für bestimmte Forschungs- oder Planungsvorhaben als auch die Datenübermittlung an Dritte für entsprechende Vorhaben im Sozialleistungsbereich zulässig, soweit diese Daten dafür erforderlich sind, schutzwürdige Interessen Betroffener nicht beeinträchtigt werden oder das öffentliche Interesse an der Forschung oder Planung dem Geheimhaltungsinteresse Betroffener erheblich überwiegt. Dafür müssen identifizierende Merkmalsbereiche (auch als Stammdaten bezeichnet) grundsätzlich von Fachdaten getrennt gespeichert und letztere sobald dies für den Forschungszweck möglich ist, anonymisiert werden. Dafür muss das Vorhaben einschließlich Datenschutzkonzept von der jeweiligen Aufsichtsbehörde für bundesweit agierende gesetzliche Krankenkassen vorab genehmigt werden. Soweit zumutbar muss eine Einwilligung bei betroffenen Personen eingeholt werden (§ 75 SGB X). Fraglich ist, wie oft Zumutbarkeit bisher tatsächlich attestiert wurde. Da es jenseits postalischer oder persönlicher Anfragen bisher gar keine Möglichkeiten gab, um Einwilligungen einzuholen, dürfte vor allem bei umfangreichen Datenanalysen, in die Daten von vielen Personen einflossen, diese Einwilligungseinholung regelmäßig als unzumutbar eingestuft worden sein. Inzwischen sind auch elektronische Einwilligung in Datenanalysen zu Forschungszwecken rechtlich zulässig (§ 67b Abs. 3 SGB X). Fraglich ist wann entsprechende Einwilligungsmanagementsysteme technisch einsatzbereit sind. Datenmissbrauch ist die nichtbefugte Verarbeitung und/oder Zugänglichmachung von Sozialdaten. Vorsätzliche oder fahrlässige Handlungen gelten als Ordnungswidrigkeiten (§ 85 SGB X), erst die vorsätzliche Zugänglichmachung gegen Entgelt mit Bereicherung oder Schädigung ist eine Straftat (§ 85a SGB X). Diese Detailregelungen des SGB X zeigen, dass es doch gewisse rechtliche Unterschiede zur ärztlichen Schweigepflicht gibt. In diesem rechtlichen Rahmen werden Data-Mining-Aktivitäten im Kontext der sozialen Sicherung möglich (Kap. 5.3 und 5.5). 5.2 Das Institut für das Entgeltsystem im Krankenhaus: Daten und Analytik Das 2001 gegründete und als GmbH organisierte Institut für das Entgeltsystem im Krankenhaus (InEK)134 unterstützt die Krankenhäuser und Krankenkassen bei der Leistungsabrechnung. Dafür schreibt das InEK das nationale Vergütungssystem stationär erbrachter Behandlungsleistungen – auch als System of German Diagnosis Related Groups (G-DRG-System) bezeichnet – regelmäßig datenbasiert fort und aktualisiert den Grouper-Algorithmus, durch den nahezu alle stationär behandelten Personen135 als Behandlungsfälle anhand definierter Merkmale diagnosebezogenen Fallgruppen zugeordnet werden und die gruppenspezifische pauschalierte Vergütung berechnet wird. Die Fortschreibung des G-DRG-Systems basiert auf einem jährlich neu zusammenzustellenden, spezifischen nationalen Datenbestand und komplexen datenanalytischen Prozessen. 5.2.1 Die stationäre Leistungsvergütung als lernendes System In Deutschland wurden bis Anfang der 1990er Jahre alle stationären Behandlungsleistungen anhand von allgemeinen Pflegetagessätzen vergütet. Dieses Verfahren war mit einem moderaten Dokumentations- und Abrechnungsaufwand verbunden, galt bezüglich der jeweiligen stationär erbrachten Leistungen jedoch als intransparent und setzte Fehlanreize (u. a. hohe Verweildauer von Patient/innen in Krankenhäusern, tendenziell innovationshemmend, fehlende Anreize zum effizienten Wirtschaften). Um diese strukturellen Probleme zu überwinden, wurde die Leistungsabrechnung im stationären Bereich in den 1990er Jahren schrittweise auf differenziertere Pflegesätze und dann Fallpauschalen umgestellt, die sich an den Diagnosen der Patient/innen orientieren, zuerst freiwillig in einigen Krankenhäusern für eine begrenzte Menge an Indikationen (z. B. Blinddarmoperationen). Die gesammelten Erfahrungen verstärkten den gesundheitspolitischen Willen, die Vergütung von Krankenhausleistungen möglichst vollständig auf Fallpauschalen umzustellen – ein zu dieser Zeit weltweit einzigartiger Ansatz, der damals wie heute kontrovers diskutiert wird (dazu und im Folgenden Beivers/Emde 2020; Schepers et al. 2015, S. 72 ff.). Mit dem gewählten Ansatz sollten das Leistungsgeschehen im Krankenhaus transparenter, der Ressourceneinsatz bedarfsgerechter und effizienter sowie die erbrachten Behandlungsleistungen angemessener 134 Die InEK GmbH hat die Deutsche Krankenhausgesellschaft, den GKV-Spitzenverband und den Verband der privaten Krankenversicherungen als Gesellschafter. 135 Psychiatrische und psychosomatische Leistungen werden in Deutschland nach wie vor durch ein pauschaliertes Entgeltsystem abgerechnet (Bundesregierung 2016c). honoriert werden. Durch die Erschließung von Wirtschaftlichkeitsreserven sollten leistungsstarke Krankenhäuser einen Wettbewerbsvorteil erhalten und zudem die Ausgaben der GKV stabilisiert werden. Man versprach sich davon auch, dass strukturelle Probleme des stationären Bereichs überwunden werden könnten (u. a. Senkung der Verweildauer, Abbau von Überkapazitäten). Die politischen Weichen für das neue Vergütungssystem wurden 2000 mit dem GKV- Gesundheitsreformgesetz gestellt. In Fachgremien wurde u. a. festgelegt, welche Parameter für die Leistungsabrechnung herangezogen werden sollen (in erster Linie Diagnosen und Behandlungsleistungen, für die es bereits Klassifikationen gab, mit denen die Angaben einheitlich codiert werden konnten [Kasten 4.3]). Durch die Überarbeitung des Krankenhausfinanzierungsgesetzes (KHG), des Fallpauschalengesetzes (FPG) und des Krankenhausentgeltgesetzes (KHEntgG) konnte das neue Vergütungssystem ab 2003 flächendeckend eingeführt werden (das Leistungsprinzip ersetzte das Selbstkostendeckungsprinzip). Kern des neuen Vergütungssystems ist ein nationaler Fallpauschalenkatalog. Er enthielt beim Start 2003 knapp 660 diagnoseorientierte Fallgruppen mit spezifischen Basisfallwerten, Gewichtungsfaktoren entsprechend dem jeweiligen Schweregrad eines Behandlungsfalls (sogenannte Bewertungsrelationen) sowie Zu- oder Abschlägen je nach Länge des Krankenhausaufenthalts. Der Katalog wird jährlich fortgeschrieben und an die sich ändernden medizinischen Möglichkeiten und die damit verbundenen Kosten angepasst. Für die Leistungsabrechnung wird jeder stationäre Behandlungsfall anhand von insgesamt 1.500 Diagnose- und 26.000 Prozedurencodes beschrieben, anhand der codierten Haupt- und Nebendiagnosen und medizinischen Behandlungen einer von inzwischen 1.300 Fallgruppen zugeordnet, nach der Erkrankungsschwere gewichtet und je nach Behandlungsverlauf die Vergütung der gesamten stationären Behandlung der Erkrankten ggf. mit Zu- oder Abschlägen ermittelt. Der Katalog und die Zuordnungsregeln werden anhand spezifischer Fachkenntnisse, umfangreicher jährlich neu zusammenzustellender Datensätze und komplexer datenanalytischer Verfahren fortgeschrieben. Wegen der jährlichen Fortschreibung wird das G-DRG-System auch als lernendes System bezeichnet (InEK 2020, S. 43). Die jährliche G-DRG-Systemfortschreibung gilt als datenanalytisches Großprojekt. Allein am InEK sind 50 Personen mit der Realisierung beschäftigt. Ein erheblicher Teil der notwendigen Arbeiten findet jedoch in den Krankenhäusern statt, weit dort vielfältige Einträge in den arztgeführten Primärakten codiert und die erforderlichen Datensätze sowohl für die Leistungsabrechnung als auch für die Systemfortschreibung erstellt werden. 5.2.2 Daten und deren Weiterverwendungsmöglichkeiten Jedes mittels Fallpauschalen abrechnende Krankenhaus ist verpflichtet, im ersten Quartal definierte Vorjahresdatensätze zusammenzustellen. Diese haben zwei Teile: Ein Teil sind krankenhausbezogene Strukturdaten (u. a. [Intensiv-]Bettenzahl, Zu- oder Abschlagsvereinbarungen, Zahl der Arbeits- und Ausbildungsplätze [§ 21 Abs, 2 Nr. 1 KHEntgG]). Den zweiten Teil bilden alle einzelfallbezogenen Leistungsdaten (§ 21 Abs, 2 Nr. 2 KHEntgG; [Abb. 4.4.1]). Im Rahmen der Abrechnung entdeckte Fehler in den Leistungsdaten sollten bereits berichtigt worden sein, bevor die Krankenhäuser mithilfe spezieller KIS-Module die Struktur- und Leistungsdaten zusammenstellen und in einheitlichem Format an die zentrale Datenstelle übermitteln. Laut InEK (2020, S. 5) umfasst diese Vollerhebung ca. 1.450 Krankenhäuser mit ca. 22 Mio. voll- und teilstationären somatischen Behandlungsfällen pro Jahr.136 Für die Fortschreibung des Fallpauschalenkatalogs werden zudem Kostendaten für jede stationär erbrachte Leistung pro Behandlungsfall erhoben (auf Vollkostenbasis, auch administrative und Pflegekosten sind enthalten). Diese Kostendaten ermitteln jedoch nur sogenannte Kalkulationshäuser (20%ige Stichprobe). 2020 haben 282 Kalkulationshäuser ihre Ist-Kosten freiwillig auf vertraglicher Basis mit dem InEK aufgeschlüsselt und an die zentrale Datenstelle übermittelt (diese Tätigkeit wird separat vergütet). Die Datenstelle prüft die Plausibilität aller pseudonymisierten einzelfallbezogenen Leistungs- und Kostendatensätze algorithmenbasiert. Auffälligkeiten werden den Krankenhäusern zurückgeschickt, dort manuell geprüft und ggf. berichtigt. Prüfung und Berichtigung müssen bis zum Ende des zweiten Quartals abgeschlossen sein. Dann noch bestehende unplausible Kostendatensätze werden für die DRG-Fortschreibung nicht berücksich- 136 Dieser Datensatz stimmt nicht überein mit dem der amtlichen Krankenhausstatistik (Kap. 4.4.3), für den nur vollstationäre Behandlungsfälle (auch psychische und psychosomatische) berücksichtigt werden. tigt. Begleituntersuchungen zur Fortschreibung des nationalen DRG-Systems weisen auf steigende Prüfaufkommen und Rechnungskorrekturquoten und damit verbunden auch einen steigenden Personalaufwand sowohl bei den Krankenhäusern als auch bei den Prüfeinrichtungen hin (Fürstenberg et al. 2013, S. S. XIV). Nach der Prüfung werden die Datensätze patientenanonymisiert und zum einen an das InEK für die DRG- Systemfortschreibung und für die diesbezügliche Begleitforschung geschickt. Zum anderen werden Datenteile (keine Kostendaten) auch an die Vertragsparteien (Krankenhausgesellschaften und GKV- und PKV-Verbände) und die Statistischen Ämter auf Landes- und Bundesebene übermittelt. Letztere stellen patienten-, einrichtungs- und kassenanonymisierte Daten auf Antrag durch das Forschungsdatenzentrum als Scientific- oder als Public- Use-File bereit (Kap. 3.3.3) und publizieren aggregierte Daten (Fachserie 12, Reihe 6.4). Weitere Organe der Selbstverwaltung dürfen Struktur- und Leistungsdaten beim InEK anfordern (u. a. für Qualitätssicherheits- und Wirtschaftlichkeitsprüfungen oder für Fusionskontrollen). Dafür ist im Detail festgelegt, wer für welchen Zweck welche Daten anfordern und welche Art Profil von einzelnen Krankenhäusern oder Fachabteilungen erstellen darf (§ 21 Abs. 3a KHEntgG). 5.2.3 Die DRG-Systemfortschreibung – ein Data-Mining-Prozess? Die Fortschreibung des G-DRG-Systems mit seinem Fallpauschalenkatalog und dem Grouper-Algorithmus ist eine Mischung aus wissensbasierter Erweiterung, gesundheitspolitischer Steuerung sowie datenbasierter Anpassung von Vergütungspauschalen und Gruppierungsregeln. Unterschiedliche medizinische Fachgesellschaften und Gremien werden in den Fortschreibungsprozess eingebunden. Eine rein datenbasierte Fortschreibung ist aufgrund der Komplexität der Versorgungsprozesse und der Absicht, neue medizinische Untersuchungs- und Behandlungsmethoden (z. B. Multigentests [Kap. 4.3.3]) schrittweise in das Abrechnungssystem zu integrieren, wird gesundheitspolitisch bisher nicht angestrebt (kein selbstlernendes System) (Schepers et al. 2015, S. 72 ff.). Anhand der neuen Datensätze etablierter Behandlungsverfahren und der Daten der zu integrierenden neuen Behandlungsmethoden werden Fallgruppen jährlich überarbeitet: Teilweise werden Fallgruppen neu zugeschnitten, Basiswerte, Gewichtungsfaktoren für bestimmte Diagnose- und Behandlungskonstellationen sowie Zu- und Abschläge neu berechnet und Gruppierungsregeln entsprechend aktualisiert. Am Ende dieses datenanalytischen Prozesses entsteht ein überarbeiteter Fallpauschalenkatalog mit allen Vergütungspositionen sowie ein aktualisierter Grouper-Algorithmus. Letzterer kann in die unterschiedlichen Krankenhausinformationssysteme integriert werden, um im folgenden Abrechnungszeitraum jeden neuen Behandlungsfall anhand definierter Kennziffern einer Fallgruppe zuzuordnen, den Gewichtungsfaktor, mögliche Zu- oder Abschläge zu ermitteln sowie die Vergütungspauschale für die Behandlung automatisiert zu errechnen (ausführlicher z. B. InEK 2020). Aus analytischer Perspektive ließe sich diskutieren, inwiefern die Fortschreibung des nationalen DRG- Systems als Mischung aus wissensbasierter Erweiterung, gesundheitspolitischer Steuerung sowie datenbasierter Gruppierung und Vergütungsanpassung als Data-Mining aufgefasst werden kann oder streng methodisch nicht dazugehört, weil die Verfahren nicht gänzlich datenbasiert fortgeschrieben werden, sondern Fachkräfte den Prozess maßgeblich steuern. Faktisch entsprechen die Prozessschritte der Systemfortschreibung denen von Data- Mining-Prozessen im weiteren Sinn (Abb. 2.1). Daten aus unterschiedlichen Quellen werden zu einem großen Analysedatenbestand zusammengeführt. Mit diesen Daten werden statistische Kennziffern und Faktoren neu kalkuliert, Fallgruppen charakterisiert, Klassifikationsregeln angepasst und fortgeschrieben. Am Ende entstehen aktualisierte Fallpauschalenkataloge, Klassifikationsregeln und ein Algorithmus, mit dem diese Regeln auf neue Behandlungsfälle angewendet und Vergütungspauschalen automatisiert zugewiesen werden. Das InEK prüft die Richtigkeit aller Ergebnisse und liefert zahlreiche Kennziffern für die Begleitforschung, bewertet jedoch nicht den Nutzen der etablierten Verfahren. 5.2.4 Einschätzung Intendierte und nichtintendierte Folgen des DRG-Systems werden seit Jahren kontrovers diskutiert (ausführlich z. B. Beivers/Emde 2020). Zur Disposition stehen zumeist das gesamte Vergütungskonzept (stationär erbrachte Leistungen vollständig mittels Fallpauschalen zu vergüten), die damit einhergehenden Veränderungen der Behandlungsprozesse in Krankenhäusern (Ökonomisierung der Medizin) und die Realisierung der mit dem DRG- System ursprünglich anvisierten Ziele (u. a. leistungsgerechtere und transparentere Vergütung, Sicherung der wirtschaftlichen medizinischen Versorgung, Effizienzsteigerungen, Begrenzung der GKV-Ausgaben, Stärkung des Wettbewerbs und Förderung des Strukturwandels, Überwindung von Fehlanreizen). Das diesbezügliche datenanalytische Vorgehen wird bei diesen Kontroversen eher weniger thematisiert. Unstrittig ist die Einschätzung, dass durch die Umstellung auf leistungsdifferenziertere Vergütungen die stationäre Behandlungsdauer verkürzt, aufwendige Behandlungsformen und medizinische Innovationen schneller in die Regelversorgung überführt sowie Wirtschaftlichkeitsreserven erschlossen wurden. Die dafür notwendigen Dokumentations- und Abrechnungsverfahren führten zu mehr Transparenz in Bezug auf die medizinischen Prozesse für Kostenträger und Organe der Selbstverwaltung, gingen jedoch mit einem erheblichen Dokumentations- , Prüf- und Abrechnungsaufwand sowie mit einer entsprechenden Ressourcenverschiebung einher, sowohl in den Krankenhäusern als auch bei den datenempfangenden Institutionen. Die entstehende große Datenbasis ermöglichte den Aufbau eines in Bezug auf den Detaillierungsgrad weltweit einzigartigen Fallpauschalensystems. Laut Beivers/Emde (2020, S. 7) ist der Aufbau dieses Systems zum großen Teil der Arbeit des InEK zu verdanken, das national wie international großes Ansehen für die gründlichen Kalkulationen genießt. Die nationalen Ambitionen zur hochdifferenzierten Abbildung des medizinischen Leistungsgeschehens führt zu einer kontinuierlich steigenden Systemkomplexität. Für Nicht-Expert/innen dürften die Gruppierungsregeln und die Vergütungsberechnungen nur schwer nachzuvollziehen sein (Beivers/Emde 2020, S. 8 nach Dieterich et al. 2019). Einige Erwartungen, durch die Vergütungsumstellung strukturelle Probleme des stationären Sektors lösen zu können, erfüllten sich nicht. So konnten Überkapazitäten nicht wie erhofft über Wettbewerbsmechanismen abgebaut und Investitionen nicht gesichert werden. Problematisch bleibt zudem die Finanzierung bestimmter kostenintensiver Angebote, für die Krankenhäuser Sicherstellungsaufträge haben (z. B. umfangreiche intensivmedizinische Notfallversorgungskapazitäten), weil diese Finanzierung bei der Vergütungsumstellung nicht kostengerecht organisiert wurde. Einschränkend muss jedoch darauf hingewiesen werden, dass die Planung von Krankenhauskapazitäten sowie die Investitionsfinanzierung als Aufgaben der Daseinsvorsorge in den Verantwortungsbereich der Bundesländer fallen. Die Leistungsvergütung durch die GKV kann für derartige Probleme nicht verantwortlich gemacht werden. Dazu kommen einige neue strukturelle Probleme, die mit dem G-DRG-System direkt in Verbindung gebracht werden: es würde Anreize zur Mengenausweitung ärztlicher Leistungen setzen; Pflegeleistungen und die Qualität erbrachter Behandlungsleistungen würden nicht adäquat abgebildet werden; die sektorale Versorgung sei manifestiert worden, Anreize für intersektorale Behandlungsansätze fehlten; nach wie vor gäbe es Über-, Unteroder Fehlversorgungen; die Ökonomisierung medizinischer Prozesse habe Arbeitsabläufe intensiviert, die Arbeitsbelastung kontinuierlich erhöht und würde medizinische Entscheidungen beeinflussen (ausführlicher z. B. Beivers/Emde 2020). Aus der DRG-System-Perspektive eröffnen sich zwei Wege, um die genannten Probleme abzumildern oder gar zu überwinden. Eine Möglichkeit ist die Fortentwicklung und Nachjustierung des DRG-Systems, um weitere Aspekte bei der Entgeltberechnung zu berücksichtigen. Die andere Möglichkeit sind separate Vergütungsformen außerhalb des DRG-Systems. Für beide Wege sind politische Aushandlungen und Weichenstellungen erforderlich. Es hat mehr als 10 Jahre gedauert, bis nach der Einführung des G-DRG-Systems die Berechnungsverfahren u. a. einige Gewichtungsfaktoren manuell verändert wurden, um Fehlversorgungen entgegenzuwirken. Es hat mehr als 15 Jahre gedauert, bis die sich kontinuierlich verschlechternde Situation in der Pflege zu weiteren Veränderungen im G-DRG-System führte. Dazu wurde in erheblichem Maße in die Kalkulationen des InEK eingegriffen: Die ursprünglich in den Fallpauschalen enthaltenen Pflegepersonalkosten wurden extrahiert und sämtliche Fallpauschalen, Bewertungsrelationen sowie Zu- und Abschläge ohne Pflegekostenanteile neu berechnet. Zudem wurden eigenständige Kennziffern für Pflegeleistungen im Fallpauschalenkatalog ausgewiesen, mit denen perspektivisch krankenhausindividuelle Pflegebudgets vereinbart und Pflegepersonalkosten unabhängig von den Fallpauschalen vergütet werden sollen.137 Auch dieser Ansatz wird kontrovers diskutiert. Durch die mehrgleisige Vergütung unterschiedlicher Leistungsarten steigt die Komplexität der Entgeltberechnung für Krankenhäuser weiter. Bei der gewählten Erstattungsform für Pflegeleistungen würde man zudem in das Selbstkostendeckungsprinzip der 1990er Jahre zurückfallen und weitere Fehlanreize setzen (man würde Anreize schaffen, der Pflege möglichst viele Aufgaben zuzuordnen, zudem könnten Pflegekräfte aus anderen Segmenten ohne Selbstkostendeckung wie z. B. aus der Reha oder Altenpflege abwandern) (Beivers/Emde 2020, S. 17). Selbst wenn mit diesem 137 www.bundesgesundheitsministerium.de/krankenhausfinanzierung.html (10.11.2021) Ansatz eine leistungsgerechtere Vergütung der Pflege in Krankenhäusern gelingen sollte, kann dies nur ein Element zur Bekämpfung des allgemeinen Pflegenotstands in Deutschland sein. Kritiker/innen warnen, dass das G- DRG-System seine steuernden Möglichkeiten zunehmend einbüßt und werfen die Frage auf, ob die Herauslösung der Pflegeleistungsvergütung der Beginn des Ausstiegs aus dem G-DRG-System sei (Beivers/Emde 2020, S. 16 f.). Weitere Kritikpunkte am G-DRG-System sind zum einen die fehlende Berücksichtigung der Qualität stationär erbrachter Leistungen bei der Vergütungsberechnung. Dafür müssten zunächst tragfähige Konzepte entwickelt werden, wie die Qualität erbrachter Krankenhausleistungen zu bemessen sei und um welche Qualitätskennziffern das G-DRG-System und die Vergütungskalkulationen erweitert werden könnten. Zum anderen gibt es Forderungen das G-DRG-System zu erweitern und auch sektorübergreifende Versorgungsleistungen zu berücksichtigen. Die derzeitigen unterschiedlichen Vergütungskonzepte im stationären und ambulanten Bereich werden maßgeblich für starke sektorale Trennung der medizinischen Versorgung verantwortlich gemacht, die zunehmend kritisiert wird. Auch diesbezügliche Weiterentwicklungen erfordern grundsätzlichere Veränderungen des G- DRG-Systems und würden dessen Komplexität weiter erhöhen. Seit der Einführung des datenanalytischen Großprojekts »G-DRG-System« wird kontrovers diskutiert, ob die damit angestrebte bessere Ressourcenallokation erreicht wurde und ob die auf komplexen Datenerhebungen und -analysen aufbauende Ökonomisierung medizinischer Versorgungsprozesse einen gesellschaftlichen Mehrwert bringt. Durch die Betrachtung der dafür erforderlichen komplexen datenanalytischen Prozesse lässt sich beitragen, dass diese einen erheblichen Aufwand verursachen und neben den gewünschten Effekten auch zahlreiche Fehlanreize mit sich bringen. Dennoch wurde nie in Abrede gestellt, dass die medizinische Leistungsvergütung als Aufgabe im öffentlichen Interesse die deutschlandweite Zusammenführung und Verwendung besonders schützenswerter Patientendaten hinreichend begründet. Schepers et al. (2015, S. 81 f.) sehen das Verfahren sogar als nationales Referenzprojekt für die Erstellung und Zusammenführung großer hochsensibler Datenbestände und deren Nutzung im Gesundheitsbereich. Das Beispiel zeige, was politischer Gestaltungswille zu bewegen vermag. 5.3 Kassenärztliche Vereinigungen: Daten und Analytik Kassenärztliche Vereinigungen (KVen) sind Körperschaften öffentlichen Rechts unter Rechtsaufsicht der jeweils für Gesundheit zuständigen Landesbehörde (§ 77 SGB V).138 Es gibt jeweils eine pro Bundesland (Nordrhein- Westphalen hat zwei) sowie eine zentrale Bundesvereinigung (KBV), die unter Rechtsaufsicht des BMG steht. KVen sollen als zentrale Einrichtung aller niedergelassenen Vertragsärzt/innen die flächendeckende ambulante medizinische Versorgung für alle GKV-Mitglieder sicherstellen (§ 75 SGB V). Dafür steuern sie die Verteilung von Praxisniederlassungen, überwachen die Erfüllung vertragsärztlicher Pflichten, realisieren die ambulante Leistungsvergütung, prüfen und sichern Wirtschaftlichkeit und Qualität der ambulanten medizinischen Versorgung, beraten Vertragsärzt/innen und bekämpfen Fehlverhalten (ggf. können sie ihren Ärzte/innen verbindliche Auflagen machen oder Sanktionen aussprechen). Im Rahmen dieser primären Aufgaben werden bei den KVen erhebliche Datenflüsse gelenkt und große Datenbestände mit unterschiedlichen Bezügen zu Personen (sowohl Patient/innen als auch niedergelassene Ärzte/innen) und zu medizinischen Einrichtungen aufgebaut (siehe unten). KVen haben Sozial- und Betriebsgeheimnisse zu wahren und dürfen die Datenbestände nur für gesetzlich definierte Aufgaben in unterschiedlich pseudonymisierter oder anonymisierter Form verwenden (§ 285 Abs. 1, § 305a SGB V). Sie können für einzelne Aufgaben spezielle Einrichtungen gründen (§ 77 ff. SGB V). Datenanalytisch relevant sind › das in den 1970er Jahren gegründete Zentralinstitut für die Kassenärztliche Versorgung (Zi) als Stiftung bürgerlichen Rechts (Träger sind die KVen und die KBV), in dem ca. 60 Personen an der Schnittstelle zwischen Wissenschaft und Praxis an Fragen der ambulanten Versorgungssituation arbeiten, wobei wirtschaftliche Fragestellungen und die Entwicklung von Marktstrukturen im Fokus stehen; dafür kann das Zi Daten der Kas- 138 Niedergelassene Zahnärzte/innen haben eine weitgehend identische parallele Organisationsstruktur mit Kassenzahnärztlichen Vereinigung auf Landes- und Bundesebene. Im Bericht wird auf die Nennung der Parallelstrukturen von Zahnärzt/innen verzichtet. senärztlichen Vereinigungen auf Antrag nutzen, aber auch eigene Datenerhebungen mit freiwilliger Teilnahme organisieren (z. B. Zi-Praxis-Panel)139 und weitere Daten hinzuziehen (z. B. Sozial- und Wirtschaftsdaten, die über Forschungsdatenzentren und -infrastrukturen zugänglicher gemacht werden [Kap. 3.3.3]); › das in den 1990er Jahren gegründete Ärztliche Zentrum für Qualität in der Medizin (ÄZQ) als Gesellschaft bürgerlichen Rechts (Träger sind die KBV und die Bundesärztekammer), in dem ca. 25 Personen an Analysen und Stellungnahmen zu grundsätzlichen und methodischen Fragen von Qualität und Qualitätsförderung im ambulanten Bereich arbeiten, sowie › das 2006 gegründete Institut des Bewertungsausschusses (InBA)140 als Gesellschaft bürgerlichen Rechts (Träger sind die KBV und der GKV-Spitzenverband), in dem ca. 50 Personen an der kontinuierlichen Weiterentwicklung des ambulanten medizinischen Vergütungssystems der GKV arbeiten (ähnlich dem InEK für den stationären Bereich) (Schepers et al. 2015, S. 160). 5.3.1 Kennnummern, Register und Informationssysteme der Kassenärztlichen Vereinigungen Alle ambulant tätigen Ärzte/innen, die Leistungen im Rahmen der GKV erbringen und abrechnen wollen, müssen Mitglied einer Kassenärztlichen Vereinigung sein (Kap. 3.1.1). Die KVen führen landesweite Arztregister und Betriebsstättenverzeichnisse. Die Registereintragungen werden immer umfangreicher. Ein Teil dieser Eintragungen ist gesetzlich definiert (u. a. Arztnummer, Facharztkennung einschließlich dessen Gültigkeitsbeginn und - ende, Titel, Namen, Geburtsdatum, Geschlecht, Praxisadresse [§ 293 Abs. 4 SGB V]). Mit Verweis auf die Sicherstellung der medizinischen Versorgung fordern die Kassenärztlichen Vereinigungen in den einzelnen Bundesländern in unterschiedlichem Maße weitere personenbezogene Daten besonderer Kategorie von ihnen Mitgliedern (u. a. Staatsangehörigkeit, Privatadresse und Kontaktdaten, Sprachkenntnisse, Schwerbehindertenstatus, Praxisausstattung, ggf. Barrierefreiheit).141 Seit 2008 vergeben die KVen eigene eindeutige lebenslange Arztnummern (LANR) an ihre Ärzte/innen und Betriebsstättennummern (BSNR) für deren Praxen,142 die bei jeder Leistungsabrechnung gegenüber der KVen anzugeben sind (KBV 2021). Damit gibt es im ambulanten Bereich zwei Kennnummernsysteme: Zum einen die von den KVen vergebenen und zum anderen die von der Ärztekammer herausgegebene bundeseinheitliche Arztnummer (BAN) (Kap. 4.1.1), ggf. ist auch das allgemeine Institutionenkennzeichen (IK) relevant, falls Praxen besondere Versorgungsleistungen direkt mit den Krankenkassen abrechnen (Kap. 4.1.2). Kritiker halten diese doppelten Nummernsysteme für ressourcenaufwendig und fehleranfällig. Diese Nummern sind von zentraler Bedeutung sowohl für die Arztpseudonymisierung administrativer Daten als auch für vielfältige Datenverknüpfungen. Aus analytischer Sicht werden Verknüpfungen unterschiedlicher Datenbestände mit unterschiedlichen Schlüsselnummern technisch zumindest erschwert, Ärzte/innen und Praxen möglicherweise weniger gläsern gegenüber Organen der Selbstverwaltung, die Zugang zu diesen Registerdaten haben. Kassenärztliche Vereinigungen dürfen ihre Arztregisterdaten nur für definierte Aufgaben verwenden (§ 285 Abs. 1, § 305a SGB V). Dazu gehört auch die Weitergabe des gesetzlich definierten Datenanteils an die Kassenärztliche Bundesvereinigung, die diese Daten zu einem bundesweiten Arzt- und Betriebsstättenverzeichnis zusammenführt, dieses monatlich aktualisiert und sowohl KBV-intern im Rahmen definierter Aufgaben verwenden darf, als auch dem GKV-Spitzenverband und seinen Mitgliedern unentgeltlich übermittelt, die diese ebenfalls für definierte Aufgaben verwenden und nicht weitergegeben dürfen (§ 293 Abs. 4 SGB V). Die einzelnen KVen sowie Ärzte/innen bekommen nur bei berechtigtem Interesse eine begrenzte Einsicht in das bundesweite Verzeichnis. 139 ausführlicher unter www.zi.de (2.11.2021) 140 Das Institut des Bewertungsausschusses (InBA) entwickelt das ambulante medizinische Vergütungssystem der GKV, die einheitlichen Bewertungsmaßstäbe, kontinuierlich weiter. 141 z. B. www.kvs-sachsen.de/fileadmin/data/kvs/img/Mitglieder/Arbeiten_als_Arzt/Arztregister/200217-Arztregisterantrag-Arzt-C.pdf (10.11.2021) 142 In der LANR ist die von der KBV eigenständig definierte Fachgruppenklassifikation enthalten. In der BSNR ist über den KV- Landesoder Bezirksstellenschlüssel eine grobe räumliche Zuordnung möglich. Um die Register und Verzeichnisse nicht nur kontinuierlich zu aktualisieren, sondern auch im Rahmen der gesetzlichen Aufgaben umfangreich nutzen zu können, werden die Datenverwaltungssysteme zu Informationssystemen ausgebaut, in die datenanalytische Funktionalitäten für unterschiedliche Aufgaben bzw. Dienste für unterschiedliche Zielgruppen Schritt für Schritt integriert werden können. Ein Beispiel dafür ist der von den Kassenärztlichen Vereinigungen in Abstimmung mit den Ärztekammern entwickelte Suchdienst Arztsuche in Deutschland bzw. dessen mobile Version die 116117-App.143 Damit reagieren die Kassenärztlichen Vereinigungen und andere Ärztevertretungen auf die von unterschiedlichen externen Unternehmen Jahre früher gestarteten Arzt(bewertungs)portale. Die Kassenärztlichen Vereinigungen bewerben ihren Suchdienst mit den aktuellsten und validesten Daten zu Anschriften und fachlichen Qualifikationen (Facharzt- und Schwerpunktkompetenzen, Zusatzweiterbildungen, Kommunikationssprachen) aller in Deutschland niedergelassenen Vertragsärzt/innen und Vertragspsychotherapeut/innen. Der Dienst bzw. das Informationssystem verfügt bisher über eine regionale Suchfunktion und eine Funktion zur Buchung von Facharztterminen. Bewertungs- oder Scoringverfahren für Ärzte/ innen und Praxen lehnen die Kassenärztlichen Vereinigungen im Gegensatz zu externen arztportalbetreibenden Unternehmen bisher ab. Nach eigenen Angaben soll die 116117-App perspektivisch um ein sprachgesteuertes Assistenzsystem erweitert werden, das Symptome/gesundheitliche Beschwerden aufnimmt und Hinweise gibt, ob eine Selbstbehandlung ausreicht, Ärzte/innen demnächst aufgesucht oder ein Rettungsdienst sofort angefordert werden sollte (Direct-to-Consumer-Systeme; Kap. 4.3.4). Derartige digitale Funktionen/Werkzeuge können als Resultate von Data-Mining-Prozessen aufgefasst werden. Sie können das Aufgabenspektrum einzelner öffentlicher Einrichtungen erweitern sowie neuartige Geschäftsideen hervorbringen. Eine dezidierte Betrachtung der mit derartigen neuen Funktionalitäten von Informationsdiensten einhergehenden Chancen und Herausforderungen und ein Vergleich mit extern entwickelten Arzt(bewertungs)portalen sollte eigenständig thematisiert werden. 5.3.2 Daten zur Qualitätssicherung und Data-Mining-Potenziale Die KVen haben unterschiedliche Aufgaben bei der Realisierung der externen Qualitätssicherung (QS) im ambulanten Bereich. Bei datenbasierten sektorspezifischen QS-Verfahren, die u. a. im Rahmen von Disease- Management-Programmen und in derzeit 35 Leistungsbereichen (darunter die Durchführung von Mammografien oder der Umgang mit multiresistenten Infektionen) vereinbart sind,144 übernehmen Kassenärztliche Vereinigungen die Koordination. Zum einen bauen sie die erforderlichen zentralen DS-Datenbestände auf. Dazu haben sie separate Stellen eingerichtet für die Datenannahme, Prüfung und Fehlerkorrektur eingehender spezifischer QS-Datensätze sowie für die Pseudonymisierung von patienten-, arzt- und praxisidentifizierenden Merkmalen (Vertrauensstelle). Zum anderen realisieren spezifische Analysestellen die standardisierten (Benchmark-)Analysen und erstellen einrichtungsspezifische Rückmeldungen und beraten ihre niedergelassenen Ärzte/innen ggf. diesbezüglich (Kap. 4.4.2). Zudem erstellen sie jährliche allgemeine Berichte zur Qualitätssicherung auf Meso- und Makroebene für den ambulanten Bereich. Bisher werden nur die allgemeinen Berichte veröffentlicht (Schepers et al. 2015, S. 170). Weil insbesondere bei schwerwiegenden Erkrankungen oftmals sowohl ambulante als auch stationäre medizinische Behandlungsleistungen erforderlich sind, wurden 2010 zusätzlich sektorübergreifende QS-Analysen verbindlich eingeführt. Bei diesen fungieren die KVen im Wesentlichen als Daten-annahme-, Prüf- und Vertrauensstelle (analog agieren im stationären Bereich die Landesgeschäftsstellen für Qualitätssicherung bei den Landeskrankenhausgesellschaften). Die zentralen Datenbestände und sektorübergreifenden Analysen werden jedoch beim explizit dafür gegründeten Institut für Qualitätssicherung und Transparenz im Gesundheitswesen (IQTiG) aufgebaut und realisiert. Es gibt unterschiedliche Auffassungen inwiefern mit den derzeit etablierten Datenerhebungen die Qualität der medizinischen Versorgung tatsächlich erfasst werden kann, inwiefern der Aufwand in angemessenem Verhältnis zum Nutzen der Datenanalysen steht, welchen konkreten Mehrwert unterschiedliche komplexe Datenanalysekonzepte genau generieren und für welche Akteursgruppen handlungsrelevante Informationen generiert werden (sollen). 143 www.kbv.de/html/arztsuche.php; www.kbv.de/html/116117-app.php (10.11.2021) 144 www.kbv.de/html/sqs.php (10.11.2021) Die tendenziell weniger aufwendigen sektorspezifischen datenanalytischen Verfahren des ambulanten Bereichs sollen niedergelassene Ärzte/innen handlungsrelevante Informationen liefern und die Qualität der ambulanten Versorgung bei bestimmten Erkrankungen oder Behandlungsformen sichern. Kritiker/innen bemängeln vor allem deren intransparente Ergebnisse (Arztpraxen sind nicht zur Veröffentlichung ihrer Rückmeldungen verpflichtet). Bei den aufwendigeren sektorübergreifenden QS-Verfahren sind Kassenärztliche Vereinigungen der Meinung, dass sich die grundsätzlich gute datenanalytische Idee verselbstständigt habe und ein hyperkomplexes System geschaffen wurde, das für beteiligte Vertragsärzt/innen und KVen mit enormen Aufwand verbunden sei, wobei der Nutzen für Patient/innen unklar bliebe.145 Bisher steht vor allem die akutmedizinische Versorgung im Zentrum derartiger Analysen. Patientenzentrierte Aspekte (z. B. Wartezeiten auf Facharzttermine, ausreichend Zeit für Arzt-Patienten-Gespräche, gut verständliche Information, Einbeziehen in Behandlungs- und Pflegeentscheidungen) werden bei gesundheitssystemischen QS-Analysen bis auf marginale Ausnahmen bisher nicht berücksichtigt (Mühr 2018). Diese starke medizinische und gesundheitssystemische Ausrichtung leistet u. a. externen Konzepten zur Praxis- und Arztbewertung Vorschub, die explizit auf patientenzentrierten Informationen aufbauen, ohne eine medizinisch hochdifferenzierte Darstellung und Analyse anzustreben. Ein weiteres konzeptionelles Problem bei sektorübergreifenden QS-Analysen ist die bisher fehlende praktische Entsprechung. Da es nach wie vor kaum sektorübergreifende Versorgungsformen gibt und Behandlungen in unterschiedlichen medizinischen Einrichtungen eigenständig dokumentiert werden, ist die Zuordnung unterschiedlicher stationär und ambulant erbrachter Behandlungsleistungen zu einem Behandlungsfall aus den Dokumentationen der unterschiedlichen medizinischen Einrichtungen mit erheblichen Schwierigkeiten verbunden, mitunter auch nur begrenzt möglich (ausführlicher z. B. Döbler/Follert 2021). Die Forderung, bei sektorübergreifenden Analysen auch Präventions-, Reha- und Pflegeaktivitäten zu berücksichtigen, erhöht diese Schwierigkeiten. Dafür fehlen bisher sowohl Erfassungskonzepte als auch standardisierte Daten. Um die medizinische Versorgung insbesondere von Patient/innen mit erheblichen gesundheitlichen Beeinträchtigungen (z. B. chronisch Erkrankte oder multimorbide Personen) sektorübergreifend datenbasiert nachvollziehen und die diesbezügliche Qualität zu sichern, könnten einrichtungsübergreifende oder patientengeführte elektronische Akten hilfreich sein, sofern sie weitgehend vollständig geführt werden. Davon ist man im nationalen Gesundheitssystem derzeit noch weit entfernt. Unterschiedliche Institutionen der Selbstverwaltung arbeiten kontinuierlich an der Weiterentwicklung datenanalytischer Konzepte zur Sicherung der Qualität der medizinischen Versorgung. Zum einen können sie ihre kontinuierlich größer werdenden expliziten QS-Datenbestände für sekundäre Datenanalysen einschließlich Data- Mining nutzen. Zudem gibt es seit Jahren Ansätze, anhand von Daten aus der Leistungsabrechnung Informationen zur Qualität der medizinischen Versorgung abzuleiten (siehe unten). Diese sind u. a. für Kassenärztliche Vereinigungen und Krankenkassen zugänglich, auch wenn KVen QS-Daten und Leistungsabrechnungsdaten nicht zusammenführen dürfen. Zur Sicherung der Behandlungsqualität bei Krebserkrankungen dürften außerdem die Krebsregisterdaten tendenziell wichtiger werden (Kap. 4.1.4), da diese perspektivisch Langzeitbeobachtungen und Längsschnittanalysen zulassen, wobei die kontinuierliche Dokumentation des Behandlungsverlaufs eigenständig geregelt und zudem finanziert wird. Diese unterschiedlichen Datenquellen bieten Möglichkeiten, u. a. mit Data-Mining-Ansätzen QS-Verfahren weiterzuentwickeln. 5.3.3 Leistungsdaten: Prüfung, Verwendung, Weiterleitung Kassenärztliche Vereinigungen sind zentrale Intermediäre für die ambulante Leistungsabrechnung und - vergütung. Sie teilen die kollektivvertraglich mit dem GKV-Spitzenverband vereinbarte Gesamtvergütung für die ambulante medizinische Versorgung aller Versicherten auf alle teilnehmenden Vertragsärzt/innen auf (§ 87b SGB V). Dafür übermitteln letztere jeweils zum Quartalsende definierte, praxisintern geprüfte Leistungsdatensätze auf Patientenebene an die zuständige KV (Abb. 3.4).146 Diese Leistungsdatensätze sind einerseits personenbezogene Daten besonderer Art, andererseits bilden sie die betrieblichen Prozesse der ambulanten Praxen in hohem Maße ab. 145 www.kbv.de/html/sqs.php (10.11.2021) 146 Nicht enthalten sind medizinische Leistungen, die niedergelassene Ärzte im Rahmen spezieller Versorgungsformen direkt mit einzelnen Krankenkassen abrechnen, sowie Leistungen die sie als individuelle Gesundheitsleistungen den Patient/innen direkt in Rechnung stellen. Für die Verarbeitung von Leistungsdaten haben die einzelnen KVen jeweils separate Datenannahme-, Vertrauens- und Analysestellen etabliert. In den Datenannahmestellen werden die eingehenden Leistungsdatensätze weitgehend automatisiert geprüft. Dafür werden erst die Datensätze um ausgewählte Angaben aus den selbst geführten Ärzteregistern ergänzt (u. a. Fachqualifikationen als Voraussetzung, um bestimmte Leistungen durchführen und abrechnen zu können). Dann werden sie mittels Auffälligkeitsprüfungen (Abweichungen bestimmter Prüfkriterien von Standardwerten [§ 296 SGB V]) und Zufälligkeitsprüfungen (Stichprobenüberprüfungen von Praxisdaten [§ 297 SGB V]) auf Plausibilität und Rechtmäßigkeit automatisiert geprüft. Bisher werden klassische regelbasierte Verfahren eingesetzt, die in Facharbeitsgruppen im Rahmen der Selbstverwaltung entwickelt und abgestimmt werden. Fehlerhafte Leistungsdaten werden gestrichen. Vertragsärzt/innen haben ein Beschwerderecht. Machen sie davon Gebrauch, erfolgt eine Einzelfallprüfung. Nach der Prüfung pseudonymisieren die Vertrauensstellen die Leistungsdatensätze. Dann werden mit komplexen Berechnungsverfahren, in die u. a. Praxispauschalen, EBM-Kennziffern (quasi Pauschalen für ambulant erbrachte medizinische Leistungen), Fallwerte und -zahlen aber auch Vergütungsabstaffelungen im Rahmen von Mengenbegrenzen einfließen, die Quartalshonorare der Vertragsärzt/innen ermittelt (Schepers et al. 2015, S. 136). Diese Berechnung hat eine so große Komplexität erreicht, dass sie nur maschinell und automatisiert realisiert werden kann. Nach der Prüfung und Vergütung werden die Leistungsdatensätze zum einen auf die unterschiedlichen Krankenkassen der Patient/innen aufgeteilt und die Teile den jeweiligen Kassen übermittelt (Kap. 5.5). Zum anderen wird der gesamte Leistungsdatenbestand von den Kassenärztlichen Vereinigungen für unterschiedliche gesetzlich definierte Zwecke weiterverwendet (u. a. die Fortschreibung des EBM-Katalogs, Wirtschaftlichkeits- und Qualitätsprüfungen sowie diesbezügliche Beratungen mit einzelner Vertragsärzt/innen). Dazu ist eine zeitliche Fortschreibung der einzelnen Leistungsdatensätze erforderlich (gesetzliche Grundlage: § 87 Abs. 3f SGB V). Patienten- und arztidentifizierende Merkmale werden mit schlüsselabhängigen Verfahren pseudonymisiert (Kap. 3.3.3) und dem Leistungsdatenbestand der einzelnen KVen und dem zentralen Bestand der KBV hinzugefügt. Im Data- Warehouse der KBV wird der national größte Datenbestand ambulant erbrachter medizinischer Leistungen gespeichert. Er umfasst alle seit 2009 quartalsweise abgerechneten Leistungsdaten der 72 Mio. gesetzlich Versicherten (Schepers et al. 2015, S. 138). Kassenärztliche Vereinigungen dürfen ihre Datenbestände für zeitlich befristete und vom Umfang begrenzte Forschungsvorhaben (insbesondere zur Gewinnung epidemiologischer Erkenntnisse sowie von Erkenntnissen über Zusammenhänge zwischen Erkrankungen und Arbeitsbedingungen oder über örtliche Krankheitsschwerpunkte) mit Erlaubnis der Aufsichtsbehörde leistungserbringer- oder fallbeziehbar selbst auswerten oder in anonymisierter Form über entsprechende Fristen hinaus aufbewahren (§ 287 SGB V). Für diese Analysen wurde auf Bundesebene u. a. ein strategisches Analyseteam eingerichtet. Das Team nimmt interne aber auch externe Analyseanfragen (z. B. vom BMG oder dem G-BA) entgegen, führt mit Erlaubnis der Aufsichtsbehörde die Analyse durch und meldet Ergebnisse ggf. zurück. Inzwischen scheint es deutlich über 100 interne und externe Themenanfragen pro Jahr zu geben (Tenckhoff 2017). Die Spanne reicht von mehr oder weniger standardisierten Analysen (z. B. zur Situation der ambulanten Versorgung z. B. urbanen und ländlichen Räumen) bis zur Entwicklung prognostischer Modelle (z. B. für Simulationsrechnungen, die die Entwicklung der ambulanten Versorgung prognostizieren sollen). Kassenärztliche Vereinigungen müssen eine Übersicht erstellen, wie sie ihre Bestandsdaten weiterverwenden (§ 286 SGB V). 5.3.4 Sekundärnutzung von Leistungsdaten: Data-Mining-Beispiel »Verbreitung multiresistenter Erreger« Multiresistente Keime (Methicillin-resistenter Staphylococcus aureus – MRSA) sind gegen mehrere Antibiotika resistent und können oftmals nur schwer oder eingeschränkt behandelt werden. Aufgrund der begrenzten Behandlungsmöglichkeiten gelten sie als eine nationale Gesundheitsgefahr. Ähnlich wie beim Beispiel zur Choleraepidemie in London (Kap. 2.1) verweisen Schepers et al. (2015, S. 101 ff.) auf raumbezogene Data-Mining- Analysen, die die regionale Verbreitung multiresistenter Erreger und Hotspots der Verbreitung zeigen. Tenckhoff (2015) (Abb. 5.1 links) hat aus den bei der KBV gehaltenen ambulanten Leistungsdaten von 2013 alle Fälle mit MRSA-diagnose- und MRSA-behandlungsbezogenen EBM-Codes147 und deren Georeferenz (die auf 4 Stellen vergröberte PLZ des Wohnortes) extrahiert. Es wurden der nationale Mittelwert errechnet, regionale Abweichungen vom Mittelwert ermittelt und die Regionen anhand der Abweichungen gruppiert. Regionen, in denen überzufällig häufig MRSA-Diagnosen und/oder -Behandlungen abgerechnet wurden, wurden dunkel eingefärbt. Drepper (2014) (Abb. 5.1 Mitte) hat aus den über das Statistische Bundesamt frei zugänglichen stationären Leistungsabrechnungsdaten (entsprechend § 21 KHEntgG; Kap. 4.2.2) alle 2013 in Krankenhäusern diagnostizierten MRSA-Patienten (ICD-Code: U80.0) extrahiert, die relativen Häufigkeiten (pro 1.000 Patient/innen) ermittelt und diese ebenfalls über die verfügbare Georeferenz (Landkreis des Patientenwohnortes) grafisch dargestellt, wobei Landkreise mit hohen Häufigkeitswerten dunkel eingefärbt wurden. Abb. 5.1 Regionale MRSA-Diagnosen in Deutschland (2013) Quellen: Drepper 2014; RKI 2016; Schepers et al. 2015, S. 101 nach Tenckhoff 2015 Das RKI (2016) als nationales Public-Health-Institut erhält vielfältige Daten vor allem zur Verbreitung zu Infektionskrankheiten, darunter auch Daten die im Rahmen der Qualitätssicherung in Bezug auf MRSA- Krankenhausinfektionen erfasst werden. Für die Jahre 2013/14 wurden Daten von über 800 Intensivstationen und knapp 1.000 operativen Abteilungen analysiert und u. a. der Anteil der MRSA-Infektionen an allen festgestellten Krankenhausinfektionen ermittelt (Abb. 5.1 rechts). 147 EBM-Ziffern von 86770 – 86781 (für Aktualisierungen der Analyse von Tenckhoff (2015) müssen alle EBM-Ziffern umcodiert werden, weil der EBM-Katalog 2014 umcodiert wurde und sich alle MRSA-relevanten EBM-Ziffern änderten). Einschätzung und Bewertung Zieht man die unterschiedlichen Schritte des Data-Mining-Prozesses als eine Art Bewertungsraster heran (Abb. 2.1), wird deutlich, dass die Aufgabendefinition bei allen drei Ansätzen weitgehend gleich ist: Anhand verfügbarer Daten sollen retrospektiv regionale Auffälligkeiten in Bezug auf MRSA-Infektionen ermittelt werden. Wo traten besonders viele, aber auch besonders wenige Fälle auf? Die Datenauswahl dürfte durch die Zugangsmöglichkeiten der Datenanalyst/innen bestimmt worden sein. Der KBV-Analyst nutzte die ambulanten Leistungsabrechnungsdaten des KBV-Data-Warehouse (Tenckhoff 2015). Der investigative Journalist nutzte die allgemein zugänglichen stationären Leistungsabrechnungsdaten, die beim InEK zusammengestellt und über statistische Bundesamt zugänglich gemacht werden (Drepper 2014). Das RKI nutzte die Daten zu labordiagnostisch bestätigten, meldepflichtigen Infektionen, die medizinische Einrichtungen an die Gesundheitsämter übermitteln und diese dann an das RKI weiterleiten. Die Datenanalyse basierte auf unterschiedlichen räumlichen Auflösungen bzw. geografischen Gebieten und methodischen Ansätzen: Tenckhoff hat regionale Ausreißer ermittelt, Drepper relative Häufigkeiten errechnet, das RKI MRSA-Infektionen ins Verhältnis zu anderen Infektionsmeldungen gesetzt. Zudem hatte jede Analyse eine unterschiedliche regionale Auflösung. Alle haben ihre geografischen Gebiete klassifiziert und dann anhand einer digitalen Karte dargestellt. Je größer die regionale Auflösung der Analysedaten, desto genauer können Häufungen verortet werden. Aus gesundheitssystemischer oder -politischer Perspektive sind die Ergebnisse und deren weitere Verwendung relevant: Was folgt aus diesen Einzelaktivitäten und den Resultaten? Damit wird der Blick zuerst auf die fachlich-inhaltliche Diskussion gerichtet (Wissenserweiterung, externe Prüfung), ggf. kann auch die Verstetigung der Verfahren diskutiert werden (Anwendung, Entscheidungsunterstützung). Auch wenn die drei Analysen keine deckungsgleichen regionalen Muster hervorbrachten, liefern sie Hinweise/Signale zu regionalen Häufungen von MRSA-Infektionen im Nordwesten Deutschlands (Korrelationen), aber keine validen Belege (dafür gelten vor allem Abrechnungsdaten oftmals als zu fehleranfällig).148 Die skizzierten retrospektiven Analysen können grundsätzlich keine Ursache-Wirkungs-Beziehungen aufzeigen (Kausalitäten). Sowohl die Daten (vor allem die hochaufgelösten) als auch die damit möglichen Analysen sind jedoch geeignet, um auf ein Problem hinzuweisen. Wie im historischen Beispiel der Choleraepidemie (Kap. 2.1) muss man Ursache-Wirkungs-Beziehungen auf andere Art und Weise nachgehen. Ziel der retrospektiven Datenanalyse ist die Darstellung der räumlichen Verteilung der Infektionen und die Ermittlung von MRSA-Infektions-Hotspots und die Darstellung räumlicher Strukturen, nicht mehr, aber auch nicht weniger. Darüberhinausgehende Fragen können mit diesen Analysen nicht beantwortet werden: Beispielsweise die Frage nach der Infektionsquelle: Wurden MRSA-Infektionen in die jeweilige Einrichtung mitgebracht oder dort erworben? Gibt es in nördlichen Regionen nur eine überdurchschnittliche MRSA- Aufmerksamkeit und wird dort nur genauer geprüft? Sind Keime in Regionen mit Intensivtierhaltung allgemein antibiotikaresistenter? Derartige vertiefte Auseinandersetzungen mit den Analyseergebnissen schließen an Data- Mining-Prozesse an und sind oftmals eingebettet in ohnehin laufende Aktivitäten zu einem bestimmten Sachverhalt. In Bezug auf die nationale Gesundheitsgefahr durch MRSA-Keime zählen dazu u. a.: › Die sektorübergreifende Ursachenforschung: In diesem Rahmen untersucht z. B. das Bundesinstitut für Risikobewertung Fragen zu einem möglichen Zusammenhang zwischen intensiver Nutztierhaltung und gehäuften MRSA-Besiedlungen beim Menschen (BfR 2014) und im interdisziplinären Forschungsverbund »Hy- ReKA«149 forschen Agrarwissenschaftler, Geografen, Ingenieure, Lebensmitteltechnologen, Ernährungswissenschaftler Biologen und Mediziner gemeinsam zur Rolle des Abwassers bei der Verbreitung antibiotikaresistenter Bakterien (One-Health-Ansatz). › Maßnahmen zur Qualitätssicherung in der medizinischen Versorgung: 2016 trat die sektorspezifische QS- Vereinbarung zu MRSA im ambulanten Bereich in Kraft (KBV 2016). Zudem wird an einem sektorübergreifenden QS-Verfahren zu postoperativen Wundinfektionen (u. a. mit MRSA-Keimen) gearbeitet.150 In diesem Rahmen müssen vielfältige Hygienemaßnahmen und Tests regelmäßig durchgeführt, Infektionen bekämpft 148 Niedergelassene Ärzte/innen können MRSA-Diagnose- und Behandlungsleistungen seit dem zweiten Quartal 2012 abrechnen, wenn sie eine zertifizierte MRSA-Zusatzqualifizierung haben und diese im Arztregister der KV eingetragen ist. Wie viele Ärzte/innen in welchen Regionen diese Qualifizierung haben und ob möglicherweise Teile Niedersachsens und Nordrhein-Westfalens Modelregionen für die MRSA-Zusatzqualifizierung sind, geht aus der Analyse nicht hervor. 149 http://hyreka.net/ (10.11.2021) 150 Das 2017 eingeführte sektorübergreifende QS-Verfahren wurde 2020 aufgrund erheblichen Anpassungs- und Entwicklungsbedarfs sowie wegen unklarer Fragebogenformulierungen ausgesetzt (https://iqtig.org/qs-verfahren/qs-wi/; 10.11.2021). und die Verfahren aufwendig dokumentiert werden. Dadurch sollte perspektivisch eine größere MRSA- spezifische Datenbasis generiert werden (die bisher nur im Rahmen der der Qualitätssicherungsverfahren begrenzt zugänglich sein wird). › Kontinuierliches Gesundheitsmonitoring: Das RKI startete bereits 2007 das Antibiotika-Resistenz- Surveillance-Projekt. Es soll das eine repräsentative Datenbasis zur Antibiotikaresistenz in Deutschland aufbauen und unterschiedliche Datenbestände für diverse Analysen nutzen, um nicht nur regionale, sondern auch zeitliche und sektorspezifische Entwicklungen abzubilden (z. B. RKI 2016). In diesem Rahmen könnten auch die beispielhaft skizzierten geoanalytischen Verfahren verstetigt und als digitale Werkzeuge in MRSA- Informationssysteme integriert werden. Die drei beispielhaft vorgestellten datenanalytischen Verfahren, die die räumliche Verteilung von MRSA- Infektionen anhand unterschiedlicher Analysedatensätze darstellen und mit unterschiedlichen Berechnungsverfahren Hotspots lokalisieren, wurden in einer Art Machbarkeitsstudie entwickelt (z. B. Tenckhoff 2015). Dafür können in der Regel auch strukturgleiche alte Daten verwendet werden. Bevor die Verfahren z. B. im Rahmen des Gesundheitsmonitorings und/oder der Qualitätssicherung eingesetzt werden können (Anwendung der analytischen Verfahren zur Entscheidungsunterstützung), müssen unterschiedliche Detailfragen diskutiert und abgewogen werden: Welche der verfügbaren Datensätze sind inhaltlich und analysetechnisch am besten geeignet? Neben der Validität/Qualität ist auch die Aktualität und die räumliche Auflösung der Rohdaten relevant. Werden (Daten- )Schutzrechte eingehalten? Liegt bei öffentlichen Einrichtungen die Entwicklung von Informationsdiensten im Rahmen der gesetzlich definierten Aufgaben? Für welche Gesundheitsmonitorings eignet sich das Verfahren? Kann es in bestehende Informationssysteme als Zusatzfunktion integriert werden? Erreichen die Verfahren und die ermittelten Ergebnisse relevante Zielgruppen? Es kann davon ausgegangen werden, dass derartige Fragen im Kontext von MRSA-Infektionen diskutiert und abgewogen wurden. Denn quartalsbezogene MRSA-Analysen durch die KBV und die Ergebnisberichterstattung an des BMG sind inzwischen gesetzlich definiert (§ 87 Abs. 2a Satz 3 f. SGB V). 5.3.5 Einschätzung Kassenärztliche Vereinigungen sind als öffentliche Einrichtungen für vielfältige administrative Prozesse der ambulanten ärztlichen Versorgung die zentralen primären Datendrehscheiben. Im Rahmen ihres gesetzlich definierten Aufgabenspektrums bauen sie einzigartige Mikrodatenbestände auf (mit Bezügen zu Zeit, Raum, Gesundheit von Patient/innen, Behandlung, Ärzte/innen und deren Praxen sowie Krankenkassen) auf, die regelmäßig fortgeschrieben werden. Register- und Leistungsdaten sind bereichsspezifische Totalerhebungen, die relativ zeitnah für KV-interne sekundäre Analysen bereitstehen. Kassenärztliche Vereinigungen übermitteln definierte Teilbestände an andere Organe der Selbstverwaltung. Den Gesamtbestand dürfen nur sie (weiter)verwenden. Die Datenbestände oder Teile davon werden nicht über Forschungsdatenzentren oder Dateninfrastrukturen Dritten zugänglich gemacht. Kassenärztliche (Bundes-)Vereinigungen haben ein weitgehendes Verarbeitungsmonopol auf ihre Datenbestände. Regelmäßigen komplexen Analysen sowohl zur Prüfung der Datensätze (sachliche und rechnerische Richtigkeit), zur Berechnung der Arzthonorare, zu Wirtschaftlichkeitsprüfungen und zur Qualitätssicherung wird auf gesetzlicher Ebene und durch vielfältige nachgeordnete Richtlinien ein klarer Rahmen vorgegeben, in dem die Kassenärztlichen Vereinigungen eigenverantwortlich agieren können. Zudem können sie ihre Datenbestände für eigene Planungs- und Forschungsvorhaben weiterverwenden und entsprechende Anfragen anderer Organe der gesundheitssystemischen Selbstverwaltung realisieren. Dafür benötigen sie die Zustimmung ihrer jeweiligen Aussichtsbehörde. In diesem Rahmen sind komplexe Datenanalysen einschließlich Data-Mining möglich, sofern die Kassenärztlichen Vereinigungen ausreichend personelle Ressourcen bereitstellen können. In welchem Umfang sie ihre Datenbestände für komplexe Datenanalysen oder Data-Mining auf Anfrage anderer gesundheitssystemischer Organe oder aus Eigeninteresse tatsächlich weiterverwenden, könnten die jeweiligen Aufsichtsinstitutionen, nicht aber außenstehende Dritte beurteilen. Dem TAB ist nicht bekannt, welche finanziellen und personellen Ressourcen die KVen für analytische Datenweiterverwendungen bereitstellen können, da Auflistungen/Register zu Untersuchungsanfragen oder dadurch erzielte Ergebnis- oder Publikationslisten nicht veröffentlicht werden. Die Weiterverwendung der umfangreichen und aktuellen Datenbestände der KVen ist für Außenstehende daher wenig transparent. 5.4 Arzneimittelversorgung: Akteure, Daten und deren Verwendungsmöglichkeiten Die Abgabe von Arzneimitteln an Patient/innen bzw. Kund/innen wird im ambulanten Bereich über Apotheken organisiert (Ausnahme freiverkäufliche Substanzen). Wie alle medizinischen Einrichtungen werden Apotheken als Wirtschaftsbetriebe geführt. Anders als bei Arztpraxen gilt die Führung einer Apotheke als Gewerbe (der grundsätzlich eine Gewinnerzielungsabsicht unterstellt wird). Analog zum Arztberuf (Kap. 4.1.1) ist auch der Apothekerberuf ein freier Beruf (Dienstleistung höherer Art im Interesse der Allgemeinheit), die Berufsausübung an die Mitgliedschaft in der spezifischen Berufskammer gebunden (die Grundsätze und Pflichten bei der Berufsausübung über Berufsordnungen definiert). Apotheker/innen unterliegen einerseits der Schweigepflicht, die auch die Daten zur Arzneimittelabgabe an einzelne Kund/innen zusätzlich zu den Vorgaben der Datenschutz- Grundverordnung besonders schützt. Andererseits werden diese Schweige- und Datenschutzpflichten gegenüber gesetzlich krankenversicherten Kund/innen bei ärztlich verordneten und damit rezeptpflichtigen Arzneimitteln gesetzlich begrenzt (§ 300 SGB V). Apotheken müssen sämtliche Rezeptdaten an die jeweilige Krankenkasse übermitteln, wenn sie einen Teil der Abgabepreise den jeweiligen GKK direkt in Rechnung stellen. Auch im Apothekenbereich gibt es unterschiedliche Vereinigungen und Institutionen mit gesetzlich definierten Aufgaben, die in diesem Rahmen spezielle Datenbestände aufbauen. 5.4.1 Vereinigungen, Register, Informationssysteme Apotheker/innen sind zur Mitgliedschaft in der jeweils zuständigen Landesapothekerkammer verpflichtet, die u. a. Register zu allen öffentlichen Apotheken151 führen. Auszüge aus den Landesregistern (Name, Anschrift und Institutionenkennzeichen der Apotheke) sind zu einem bundeseinheitlichen Apothekenverzeichnis zusammenzuführen und dem Spitzenverband Bund der Krankenkassen unentgeltlich bereitzustellen und regelmäßig zu aktualisieren. Die Krankenkassen dürfen dieses Verzeichnis nur zur Erfüllung ihrer Aufgaben verwenden und nicht weitergeben (§ 293 Abs. 5 SGB V). Die Landesapothekenkammern sind auch für die Ausgabe elektronischer Apothekerausweise verantwortlich, die perspektivisch für bestimmte eHealth-Anwendungen relevant sind (Medikamentationspläne, eRezepte). Die Landes- und Bundesapothekenkammern sind berufspolitische Interessenvertretungen der Apotheker/innen. Wirtschaftliche und (gesundheits)politische Belange werden eher über separate Apothekerverbände organisiert. Die Mitgliedschaft in einem Verband auf Landesebene bzw. auf Bundesebene (Deutscher Apothekerverband – DAV) ist freiwillig. Apothekenkammern und -verbände bilden gemeinsam die Bundesvereinigung Deutscher Apothekerverbände (ABDA), ein gemeinnütziger Verein, der u. a. das vollständige Register aller in Deutschland über Apotheken verfügbaren Arzneimittel führt.152 Ein Kernelement der Registrierung ist die eindeutige Produktidentifikation. Dafür ist die Informationsstelle für Arzneispezialitäten (IFA GmbH) geschaffen worden. Sie vergibt auf Herstellerantrag gegen Vorlage definierter Arzneimitteldaten (u. a. Name, Darreichungsform, Packungsgröße, Inhaltsstoffe, Wirkstoffklassifikation der WHO [Anatomisch-Therapeutisch-Chemisches Klassifikationssystem, kurz ATC-Code], definierte Tagesdosen, Indikationsgebiete, Arzneimittelstatus,153 Preis sowie umfangreiche Angaben zum Hersteller) einerseits die national relevante Pharmazentralnummer (PZN) und andererseits die EU-weit gültige Pharmacy Product Number (PPN).154 Die Daten- und Softwarespezialinstitution des ABDA (Avoxa – Mediengruppe Deutscher Apotheker GmbH) nutzt dieses Register u. a. zur kontinuierlichen 151 Apotheken, die Arzneimittel ambulant abgeben, werden als öffentliche Apotheken bezeichnet. Die stationäre Arzneimittelversorgung wird ohne Rezeptdokumentation mittel Krankenhausapotheken organisiert und in der Regel im Rahmen der Fallpauschalen vergütet (bei sehr teuren Arzneimitteltherapien gibt es spezielle Abrechnungsverfahren). 152 http://abdata.de/datenangebot/abdamed/ (10.11.2021) 153 Der Arzneimittelstatus ist eine nach dem Gefährdungspotenzial differenzierende vierstufige Arzneimittelgruppierung (freiverkäuflich, apothekenpflichtig, verschreibungspflichtig, Betäubungsmittel). 154 Die PZN wird als 8-stellige Zahl fortlaufend vergeben (codiert folglich keinerlei produkt- oder herstellerspezifische Angaben). Die PZN wird in die 18-stellige PPN integriert, die neben der fortlaufenden Nummer auch einige produktspezifische Informationen direkt codiert; Rechtsgrundlage: Richtlinie 2011/62/EU des Europäischen Parlaments und des Rates vom 8. Juni 2011 zur Änderung der Richtlinie 2001/83/EG zur Schaffung eines Gemeinschaftskodexes für Humanarzneimittel hinsichtlich der Verhinderung des Eindringens von gefälschten Arzneimitteln in die legale Lieferkette) Weiterentwicklung des verbandsspezifischen Arzneimittelinformationssystems ABDAMED. Es hat Zusatzmodule zur patientenindividuellen Arzneimittelrisikoprüfung, zur Berechnung von Abgabepreisen gegenüber den Krankenkassen sowie für tagesaktuelle Arzneimittelinformationen (von Neueinführungen bis zu Produktrückrufen). Register und Informationssystem werden mittels kostenpflichtiger Nutzungslizenz bereitgestellt. Auch das Bundesinstitut für Arzneimittel und Medizinprodukte (BfArM) führt zwei arzneimittelrelevante Register: Zum einen wird das nationale Arzneimittelinformationssystem PharmNet.bund.de seit Jahren auf- und ausgebaut. Für alle national verfügbaren Arzneimittel sollen vielfältige Informationen schrittweise integriert werden (u. a. Gebrauchs- und Fachinformationen, Risiko-Management-Pläne, Ergebnisse klinischer Prüfungen, Assessment Reports) Zum anderen führt das BfArM das Melderegister zu unerwünschten Arzneimittelwirkungen (UAW). Die Relevanz dieser Register für Data-Mining-Prozesse wird im Anwendungsbeispiel Pharmakovigilanz (Kap. 5.5.3) veranschaulicht. Für die Arbeitsprozesse bei der Abgabe von Arzneimitteln in Apotheken sind diese Register und Informationssysteme nicht unmittelbar relevant. 5.4.2 Apothekenrechenzentren Die von den Apotheken genutzten Arzneimittelinformationssysteme haben in der Regel keine derart ausgebauten administrativen Arbeitsbereiche, dass die einzelnen Apotheken die Abrechnung mit den über 100 verschiedenen gesetzlichen Krankenkassen effizient realisieren können. Zumal die Abrechnung bei verschreibungspflichtigen Arzneimitteln an GKV-Versicherte wegen diverser patientenseitiger Zuzahlungs- und Befreiungsregelungen, krankenkassenseitiger Rabattverträge sowie hersteller- und apothekenseitiger Ab- und Zuschläge eine hohe Komplexität erreicht hat. Zumeist beauftragen Apotheken spezialisierte Apothekenrechenzentren (ARZ) mit der Leistungsabrechnung gegenüber gesetzlichen Krankenkassen. Apotheken sind grundsätzlich frei, ob, und wenn ja, welches ARZ sie mit ihren Abrechnungen beauftragen. ARZ können deutschlandweit agieren und sind nicht ausschließlich auf Apothekenabrechnungen beschränkt (einige übernehmen auch Abrechnungsaufgaben für andere ambulante medizinische Einrichtungen wie z. B. Physiotherapeut/innen). ARZ gelten inzwischen als Finanzdienstleistungsinstitute und stehen unter Aufsicht der Bundesanstalt für Finanzdienstleistungsaufsicht (BaFin).155 Bei einigen großen ARZ laufen seit Jahren erhebliche Datenmengen zur ambulanten Arzneimittelabgabe im ersten Gesundheitsmarkt zusammen. Der Ursprung dieser Daten sind die von den Ärzte/innen überwiegend maschinell erstellten Rezepte (bisher papierbasiert, nach derzeitigem Planungsstand sollen elektronische Rezepte 2022 eingeführt werden).156 Rezepte sind hochgradig standardisierte Dokumente, die Daten zu den abzugebenden Wirkstoffen bzw. Arzneimitteln sowie direktidentifizierende Angaben sowohl zu rezeptausstellenden Ärzte/innen als auch zu Patient/innen und deren Krankenkasse enthalten. Die Rezeptdaten werden bei der Abgabe ergänzt: einerseits um die PZN des jeweiligen Arzneimittels und das Abgabedatum, andererseits um die zu erstattenden Beträge und das Institutionenkennzeichen der Apotheke (Abb. 4.4 rechts). Bisher müssen die vervollständigten papierbasierten Kassenrezepte wieder digitalisiert werden, entweder bereits in der Apotheke oder im jeweils beauftragten ARZ, das die Rezepte etwa aller 2 bis 4 Wochen abholt. Werden Einträge beim Scannen nicht erkannt, erfolgt eine manuelle Ergänzung oder Korrektur von Einlesefehlern. Die in den ARZ zusammenlaufenden Rezeptdatensätze bilden sowohl das Verschreibungsverhalten niedergelassener Vertragsärzt/innen, als auch die Arzneimittelabgabe an gesetzlich Versicherte auf Einzelfallebene ab. In der Summe wird dadurch ein wichtiger Teil des nationalen Arzneimittelmarktes detailliert und hochgranular (bis runter auf die Packungsebene) abgebildet – insgesamt ca. 55 % aller in öffentlichen Apotheken verkauften Arzneimittel (Forschungsgruppe PMV 2010, S. 22).157 Der primäre Verwendungszweck dieser Rezeptdatensätze ist die anteilige Kostenerstattung durch die jeweiligen GKK. Dafür werden Gesamtrechnungen einerseits pro Apotheke und andererseits pro GKK automatisiert erstellt. Den Kassen werden sowohl die Gesamtabrechnungen als auch die einzelnen gesetzlich definierten Rezeptdatensätze für die bei ihnen versicherten Personen übermittelt (Abb. 4.4 rechts). ARZ bieten ihren Apotheken 155 Derzeit gibt es deutschlandweit weniger als 20 ARZ (überwiegend als GmbH geführt). Analyst/innen rechnen mit einer stärkeren Zentralisierung des Abrechnungsgeschehens, kleinere ARZ hätten es zunehmend schwerer, die BaFin-Auflagen zu erfüllen. 156 www.bundesgesundheitsministerium.de/e-rezept.html (10.11.2021) 157 Im Datenbestand nicht enthalten sind Arzneimittelabgaben durch Privatrezepte und der Verkauf verschreibungsfreier Arzneimittel, an deren Kosten sich die GKV nicht beteiligt – 2. Gesundheitsmarkt, der zunehmend durch Onlineapotheken bedient wird (ausführlichere Darstellung z. B. Bundesregierung 2019b). zunehmend Onlinezugriffmöglichkeiten auf deren Rezeptdatensätze sowie auf Analysetools zum Monitoring und zur Optimierung betrieblicher Geschäftsprozesse an. ARZ müssen für gesetzlich definierte Zwecke (u. a. Sicherung von wirtschaftlichen Verordnungsweisen, Beratung von Vertragsärzten zur Wirtschaftlichkeit bei Verschreibungen, Arzneimittelvereinbarungen und Abgabevolumen) ausgewählte Versorgungsdatensätze auf Anforderung weiterleiten an (§ 300 Abs. 2 SGB V): Apothekenrechenzentren haben als privatwirtschaftliche Finanzdienstleister eine Sonderstellung im nationalen Gesundheitssystem. Unklar ist, ob sie als private Unternehmen dem Sozialdatenschutz unterliegen bzw. das Sozialgeheimnis zu wahren haben (ARZ werden im § 35 SGB I nicht explizit genannt). Einerseits dürfen sie die ihnen übermittelten Daten nur für die im SGB V bestimmten Zwecke verarbeiten, soweit sie dazu von einer berechtigten Stelle beauftragt wurden. Andererseits wird ihnen explizit gestattet, anonymisierte Daten auch für andere Zwecke zu verarbeiten und zu nutzen (§ 300 Abs. 2 SGB V). Der Grad der Anonymisierung und die zulässigen Zwecke werden nicht näher benannt. Dadurch sind unterschiedliche Auslegungen möglich, die komplexe Datenanalysen zulassen oder begrenzen (siehe unten). 5.4.3 Das Deutsche Arzneiprüfinstitut Das Deutsche Arzneiprüfungsinstitut (DAPI) ist ein von den Apothekenkammern und -verbänden gemeinsam getragener gemeinnütziger Verein zur Förderung von Wissenschaft und Forschung sowie zur Verbesserung der Arzneimitteltherapiesicherheit und Arzneimittelversorgung. Gegenwärtig sind sechs überregionale und vergleichsweise große ARZ Mitglieder des DAPI. Sie liefern seit der Jahrtausendwende von inzwischen mehr als 80 % der Apotheken Deutschlands versicherten-, arzt- und apothekenanonymisierte Datensätze auf Einzelrezeptebene (Rechtsgrundlage § 300 Abs. 2 SGB V).158 Die Daten werden monatlich über die Datenannahmestelle (Avoxa – Mediengruppe Deutscher Apotheker GmbH) in das Data Warehouse des DAPI eingespeist, dort u. a. mit dem Arzneimittelregister des ABDA verknüpft und spätestens 8 Wochen nach Beendigung des Abrechnungsmonats für Analysen bereitgestellt (Schubert et al. 2014, S. 69). Jährlich kommen 600 Mio. Datensätze hinzu. In den ersten Jahren wurden die Datensätze mehrfach pseudonymisiert und zeitlich kontinuierlich fortgeschrieben. 2012 wurde das Verfahren aus datenschutzrechtlicher Perspektive neu bewertet und die zeitliche Fortschreibung unterbunden. Seit dem dürfen ARZ nur vollständig anonymisierte Datensätze an das DAPI übermitteln. Von den Versicherten werden lediglich Geburtsjahr und Versichertenstatus, von den Ärzte/innen die KV-Region (meist Bundesland) und das Verordnungsdatum übermittelt. Da zeitliche Fortschreibungen unmöglich sind, kann das DAPI seit 2012 keine Zeitverlaufs-/Längsschnittanalysen mehr durchführen (GKK können das mit ihren Rezeptdaten nach wie vor tun, die haben jedoch keine so große Marktabdeckung wie das DAPI [Kap. 5.5]). Datenanalysen werden nur von DAPI-Angehörigen durchgeführt, Ergebnisse nochmals auf Anonymität geprüft. Seinen Trägern und Mitgliedsorganisationen stellt das DAPI regelmäßig aktualisierte Basis- und Routineauswertungen bereit (u. a. Marktübersichten zur Abgabe von Impfstoffen, Substanz- oder Arzneimittelgruppen). Auch für Dritte (u. a. Institutionen des Gesundheitssystems, Ministerien, Abgeordnete oder öffentliche Forschungseinrichtungen) führen sie Analysen auf Antrag durch (z. B. zur Entwicklung der Abgabe bestimmter Arzneimittelgruppen oder zu sich abzeichnenden Versorgungsengpässen), Kosten werden bisher nicht in Rechnung gestellt. Ergebnisse dürfen nur mit schriftlicher Genehmigung des DAPI an Dritte weitergegeben werden. Teilweise werden sie in Fachzeitschriften publiziert und über die DAPI-Website zugänglich gemacht. 5.4.4 Exkurs: Kommerzielle Datenweiterverwendung – ein zulässiges Geschäftsmodell? Vor einigen Jahren starteten zwei international tätige Wirtschaftsberatungsunternehmen mit Niederlassungen in Deutschland Initiativen zu Geschäftsanalysen im Arzneimittelmarkt (Kunze 2013; Machotta 2013). Sie schlossen Verträge zur Datenübermittlung sowohl mit Apothekenrechenzentren als auch mit einzelnen Apotheken und Arztpraxen ab, stellten ihnen einen schlüsselunabhängigen Pseudonymisierungsalgorithmus zur Verfügung (Kap. 3.3.3), mit dem diese regelmäßig die identifizierenden Merkmale ihrer einzelfallbezogenen Leistungsda- 158 www.dapi.de/das-dapi/das-dapi-stellt-sich-vor/ (10.11.2021) tensätze pseudonymisierten. Diese Datensätze wurden über Clearingstellen und Trustcenter an die Beratungsunternehmen weitergeleitet, die mit dem periodenübergreifenden Pseudonym ihre Datenbestände regelmäßig fortschreiben und dadurch ebenfalls die ambulante Versorgungssituation auf Einzelfallebene für alle teilnehmenden ARZ, Apotheken und Praxen kontinuierlich abbilden konnten (was dem DAPI wegen der großen Marktabdeckung seit 2012 nicht mehr gestattet wurde, der KBV jedoch erlaubt ist). Die Wirtschaftsberatungsunternehmen beriefen sich auf faktische Anonymisierung der Daten und die Verfahrensgenehmigung durch die jeweils zuständige regionale Datenaufsichtsbehörde. ARZ ist die Weiterverwendung anonymisierter Daten für andere Zwecke explizit erlaubt (§ 300 Abs. 2 SGB V). Bei den Verträgen mit Apotheken und Arztpraxen wurde teils argumentiert, dass kein Kaufpreis pro Datensatz, sondern eine Aufwandsentschädigung für die Zusammenstellung und Anonymisierung der Daten gezahlt worden sei und die jeweiligen Einrichtungen spezielle, auf sie zugeschnittene Analysen und Auswertungen zu ihren Behandlungs- bzw. Verkaufsleistungen erhielten. Nähere Informationen zu den vertraglichen Vereinbarungen seien Geschäftsgeheimnisse. Bei diesem Geschäftsmodell, bei dem sowohl ARZ als auch Apotheken und Arztpraxen faktisch anonymisierte Datensätze, die im Rahmen der medizinischen Versorgung von Patient/innen entstanden, mit Billigung der zuständigen Landesdatenschutzbeauftragten an private Marktforschungsinstitute veräußerten, wurde einerseits die unmittelbare Rechtmäßigkeit des Verfahrens kontrovers diskutiert. Andererseits wurde auch grundsätzlicher hinterfragt, wer Daten, die im Kontext einer Behandlung entstanden sind, in welcher Form verarbeiten, nutzen oder auch verwerten darf. Kritiker/innen dieses Vorgehens hielten die Daten nur für pseudonymisiert und wiesen darauf hin, dass Datensätze nie für sich alleine stünden und sich durch das Kombinieren von mehreren anonymisierten Datensätzen Personenbezüge wiederherstellen lassen (Reidentifizierungsrisiken [Kasten 3.7]). Sie kritisierten auch, dass ursprünglich personenbezogene Daten besonderer Kategorie zu kommerziellen Transaktionen führten, ohne dass betroffene Patient/innen bzw. Kund/innen informiert und an den Erlösen beteiligt wurden. Der gesamten Transaktion würde es an Transparenz mangeln (Kunze 2013). Grundsätzlich ist anzumerken, dass Verfahren zur Pseudonymisierung, Anonymisierung oder Löschung eine Veränderung oder Verarbeitung von Daten ist (Art. 4 DSGVO). Jegliche Verarbeitung personenbezogener Daten ist an einen Zweck gebunden und nur zulässig mit freiwilliger Einwilligung der betroffenen Person oder zur Wahrnehmung einer gesetzlich definierten Aufgabe im öffentlichen Interesse (z. B. Gesundheitsinteressen). Einrichtungen mit Aufgaben zur sozialen Sicherung wird die Befugnis zur Anonymisierung generell erteilt (§ 67c SGB X). Spezifische Regelungen konkretisieren, welche Aufgaben die Einrichtungen haben und für welche Zwecke sie die Daten nutzen dürfen. ARZ wird die Nutzung anonymisierter Daten für andere als im Sozialgesetzbuch bestimmte Zwecke explizit gewährt (§ 300 SGB V). Damit stellen sich einige Fragen: Warum wird dieses Recht so explizit nur ARZ gewährt? Auch könnte gefragt werden, ob Apotheken, die z. B. ihre Leistungen mit den GKK selbst abrechnen, die gleichen Rechte haben wie ARZ? Und wenn ja, ob das nur Apotheken betrifft oder alle medizinischen Einrichtungen als Leistungserbringer? Grundsätzlich unterliegen sowohl Ärzte/innen als auch Apotheker/innen der Schweigepflicht. Aus medizinethischer/-rechtlicher Sicht wird argumentiert, dass die Schweigepflicht im medizinischen Bereich ein überragend wichtiges Gut schützt: Vertrauen (Krahnert 2016). Patient/innen sollen darauf vertrauen können, dass jegliche Informationen, die sie preisgeben und Daten, die im Rahmen der Behandlung erhoben werden, vertrauensvoll behandelt und geschützt werden. Ärzte/innen können ihre beruflichen Aufgaben (die Gesundheit ihrer Patient/ innen zu erhalten und wiederherzustellen) nur erfüllen, wenn Patient/innen ihnen möglichst viele Daten und Informationen zu ihrer Person preisgeben. Deshalb sind die durch die Schweigepflicht geschützten medizinischen Behandlungsdaten nicht nur durch das allgemeine Persönlichkeitsrecht geschützt, sondern bleiben auch staatlichem Zugriff weitgehend verschlossen (nicht einmal im Rahmen staatlicher Überwachungsmaßnahmen der Strafprozessordnung darf auf diese Daten zugegriffen werden). Jedoch durchbrechen inzwischen zahlreiche Einzelgesetze die Schweigepflicht und definieren die Weitergabe patientenbezogener Daten, um sowohl medizinische als auch wirtschaftliche Prozesse organisieren zu können. Zudem unterliegen anonymisierte Daten keinen Schweige-/ Datenschutzpflichten mehr, betroffene Personen haben keine Rechte an anonymisierten Daten (Metschke/Wellbrock 2002, S. 20). Analysen zu Wirtschaftlichkeitsprozessen liegen im Grenzbereich des jeweiligen Berufsethos. Einerseits soll das berufliche Handeln von Ärzte/innen und Apotheker/innen am Patientenwohl und nicht am Gewinnstreben ausgerichtet sein. Dem Vertrauen, das den Berufsständen entgegengebracht wird, solle entsprochen werden (z. B. Bayrische Landesapothekerkammer 2017; M-BOÄ). Andererseits ist der Betrieb einer Apotheke ein Gewerbe, also eine wirtschaftliche Tätigkeit mit Gewinnerzielungsabsicht. Nach einer auf dem Deutschen Ärztetag 2014 geführten Debatte sprach sich die Mehrheit der teilnehmenden Ärzte/innen dafür aus, auch anonymisierte Behandlungsdaten nicht ohne Patienteneinverständnis für andere Zwecke zu nutzen oder gar zu verkaufen. Da mit den zunehmenden Möglichkeiten der Reidentifizierung die Gefahr des Missbrauchs steigt, würde dies das Vertrauensverhältnis zwischen Ärztin/Arzt und Patient/in grundsätzlich gefährden. Ein diesbezüglicher Entschließungsantrag wurde auf dem Ärztetag angenommen (Bodammer et al. 2014, S. 237). In der Apothekerschaft ist bisher keine vergleichbare Diskussion bekannt geworden. 5.4.5 Einschätzung Trotz des noch bestehenden Medienbruchs wegen der papierbasierten Rezeptausstellung haben die abrechnungsrelevanten Rezeptdatensätze einen hohen Grad an semantischer und syntaktischer Interoperabilität. Alle Angaben sind codiert, über Arzneimittelregister können vielfältige Zusatzangaben zu einzelnen Substanzen ergänzt werden. Zudem haben sie wegen der hohen Auflösung sowie der Raum-, Zeit- und Personenbezüge ein erhebliches datenanalytisches Potenzial (Anwendungsbeispiel in Kap. 5.5.3). Apotheken und deren Rechenzentren haben im öffentlichen Gesundheitssystem eine gewerbliche Sonderstellung, die auch im Umgang mit den Register- und Rezeptdaten sichtbar wird (Verfahren sind weitgehend kommerzialisiert). Apothekenrechenzentren haben sich im Abrechnungsprozess ambulanter Arzneimittelverschreibungen zu zentralen Datendrehscheiben entwickelt (ähnlich wie Kassenärztliche Vereinigungen bei der Abrechnung ambulanter Behandlungsleistungen). Während das SGB V die Möglichkeiten und Grenzen von Wirtschaftlichkeitsprüfungen für Kassenärztliche Vereinigungen dezidiert vorgibt, bleiben diesbezügliche Vorgaben für Apothekenrechenzentren vergleichsweise vage (§ 300 Abs. 2 SGB V). Als expliziter Finanzdienstleister bieten die Rechenzentren über ihre Plattformen ihren Kunden auch Analysetools zur Optimierung betrieblicher Geschäftsprozesse und ergänzen damit die eher schwach ausgebildeten administrativen Bereiche der Arzneimittelinformationssysteme von Apotheken. Es gibt kaum aktuelle Hinweise, inwiefern sich externe Wirtschaftsberatungsunternehmen mit solchen Analysetools in nennenswertem Umfang ebenfalls dauerhaft am Markt platzieren konnten. Beim Umgang mit faktisch anonymisierten Daten wird der Interpretationsspielraum der rechtlichen Vorgaben sowohl im Selbstverständnis der datenverarbeitenden Stellen als auch bei der Datenschutzaufsicht sichtbar. Es werden datenanalytische Möglichkeiten in unterschiedlichem Maße begrenzt. Während sich Ärzte/innen grundsätzlich dagegen aussprachen, anonymisierte Patientendaten kommerziell weiterzuverwenden, werden im Arzneimittelbereich diese Datenverwertungsmöglichkeiten genutzt. Auch bezüglich der Frage wer, welche faktisch anonymisierten Datenbestände fortschreiben und weiterverwenden darf, gab es in der Vergangenheit unterschiedliche Einschätzungen seitens der Datenaufsicht. 5.5 Gesetzliche Krankenkassen: Daten und Analysemöglichkeiten 5.5.1 Aufgaben, Strukturen, Datenbestände Die gesetzlichen Krankenkassen bzw. Ersatzkrankenkassen (vereinfachend gemeinsam als GKK bezeichnet) versichern als Träger der gesetzlichen Krankenversicherung (GKV) und der gesetzlichen Pflegeversicherung Personen gegen gesundheitliche Risiken (Versicherungsverhältnis). Sie sollen die Gesundheit der Versicherten erhalten und soweit möglich wiederherstellen. Dazu tragen sie zum einen die Kosten für notwendige medizinische und pflegerische Leistungen, die Ärzte/innen und andere Fachkräfte in medizinischen Einrichtungen in ihrem Auftrag erbringen (Geschäftsverhältnis). Dieses Dreiecksverhältnis der medizinischen Versorgung wird auch als erster Gesundheitsmarkt bezeichnet. GKK sollen zudem die gesundheitliche Eigenverantwortung und -kompetenz ihrer Versicherten fördern (Prävention). Diesbezüglich können sie selbst Leistungen anbieten oder Dritte (in der Regel keine medizinischen Einrichtungen) damit beauftragen. Das Versicherungsverhältnis wird bestimmt durch › das Solidaritätsprinzip, d. h. der Beitrag jedes Versicherten bemisst sich nach dem persönlichen Einkommen und nicht nach dem Krankheitsrisiko und › ein weitgehendes Sachleistungsprinzip, d. h. Versicherte erhalten medizinische u. a. Leistungen (kein Geld). Ein Teil der Leistungen ist gesetzlich definiert (auch als Pflichtleistungen oder Regelversorgung bezeichnet), wobei die GKK hier teilweise einen Ermessensspielraum haben (u. a. Leistungserstattung auf Antrag [Kap. 4.3.3]). Bei Aufgaben zur Förderung der gesundheitsbewussten Lebensweise können GKK ihr Leistungsangebot selbst definieren (Satzungsleistungen). Das Geschäftsverhältnis zu den medizinischen Einrichtungen als Leistungserbringern wird durch das SGB V sowie konkretisierende Richtlinien und Verträge definiert. Grundsätzlich dürfen GKK nur Leistungen erstatten, die notwendig, ausreichend, zweckmäßig und wirtschaftlich sind (§ 12 SGB V). Welche Leistungen das sind, wird wesentlich durch den Gemeinsamen Bundesausschuss (G-BA) und dessen Richtlinien entschieden.159 Im Rahmen des Geschäftsverhältnisses prüfen GKK u. a. die Regelkonformität der in Rechnung gestellten medizinischen Leistungen (bei ambulant erbrachten medizinischen Leistungen zusammen mit den Kassenärztlichen Vereinigungen). Im Rahmen der Versicherungs- und Geschäftsbeziehungen verwalten die GKK unterschiedliche Datenbestände. Zudem sind sie an unterschiedlichen gesundheitssystemischen Aufgaben beteiligt, für die sie Datensätze liefern und/oder Analysen durchführen. Nummern, Datenbestände, Nutzungsmöglichkeiten Zum einen hat jede GKK ein eindeutiges Institutionskennzeichen (IK), das im Rahmen der Selbstverwaltung u. a. für die eindeutige Identifizierung einzelner Kassen und die Pseudonymisierung GKK-bezogener Daten genutzt wird. Zum anderen vergeben die GKK an ihre Versicherten eine eindeutig identifizierende Krankenversicherungsnummer (KV-Nr.) und eine elektronische Gesundheitskarte (eGK), die derzeit im Wesentlichen eine Ausweisfunktion im Rahmen der GKV hat. Zudem führt jede GKK ihr Versichertenverzeichnis mit den direkt identifizierenden (Stamm-)Daten (Name, Anschrift, Alter, Geschlecht, KV-Nr.), den Daten zum Versichertenstatus (u. a. Zuzahlungsstatus, Wahltarife) und den Angaben zur Beitragsbemessung enthält. Diese Verzeichnisse müssen die Krankenkassen besonders schützen von anderen Datenbeständen getrennt aufbewahren. Sie werden weder zentral zusammengeführt noch an Dritte weitergegeben.160 (Fach-)Datenbestände sind vor allem die versicherten- bzw. fallbezogenen Leistungsabrechnungsdaten der medizinischen Einrichtungen (Krankenhäuser, ambulante Praxen, Apotheken), die ihre Versicherten behandelt haben. Einen weiteren Datenbestand bilden die versichertenbezogenen Daten im Kontext von Satzungsleistungen (z. B. zur Realisierung von Bonusprogrammen). Jeder Datenbereich muss getrennt gespeichert und verarbeitet werden. Direkt- und quasiidentifizierende Merkmalsbereiche sind mit der KV-Nr. zu pseudonymisieren. GKK sind Sozialgeheimnisträger, die u. a. ihrer Aufsichtsbehörde eine jährliche Übersicht über die Art der gespeicherten Sozialdaten vorlegen müssen (Kap. 5.1). Sie sind einerseits zur Datensparsamkeit, ausschließlich zweckgebunden Nutzung und Anonymisierung/Löschung nach spätestens nach 4 Jahren verpflichtet, wobei Daten, die relevant für den Erhalt späterer Leistungen sein können, bis zu 10 Jahren aufbewahrt werden dürfen (§ 292 SGB V). Andererseits dürfen GKK trotzdem zunehmend große Datenbestände aufbauen und sind Verarbeitungszwecke z. T. weit definiert (§ 284 SGB V): › Verwaltungsaufgaben im Rahmen des Versicherungsverhältnisses (u. a. Feststellung des Versicherungsverhältnisses, Ausstellung der elektronischen Gesundheitskarte); › Leistungsabrechnung, einschließlich Plausibilitäts- und Rechtmäßigkeitsprüfungen; › Überwachung der Wirtschaftlichkeit (nur Stichproben in notwendigem Maße); 159 Der Gemeinsame Bundesausschuss (G-BA) ist das oberste Entscheidungsgremium der gesundheitssystemischen Selbstverwaltung (§ 91 SGB V). Seine 13 stimmberechtigten Mitglieder setzen sich aus GKK-Vertreter/innen als Leistungsträger (GKV-Spitzenverband) und Vertretungen der medizinischen Leistungserbringer (KVen/KBV, Deutsche Krankenhausgesellschaft) zusammen. Patientenvertretungen haben kein Stimmrecht. 160 Jede GKK richtete 1995 eine eigenständige rechtsfähige Pflegekasse ein, um Leistungen im Rahmen der gesetzlichen Pflegeversicherung separat abwickeln zu können (Rechtsgrundlage: SGB XI). Kranken- und Pflegekassen können Versichertenverzeichnisse im Rahmen ihrer gesetzlichen Aufgaben gemeinsam nutzen (§§ 46 und 96 SGB XI), Krankenkassen und Unfall- oder Rentenversicherungsträger dürfen das nicht. Letztere vergeben eigenständige Identifikationsnummern und führen eigene Register mit den Stammdaten ihrer Versicherten. › Planung und Durchführung von Modellvorhaben der medizinischen Versorgung; › Unterstützung der Versicherten bei Behandlungsfehlern sowie › andere durch Rechtsvorschriften des Sozialgesetzbuches angeordnete oder erlaubte Zwecke (z. B. Bonusprogramme entsprechend der jeweiligen Satzung). Diese Klausel, legitimiert über nachgeordnete, externe Rechtsvorschriften weitere datenanalytische Möglichkeiten für GKK im Rahmen öffentlicher Aufgaben und kann komplexe Rechtsstrukturen der Datenweiterverwendung nach sich ziehen, die für betroffene Personen schwer nachvollziehbar sein dürften. Zudem dürfen GKK ihre Daten über die normalen Fristen hinaus aufbewahren und für zeitlich befristete und im Umfang begrenzte Forschungsvorhaben mit Erlaubnis der Aufsichtsbehörde leistungserbringer- oder fallbeziehbar selbst auswerten (insbesondere um epidemiologische Erkenntnisse, Informationen über örtliche Krankheitsschwerpunkte oder über Zusammenhänge zwischen Erkrankungen und Arbeitsbedingungen zu gewinnen). Dafür wird zwar die Anonymisierung der Datenbestände gefordert (§ 287 SGB V, ähnlich § 67c SGB X), da jedoch einzelfallbeziehbare Analysen möglich bleiben sollen, ist höchstens eine schwache Anonymisierung möglich, die bei längeren zeitlichen Fortschreibungen teilweise infrage gestellt wird (Kasten 3.7). Die Aufsichtsbehörden der GKK agieren in dieser Struktur als externe Data Access Committees, die die Einhaltung ethischer Forschungsstandards bei der Weiterverwendung von Sozialdaten zu Forschungszwecken im Einzelfall prüfen und sichern sollen. Einwilligungsmanagementsysteme, die vor der formalen Anonymisierung ansetzen müssten, sind dem TAB nicht bekannt. Organisation und Finanzierungsverfahren In Deutschland sind ca. 90 % der Bevölkerung (73,3 Mio. Personen) bei einer von derzeit gut 100 GKK versichert.161 GKK agieren als Körperschaften öffentlichen Rechts organisatorisch und finanziell selbstständig in historisch gewachsenen Strukturen (Schepers et al. 2015, S. 148 f.): Die Allgemeinen Ortskrankenkassen (AOK) haben eine hierarchische Struktur mit 11 regional eigenständigen AOK-Unternehmen und einem AOK- Bundesverband (insgesamt 24 Mio. Versicherte), zu dem u. a. ein wissenschaftliches Institut der Ortskrankenkassen (WIdO) gehört. Die Deutsche Rentenversicherung Knappschaft-Bahn-See ist sowohl eine GKK (1,6 Mio. Versicherte) als auch eine Berufsgenossenschaft (Unfallversicherung), Trägerin der gesetzlichen Rentenversicherung (1,7 Mio. Personen) und diverser medizinischer Einrichtungen (11 Krankenhäuser, 11 Rehakliniken, 1.500 Knappschaftsärzte mit eigenem sozialmedizinischem Dienst). Neben diesen zwei besonderen Organisationsformen gibt es acht weitere große GKK (jeweils 1 bis 10 Mio. Versicherte deutschlandweit), die ähnlich der AOK spezifische Datenanalyseabteilungen eingerichtet haben. Dazu kommt eine Vielzahl kleiner, ursprünglich auf einzelne Firmen oder Branchen begrenzte Krankenkassen (teilweise nur mit wenigen tausend Versicherten). Insbesondere bei diesen kleineren Kassen gab es in den vergangenen Jahren vielfach Zusammenschlüsse, aber auch Insolvenzen. GKK haben Verbände auf Landes- und Bundesebene, um Interessen zu bündeln und gemeinsam vertreten zu können sowie Aktivitäten abzustimmen. Der 2007 eingerichtete Spitzenverband Bund der Krankenkassen ist der zentrale Verhandlungspartner auf Bundesebene (§ 217 SGB V), der u. a. den Qualitäts- und Wirtschaftlichkeitswettbewerb der GKK untereinander organisieren und die GKK in Bezug auf den elektronischen Datenaustausch (Interoperabilität und Vernetzung) (§ 217f Abs. 2 SGB V) unterstützen soll und sich zunehmend zu einer zentralen Datendrehscheibe des Gesundheitssystems entwickelt. Regional tätige GKK werden von länderspezifischen Aufsichtsbehörden überwacht, überregional tätige vom Bundesamt für Soziale Sicherung (BAS), GKK-Verbände vom BAS oder dem BMG. Diese Aufsichtsbehörden prüfen u. a. die Rechtskonformität der Satzungen sowie die Betriebsführung der GKK und deren Verbände (§ 67c Abs. 2 SGB V). GKK sind zur Kostendeckung verpflichtet. Gesetzlich festgelegte Versichertenbeiträge und ein Bundeszuschuss (für versicherungsfremde Leistungen wie z. B. die Mitversicherung von Familienangehörigen) bilden die 161 10 % der Bevölkerung (ca. 9 Mio. Einwohner) sind derzeit privat krankenversichert (Beamte, Freiberufler, teilweise Selbständige sowie Personen und Angestellte hoher Vergütungsstufen). Private Krankenversicherungen (PKV) werden von 43 Unternehmen angeboten. Bei der PKV gilt das Äquivalenzprinzip, d. h. persönliche Krankheitsrisikofaktoren (Gesundheitsstatus, Alter) beeinflussen die Beitragshöhe. wesentlichen Einkünfte jeder GKK. Können sie ihre Kosten damit nicht decken, müssen sie Zusatzbeiträge bei ihren Versicherten erheben. Personen, die von der GKV nicht de facto ausgeschlossen sind (u. a. Beamte), haben bezüglich der über 100 GKK ein Wahlrecht, GKK eine Aufnahmepflicht. GKK müssen als GKV-Träger medizinisch notwendige Leistungen finanzieren, wirtschaftlich haushalten und stehen aufgrund der Wahlfreiheit der Versicherten in einem gewissen Wettbewerb untereinander (Schepers et al. 2015, S. 177 f.). Kassen, deren Mitglieder im Durchschnitt weniger verdienen, einen höheren Krankenstand aufweisen oder kostenintensivere Erkrankungen erleiden, haben im Prinzip einen Wettbewerbsnachteil. Zusätzliche Angebote wie z. B. Bonusprogramme (Satzungsleistungen), die vorrangig gesunde Personen mit höheren Einkommen ansprechen, gelten als Wettbewerbsverstärker und werden seit Jahren kontrovers diskutiert. Um den Wettbewerb zwischen den GKK um die gesündesten Versicherten zumindest abzumildern, wurde 1994 zunächst ein einfacher Finanzausgleich und 2009 der morbiditätsorientierte Risikostrukturausgleich (Morbi- RSA) und ein zentraler, beim BAS angesiedelter Gesundheitsfonds eingeführt. Seitdem fließen die Beiträge aller gesetzlich krankenversicherten Personen und der Bundeszuschuss zunächst in diesen Fonds162 und werden dann anhand des jährlich für jede GKK neu zu berechnenden Risikostrukturausgleichs aufgeteilt. Mit diesem Verfahren soll die aufgrund der Versichertenstruktur bestehenden Finanzierungsrisiken jeder GKK ermittelt und ausgeglichen werden (Schepers et al. 2015, S. 179 ff.). Bei der Einführung dieserart Kassenrückversicherung suchte man Faktoren, die von den Kassen möglichst nicht beeinflusst und automatisiert erfasst werden konnten. Bei der Einführung entschied man, die im Rahmen der Leistungsabrechnung ohnehin anzugebenen Haupt- und Nebendiagnosen sowie ergänzend Arzneimittelverschreibungen zu nutzen und anhand dieser Daten 50–80 Krankheiten zu definieren, die als Morbiditätskriterien in die Berechnung des Risikostrukturausgleichs einflossen. Die Festlegung der Krankheiten erfolgte nicht datenbasiert (nicht nur die kostenintensivsten, auch die häufigsten Krankheiten sollten berücksichtigt und für die Berechnung des Strukturausgleichs spezifisch gewichtet werden). Für die Berechnung Morbi-RSA erstellt jede GKK für das zurückliegende Abrechnungsjahr aus den unterschiedlichen Leistungsabrechnungsdaten einen Jahresdatensatz mit den definierten Daten für jeden Versicherten und übermittelt diesen an den Spitzenverband Bund der Krankenkassen, der diese Daten zusammenführt, um sie zum einen an das BAS zur Aktualisierung des Morbi-RSA weiterzuleiten und sie zum anderen im Rahmen der eigenen Aufgaben zu verwenden. Auch dieses Verfahren wird wegen der jährlichen Fortschreibung als lernendes System bezeichnet, das seit der Einführung kontrovers diskutiert wird. Die angebliche Unbeeinflussbarkeit des Verfahrens wurde stets angezweifelt. Denn Krankenkassen begannen auf unterschiedliche Art und Weise medizinische Einrichtungen dahingehend zu beraten, dass sie die Haupt- und Nebendiagnosen im Rahmen ihres Entscheidungsspielraums möglichst morbi-RSA günstig codieren. Auch die mathematische Form der Gewichtungsfunktionen und die Komplexität des Verfahrens wurde kontrovers diskutiert (ausführlich z. B. Baas/Möws 2017). Gutachten im Rahmen der Begleitforschung wurden erstellt (Dietzel et al. 2015; Drösler et al. 2017) und mündeten in eine grundlegende Überarbeitung der Ausgleichsverfahren in 2020. Um sie resistenter gegen Manipulationen zu machen, sollen keine Krankheiten im Vorfeld definiert, sondern das gesamte Krankheitsspektrum berücksichtigt werden. Die Klassifikations- und Berechnungsmodelle werden um einiges komplexer, benötigen zusätzliche Daten und sollen perspektivisch engmaschiger evaluiert werden.163 5.5.2 Daten aus der Leistungsabrechnung: Bestandteile, Haltung, Mehrfachnutzung Bis 2003 hatten GKK nur einen begrenzten Einblick in Daten, die zum einen den Gesundheitszustand ihrer Versicherten und zum anderen innerbetriebliche Prozesse medizinischer Einrichtungen abbilden (Schepers et al. 2015, S. 150). Durch das GKV-Modernisierungsgesetz164 erhalten sie seit 2004 mit den standardisierten Datensätzen aus der Leistungsabrechnung einen tieferen Einblick sowohl in den Gesundheitszustand ihrer Versicherten als auch in Behandlungsprozesse einzelner Einrichtungen (Abb. 4.4): 162 Gesamtvolumen 2020: 265 Mrd. Euro: www.bundesgesundheitsministerium.de/fileadmin/Dateien/3_ Downloads/G/GKV/210302_PM_Anlage_barrierefrei_1.-4._Qu._2020_bf_Tabelle.pdf (10.11.2021) 163 www.bundesamtsozialesicherung.de/de/themen/risikostrukturausgleich/weiterentwicklung/ (10.11.2021) 164 Gesetz zur Modernisierung der gesetzlichen Krankenversicherung (GKV-Modernisierungsgesetz – GMG Anhand der stationären Leistungsabrechnungsdaten erhalten GKK Informationen zur behandelnden medizinischen Einrichtung, zum Aufnahme-, Verlegungs- und Entlassungszeitpunkt, zum gesundheitlichen Zustand des Versicherten (anhand der gestellten Haupt- und Nebendiagnosen), zu medizinischen Behandlungsmaßnahmen sowie zur Erstattungspauschale (§ 301 SGB V). Kaum enthalten sind Angaben zur Verabreichung von Arzneimitteln.165 Nicht enthalten sind Angaben zur pflegerischen und sozialen Betreuung und Unterstützung oder zur Patientenzufriedenheit. Da Krankenhäuser erbrachte Leistungen direkt mit der jeweiligen GKK des Patienten abrechnen, müssen letztere die Leistungsdatensätze zunächst selbst auf Vollständigkeit und Richtigkeit prüfen und ggf. den Medizinischen Dienst hinzuziehen (Kap. 4.4.1), bevor sie anerkannte Leistungen vergüten und die Datensätze archivieren. Auch wenn GKK im ambulanten Bereich die Abrechnung und Vergütung ärztlicher Leistungen weitgehend an Kassenärztliche Vereinigungen delegiert haben (Kap. 5.3), bekommen sie seit 2004 im Anschluss an den Leistungsabrechnungsprozesses von den KVen arzt- und versichertengenaue Leistungsdatensätze mit Haupt- und Nebendiagnosen, erbrachten ärztlichen Leistungen, Zeitangaben sowie den abgerechneten Gebührenpositionen (§ 295 SGB V). Auch diese Datensätze enthalten keine Angaben zu verordneten Arzneimitteln. Eine Sonderstellung nehmen besondere ambulante Versorgungsformen ein, die über Selektivverträge zwischen einzelnen GKK und medizinischen Einrichtungen vereinbart und über Jahre getestet werden (u. a. Disease Management Programme, Modellvorhaben der integrierten oder hausarztzentrierten Versorgung). Spezifisch definierte, umfangreichere Abrechnungsdatensätze werden direkt bei den jeweiligen GKK eingereicht, geprüft und Leistungen direkt vergütet, ohne dass Kassenärztliche Vereinigungen daran beteiligt sind. GKK tragen zumindest einen Teil der Kosten verordneter rezeptpflichtiger Arzneimittel und erhalten für die Abrechnung standardisierte Rezeptdatensätze auf Einzelfallebene (Kap. 5.4). Der Einsatz von Heil- und Hilfsmitteln sowie digitaler Gesundheitsanwendungen wird ähnlich abgerechnet (§§ 301a und 302 SGB V), sodass GKK auch diesbezüglich versicherten- und einrichtungsgenaue Leistungs(abrechnungs)daten haben. Parallel dazu laufen bei den GKK auch die Leistungs(abrechnungs)daten der gesetzlichen Pflegeversicherung (§ 28 SGB X]) zusammen. Zudem bekommen GKK zur internen aufgabenbezogenen Verwendung diverse Register, Verzeichnisse und Klassifikationen (u. a. IK-Register, Arzt-, Betriebsstätten- und PZN-Verzeichnisse, medizinische Klassifikation und Gebührenkataloge), anhand derer sie ihre codierten und teilweise pseudonymisierten Daten aus der Leistungsabrechnung mit weiteren Datensätzen relational verknüpfen können. Diese hochgradig standardisierten Daten aus der Abrechnung unterschiedlicher medizinischer Versorgungsleistungen werden teilweise auch als Routinedaten bezeichnet. Grundsätzlich verwaltet jede GKK nur die Daten ihres Versichertenkollektivs. Bei großen überregionalen GKK kommen jedoch regelmäßig Daten von vielen medizinischen Einrichtungen und vielen Versicherten zusammen. Diese Situation wurde u. a. bei der Verabschiedung des GKV-Modernisierungsgesetzes kontrovers diskutiert, zumal diese Daten zunehmend auf medizinischen Konzepten aufbauen und erhebliche Einblicke in den Gesundheitszustand der Versicherten ermöglichen. Auch können Versorgungsprozesse medizinischer Einrichtungen genauer abgebildet und verglichen werden. Im Zentrum der Debatte stand der/die »gläserne Patient/in bzw. Versicherte« und die ungenügende Pseudonymisierung der versichertenbezogenen Daten. Diese Auseinandersetzung führte zum einen zum Verbot der sektorübergreifenden Datenzusammenführung, was GKK durch technische und organisatorische Maßnahmen sicherstellen müssen.166 Bis heute dürfen GKK keine durchgehende Versichertenakte führen. Sie speichern Leistungsabrechnungsdaten von Krankenhäusern, Arztpraxen, Apotheken und weiteren medizinischen Einrichtungen des ambulanten Bereichs grundsätzlich getrennt. Zum zweiten wurde eine strikte Zweckbindung für die Datennutzung im Rahmen der primären GKK-Aufgaben festgeschrieben (u. a. werden Form und Umfang von Wirtschaftlichkeitsuntersuchungen dezidiert definiert [§§ 106 ff. SGB V]). Jenseits ihrer primären Aufgaben können GKK die Datenverwendung für begrenzte Forschungsvorhaben bei ihrer Aufsichtsbehörde beantragen. Dadurch wurden in der Vergangenheit bereits unterschiedliche komplexe datenanalytische Projekte unter Verwendung von Routinedaten von einzelnen großen GKK realisiert. Beispiele sind: 165 Im Normalfall sind die Kosten des Arzneimitteleinsatzes in der DRG-Fallpauschale inkludiert. Nur der Einsatz sehr teurer Präparate wird ergänzend zu den Pauschalen über Zusatzentgelte erstattet und dadurch separat ausgewiesen (InEK 2021, S. 132 ff.; Schepers et al. 2015, S. 152). 166 www.bfdi.bund.de/DE/Buerger/Inhalte/GesundheitSoziales/Allgemein/DatenuebermittlungZuAbrechnungszwecken.html (10.11.2021) › Arzneimittelverordnungs-Report: Ursprung ist ein in den 1980er Jahren von der AOK, dem WIdO und Wissenschaftler/innen akademischer Einrichtungen initiiertes und vom BMBF gefördertes Projekt, durch das Verfahren entwickelt wurden, mit denen die bei der AOK zusammenlaufenden Rezeptdaten regelmäßig analysiert werden. Primäres Ziel dieser Analysen ist die Verbesserung der Markt- und Kostentransparenz. Im Zentrum steht das Verordnungsverhalten bei neuen Arzneimitteln. Die Analyseverfahren werden bis heute genutzt und weiterentwickelt, Ergebnisse und abgeleitete Erkenntnisse jährlich publiziert.167 Kritisch werden mitunter aus den Ergebnissen abgeleitete Verordnungsempfehlungen gesehen, weil Krankenkassen die Therapiefreiheit von Ärzt/innen begrenzen würden. › Analysen zur Qualitätssicherung (QS): Ziel des 2002 vom AOK-Bundesverband initiierten Projekts war die Entwicklung von Verfahren zur Messung der Qualität medizinischer Versorgung anhand von Routinedaten, wobei auch im späteren Therapieverlauf auftretende Ereignisse berücksichtigt werden sollten. Die Verfahren nutzt die AOK, Ergebnisse speist sie in ihren AOK-Krankenhausnavigator ein.168 In die nationalen QS- Strukturen wurden diese vergleichsweise aufwandarmen Verfahren bisher nicht integriert (Kap. 4.4.2). › Polypharmazieprojekt »AdAM« (Anwendung digital-unterstütztes Arzneimitteltherapie- und Versorgungsmanagement): Ziel des seit 2017 durch den Innovationsfonds der GKV geförderten Projektes ist die Entwicklung einer digitalen Anwendung, die Ärzt/innen, Apotheker/innen und Versicherte auf mögliche Wechselwirkungen und Risiken von Arzneimittelkombinationen hinweist.169 Dazu werden aus den Rezeptdaten einer großen, landesweit agierenden GKK Kombinationen von gleichzeitig verordneten Arzneimitteln herausgefiltert und eine Datenbank aufgebaut, in der diese Kombinationen mit Zusatzinformationen zu Risikopotenzialen angereichert werden. Bei neuen Kombinationsverordnungen wird gezielt nach den Arzneimittelkombinationen gesucht und ggf. Zusatzinformationen sowie Risiko-/Warnhinweise ausgegeben (ähnlich werden z. B. die Tumormutationsregister aufgebaut und genutzt [Kap. 4.3.3]). Seit Jahren gibt es vielfältiges Engagement zum Auf- und Ausbau von Datenbanken mit Arzneimittelwechselwirkungen und der Weiterentwicklung von Arzneimittelinformationssystemen (Kap. 5.4.1). Datenzusammenführung, Datentransparenz und Forschungsdatenzentrum Nach der Jahrtausendwende wurde der Begriff der Datentransparenz im SGB V verankert. Dort steht er für die deutschlandweite Zusammenführung aller Leistungs(abrechnungs)datensätze auf Einzelfallebene von allen GKK und für die Nutzung dieser Daten zur Planung, Steuerung und Weiterentwicklung gesundheitssystemischer Teilbereiche sowie für Sozial- und Versorgungsforschungszwecke (Schepers et al. 2015, S. 179 ff.). Es dauerte zunächst Jahre, bis man sich auf die dazu erforderlichen Verfahren verständigt hatte. Die erste Datentransparenzverordnung (DaTraV)170 wurde neun Jahre später vorgelegt. Der Datensatz zur Fortschreibung des Morbi-RSA wurde als maßgeblicher Datenpool bestimmt und inhaltlich erweitert (Abb. 5.2). Die Datenzusammenführung verläuft in mehreren Schritten: Jede GKK stellt bis zum Ende des 3. Quartals einen versicherten-, Ärzte/innen- und einrichtungspseudonymisierten Jahresdatensatz mit allen Leistungsabrechnungsdaten auf Einzelfallebene des Vorjahres zusammen (§ 303b SGB V i. V. m. § 3 DaTraV) und übermittelt ihn an den Spitzenverband Bund der Krankenkassen (Datensammelstelle), der diese Datensätze ursprünglich sofort an das Bundesamt für Soziale Sicherung (BAS) weiterleitete. Das BAS prüfte und korrigierte die Daten in einem mehrstufigen Verfahren und fügte sie zu einem Gesamtjahresdatensatz zusammen. Diesen nutzt das BAS zum einen selbst für die jährliche Fortschreibung des morbiditätsorientierten Risikostrukturausgleichs (Kap. 5.5.1). Zum anderen übermittelte das BAS diesen Gesamtdatensatz wieder an den Spitzenverband Bund der Krankenkassen (der diese Daten für eigene Planungs- und Entwicklungsaktivitäten nutzen darf) und an das Deutsche Institut für Medizinische Dokumentation und Information (DIMDI; inzwischen ein Teil des Bundesinstituts für Arzneimittel und Medizinprodukte (BfArM]). Das DIMDI/BfArM soll als Datenstelle diese nationalen Versorgungsdatenbestände kontinuierlich fortschreiben, erweitern und für definierte Nutzungszwecke (§ 303 Abs. 2 SGB V) bereitstellen. 167 www.wido.de/publikationen-produkte/buchreihen/arzneiverordnungs-report/ (9.11.2021) 168 www.qualitaetssicherung-mit-routinedaten.de/ (10.11.2021) 169 innovationsfonds.g-ba.de/projekte/neue-versorgungsformen/adam-anwendung-digital-gestuetztes-arzneimitteltherapie-und- versorgungs-management.71 (10.11.2021). 170 Verordnung zur Umsetzung der Vorschriften über die Datentransparenz (Datentransparenzverordnung – DaTraV) Zunächst wurden alle Datentreuhandelemente (Kap. 3.3.3) von zwei eigenständigen Organisationseinheiten des DIMDI realisiert. In der Datenannahmestelle wurde das versichertenbezogene Lieferpseudonym durch ein periodenübergreifendes Pseudonym ersetzt, das die jährliche Fortschreibung der einzelfallbezogenen Datensätze ermöglicht. Die Datenaufbereitungsstelle übernahm alle weiteren Aufgaben: Schrittweise wurden die Jahresdatensätze beginnend mit dem Jahr 2009 in die Data-Warehouse-Strukturen integriert und das »Informationssystem Versorgungsdaten« aufgebaut. Dazu wurden auch die jährlich fortgeschriebenen Diagnose-, Operationen-/ Prozeduren- und Entgeltkataloge sowie relevante Angaben des Pharmazentralregisters in das Data-Warehouse aufgenommen und mit den jeweiligen Versorgungsdaten verknüpft (Abb. 5.2). Zudem wurde eine Verknüpfung zum INKAR-Atlas des Bundesinstituts für Bau-, Stadt- und Raumforschung geschaffen. Dadurch können die Versorgungsdaten mit zahlreichen Indikatoren zu regionalen Lebensbedingungen in Deutschland auf Landkreisebene verknüpft werden, um z. B. den Einfluss sozioökonomischer Faktoren auf Gesundheit und Versorgung zu analysieren (DIMDI 2016, S. 7) Abb. 5.2 Datenmodell: Nationaler Versorgungsdatenbestand DRG: Diagnosis Related Groups EBM: Einheitlicher Bewertungsmaßstab ICD: International Classification of Diseases OPS: Operationen- und Prozedurenschlüssel PZN: Pharmazentralnummer PLZ: Postleitzahl Quelle: § 303b SGB V; § 3 DaTraV Die Entscheidung, die aufbereiteten Morbi-RSA-Daten für das Informationssystem Versorgungsdaten zu nutzen, führte aufgrund der langwierigen, mehrstufigen Aufbereitung und Weiterleitung in der Anfangsphase zu einem Zeitverzug von mehr als 4 Jahren bis zur Datenbereitstellung. Anfang 2014 startete der Pilotbetrieb der Datennutzung. Die Daten werden berechtigten Institutionen (ausschließlich Organe der Selbstverwaltung, Gesundheitsüberwachung und deren Aufsichtsgremien sowie öffentliche Forschungseinrichtungen) für definierte Zwecke (Planung, Weiterentwicklung der Versorgung, Gesundheitsberichterstattung sowie Forschung) auf Antrag und nach Prüfung in unterschiedlichen Anonymisierungsstufen zugänglich gemacht (§ 303e SGB V). Wird einem Untersuchungsantrag stattgegeben, stellt die Datenaufbereitungsstelle faktisch anonymisierte Datensätze als Scientific Use Files oder formal anonymisierte Datensätze für eine kontrollierte Datenfernverarbeitung bereit. Bei letzterer senden die jeweiligen Institutionen ihre Analyseskripte an die Mitarbeiter/innen der Datenaufbereitungsstelle, die diese Skripte ausführen, anschließend ermittelte Ergebnisse auf Anonymität prüfen, ggf. vergröbern und nur diese Ergebnisse an die jeweilige Institution übermitteln. Diesen Aufwand darf sich das DIMDI mittels Gebühren erstatten lassen, die das BMG per Verordnung festlegt (§ 303e SGB V). Auch wenn die Datenbereitstellung grundsätzlich begrüßt wird, äußerten Fachkreise Kritik am etablierten Verfahren. Die erste interne Evaluation wurde für den Zeitraum Juli 2013 bis Februar 2016 vorgenommen (DIMDI 2016): In diesen 32 Monaten wurden insgesamt lediglich 38 Bearbeitungsanträge gestellt – deutlich weniger als erwartet. Die Ursachen für die begrenzte Nachfrage seien strukturell bedingt. Zur Antragstellung berechtigte Institutionen und Nutzungszwecke lägen vorrangig im Bereich der gesundheitssystemischen Steuerung und Weiterentwicklung. Dafür sind die Daten jedoch meist nicht aktuell genug. Zudem könnten etliche Organe der Selbstverwaltung wie z. B. die Kassenärztliche Bundesvereinigung, das Deutsche Arzneiprüfungsinstitut oder große GKK Teildatenbestände zeitnäher analysieren und aktuellere Ergebnisse liefern. Der Nutzung im wissenschaftlichen Bereich sind sehr enge Grenzen gesetzt. Zum einen ist die Versorgungsforschung in unabhängigen wissenschaftlichen Einrichtungen nicht sehr weit verbreitet. Zum anderen dürfen die Daten laut Bundesbeauftragtem für den Datenschutz und Informationsfreiheit grundsätzlich nicht zu Ausarbeitungen für die Erlangung akademischer Grade (von Bachelor bis Habilitation) genutzt werden, da dies Privatangelegenheiten seien und die Verwendung für persönliche Zwecke ausgeschlossen ist. Im Beobachtungszeitraum betrug die mittlere Bearbeitungszeit pro Antrag 60 Stunden und somit zehnmal so lange, wie ursprünglich erwartet worden war. Die Ursachen dafür seien u. a., dass Fragestellungen und Methodik ohne detaillierte Kenntnisse der Daten erarbeitet wurden und die Datenanalyst/innen beim DIMDI sich in die inhaltliche Bearbeitung der Anträge aufwendig einarbeiten müssten, jedoch parallel noch andere Aufgaben hätten. Im Rahmen der Evaluation wurde diverse Handlungsoptionen erarbeitet, um den Zeitverzug zu reduzieren, das Antragsverfahren schneller, transparenter und gerechter zu gestalten, die Gebühren aufwandsgerechter festzulegen und die Ressourcen für die inhaltliche Antragsbearbeitung zu erhöhen. Eine substanzielle Ausweitung der Nutzungsberechtigten und der Anwendungszwecke gehörte nicht dazu (es wurde lediglich empfohlen, die Daten zur Erlangung akademischer Grade nutzen zu dürfen). Durch das 2019 verabschiedete Digitale-Versorgung-Gesetz (DVG) und die Neufassung der Datentransparenzverordnung in 2020 sollen einige der empfohlenen Veränderungen perspektivisch realisiert werden. Inhaltlich wurden die zu übermittelnden Datensätze erweitert (u. a. müssen zukünftig auch Angaben zum Vitalstatus und Sterbedatum übermittelt werden [Abb. 5.2]). Um den Zeitraum bis zur Datenbereitstellung zu verkürzen, soll zukünftig bereits der Spitzenverband Bund der Krankenkassen als zentrale Datenannahmestelle die bei ihm zusammenlaufenden Daten selbst auf Vollständigkeit, Plausibilität und Konsistenz prüfen sowie Auffälligkeiten mit den jeweiligen GKK klären und dann ohne Umweg über das BAS den geprüften Jahresdatensatz direkt an die Vertrauensstelle übermitteln, die die finale periodenübergreifende Pseudonymisierung vornimmt. Diese Stelle wird organisatorisch und räumlich zum Robert-Koch-Institut verlegt. Die Datenaufbereitungsstelle wird zu einem Forschungsdatenzentrum ausgebaut. Unterschiedliche Teams erhalten ein größeres Aufgabenspektrum, u. a. soll das Team, das Analyseanträge prüft, ein öffentliches Antragsregister mit Informationen zu den Antragstellenden, deren Vorhaben und den Ergebnissen aufbauen und pflegen. In den Nutzungslizenzen werden Reidentifizierungen explizit als Fehlverhalten benannt und mit einer Datenzugangssperre bis zu 2 Jahren belegt. Weitgehend unverändert blieb die ausschließliche Zugangsmöglichkeit für öffentliche Forschungsaktivitäten, was industrieseitig natürlich kritisiert wird (vfa 2020). Versichertenverbände kritisieren fehlende Einwilligungs- bzw. Widerspruchsmöglichkeiten für Betroffene sowie die gänzlich fehlende Beteiligung von Patienten-/Verbrauchervertretungen (z. B. BAG Selbsthilfe 2020). Nach jetzigem Planungsstand soll dieses Forschungsdatenzentrum perspektivisch neben den nationalen Versorgungsdaten einen weiteren Datenbestand treuhänderisch verwalten: Die in der versichertengeführten elektronischen Patientenakte selbstverwalteten medizinischen Behandlungsdaten sowie individuell erhobene Gesundheitsdaten sollen Versicherte ab 2023 dem Forschungsdatenzentrum anonymisiert zur Weiterverwendung zu treuen Händen übergeben können (auch als Datenspende bezeichnet). Inwiefern Versicherte dies in relevantem Umfang tun werden, lässt sich derzeit nicht seriös abschätzen. Einschätzung Die großen Krankenkassen verfügen über einen erheblichen Bestand standardisierter Leistungsabrechnungs- bzw. Versorgungsdaten, die zeitnah zur Leistungsabrechnung über die kasseninternen Data-Warehouses bereitgestellt werden können. Auch wenn diese Bestände lediglich Stichproben der nationalen Versorgungssituation darstellen, reichen diese oftmals aus, um Data-Mining-Projekte durchzuführen. Dafür benötigen die jeweiligen Krankenkassen zum einen spezielle wissenschaftliche Arbeitsgruppen, Abteilungen oder Institute und zum anderen die Zustimmung der jeweiligen Aufsichtsbehörde. Diese Datenanalyst/innen führen seit Jahren Data-Mining-Projekte durch. Teilweise werden die entwickelten Verfahren und Prozeduren verstetigt und liefern anhand aktualisierter Daten regelmäßig Informationen für unterschiedliche Entscheidungssituationen (z. B. zur Frage, welches Krankenhaus bei welchen Erkrankungen gute Behandlungsleistungen erzielt [Krankenhausnavigator]). Zudem wird ein nationaler Versorgungsdatenbestand aufgebaut und fortgeschrieben – eine Totalerhebung, die im SGB V mit dem Begriff der Datentransparenz assoziiert wird. Aufgrund der geringen Datenaktualität und der eng begrenzten Nutzungsmöglichkeiten sind die bisherigen Analyseanfragen hinter den Erwartungen zurückgebliebenen. Auch mit der Neuordnung der diesbezüglichen Vorgehensweise und mit dem Ausbau des Betreibermodells zu einem Forschungsdatenzentrum werden Jahre vergehen, bis Versorgungsdaten über das Informationssystem bereitgestellt werden. Zudem wurden die Nutzungsmöglichkeiten kaum erweitert. Zwei Forderungen der Datenschutz-Grundverordnung in Bezug auf die privilegierte Datenweiterverwendung zu Forschungszwecken wurden auch mit der Neuordnung nicht umgesetzt, zum einen die bezüglich eines datenbezogenen Einwilligungsmanagements und zum andern die bezüglich einer weiten Auslegung des Forschungsbegriffs (Kap. 3.3.4). In gesundheitsbezogenen Datenstrategien und Innovationsinitiativen der Bundesregierung ist der Auf- und Ausbau dieses Forschungsdatenzentrums eine Schwerpunktaktivität im Bereich Gesundheit (Bundesregierung 2020a, S. 4, 2021a, S. 30). Die nächste Evaluation der Aktivitäten zur Datentransparenz ist für Ende 2023 vorgesehen. Die Entwicklung der Nachfrage sowie die Verwendung der aus komplexen Analysen resultierenden Ergebnisse wären dafür wichtige Punkte. Auch könnten sie mit dem Aufwand für die Datenbereitstellung abgewogen werden. 5.5.3 Sekundärnutzung von Leistungsdaten: Data-Mining-Beispiel »Pharmakovigilanz« Jahre bevor der nationale Versorgungsdatenbestand aufgebaut wurde, begannen Überlegungen zwischen vier GKK und einer außeruniversitären Forschungseinrichtung, die bei den GKK zusammenlaufenden Daten aus der Leistungsabrechnung für die Sicherheitsüberwachung von Arzneimitteln unter Anwendungsbedingungen zu nutzen (Pharmakovigilanz). Rechtlich ist das im Rahmen begrenzter Forschungs- und Planungsvorhaben grundsätzlich möglich, wobei Aufsichtsbehörden u. a. prüfen, inwiefern das öffentliche Interesse an der Forschung das Geheimhaltungsinteresse betroffener Versicherter erheblich überwiegt und die schutzwürdigen Interessen Betroffener bei der Analyse angemessen gesichert werden (§ 287 SGB V; § 67c SGB X). Die Überwachung der Arzneimittelsicherheit ist zweifellos eine solche Aufgabe im öffentlichen Interesse. Durch das Arzneimittelgesetz ist sie bereits als kontinuierliche Aufgabe der jeweiligen Hersteller (zu Gewährleistung einer hohen Produktsicherheit), aber auch staatlicher Aufsichtsbehörden (im Rahmen der staatlichen Risikovorsorge) definiert. Die vier GKK und die Forschungseinrichtung haben die Hoffnung, dass diese etablierten Elemente zur Pharmakovigilanz durch Data-Mining mit Leistungsdaten ergänzt werden kann. Dazu soll nachfolgend die derzeitige Situation und der Data-Mining-Ansatz dargestellt und international verglichen und bewertet werden. Pharmakovigilanz: die derzeitige Situation Arzneimittel erhalten in allen Industrieländern erst dann eine Marktzulassung, wenn deren Sicherheit und Wirksamkeit durch klinische Studien nach international weitgehend einheitlichen Standards nachgewiesen sowie die Qualität der Produktion belegt und geprüft wurden. Die Sicherheitsüberwachung nach der Marktzulassung baut wesentlich auf den Erkenntnissen aus den Sicherheitsprüfungen der Vorklinik und der klinischen Studien auf. In allen Studienphasen wird bei allen auftretenden gesundheitsrelevanten Problemen im Einzelfall medizinisch geprüft, ob die Einnahme des getesteten Arzneimittels eine Ursache dafür ist (Kausalitätsbeurteilung eines Verdachts auf unerwünschte Arzneimittelwirkung [UAW]). Ergebnissen solcher Prüfungen im Rahmen klinischer Studien wird eine hohe Validität attestiert. Bestätigt sich dieser Verdacht, wird er in die UAW-Liste des Arzneimittels aufgenommen und geprüft, wie häufig und schwerwiegend diese unerwünschte Wirkung ist. Nur wenn der erwartete Nutzen des neuen Mittels das UAW-Risiko übertrifft, wird die Prüfung fortgesetzt und ggf. eine Zulassung erteilt. Arzneimittelhersteller und studienrealisierende Ärzte/innen haften gemeinsam bei allen gesundheitlichen Schäden, die während der Studie bei Proband/innen entstehen. Nach der Zulassung haften sie bei auftretenden UAW nicht, wenn sie über alle ihnen bekannten UAW sachgerecht informieren (Packungsbeilage) und sorgfältig arbeiten (Kap. 4.2.3). Da Studien begrenzte Stichproben sind, können insbesondere UAW, die sehr selten, zeitlich verzögert oder nur bei einzelnen Risikogruppen auftreten (z. B. ältere Personen mit Komedikationen), nicht zuverlässig detektiert werden. Deshalb wird die Sicherheitsüberwachung auch nach der Zulassung fortgesetzt. Bisher stützt sich diese im Wesentlichen auf zwei Instrumente: › Durch Phase-IV-Studien werden die (Neben-)Wirkungen von Arzneimitteln unter Anwendungsbedingungen weiter beobachtet. Diese Studien decken im Vergleich zu zulassungsrelevanten klinischen Studien meist längere Zeiträume ab, schließen meist größere Personengruppen ein und verfolgen oft mehrere Ziele gleichzeitig. Sie sollen sowohl die Sicherheit als auch den (Zusatz-)Nutzen eines Arzneimittels unter Anwendungsbedingungen belegen. › In Spontanmelderegistern werden alle Meldungen zu UAW-Verdachtsfällen gesammelt. Solche Register werden einerseits bei Herstellern produktbezogen und andererseits produktübergreifend durch Monitoringstellen geführt. In Deutschland führt das Bundesinstitut für Arzneimittelsicherheit dieses nationale Register. Hersteller sind verpflichtet, alle ihnen angezeigten UAW-Verdachtsfälle zeitnah an das jeweilige nationale Register zu melden. Parallel gibt es über die jeweiligen Berufsordnungen der Ärzte/innen und Apotheker/ innen eine Selbstverpflichtung, UAW-Verdachtsfälle an deren jeweilige Arzneimittelkommission zu melden, die diese Meldungen ebenfalls an nationale Register weiterleitet. Seit einigen Jahren können auch Einzelpersonen als Betroffene UAW-Verdachtsfälle dem BfArM direkt melden. Mit diesen beiden Instrumenten können meist auch solche UAW aufgedeckt werden, die in klinischen Studien bis zur Zulassung unerkannt blieben. Jedoch haben beide Instrumente methodische Schwächen: › In Phase-IV-Studien wird der Arzneimitteleinsatz lediglich beobachtet, ohne dass in die Behandlung eingegriffen wird. Infolgedessen fehlen oft spezifische Untersuchungen und Befunde, anhand derer UAW- Verdachtsfälle geprüft und sich Kausalitätsbeurteilungen fundieren lassen. Diese Beobachtungsstudien können wichtige Hinweise auf UAW liefern, jedoch wird je nach Sachlage im Einzelfall die Validität der Ergebnisse in Frage gestellt, teilweise als nicht ausreichend bewertet und infolgedessen werden weitere konfirmatorische Studien gefordert, die zusätzliche externe Belege für die Richtigkeit der Ergebnisse liefern sollen (Kasten 5.1]). › Spontanmelderegister gelten keineswegs als umfassend. UAW, die erst mit erheblicher zeitlicher Verzögerung auftreten und/oder zu denen es noch nicht einmal Vermutungen gibt, werden durch Ärzte/innen, Apotheker/innen und/oder Patient/innen kaum erkannt. Die Medienaufmerksamkeit beeinflusst das Meldeverhalten erheblich: Wird über UAW-Vermutungen berichtet, steigt die Zahl der Meldungen deutlich. Bisher werden UAW-Verdachtsfälle überwiegend von Pharmafirmen gemeldet (ca. 85 % laut BfArM 2016). Von medizinischem Personal oder Betroffenen gibt es weit weniger Meldungen. Durch die unterschiedlichen Meldekanäle sind Mehrfachnennungen nicht unwahrscheinlich. Oftmals gibt es nur lückenhafte Angaben zum Gesundheitszustand der/des Betroffenen, sodass eine Kausalitätsbeurteilung der UAW-Verdachtsfälle nur eingeschränkt möglich ist. Mögliche UAW-Risiken lassen sich aus Spontanmelderegistern nicht quantifizieren. Mit diesen Instrumenten dauerte es laut Ware (2005) im Mittel 5 Jahre, bis ausreichend Belege für die Revision einer Nutzen-Risiko-Abwägung zu einem Arzneimittel vorlagen. Methodische Schwächen gibt es vor allem bei der Erkennung bislang völlig unbekannter UAW-Signale und bei der Abschätzung der gesundheitlichen Relevanz auf der Grundlage relativer Häufigkeiten (Risikoquantifizierung z. B. selten oder sehr seltenes Auftreten). Gesundheitsexperten betonen seit Jahren, dass systematischere Analysen von Daten aus der Behandlung (Real-Life-Daten) die derzeitigen Pharmakovigilanzinstrumente ergänzen und verbessern können. Die US- amerikanische Food and Drug Administration (FDA) hat beim Einsatz und der Überwachung von Vioxx© bereits vor mehr als 10 Jahren die Tür geöffnet für Analysen, die auf umfassenderen Datenbeständen aus der medizinischen Versorgung aufbauen (Kasten 5.1). Auch in Deutschland wird seit einigen Jahren getestet, inwiefern sich durch die Analyse von Daten aus der medizinischen Versorgung zusätzliche Informationen zu möglichen UAW generieren lassen. Kasten 5.1 Data-Mining im Rahmen der Pharmakovigilanz (Beispiele) Wirkstoff: Rofecoxib (Handelsname: Vioxx©) Der Wirkstoff wurde entwickelt, um Schmerzen selektiv zu bekämpfen, ohne die Magenschleimhäute anzugreifen (Zusatznutzen gegenüber verfügbaren Arzneimittel, die ein erhöhtes Risiko für gastrointestinale Blutungen hatten). Vioxx© wurde 1999 in den USA und in Europa zur Behandlung rheumatischer Erkrankungen und Schmerzen zugelassen. Innerhalb von 5 Jahren wurden ca. 80 Mio. Menschen damit behandelt. Die Jahresumsätze überstiegen 2 Mrd. US-Dollar – ein Blockbuster für den Hersteller. Mit der Zulassung startete der Hersteller u. a. eine Phase-IV-Studie, in der das Wirkungsspektrum von Vioxx© mit einem anderen Schmerzmittel verglichen wurde. Anhand der Studienergebnisse wurde einerseits der Zusatznutzen gegenüber anderen Schmerzmitteln bestätigt, andererseits wurden bereits Ende 2000 erste Sicherheitsbedenken geäußert: Bei Patient/innen mit Herz-Kreislauf-Problemen würde durch Vioxx© das Herzinfarktrisiko steigen. Der Hersteller vertrat die These, dass nicht Vioxx© häufiger solche Probleme verursacht, sondern vielmehr das Vergleichspräparat tendenziell herzschonender sei und deshalb dort unterdurchschnittlich wenige Herz-Kreislauf-Probleme auftreten würden. Es folgten weitere Studien, die je nach Studiendesign die Hypothese erhöhter kardiovaskulärer Risiken belegten oder nicht belegten. Aufgrund dieser Studienergebnisse forderte die FDA 2002 den Hersteller lediglich auf, in Fach- und Patienteninformationen stärker auf Herz-Kreislauf-Erkrankungen als mögliche UAW hinzuweisen. Um die Beweislage eindeutiger zu klären, beschritt die FDA 2003/2004 einen neuen Weg: Sie finanzierte ein Data-Mining-Projekt, das eine große US- amerikanische Health Maintenance Organization (HMO) realisierte. HMOs sind Krankenversicherungen mit eigenen Kliniken und Praxen, die medizinischen Behandlungsdaten für alle bei ihnen versicherten Personen zentral verwalten. Diese medizinischen Dokumentationen der Versichertenpopulation ist weit umfassender als die einer Phase-IV-Studienpopulation. Die Analyse ergab ein 1,5-mal größeres Herzinfarkt-/Herztodrisiko bei niedriger Vioxx©-Dosierung im Vergleich zu Behandlungen mit anderen Schmerzmitteln, bei höherer Dosierung verdreifachte sich das Risiko. Die FDA rechnete die Zahlen hoch und schätzte, dass für den Zeitraum 1999–2003 88.000–134.000 Herz-Kreislauf-Erkrankungen auf die Einnahme von Vioxx® zurückzuführen seien, von denen 30–40 % tödlich waren (Graham et al. 2005) – ein Beleg für die bereits im Jahr 2000 geäußerten Risikobedenken, für die zeitgleich auch biologische Erklärungen geliefert wurden. Der Hersteller rief sämtliche Tabletten zurück und nahm die Substanz umgehend vom Markt. Das Medienecho war riesig (ausführlich z. B. in Ware 2005). Jahrelange juristische Auseinandersetzungen zu Haftung und Schadensersatz folgten. Der US-amerikanische Kongress befasste sich mit der Thematik und forderte die FDA auf, das bestehende Pharmakovigilanzsystem zu verbessern – dies war der Auslöser der »FDA Sentinel Initiative«. Wirkstoff: Rosigliatzon (Handelsname: Avandia®) Der Wirkstoff zielt darauf ab, die körpereigene Insulinsensitivität zu verbessern, um der nachlassenden Wirksamkeit körpereigenen Insulins entgegenzuwirken. Er wurde 1999 in den USA und Europa zur Behandlung von Typ-2-Diabetes zugelassen. Eine herstellerfinanzierte Phase-IV-Studie startete in mehreren europäischen Ländern, um Langzeitnebenwirkungen, darunter Herz-Kreislauf-Probleme, zu überwachen. Aufgrund der großen Verbreitung von Typ-2-Diabetes und der erforderlichen Dauerbehandlung wurde die patentgeschützte Substanz ebenfalls ein Blockbuster (Jahresumsatz 2006: 2,5–3 Mrd. US-Dollar). 2007 führte ein US-amerikanischer Kardiologe mit Kollegen eine Metaanalyse von 42 publizierten Studien zu den Folgen der Substanzverwendung durch. Mit ihrem Data-Mining-Ansatz ermittelten sie ein um über 40 % erhöhtes Herzinfarktrisiko bei Langzeitnutzenden (Nissen/Wolski 2007). Der Hersteller verwies auf die von ihm finanzierte Phase-IV-Studie, die keinen Beleg für ein erhöhtes Herzinfarktrisiko lieferte (Home et al. 2009). Nach kontroverser Methodendiskussion empfahl die EMA 2010 die Marktzulassung auszusetzen (GSK 2010). Die FDA schränkte die Verwendung der Substanz ein (Zurückstufung als Reservemedikament) und ordnete eine strenge Risikoüberwachung an und beauftragte das Duke Clinical Research Institute mit der Überprüfung der Studienergebnisse. Auch dieser Fall verursachte ein großes Medienecho. Die Umsätze brachen sofort weltweit ein. Als 2012 das Patent auslief, wurden nur noch wenige Tausend Patient/innen in den USA damit behandelt, der Jahresumsatz lag im einstelligen Millionenbereich. 2013 legte das Duke Clinical Research Institute seine Ergebnisse vor. Die Revision der Studiendaten und nochmalige Analysen lieferten keine Belege für ein erhöhtes Herzinfarktrisiko. Zwar lockerte die FDA daraufhin die Risikoüberwachung, dennoch rechnen Marktbeobachter nicht damit, dass diese Substanz als Antidiabetikum in den Industrieländern wieder relevant wird. Die pharmakoepidemiologische Forschungsdatenbank Im Jahr 2004, nach dem Vioxx-Skandal und der FDA-HMO-Kooperation (Kasten 5.1) sowie im Zuge der 2003 eingeleiteten GKV-Modernisierung, die GKK mit umfangreicheren Leistungsdatensätzen ausstattete, beantragten vier GKK und das Bremer Leibniz-Institut für Präventionsforschung und Epidemiologie (BIPS) in Kooperation mit der Universität Bremen den Aufbau der pharmakoepidemiologischen Forschungsdatenbank (»German Pharmacoepidemiological Research Database« [GePaRD]) (Schepers et al. 2015, S. 82 ff.). In Anlehnung an das FDA- HMO-Studiendesign wurde das GePaRD-Datenmodell auf der Grundlage der Leistungsabrechnungsdaten und entsprechend der nationalen Datenschutzvorgaben das Treuhandverfahren entwickelt und mit den zuständigen Versicherungsaufsichts- und Datenschutzgremien abgestimmt. Die vier beteiligten GKK übermitteln von ihren ca. 20 Mio. bundesweit Versicherten neben ausgewählten pseudonymisierten Versichertenstammdaten, die Diagnose- und Behandlungsdaten mit deren Zeitangaben aus der ambulanten und stationären Leistungsabrechnung sowie die arzneimittelbezogenen Daten mit Zeitangaben von den Rezeptabrechnungen, jedoch keinerlei Kostenpositionen. Zudem werden die Kataloge der Diagnose- und Leistungscodierung und die Daten des nationalen Pharmazentralregisters (mit Angaben zu Packungsgrößen, Tagesdosierung, Wirkstoffbestandteilen usw. [Kap. 5.4.1]) integriert, nicht aber andere Heil- und Hilfsmittelleistungen oder ergänzende sozio-ökonomische Faktoren. Statt bei jedem Versicherten die Einwilligung zur spezifischen sekundären Nutzung zu Forschungszwecken einzuholen – wofür es bisher ohnehin keine standardisierten Verfahren gibt – wurde folgendes Datentreuhandverfahren vereinbart (Schepers et al. 2015, S. 88): 1. Die GKK stellen definierte Leistungsdatensätze jahrgangsweise zusammen, pseudonymisieren die KV-Nr. der Versicherten anhand eines kasseninternen Schlüssels und übermitteln die Datensätze an eine Vertrauensstelle an der Universität Bremen. 2. Die Vertrauensstelle prüft die Datensätze mit Routinealgorithmen, klärt Unplausibilitäten mit der jeweiligen GKK und leitet aus dem kasseninternen Schlüssel ein periodenübergreifendes Pseudonym ab (Zweifachpseudonymisierung). Von den Krankenkassen gelieferte Daten, der interne Schlüssel und die aufbereiteten Jahresdaten werden getrennt gespeichert. Nur die periodenübergreifend pseudonymisierten Jahresdatensätze werden an die GePaRD-Registerstelle weitergegeben, die diese über das Pseudonym an den existieren Datenbestand anfügt und diesen fortschreibt. Die Registerstelle integriert auch die jährlich aktualisierten Codierungskataloge und das Pharmazentralregister in die pharmakoepidemiologische Forschungsdatenbank. 3. Nur BIPS-Mitarbeitende dürfen eine konkrete Datennutzung zum einen bei den beteiligten GKK und zum anderen bei den zuständigen Aufsichtsbehörden beantragen. Sie definieren die Untersuchungsfrage und die für die Analyse erforderliche Datenmenge. Die GKK und Aufsichtsbehörden prüfen separat und genehmigen gegebenenfalls. Externe Wissenschaftler/innen können sich über Kooperationen beteiligen. 4. Entsprechend der jeweiligen Genehmigungen extrahiert die Registerstelle aus dem GePaRD-Datenbestand den definierten Analysedatensatz und stellt diesen dem/der verantwortlichen BIPS-Wissenschaftler/in bereit. 5. Verantwortliche Wissenschaftler/innen führen die jeweiligen Analysen eigenverantwortlich mit ihrem Team durch, prüfen die Ergebnisse und veröffentlichen sie gegebenenfalls. Das GePaRD-Verfahren führt zu einer faktischen Anonymisierung der Leistungsdaten. Dadurch können das GKK-Verbot zur sektorübergreifenden Datenzusammenführung und die gesetzlich definierten Löschfristen überwunden werden (für Forschungszwecke). Datenprüfung, Aufbereitung und Bereitstellung führen zu einer zeitlichen Verzögerung von ca. 2 Jahren. Der GePaRD-Datenbestand ermöglicht vielfältige Analysen zum Einsatz von Arzneimitteln und dessen Folgen. Er hat inhaltlich erhebliche Schnittmengen zum nationalen Versorgungsdatenbestand (Kap. 4.5.2), ist jedoch nicht so umfangreich (Stichprobe statt Vollerhebung; kein Heil- und Hilfsmitteleinsatz), dafür aktueller und deckt zudem einen längeren Zeitraum ab. Die GePaRD-Forschungsdatenbank wurde 2020 vom Rat für Sozial- und Wirtschaftsdaten vorläufig akkreditiert und wird inzwischen als ein Zentrum der Forschungsdateninfrastruktur (FDI) geführt (Kap. 3.3.3). Über die FDI sollen verfügbare Datenbestände sichtbarer gemacht und die Nutzung entsprechend der jeweiligen Rechtsstruktur verbessert werden. Damit könnten über die FDI Kooperationsanfragen an das BIPS gestellt werden. Die praktische Relevanz dieser neuen Option lässt sich bisher nicht abschätzen. 5.5.4 Der Data-Mining-Prozess Datenbasis zur Suche nach unerwünschten Arzneimittelwirkungen Für die datenbasierte Suche nach möglichen unerwünschten Arzneimittelwirkungen (UAW) werden einerseits Daten zur Arzneimitteleinnahme und andererseits Daten zu gesundheitlichen Beeinträchtigungen benötigt. Eine Ursache-Wirkungs-Beziehung kann hypothetisch nur bei Beeinträchtigungen unterstellt werden, die zeitlich nach einer Arzneimitteleinnahme aufgetreten sind. Deshalb sind die Zeitangaben von besonderer Relevanz. › Arzneimitteleinnahme: Es gibt in Deutschland gegenwärtig keine systematische Erfassung der personenbezogenen Arzneimitteleinnahme. Im stationären Bereich sollte diese dokumentiert werden, jedoch unterliegen die arztgeführten Primärakten der Schweigepflicht. Digitale, zu Forschungszwecken nutzbare Medikationspläne gibt es bisher nicht. Eine Näherung ist über die versichertenbezogenen Rezeptdaten der Apotheken möglich, auch wenn diese Daten nur die ambulante Abgabe rezeptpflichtiger Arzneimittel enthalten, deren Kosten die jeweilige GKK teilweise trägt. Für die GePaRD-Datenbank werden die Rezeptangaben mithilfe des nationalen Pharmazentralregisters (Kap. 5.4.1) teilweise umcodiert und erweitert, sodass für derzeit ca. 6.500 Wirkstoffe bzw. Wirkstoffkombinationen der jeweilige Einnahmezeitraum und die Dosierung näherungsweise geschätzt werden können. › Gesundheitliche Beeinträchtigungen: GKK erhalten seit 2004 mit den Leistungsabrechnungsdaten u. a. codierte Haupt- und Nebendiagnosen von allen Kliniken und Praxen. Die ICD-Klassifikation, mit der die Diagnosen für die Leistungsabrechnung codiert werden, wird jährlich überarbeitet und an medizinische Entwicklungen angepasst. Insbesondere für Untersuchungen über längere Zeiträume (Längsschnittanalysen) sind diese Überarbeitungen z. T. problematisch, da sie zu Brüchen in den Datenbeständen im Zeitverlauf führen können. Zwar sind die medizinischen Einrichtungen zur korrekten Abrechnung verpflichtet und die Richtigkeit und Validität der Angaben wird automatisiert geprüft, dennoch lässt sich nur bedingt abschätzen, inwiefern die zur Leistungsabrechnung übermittelten Haupt- und Nebendiagnosen gesundheitliche Probleme von Versicherten vollumfänglich und korrekt abbilden (medizinische Einrichtungen übermitteln i. d. R. nur abrechnungsrelevante Diagnosen [Kap. 4.5.1]). Für die retrospektive datenbasierte UAW-Suche werden nur Diagnosen berücksichtigt, die während oder nach einer Arzneimittelabgabe auftraten. Deshalb sind die Zeitpunkte der Arzneimittelabgabe und der Diagnosen nötig. Methodisches Vorgehen Das Data-Mining-Verfahren basiert auf Disproportionalitätsanalysen von Vierfeldertafeln Abb. 5.3). Für jede in Betracht zu ziehende Arzneimittel-Diagnose-Kombination wird eine solche Tafel erstellt. Je umfangreicher der Analysedatensatz bzw. je größer die Stichprobe, desto zuverlässiger können die Werte aller vier Felder bestimmt und unterschiedliche klassische Risikomaße für jede Arzneimittel-Diagnose-Kombination berechnet werden (Abb. 5.3 unten). Diese Risikomaße können als Indikator für die Stärke eines UAW-Signals interpretiert werden. Abb. 5.3 Vierfeldertafel zum Finden unerwünschter Arzneimittelwirkungen Quelle: nach Schepers et al. 2015, S. 89 Methodisch kommen klassische Risikomaße an ihre Grenzen, wenn unerwünschte Arzneimittelwirkungen nur sehr selten auftreten (dann sind hohe Werte kein zuverlässiger Indikator für ein UAW-Signal mehr). Soll geprüft werden, ob ein Arzneimittel möglicherweise in sehr seltenen Fällen unerwünschte Wirkungen hat, können inzwischen auch Bayes'sche Netze trainiert werden. Sie basieren auf bedingten Wahrscheinlichkeitsverteilungen und sind vergleichsweise rechenintensiv, können aber bei sehr selten auftretenden unerwünschten Arzneimittelwirkungen zuverlässige Signale generieren. Mit den inzwischen verfügbaren Algorithmen könnten in umfangreichen Datenbeständen UAW-Signale auch sehr breit gesucht werden, d. h. es müssen wenig bis keine Restriktionen vorgegeben werden, auf welche Arzneimittel und auf welche Diagnosen sich die Suche beschränken soll. Die Anzahl dieser Tafeln wird dann jedoch schnell sehr groß. Mit den GePaRD-Datenbeständen könnten theoretisch bis zu 6.500 ATC-codierte pharmakologische Wirkstoffe/Wirkstoffkombinationen und ca. 12.000 ICD-codierte Diagnosen zu knapp 80 Mio. Vierfeldertafeln verknüpft werden (werden Kombinationen aus Haupt- und Nebendiagnosen berücksichtigt, kann sich die Zahl der Tafeln weiter erhöhen). Würden noch dazu sehr lange Zeiträume zwischen Arzneimittelverschreibung und möglicher unerwünschter Wirkung betrachtet und unbeschränkt in großen Datenbeständen gesucht, müsste damit gerechnet werden, dass sehr viele UAW-Signale generiert würden. Ergebnisbewertung Alle mit Disproportionalitätsanalysen ermittelten Ergebnisse werden bewertet und klassifiziert in › bereits bekannte UAW-Signale (in nationalen und/oder internationalen Melderegistern enthalten und in den Bulletins zu Arzneimittelsicherheit bereits aufgeführt), › aus medizinisch-fachlicher Sicht sehr unplausible Zusammenhänge sowie › potenziell relevante UAW-Signale (die weiter beobachtet oder vertieft geprüft werden sollten). Eine blinde oder anlasslose Suche ist einerseits methodisch wenig zielführend, da zu viele UAW-Signale generiert werden würden, auch längst bekannte sowie medizinisch-fachlich unplausible, die im Anschluss einzeln extern auf der Grundlage medizinischen Wissens bewertet werden müssen (Antes/Bertram 2019). Andererseits werden anlasslose Analysen normativ begrenzt, denn Analysen müssen einzeln bei den GKK und den Aufsichtsbehörden beantragt werden. Laut Schepers et al. (2015, S. 91) müssten sie dem Prinzip der Zweckbindung gemäß § 75 SGB X entsprechen und folglich müsse im vorab spezifiziert werden, bei welchen Wirkstoffen/ Wirkstoffkombinationen nach welche unerwünschten Wirkungen gesucht werden soll. Man müsse zumindest UAW- Vermutungen haben und die Suche nach Auffälligkeiten in den Analysedaten eingrenzen können. Laut Schepers et al. (2015, S. 92 f.) zielen die Data-Mining-Verfahren mittels GePaRD-Daten nicht darauf ab, UAW-Risiken eines Arzneimittels sicher festzustellen (das dafür nötige Evidenzniveau könne mit derartigen Sekundäranalysen von Leistungsdaten nicht erreicht werden). Sie erlauben lediglich, potenziell relevante UAW- Signale zu ermitteln, bei denen dann diskutiert werden müsse, welche weiteren Maßnahmen der Risikoüberwachung folgen sollen. Wenn sich ein potenzielles Sicherheitsrisiko andeutet, das UAW-Signal aber nicht sehr stark bzw. statistisch stabil ist, könne die Analyse mit anderen Datensätzen wiederholt werden (sofern nur ein Teil der GePaRD-Daten analysiert wurde, könnte der andere Teil zur Signalprüfung genutzt werden). Schwache Signale sollten weiter beobachtet werden. Bei deutlichen UAW-Signalen, sollte eine spezifische konfirmatorische Studie (Phase-IV-Studie) durchgeführt werden, um das Data-Mining-Ergebnis extern zu prüfen. Einen allgemeinen methodisch-fachlichen Konsens zur Bewertung der Ergebnisgüte von UAW-Signalen und zur Ableitung von Folgemaßnahmen gibt es nicht. Vielmehr wird im Einzelfall unter Beachtung des jeweiligen Kontextes entschieden (wie gravierend sind die Wirkungen im Vergleich zum Substanznutzen, gibt es Behandlungsalternativen). 5.5.5 Vorgehen im internationalen Vergleich Mit dem Aufbau der GePaRD-Forschungsdatenbank und dem vorgestellten Verfahren, Leistungsabrechnungsdaten für Pharmakovigilanzanalysen zu nutzen, wurde 2004 in Deutschland Neuland betreten. Da aufgrund der schwachen Anonymisierung der Daten (Kap. 3.3.3) ausschließlich BIPS-Mitarbeitende Analysevorhaben beantragen und federführend durchführen können, ist die Intensität der Datennutzung an die personellen Ressourcen des BIPS gebunden. Wie häufig auf die Daten zugegriffen wird, wie viele UAW-Signale bereits gefunden oder erhärtet und welche zusätzlichen Informationen generiert wurden, lässt sich von außen bisher nicht beurteilen. Systematische Dokumentationen durchgeführter Analysen und deren Ergebnisse, Verzeichnisse daraus hervorgegangener Publikationen oder Evaluationen der Datennutzung werden über die Internetseiten der Betreiberinstitution nicht bereitgestellt. In der Datenbankbeschreibung werden für die letzten Jahre 7 bis 12 wissenschaftliche Publikationen pro Jahr gelistet (BIPS 2017). Schepers et al. (2015, S. 95) verweisen beispielhaft auf eine Datenanalyse mit der ein Verdacht zur Verdopplung des Fieberkrampfrisikos bei einer Vierfachimpfkombination (Mumps, Masern, Röteln und Windpocken) im Vergleich zur vorher üblichen Dreifachkombination und separater Windpockenimpfung 2014 erhärtet wurde (Schink et al. 2014). Formuliert wurde dieser Verdacht in den USA bereits 2009 – 5 Jahre früher. Die Diskussion um den Zusatznutzen der Vierfachimpfung hält an. Marktverfügbar sind beide Impfstoffvarianten. Die ständige Impfkommission empfiehlt eine Impfung, äußert sich aber nicht zur Kombinationsform. Im internationalen Vergleich ist der Ansatz, Daten, die im Rahmen der medizinischen Versorgung entstehen, kontinuierlich zusammenzuführen und zur Beantwortung unterschiedlicher Untersuchungsfragen sekundär zu nutzen, keinesfalls einzigartig. Auch in etlichen anderen Industrieländern werden seit Jahren Real-World Data für Forschungszwecke im Allgemeinen und für Pharmakovigilanzuntersuchungen im Besonderen zugänglich gemacht (Schepers et al. 2015, S. 94). Dabei sollten die Besonderheiten von medizinischen Behandlungsdaten und administrativen, vergütungsrelevanten Daten ggf. berücksichtigt werden. Die US-amerikanische »Sentinel Initiative« In den USA stand 2004 nach dem Vioxx®-Skandal nicht nur der Arzneimittelhersteller, sondern auch die Arzneimittelaufsichtsbehörde FDA und deren Risikoüberwachung in der Kritik (Kaplan 2017). Die FDA würde über keine ausreichenden herstellerunabhängigen Pharmakovigilanzverfahren verfügen und dadurch zu zögerlich reagieren, vor allem aber nicht proaktiv agieren können (Kasten 5.1). Die Situation wurde auf höchster Regierungsebene diskutiert. 2007 verabschiedete der Kongress den Food and Drug Administration Amendments Act (FDAAA), der die FDA u. a. aufforderte, ein besseres UAW-Frühwarnsystem einzurichten. Die »FDA Sentinel Initiative« wurde als zusätzliches Element der Risikoüberwachung gesetzlich verankert. Unterschiedliche mögliche Datenmodelle wurden diskutiert und gegeneinander abgewogen. Sie mündeten in vier Empfehlungen (Brown et al. 2009): › Datenbasis: Zusätzlich zu den existierenden Monitoringelementen sollten Daten von einer erheblich größeren Population die Basis eines Frühwarnsystems bilden (100 Mio. Patient/innen wurden anvisiert, knapp ein Drittel der US-amerikanischen Bevölkerung). Unterschiedliche Kooperationen mit medizinischen Einrichtungen, um auf deren uneinheitlich codierte Behandlungsdaten zugreifen zu können, schienen nicht praktikabel. Es wurde empfohlen, administrative Daten, die ohnehin schon bei diversen Versicherungen zusammenliefen, als Datenbasis zu nehmen. › Datenverantwortung: Die kooperierenden datenhaltenden Organisationen sollten als data owner die Kontrolle über die Datenhaltung und -verwendung behalten und für die Einhaltung von Datenschutz- und -sicherheit verantwortlich bleiben (an der Sentinel Initiative beteiligen sich inzwischen 19 data owner, vor allem Krankenversicherungen oder HMO). › Datenstruktur: Die datenhaltenden Einrichtungen sollten gleiche Datenbankmodelle nutzen und einheitliche Bezeichnungen und Klassifikationen verwenden. › Datenanalysen: Für einzelne Untersuchungsfragen sollten einheitliche Programmcodes zentral entwickelt und dezentral ausgeführt werden. Die datenhaltenden Institutionen melden lediglich Ergebnisse zurück (als Teil eines Privacy-Preserving-Konzepts [Kap. 3.3.3]). Das von Protagonisten als Quantensprung für die Pharmakovigilanz angekündigte Pilotprogramm begann 2009 in Kooperation mit dem Nonprofit-Healthservice-Unternehmen Harvard Pilgrim (Kaplan 2017). Der Aufbau der Grundstrukturen kostete in den ersten 7 Jahren mehr als 200 Mio. US-Dollar. Seit 2016 läuft der Regelbetrieb der FDA Sentinel Initiative, durch die (theoretisch) Daten von insgesamt 193 Mio. Krankenversicherten genutzt werden könnten (60 % der Einwohner/innen). Um einen UAW-Verdacht zu erkennen, nutzt die FDA nach wie vor zunächst die klassischen Pharmakovigilanzinstrumente (Spontanmelderegister, Studienergebnisse). Wenn diese Hinweise zu möglichen UAWs liefern, beginnt nicht mehr die Abwägung, ob eine aufwendige und langwierige Phase-IV-Studie nötig ist, vielmehr beauftragt die FDA Harvard Pilgrim sofort mit einer Prüfung. Das Unternehmen beauftragt einen oder mehrere data owner, ihre Datensätze zu prüfen. Seit dem Start der FDA Sentinel-Initiative 2009 wurden hunderte Abfragen durchgeführt. Die Ergebnisse wurden oft innerhalb von Wochen vorgelegt. Wie oft danach Phase-IV-Studien angeordnet wurden oder inwiefern Hinweise nicht erhärtet wurden, ist dem TAB nicht bekannt. Die FDA verweist darauf, dass die Hinweise aus den Data-Mining-Verfahren in 2 Fällen dazu führten, die Informationen der Packungsbeilage zu ändern (Kaplan 2017). Spätestens seit der Zwischenevaluation 2015 sind die euphorischen Ankündigungen einer kritischeren Auseinandersetzung mit den Grenzen des Verfahrens gewichen (FDA 2017). Im Zentrum der Diskussion steht die Datenbasis, also die administrativen Daten der Leistungsabrechnung bei Versicherungsgesellschaften. Darin wären lediglich Arzneimittelverschreibungen aber keine Angaben enthalten, inwiefern die Mittel tatsächlich genommen wurden. Mögliche unerwünschte Wirkungen können nur über die Diagnosen erfasst, nicht aber durch Laborwerte oder andere medizinische Befunde fundiert werden. Bezüglich der Diagnoseerfassung gäbe es unterschiedliche Gewohnheiten, oftmals werden nur abrechnungsrelevante Diagnosen, nicht aber klassische Nebenwirkungen wie Verdauungsprobleme, Konzentrationsmangel usw. erfasst. Kritiker vermuten, dass viele Menschen, die an den Folgen von Medikamenteneinnahmen gestorben sind, durch diese Datenbasis nicht erkannt werden könnten, denn der Tod und Todesursachen sind in den administrativen Daten zur Leistungsabrechnung nicht enthalten. Dadurch sei man sich unsicher, welche Fragen mit der Sentinel-Initiative zuverlässig beantwortet werden können. Man könne nicht zuverlässig abschätzen, ob mit dem Ansatz tatsächlich die Nebenwirkungen erkannt werden, nach denen man sucht und die man mit den gängigen Verfahren nur schlecht fand (Kaplan 2017). Für die strategische Weiterentwicklung bis 2023 soll neben daten- und informationstechnischen Aktivitäten auch die methodisch-analytische Auseinandersetzung fortgesetzt werden. Das Sentinel-Ökosystem als zusätzliche nationale Ressource gilt nach vor als Vision.171 171 www.fda.gov/safety/fdas-sentinel-initiative/fdas-sentinel-initiative-background (13.121.2021) Die britische Forschungsdatenbank »Clinical Practice Research Datalink« Großbritannien gehört zu den Vorreitern der Zusammenführung von medizinischen Behandlungsdaten auf Einzelfallebene und deren Bereitstellung für wissenschaftliche Zwecke. Der heute verfügbare Clinical Practice Research Datalink (CPRD)172 geht auf das Engagement eines niedergelassenen englischen Hausarztes und eines IT- Spezialisten zurück, die bereits in den 1980er Jahren aus longitudinalen Behandlungsdaten Informationen zum Wirkungsspektrum medizinischer Produkte unter Anwendungsbedingungen generieren wollten. Nahezu zeitgleich begannen nationale Aktivitäten, eine allgemeine Systematik medizinischer Begriffe auf- und auszubauen (READ- Code). Die Initiatoren entwickelten ein Modul für ein IT-Praxissystem, mit dem aus den bei der Behandlung kontinuierlich entstehenden Patientendaten definierte, codierte Merkmale automatisiert in eine eigenständige Forschungsdatenbank übertragen werden konnten. Diese individuell gestarteten Datensammel- und Analyseaktivitäten wurden in den 1990er Jahren in die Verantwortung des Gesundheitsministeriums gegeben, das den nationalen Gesundheitsdienst (National Health Service [NHS]) und die Arzneimittelaufsicht mit der Fortentwicklung der Datenbank beauftragte. Seit 2007 gibt es eine strategische Allianz mit einem Marktforschungs- und Beratungsunternehmen, das seine Expertise bezüglich Gesundheitsmarktanalysen einbringt. 2011 startete eine Regierungsinitiative,173 die durch die Intensivierung der forschungsseitigen Nutzung von electronic health records – standardisierte Teile medizinischer Akten, keine administrativen Daten zur Leistungsabrechnung – eine international herausgehobene Stellung im Gesundheitsforschungsbereich anstrebt. Inzwischen übermitteln mehr als 2.000 primärversorgende Einrichtungen regelmäßig definierte Behandlungsdaten (Diagnosen einschließlich Labordaten, medizinische Behandlungen einschließlich Arzneimittelverschreibungen) von ihren Patient/innen an die CPRD-Forschungsdatenbank, sofern Patient/innen dies nicht verbieten (Opt-out-Modell). Die Daten werden periodenübergreifend pseudonymisiert. Dadurch kann der CPRD-Bestand regelmäßig fortgeschrieben werden. Inzwischen enthält diese Datenbank Behandlungsdaten von insgesamt 60 Mio. Patient/innen. 16 Mio. Fälle gelten als aktiv, d. h. sie werden bis heute kontinuierlich fortgeschrieben und bilden teilweise eine mehr als 20-jährige Krankheitsgeschichte ab. Die Daten werden über einen Nonprofit-Datentreuhänder Wissenschaftler/innen mittels nichtübertragbarer Nutzungslizenzen für Forschungsaktivitäten mit einem potenziellen gesellschaftlichen Nutzen bereitgestellt. Die Nutzungsgebühren liegen zwischen 75.000 und 330.000 Britische Pfund pro Jahr je nach Nutzungsform.174 Jegliche Reidentifizierung dieser lediglich formal anonymisierten Mikrodaten ist explizit untersagt. Der Treuhänder behält sich ein Kontrollrecht vor. Ein CPRD-Analyseteam unterstützt Wissenschaftler/innen bei ihren Aktivitäten. Die Datenbank wird kontinuierlich zu einem wissenschaftlichen Analyse- und Informationssystem ausgebaut mit vielfältigen vorinstallierten visuellen und analytischen Data-Mining-Funktionen. CPRD-Daten flossen bereits in knapp 3.000 begutachtete wissenschaftliche Publikationen zu unterschiedlichen Themenfeldern ein. Die Spanne reicht von Pharmakovigilanzanalysen über Behandlungsbewertungen, Risiko-Nutzen-Abwägungen bis hin zu pharmakoökonomischen Fragestellungen. Nach eigenen Angaben führten die Ergebnisse zu Verbesserungen in Bezug auf Arzneimittelsicherheit, Impfempfehlungen und krankheitsspezifischen Behandlungsleitlinien.175 5.5.6 Einschätzung Es steht außer Frage, dass die kontinuierliche Sicherheitsüberwachung von Arzneimitteln unter Anwendungsbedingungen eine notwendige Aufgabe im öffentlichen Interesse ist. Weitgehende Übereinstimmung besteht, dass mit den etablierten Verfahren, die sich wesentlich auf klinische Studien und Spontanmeldungen stützen, sehr seltene, mit erheblicher zeitlicher Verzögerung oder in Kombination mit anderen Substanzen auftretende unerwünschte Arzneimittelwirkungen nicht immer zuverlässig erkannt werden können und es aufwendig ist, diesbezügliche Erkenntnisse mit der nötigen Evidenz abzusichern und entsprechendes Wissen zu erweitern. Der retrospektiven Analyse von Daten, die durch die kontinuierliche Behandlungsdokumentation entstehen, wird das Potenzial unterstellt, bei UAW-Hinweisen zeitnah zusätzliche Informationen in Bezug auf damit einhergehende gesundheitsbezogene Risiken generieren zu können (Spezifikation der Data-Mining-Aufgabe). 172 www.cprd.com (13.12.2021) 173 www.gov.uk/government/news/launch-of-the-clinical-practice-research-datalink (13.12.2021) 174 www.cprd.com/pricing (13.12.2021) 175 https://cprd.com/bibliography (13.12.2021) Es steht ebenso außer Frage, dass die Qualität der für derartige Analysen nutzbaren Daten hochrelevant ist. Bei der Prüfung auf unerwünschte Arzneimittelwirkungen betrifft das die zeit- und personenbezogenen Daten zur Arzneimitteleinnahme sowie zu gesundheitlichen Einschränkungen (Datenauswahl und Aufbereitung). Im britischen Ansatz kann für diese Aufgabe eine langjährige große Stichprobe medizinischer Behandlungsdaten von Hausärzten verwendet werden, die diese Daten kontinuierlich standardisiert an eine zentrale Forschungsdatenbank übermitteln. Diese Daten werden vielen Forschungsakteuren zugänglich gemacht. Im US-amerikanischen Ansatz wird auf die Datenzusammenführung verzichtet, stattdessen werden aufgabenspezifische Algorithmen an unterschiedliche datenhaltende Stellen geschickt, die ihre Datenbestände damit analysieren und nur Ergebnisse zurückschicken. Da deren medizinische Daten nur begrenzt standardisiert sind, werden administrative (Leistungsabrechnungs-)Daten für deren Pharmakovigilanzuntersuchungen verwendet. In beiden Verfahren können die jeweiligen Daten zeitnah zur Entstehung analysiert werden. Im deutschen Ansatz wurde mit einer großen Stichprobe von Leistungsabrechnungsdaten begonnen (GePaRD), inzwischen werden nahezu alle Leistungsabrechnungsdaten als Vollerhebung über mehrere Etappen geprüft, gespeichert und weitergeleitet (nationaler Versorgungsdatenbestand). Es vergehen Jahre, bis sie in Forschungsdatenbanken eingespeist sind und – bisher eng begrenzt – auf Antrag zugänglich gemacht werden. Die Nutzungsintensität dieser Datenbestände lässt sich von außen kaum beurteilen. Inwiefern die GePaRD-Forschungsdatenbank über die Forschungsdateninfrastruktur perspektivisch intensiver genutzt wird, bleibt abzuwarten. Der GePaRD-Datenbestand deckt zwar einen längeren Zeitraum ab, ist inzwischen jedoch eine Teilmenge des nationalen Versorgungsdatenbestandes. Inwiefern derartige Parallelaktivitäten perspektivisch sinnvoll sind, sollte diskutiert werden. Da die GePaRD-Datenerhebung früher begann, könnte auch eine Migration der frühen Jahresdatensätze in die nationalen Versorgungsdaten in Erwägung gezogen werden. Schepers et al. (2015, S. 94 f.) sehen weitere Verbesserungsoptionen in der Ausweitung der Medikationserfassung (durch die ambulanten Rezeptverordnungen werden nur gut die Hälfte der in Deutschland abgegebenen Arzneimittel erfasst). Zum einen könnte perspektivisch diskutiert und geprüft werden, ob eine Schnittstelle zu den in Entwicklung befindlichen Medikationsplänen oder sogar die Einbeziehung von patientengeführten Dokumentationen oder digitalen Services, die bei der Arzneimitteleinnahme assistieren, möglich und zulässig seien könnte oder sollte. Zum anderen könnte in Erwägung gezogen werden, Daten zur Medikation in stationären Einrichtungen und Rettungsdiensten zu erfassen. Derartige Überlegungen gehen über die bisherigen Verfahren in erheblichem Maße hinaus. Zum einen sind Arzneimittelabgaben in stationären Einrichtungen bisher kein Bestandteil der Leistungsabrechnung, zum anderen werden Rettungsdienste und stationäre Reha- oder Pflegeeinrichtungen nicht über die gesetzliche Krankenversicherung und das diesbezüglich relevante SGB V reguliert. Mindestens genauso wichtig erscheint dem TAB, die zeitliche Verzögerung zwischen Datengenese und -bereitstellung massiv zu verkürzen. Die mathematisch-statistischen Verfahren zur Quantifizierung von gesundheitsbezogenen Risiken durch medizinische Maßnahmen sind methodisch umfangreich diskutiert und fachlich allgemein anerkannt (Datenanalytik; Data-Mining im engeren Sinn). Klassische statistische Verfahren, die gesundheitsbezogene Risiken anhand komplexer Indexzahlen berechnen, können durch neuere Verfahren ergänzt werden, die auf wahrscheinlichkeitstheoretischen Ansätzen zur Risikoquantifizierung aufbauen. Die Bewertung der Ergebnisse kann aus unterschiedlichen Perspektiven erfolgen und wird teilweise kontrovers diskutiert (externe Prüfung, Wissenserweiterung). Grundsätzlich eignet sich der vorgestellte Ansatz (Disproportionalitätsanalysen) zur Prüfung von Hinweisen auf vorrangig schwerwiegende unerwünschte Ereignisse (sie müssen diagnoserelevant sein), nicht zur Generierung solcher Hinweise (dafür sind klinische Studien, medizinische Forschung und Beobachtung sowie UAW-Melde-Register besser geeignet). Ein (Zusatz-)Nutzen zu den bereits etablierten Pharmakovigilanzelementen entstand im Vioxx©-Fall, als die Vermutung eines erhöhten Gesundheitsrisikos durch eine retrospektive Analyse zeitnah entscheidend fundiert wurde. Der Beleg ist noch nicht erbracht, dass die in Deutschland gestarteten Initiativen, einen substanziellen zusätzlichen Beitrag zu den etablierten Pharmakovigilanzverfahren leisten. Ein solcher Nachweis dürfte schwer zu erbringen sein, denn dafür gibt es kaum Bewertungsmaßstäbe. Zu bedenken ist dabei, dass das arzneimittelrechtlich definierte Qualitätsmanagementsystem bereits sehr hohe Standards bezüglich der Sicherheitsprüfung während der Produktentwicklung und der Sicherheitsüberwachung während der Anwendung setzt, und auch sehr seltene UAW immer seltener unentdeckt bleiben (dass die US-amerikanischen Datenanalysen nur in wenigen Fällen zu Änderungen der Anwendungsinformationen führten, spricht eher für die etablierten Monitoringsysteme, nicht aber gegen die zusätzlich eingeführten Kontrollmechanismen). Aus dieser Perspektive kann die retrospektive Analyse von Versorgungsdaten als ein Ad-on-Verfahren aufgefasst werden, das wissenschaftlichen Akteuren und Aufsichtsbehörden eigenständige Informationen liefert, die nicht aus herstellerfinanzierten Studien stammen, und damit die Evidenz des Wissens zum Wirkungsspektrum von Arzneimitteln erhöht. Wenn man jedoch nur auf alten Daten rechnen kann, lassen sich UAW kaum zeitnah erkennen. Der britische und der US-amerikanische Ansatz, der statt auf Vollzähligkeit auf Aktualität setzt, scheint diesbezüglich überlegen. Die methodischen Vorgehensweisen zur Ermittlung von Risikomaßen sind weitgehend akzeptiert, die Algorithmen können immer komplexere Rechenoperationen automatisiert durchführen (Anwendung zur Entscheidungsunterstützung). Die Anwendbarkeit und Einsetzbarkeit auf nationalen Leistungsdatenbeständen wurden durch die GePaRD-Aktivitäten belegt. Eine Migration der Verfahren z. B. auf den nationalen Versorgungsdatenbestand sollte möglich sein. Selbst wenn die Rechenschritte automatisiert ausgeführt werden, sind spezifische Kenntnisse erforderlich, um die errechneten Risikowerte einordnen zu können, nächste Schritte abzuwägen sowie Entscheidungen zur Verwendung entsprechender Arzneimittel, Impfstoffe, bis hin zu Behandlungsmethoden oder (digitaler) Medizinprodukte ableiten zu können. Je angreifbarer die zur Analyse verwendeten Daten sind (eingeschränkte Validität aufgrund systemischer Verzerrungen und fehlender Prüfmöglichkeiten), desto schwieriger wird es, Entscheidungen aus den damit ermittelten Ergebnissen im Einzelfall abzuleiten. Die Tragweite derartiger gesundheitssystemischer Entscheidungen ist regelmäßig groß, wie die Fallbeispiele (Kasten 5.1) oder aktuell die Risikobewertung des Coronaimpfstoffs von AstraZeneca zeigen. Das lenkt den Blick noch einmal auf die Daten, die für Vigilanzuntersuchungen im nationalen Gesundheitssystem zugänglich sind. Kritiker/innen unterstellen den Diagnosedaten einen gewissen Abrechnungsbias und dem Verfahren eine begrenzte Prüfbarkeit (Kap. 4.4.1). Vor diesem Hintergrund ist eher erwarten, dass die retrospektive Analyse von Leistungsdaten die etablierten Maßnahmen zur Prüfung der Sicherheit und Verträglichkeit von Arzneimitteln als Add-on-Verfahren ergänzen können, ohne die etablierten Verfahren fundamental zu verändern. 5.6 Fazit Die informationelle Selbstbestimmung und die ärztliche Schweigepflicht werden im nationalen Gesundheitssystem für vielfältige öffentliche Aufgaben gesetzlich beschränkt. Infolgedessen erhalten unterschiedliche öffentliche Einrichtungen des nationalen Gesundheitssystems regelmäßig standardisierte Datensätze mit vielfältigen Bezügen und Informationen: zu Patient/innen und deren gesundheitlicher Situation, zu Ärzt/innen sowie medizinischen Einrichtungen und deren Behandlungsleistungen, zu Krankenkassen und deren Versichertenkollektiven sowie zu Zeit und Raum. Alle Personen und Einrichtungen sind über eindeutige Nummern dauerhaft identifizierbar. Technisch fungieren diese Nummern als Pseudonym und Identifikator, ermöglichen ggf. bei einzelnen datenempfangenden Institutionen zeitliche Bestandsdatenfortschreibungen und Verknüpfungen mit speziellen Registern. Diese maschinell gut verarbeitbaren Versorgungsdaten bilden in der Summe sowohl die gesundheitliche Situation von Versicherten als auch Behandlungs- und Abrechnungsprozesse von medizinischen Einrichtungen und Kostenträgern auf Einzelfallebene im Zeitverlauf vollständig ab. Auch wenn sie keine allzu hohe medizinische Detailgenauigkeit aufweisen, haben sie ein einzigartiges analytisches Potenzial: Versorgungsprozesse, Entwicklungen und gesundheitsbezogene Risiken können hochgranular überwacht sowie gesundheitsbezogene Prozesse verbessert werden. Versorgungsdaten sind personenbeziehbare Daten besonderer Kategorie, bei deren Verarbeitung besondere Schutzmaßnahmen eingehalten werden müssen, um abzusichern, das mit komplexen Analysen und Data-Mining Grundrechte betroffener Personen geschützt werden. Ein komplexes Regelwerk definiert für jede Institution der gesundheitssystemischen Selbstverwaltung › welche Datenbestände sie aufbauen darf, › welche Aufgaben sie damit analytisch realisieren soll und › welche Daten sie ggf. an wen zu welchem Zeitpunkt weiterleiten muss. Neben diesen gesetzlich definierten primären datenanalytischen Aufgaben (im öffentlichen Interesse) haben einzelne Einrichtungen zudem sekundäre Analysemöglichkeiten, in Bezug auf wissenschaftliche Forschung, Entwicklung und Fortschreibung bestimmter datenanalytischer Ansätze sowie für Planungsaufgaben, bei denen ein Kontrollgremium situativ Schutz- und Nutzungsinteressen abwägt. Für derartige Aktivitäten dürfen Einrichtungen spezielle datenanalytische Abteilungen einrichten oder spezielle Institutionen gründen oder Kooperationen vereinbaren. Auf Anfrage führen einige Institutionen Analysen für Dritte durch– teilweise unentgeltlich, teilweise gegen Gebühr, Apothekenrechenzentren dürfen anonymisierte Rezeptdaten sogar verwerten. Kassenärztliche Vereinigungen, Apothekenrechenzentren und große gesetzliche Krankenkassen haben eine besondere datenanalytische Position. Sie können große Datenbestände aufbauen, die spezifische Teilbereiche der medizinischen Versorgung zeitnah abbilden, und sie können diese Versorgungsdaten mit hoher Aktualität monopolisiert analysieren. Dritten werden Versorgungsdaten über die Forschungsdatenzentren des DIMDI/BfArM und der statistischen Ämter (teilweise) mit mehrjähriger Verzögerung zugänglich gemacht. Bisher war das Nutzungsinteresse insbesondere an den vom DIMDI/BfArM bereitgestellten Versorgungsdaten begrenzt. Ein Grund ist die geringe Aktualität der Daten, ein anderer die engen Grenzen der Nutzungsberechtigung. Ausschließlich Institutionen der gesundheitssystemischen Selbstverwaltung und der wissenschaftlichen Forschung sind antragsberechtigt. Einige von ihnen (z. B. Krankenkassen) können jedoch aktuellere Teildatenbestände unmittelbar nutzen und dafür teilweise mit akademischen Institutionen kooperieren. Zwar legitimieren die primären Aufgaben im öffentlichen Interesse die Beschränkungen sowohl der informationellen Selbstbestimmung als auch der ärztlichen Schweigepflicht. Das Fehlen jeglicher Widerspruchsmöglichkeiten für Betroffene in sekundäre Weiterverwendungen derartiger Daten besonderer Kategorie wird mitunter jedoch als paternalistische Fremdbestimmung kritisiert, zumal unterschiedliche Teilbestände in mehreren Etappen weitergeleitet und von unterschiedlichen Institutionen mit immer neuen Aufgaben und Weiterverwendungsmöglichkeiten verwendet werden können. Die generelle Einschätzung, dass betroffene Personen keine Kontrolle über Daten mit Bezügen zu ihrer Person haben, es den verketteten Datenweiterleitungen und Verarbeitungsmöglichkeiten unterschiedlicher Institutionen an Transparenz mangele und betroffene das Vorgehen kaum überblicken können, dürfte auch auf die datenverarbeitenden Prozesse des nationalen Gesundheitssystems zutreffen. Auch der Begriff der Datentransparenz wird im nationalen Gesundheitssystem eigenständig interpretiert. Eine öffentlich zugängliche Darstellung von Nutzungsabsichten, ggf. durchgeführter Data-Mining-Prozesse oder gewonnener Erkenntnisse wird bisher nicht damit assoziiert. Gesundheitssystemische Data-Mining-Prozesse starten in der Regel zunächst in kleinerem Rahmen als Forschungsprojekte oder als Machbarkeitsstudien, deren Ergebnisse anschließend fachlich diskutiert werden. Dabei wird regelmäßig deutlich, dass auch methodisch und analytisch geeignete Verfahren nur solche Strukturen und Informationen extrahieren können, die in den Analysedatensätze enthalten sind. Eine räumlich zu geringe Auflösung kann keine lokalen Spezifika aufzeigen, alte Analysedaten können keine Risiken neuer Arzneimittel oder Behandlungsmethoden zeitnah sichtbar machen. Die jeweiligen datenanalytischen Ansätze von Data-Mining- Prozessen und die resultierenden Ergebnisse werden in der Regel in Fachkreisen diskutiert, situativ abgewogen und bewertet. Danach können Verfahren ggf. verstetigt und Algorithmen z. B. in epidemiologische Informationsdienste oder in größere gesundheitssystemische Prozesse, wie das Fallpauschalensystem, integriert werden. Einen Produktstatus erreichen dieserart Algorithmen in der Regel nicht. 6 Gesamtfazit und Handlungsoptionen 6.1 Fazit Data-Mining ist ein unscharfer Begriff – ähnlich wie die Big oder Smart Data, maschinelles Lernen oder künstliche Intelligenz. Es zeigen sich hier erhebliche Schnittmengen, insbesondere wenn man die damit einhergehenden gesellschaftlichen Herausforderungen in den Blick nimmt. Denn alle Begriffe werden mit datenanalytischen Verfahren assoziiert, die aus großen (Trainings-)Datenbeständen Strukturen extrahieren, Regeln ableiten oder Modelle anpassen. Data-Mining wird tendenziell eher mit wissenschaftlichen Forschungsaktivitäten in Verbindung gebracht als die anderen Begriffe, weil Data-Mining mit dem Ziel assoziiert wird, Informationen oder Erkenntnisse zu Datenstrukturen zu gewinnen, diesbezügliches Wissen zu generieren bzw. zu erweitern. Mit diesen Begriffen verbundene Visionen beruhen oftmals auf der Grundannahme, dass immer mehr Daten auch komplexe reale Phänomene so umfangreich und genau abbilden, dass Regeln und Modelle weitgehende Allgemeingültigkeit erreichen und zur Klassifikation und Gruppierung neuer Sachverhalte oder zur Prognose von Entwicklungen eingesetzt werden können. Vielfältige Praxisbeispiele von genetischen Tests über die Streckenoptimierung von Navigationssystemen bis zu Klimamodellen stützen diese Annahme. Zugleich betonen Datenexpert/innen, dass zum einen auch große Datenmengen reale Sachverhalte in ihrer Vielschichtigkeit kaum vollumfänglich abbilden und Regeln und Modelle stets Vereinfachungen einer komplexeren Realität seien. Zum anderen weisen sie darauf hin, dass durch derartige datenbasierte Vorgehensweisen real existierende strukturelle Probleme, wie z. B. die Diskriminierung einzelner Personengruppen reproduziert werden könnten. Auch dafür gibt es Belege aus der Praxis, z. B. dass Algorithmen höhere Rückfallwahrscheinlichkeiten bei afroamerikanischen Straftäter/innen ermittelten oder Männer in Bewerbungssituationen als geeigneter einstuften. Folglich können die Resultate derartiger Prozesse in konkreten einzelnen Anwendungskontexten nützlich sein, aber auch Risiken allgemeiner oder auch ganz neuer Art mit sich bringen. Die Schaffung eines Mehrwerts unter Achtung der freiheitlichen Grundordnung ist folglich eine Frage der sinnvollen Ausgestaltung derartiger Prozesse. 6.2 Allgemeine Handlungsoptionen Zahlreiche Sachverständigenräte und Kommissionen auch des Deutschen Bundestages und der Bundesregierung haben sich in den letzten Jahren mit den Möglichkeiten und Herausforderungen der Digitalisierung im Allgemeinen sowie den wachsenden Datenbeständen, mit den Möglichkeiten und Grenzen deren Analyse und mit dem Umgang der Ergebnisse im Besonderen auseinandergesetzt sowie diesbezüglich Empfehlungen und Handlungsoptionen erarbeitet, zu denen wiederum zahlreiche Stakeholder Stellung genommen haben. Unisono wird empfohlen, Digitalisierungsaktivitäten zu forcieren, Infrastrukturen zur Weiterverwendung von Datenbeständen auf- und auszubauen, die Datennutzung stärker in den Blick zu nehmen, entsprechendes Know-how zu stärken, die Entwicklung datenanalytischer Anwendungen zu fördern, risikoreiche Anwendungen stärker zu regulieren sowie eine größere nationale oder europäische digitale Souveränität anzustreben, auch um hohe Schutzstandards und die Grundrechtesicherung zu gewährleisten. Diese Empfehlungen lassen sich auch aus den Ausführungen dieses Berichts und den dafür in Auftrag gegebenen Gutachten ableiten. 6.3 Handlungsoptionen, die sich aus dem Vergleich der Fallbeispiele ableiten lassen Bei einer vergleichenden Betrachtung unterschiedlicher datenanalytischer Anwendungsbereiche wird zudem deutlich, dass es bereichsspezifische Besonderheiten, Stärken und Schwerpunktsetzungen gibt, die sich teilweise zu ergänzen scheinen. Eine abschließende vergleichende Gesamtschau soll Handlungsoptionen für das Parlament fundieren. Standardisierung, Zugänglichkeit und Nutzbarkeit von Daten verbessern Interoperable Datenzugangsstrukturen sind notwendige Bedingungen für Data-Mining. Der Geodatenbereich mit seinen Gremien und langjährigen Aktivitäten zum Aufbau der nationalen Dateninfrastruktur gilt diesbezüglich als ein Vorreiter. Hier haben sich Normen und Standards bei der Datenerfassung, -speicherung und -analyse weitgehend durchgesetzt. Über die nationale Geodateninfrastruktur können standardisierte amtliche Referenzdatenbestände bereitgestellt werden. Die ursprüngliche Differenzierung der Datenbereitstellung für öffentliche Aufgaben, Forschungstätigkeiten und kommerzielle Weiterverwendungsabsichten wird zunehmend aufgegeben, Open-Data- Ansätze gewinnen an Bedeutung und vormalige Zugangshürden sinken. Das datenanalytische Potenzial dieser Geobasisdaten steigt, je mehr Fachdaten aus anderen Bereichen auf kommunaler, Landes- und Bundesebene georeferenziert und mit ihnen verknüpft werden. Dazu sind erhebliche Aktivitäten auch in anderen Fachbereichen nötig. Zwar werden öffentliche Einrichtungen zunehmend zur Bereitstellung ihrer georeferenzierten Daten verpflichtet, inwiefern diese aber für komplexe Datenanalysen tatsächlich genutzt werden, lässt sich bisher nur schwer abschätzen. Antrags- oder Nutzungsregister, die Weiterverwendungsabsichten, datennutzende Projekte oder die Entwicklung von spezifischen Informationsprodukten und -diensten skizzieren, gibt es bisher kaum. Die dem Deutschen Bundestag am Ende jeder Legislaturperiode vorzulegenden Geo-Fortschrittsberichte thematisierten bisher vor allem Aktivitäten zur Datenbereitstellung, die Nachfrageentwicklung und die Datenweiterverwendung hingegen weniger. Zukünftig sollten die Datennachfragen und Datenweiterverwendungen stärker in den Blick genommen werden, um die Potenziale der Datenangebote gezielter erfassen, bewerten und auszuschöpfen zu können. Der Deutsche Bundestag könnte diesbezügliche Untersuchungen in den regelmäßig vorzulegenden Fortschrittsberichten einfordern. Einrichtungen des Gesundheitssystems wird seit Jahren erheblicher Entwicklungsbedarf bezüglich der Digitalisierung unterschiedlicher datenverarbeitender Prozesse, der Entwicklung und Nutzung von Datenstandards und des Aufbaus interoperabler Datenzugangsstrukturen attestiert. Ärzt/innen sind zwar zur Erhebung medizinisch notwendiger Daten und zur Behandlungsdokumentation in arztgeführten Primärakten verpflichtet, bisher gibt es jedoch keine verbindlichen Vorgaben zur Verwendung einheitlicher Terminologien und interoperabler (Datei-)Formate. Um den zukünftigen Aufwand für die analysevorbereitenden Datenaufbereitungen zu senken, sollte die Entwicklung und Verwendung einheitlicher medizinischer Terminologien und interoperabler Formate bereits bei der primären Behandlungsdokumentation vorangetrieben und perspektivisch vorgeschrieben werden. Dabei gilt es den Arbeitsaufwand von behandelnden Ärzt/innen im Blick zu behalten und nach Lösungen zu suchen, die den Dokumentationsaufwand so gering wie möglich halten. Die Daten der arztgeführten Primärakten unterliegen der Schweigepflicht und höchsten Datenschutzvorgaben. Sie werden in spezifischen Informationssystemen einrichtungsintern gespeichert und archiviert. Diese Systeme sind nicht für medizinische Data-Mining-Aktivitäten konzipiert. Um Behandlungsdaten dafür weiterzuverwenden, müssen diese aufbereitet und in zumeist einrichtungsübergreifende sekundäre Register, Repositorien oder Datenzentren überführt werden. Dafür sind gesetzliche Regelungen (bei Aufgaben im öffentlichen Interesse) oder Einwilligungen erforderlich, die bisher schriftlich eingeholt werden. Beide Verfahrensformen werden seit langem genutzt, um diverse, spezifisch definierte Datensätze aus den Primärakten abzuleiten und an unterschiedliche medizinische Register oder Datenzentren zu übermitteln, die diese Daten für administrative und gesundheitssystemische Aufgaben, aber auch zu Forschungs- und Planungszwecken bereitstellen. Diese Register und Datenzentren fungieren als Datentreuhänder in vielfältigen Organisationsformen. Diese bereits etablierten Datentreuhandformen sollten bezüglich ihrer Praktikabilität geprüft, weiterentwickelt und harmonisiert werden. Sie könnten beispielgebend auch für andere Bereiche sein, in denen geschützte Daten nicht monopolisiert gehalten, sondern unter Einhaltung ethischer Standards weiterverwendet werden sollen (z. B. Mobilitätsdaten). Im Laufe der Zeit haben vielfältige spezialgesetzliche Regelungen zum Umgang mit gesundheitsbezogenen Daten in den unterschiedlichen Einrichtungen des Gesundheitssystems eine erhebliche Komplexität erreicht, die keinesfalls leicht zu erfassen ist, zu Unsicherheiten bezüglich der Möglichkeiten und Grenzen der Datenweiterverwendung führt und dadurch Datenanalysen erschwert. Auch gibt es weder einen genauen Überblick über die Vielfalt der Register und Datenzentren mit ihren jeweiligen Datenbeständen und Nutzungsmöglichkeiten noch eine übergeordnete Dateninfrastruktur, die diese Datenzentren und Register vernetzt und die Daten des nationalen Gesundheitswesens unter Einhaltung der bestehenden datenschutzrechtlichen und medizinethischen Normen zugänglich macht. Das 2021 verabschiedete Datennutzungsgesetz, das darauf abzielt, die Nutzungsmöglichkeiten der Daten des öffentlichen Sektors zu harmonisieren und zu befördern, gilt nicht für die Daten, die im nationalen Gesundheitssystem verarbeitet werden. Ein diesbezügliches Spezialgesetz, das die Vielfalt der gesundheitssystemischen datenbezogenen Regelungen harmonisiert und vereinfacht, erscheint daher dringend geboten. Mit der seit 2021 allen Versicherten anzubietenden elektronischen Patientenakte werden derzeit große Hoffnungen verbunden, vielfältige gesundheitsbezogene Daten vor allem aus Behandlungskontexten in der Verantwortung einzelner Patient/innen zusammenzuführen und perspektivisch auch das Einwilligungsmanagement für die Datenweitergabe bis hin zu Datenspenden zu Forschungszwecken damit zu organisieren. Dieses Einwilligungsmanagement ist von zentraler Bedeutung für Datenweiterverwendungen einschließlich Data-Mining. Bisher werden Einwilligungen schriftlich eingeholt. Mit der elektronischen Patientenakte könnten Versicherte ihre Einwilligungen perspektivisch digital organisieren. Wie viele Versicherte dieses Angebot zur Datenselbstverwaltung annehmen und in die Datenweiterverwendung zu Forschungszwecken einwilligen werden, ist derzeit noch unklar. Eine Begleitforschung zur Entwicklung zur Akzeptanz dieser Akten und der Nutzung unterschiedlicher Funktionalitäten und Services scheint dringend geboten. Das Parlament könnte sich berichten lassen. Konkretion der privilegierten Datenverwendung zu Forschungszwecken Datenweiterverwendungen zu wissenschaftlichen Forschungszwecken einschließlich Data-Mining werden zum einen datenschutzrechtlich privilegiert, zum anderen begrenzen sie Urheber- bzw. Leistungsschutzrechte. Etliche Formulierungen zum Forschungsprivileg sind jedoch auslegungswürdig. Die europäische Datenschutz- Grundverordnung empfiehlt lediglich, den wissenschaftlichen Forschungsbegriff mit der Einhaltung anerkannter ethischer Forschungsstandards zu verknüpfen, ein entsprechendes Einwilligungsmanagement vorzusehen, Forschungsabsichten im Einzelfall zu prüfen und sowohl öffentliche als auch privatwirtschaftlich finanzierte Forschung bis hin zu technologischen Entwicklungen und Anwendungsdemonstrationen zuzulassen. Über Öffnungsklauseln lässt sie jedoch nationale Spezifikationen zu. Ethische (Forschungs-)Standards und die Prüfung von Datennutzungsanträgen sind in der Medizin und im Gesundheitssystem seit langem in besonderem Maße verankert. Die Auseinandersetzung mit (medizin-)ethischen Prinzipien von der Schadensvermeidung über die Einhaltung wissenschaftlicher Gütekriterien bis zur Achtung der informierten Selbstbestimmung und der Einhaltung hoher Datenschutzanforderungen beginnt bereits in der medizinischen Ausbildung. Diese Prinzipien sind zudem im Berufsrecht verankert und sie bilden den normativen Rahmen für die Prüfung von Forschungsanträgen einschließlich sekundärer Datenverwendungen und Data- Mining. Handlungsbedarf gibt es derzeit vor allem bezüglich der Vereinheitlichung, Beschleunigung und Straffung der Antragsprüfungen. Bezüglich der ethischen Standards und der Prüfung von Datennutzungsanträgen ist das Gesundheitssystem ein Vorreiter, von dem andere Bereiche lernen könnten. Das Einwilligungsmanagement in Datenweiterverwendungen ist derzeit bei medizinischen und gesundheitssystemischen Einrichtungen jedoch eine gewisse Schwachstelle. Bisher können Einwilligungen und Widerrufe nur schriftlich erteilt werden, was vor allem bei umfangreichen Datenweiterverwendungen rückwirkend kaum machbar ist. Auch aus diesem Grund wird der Forschungsbegriff abweichend von der Datenschutz-Grundverordnung im deutschen Gesundheitssystem eng ausgelegt. Für die in unterschiedlichen Registern und Datenzentren gespeicherten personenbezogenen Gesundheitsdaten sind in der Regel nur bestimmte öffentliche (Forschungs-)Einrichtungen nutzungsberechtigt, Forschungsabsichten müssen im öffentlichen Interesse liegen. Dadurch können u. a. Medizinproduktehersteller nur in Kooperation mit öffentlichen Forschungseinrichtungen entsprechende Daten nutzen, um z. B. algorithmische Assistenzsysteme zu trainieren. Parallel dazu sind Unternehmen, die klinische Studien finanzieren, mit denen die Sicherheit und Wirksamkeit bzw. Leistungsfähigkeit von diagnostischen oder therapeutischen Verfahren geprüft werden, nicht dazu verpflichtet, ihre Studiendaten Dritten zugänglich zu machen. Vertreter/innen der freien Wirtschaft, der (medizinischen) Forschung sowie öffentlicher Einrichtungen kritisieren seit Jahren die derzeitigen Verfahren sowie die damit einhergehenden Ungleichbehandlungen und betonen im medizinischen Kontext die gesundheitsbezogenen Risiken durch die Nichtnutzung von Daten, wenn beispielsweise Erkrankungsrisiken, Infektionsherde oder unerwünschte Nebenwirkungen von Behandlungsverfahren nicht erkannt werden. Die Etablierung offenerer Datennutzungskonzepte sollte daher diskutiert bzw. geprüft werden. Dazu könnten die Reichweite des Forschungsbegriffs und bestehende Datenverarbeitungsprivilegien diskutiert und gesetzlich klargestellt werden. Qualitätsmanagementsysteme bei Medizinprodukten – Vorbild für den Umgang mit Data- Mining-Ergebnissen in anderen Bereichen? Inwiefern Data-Mining-Prozesse das Gemeinwohl steigern, dabei die Grundrechte Einzelner schützen oder gefährden, transparent gestaltet sind oder aber mit menschlichen Kontrollverlusten in Entscheidungsprozessen einhergehen und welche Folgen daraus erwachsen, kann nur situativ abgewogen und bewertet werden. Die im medizinischen Kontext über Jahrzehnte entstandenen Verfahren zur Qualitätssicherung medizinischer Produkte mit ihren risikoajustierten abgestuften Zertifizierungsverfahren in Kombination mit kontinuierlichen produktbezogenen Sicherheitsprüfungen und Risikoüberwachungen während der Anwendung könnten beispielgebend für andere risikoreiche Anwendungsbereiche sein, in denen datenanalytische Verfahren und algorithmenbasierte Systeme zunehmend eingesetzt werden (z. B. innere oder äußere Sicherheits-, Fin- oder Legal-Tech-Bereiche). Die Forderungen nach risikoadaptierten Regulierungen und Algorithmen-TÜVs oder der derzeit auf europäischer Ebene verhandelte Digital Service Act greifen unterschiedliche qualitätssichernde Maßnahmen des Medizinprodukterechts bereits auf. Mit diesbezüglichen Vorgehensweisen, deren Konkretisierung und Harmonisierung vor allem in risikoreichen Anwendungskontexten sollten Stakeholder sich intensiver befassen. Dadurch könnten Analyst/ innen und Prüfinstanzen wichtige Informationen zur Sicherheits- und Leistungsbewertung erhalten sowie Prüf- und Monitoringverfahren etabliert werden, mit denen Risiken während der Anwendung algorithmischer Systeme überwacht und ggf. reduziert werden könnten. Die unterschiedlichen Elemente der im medizinischen Bereich etablierten Qualitätsmanagementsysteme zielen primär auf eine hohe Produktsicherheit und die Generierung eines gesundheitsbezogenen Nutzens durch die Produktanwendung ab. Jedoch lassen sich auch mit höchst umfangreichen Qualitätsmanagementsystemen beim Einsatz datentrainierter algorithmischer Systeme im Rahmen der Behandlung nie alle Risiken für Betroffene vollständig ausschließen, denn auch große Datenbestände und komplexe mathematisch-statistische Modelle bilden die Realität vereinfacht ab, kommen bei höchst seltenen Situationen an ihre Grenzen, können real existierende Diskriminierungen reproduzieren und liefern Ergebnisse, die mitunter selbst für Expert/innen im Detail nur schwer nachzuvollziehen sind. Deshalb sind die Klärung von dauerhaften Produktverantwortlichkeiten und von Haftungsfragen relevante Aspekte für die Akzeptanz und den Einsatz algorithmischer Assistenzsysteme. Forschungseinrichtungen, die Daten privilegiert nutzen dürfen, um Modelle zu trainieren und Assistenzsysteme zu entwickeln, kommen regelmäßig bereits bei der Produktzertifizierung an ihre Grenzen. Die kontinuierliche Gewährleistung einer hohen Produktsicherheit und Haftung im Schadenfall gehört nicht mehr in das Tätigkeitsspektrum von Forschungseinrichtungen. Spätestens dafür sind wirtschaftlich agierende Unternehmen erforderlich. Bereits bei klassischen Softwareprodukten wird die Eignung des derzeitigen Haftungsrechts in medizinischen, aber auch in anderen Einsatzbereichen kontrovers diskutiert. Besondere haftungsrechtliche Herausforderungen ergeben sich durch kontinuierlich lernende, medizinische Assistenzsysteme. Verantwortlichkeiten und Haftungsfragen bis hin zu Härtefallfonds zum Schadensausgleich sollten daher systematisch und spezifisch durchdacht, abgewogen und rechtlich geklärt werden. 7 Literatur 7.1 In Auftrag gegebene Gutachten Bernsdorf, B.; Bierbrauer, H.; Büscher, O.; Müterthies, A.; Pakzad, K.; Wenzel, T.; Woditsch, S. (2015): Data-Mining: Gesellschaftspolitische und rechtliche Herausforderungen. Data-Mining mit Geodaten (Fallstudie 2). Gutachten für den Deutschen Bundestag. Münster Schepers, J.; Schlünder, I.; Drepper, J.; Semler, S.; Rüping, S.; Quix, C.; Stroetmann, K.; Rennoch, J. (2015): Data-Mining in der Medizin und im Gesundheitssystem − gesellschaftspolitische und rechtliche Herausforderungen −. Gutachten für den Deutschen Bundestag, vorgelegt dem Büro für Technikfolgen-Abschätzung beim Deutschen Bundestag (TAB). Berlin 7.2 Weitere Literatur Ada (2018): Ada startet Global Health Initiative. Presseerklärung, https://assets.ctfassets.net/jsvgavb9trbp/3JIa17qCuA0wUgsuIwqYKc/f3fe8b286c27c0e4702735c8d01aed7 9/181009_Pressrelease-GHI_DE.pdf (13.12.2021) AG NGIS (Arbeitsgruppe NGIS des Lenkungsgremium GDI-DE) (2015): Nationale Geoinformations-Strategie. www.gdi-de.org/sites/default/files/2020-07/NGIS_Startegie_V1.pdf (13.12.2021) Akademien der Wissenschaften Schweiz (2015): Big Data im Gesundheitswesen. White Paper. www.samw.ch/dam/jcr:93263052-6f12-4ab8-bcfa- 821b640fe225/white_paper_samw_big_data_gesundheitswesen.pdf (13.12.2021) Angerer, C. (2018): Neuronale Netze. Revolution für die Wissenschaft? In: Spektrum der Wissenschaft (1), S. 12–19 Antes, G.; Bertram, I. (2019): Big Data, big Errors. In: Gen-ethischer Informations-dienst (248), S. 10–11 ARGE IK (Arbeitsgemeinschaft Institutionskennzeichen) (2015): Gemeinsames Rundschreiben Institutionskennzeichen (IK). www.gkv- datenaustausch.de/media/dokumente/leistungserbringer_1/Gemeinsames_Rundschreiben_IK_2015-03.pdf (13.12.2021) Baas, J.; Möws, V. (2017): »Jede Ergänzung des RSA (sollte) sicher vor Manipulationen sein«: Zum Kodierwettbewerb der Krankenkassen. In: RPG 23(1), S. 3–9 Baas, J.; Scherff, D. (2016): »Wir Krankenkassen schummeln ständig«. F.A.S. exklusiv. In: Frankfurter Allgemeine Sonntagszeitung, 9.10.2016, www.faz.net/aktuell/finanzen/meine-finanzen/versichern- undschuetzen/interview-mit-jens-baas-chef-der-techniker-krankenkasse-14472241.html (13.12.2021) BAG Selbsthilfe (2020): Stellungnahme. Referentenentwurf. Referentenentwurf einer Verordnung zur Neufassung der Datentransparenzverordnung und zur Änderung der Datentransparenz- Gebührenverordnung. www.bag- selbsthilfe.de/fileadmin/user_upload/News/2020/Stellungnahme_zum_Referentenentwurf_einer_Veror dnung_zur_Neufassung_der_Datentransparenzverordnung_und_zur_AEnderung_der_Datentransparenz- Gebuehrenverordnung.docx (13.12.2021) Balling, S. (2018): Medizin nach dem Gusto der Kassen? In: f&w (10), S. 876-870 Balzter, S. (2018): Supercomputer Watson. Im Krankenhaus fällt die Wunderwaffe durch. In: faz.net, 3.6.2018, www.faz.net/aktuell/wirtschaft/kuenstliche-intelligenz/computer-watson-scheitert-zu-oft-bei-datenanalyse- 15619989/das-computersystem-watson-soll-15620798.html (13.12.2021) Bayrische Landesapothekerkammer (2017): Berufsordnung für Apothekerinnen und Apotheker. www.blak.de/berufsordnung (13.12.2021) Beauchamp, T.; Childress, J. F. (2008): Principles of Biomedical Ethics. Oxford Becker, A.; Marcon, M.; Ghafoor, S.; Wurnig, M.; Frauenfelder, T.; Boss, A. (2017): Deep learning in mammography: Diagnostic accuracy of a multipurpose image analysis software in the detection of breast cancer. In: Investigative Radiology 52(7), S. 434–440 Beerheide, R. (2019): Genexpressionstest: Debatte um Datenauswertung. In: Deutsches Ärzteblatt (116), S. 29–30 Behrends, S. (2018): Mustergültige Diagnosen – Wie KI die Medizin verändert. Interview mit Forsting, M. In: Chefsache Patientenversorgung (1), S. 16–19 Beivers, A.; Emde, A. (2020): DRG-Einführung in Deutschland: Anspruch, Wirklichkeit und Anpassungsbedarf aus gesundheitsökonomischer Sicht. In: Klauber, J.; Geraedts, M.; Friedrich, J.; Wasem, J.; Beivers, A. (Hg.): Krankenhaus-Report 2020. Finanzierung und Vergütung am Scheideweg, S. 5–24 Bernsdorf, B.; Bierbrauer, H.; Büscher, O.; Müterthies, A.; Pakzad, K.; Wenzel, T.; Woditsch, S. (2015): Data- Mining: Gesellschaftspolitische und rechtliche Herausforderungen. Data-Mining mit Geodaten (Fallstudie 2). Gutachten für den Deutschen Bundestag. Münster BfArM (Bundesinstitut für Arzneimittel und Medizinprodukte) (2016): Neben-wirkungen von Arzneimitteln melden: Europaweite Kampagne soll Patientinnen und Patienten sensibilisieren. Pressemitteilung Nr. 11/16, www.bfarm.de/SharedDocs/Pressemitteilungen/DE/2016/pm11-2016.html (17.12.2021) BfDI (Bundesbeauftragter für den Datenschutz und die Informationsfreiheit) (2020): Tätigkeitsbericht für die Jahre 2018 und 2019 zur Informationsfreiheit. Deutscher Bundestag, Drucksache 19/19910, Berlin BfR (Bundesinstitut für Risikobewertung) (2014): Fragen und Antworten zu Methicillin-resistenten Staphylococcus aureus (MRSA) – Aktualisierte FAQ vom 18.11.2014. Berlin, www.bfr.bund.de/cm/343/fragen-und-antworten-zu-methicillin-resistenten-staphylococcus-aureus- mrsa.pdf (13.12.2021) Bill, R.; Fritsch, D. (1991): Grundlagen der Geo-Informationssysteme. Band 1: Hardware, Software und Daten. Karlsruhe BIPS (Leibniz-Institut für Präventionsforschung und Epidemiologie) (2017): Ger-man Pharmacoepidemiological Research Database. www.bips- institut.de/fileadmin/bips/images/gepard/GePaRD_description_V1.9.pdf (13.12.2021) Bishop, C. M. (2006): Pattern Recognition and Machine Learning. New York Bitkom (2015): Kognitive Maschinen – Meilenstein in der Wissensarbeit. www.bitkom.org/sites/default/files/file/import/150213-Kognitive-Maschinen-11Febr2015.pdf (13.12.2021) Bitkom (2019): Blick in die Blackbox. Nachvollziehbarkeit von KI-Algorithmen in der Praxis. www.bitkom.org/sites/default/files/2019-10/20191016_blick-in-die-blackbox.pdf (13.12.2021) BMBF (Bundesministerium für Bildung und Forschung) (2020): BMBF-Aktionsplan Forschungsdaten. www.bmbf.de/files/163_20_Faktenblatt_Aktionsplan_4.pdf (13.12.2021) BMWi (Bundesministerium für Wirtschaft und Energie) (2018): Monitoring-Report. Wirtschaft digital 2018. www.bmwi.de/Redaktion/DE/Publikationen/Digitale-Welt/monitoring-report-wirtschaft-digital-2018- kurzfassung.pdf?__blob=publicationFile&v=24 (13.12.2021) BMWi (Bundesministerium für Wirtschaft und Energie) (2019): Das Projekt GAIA-X. Eine vernetzte Dateninfrastruktur als Wiege eines vitalen, europäischen Ökosystems. www.bmwi.de/Redaktion/DE/Publikationen/Digitale-Welt/das-projekt- gaiax.pdf?__blob=publicationFile&v=24 (13.12.2021) Bodammer, L.; Scholz, A.; Engelbrecht, S. Kandler, A. (2014): Keine Nutzung von Patientendaten durch Marktforschungsunternehmen ohne persönliches Einverständnis. Entschließungsantrag. www.aerzteblatt.de/download/files/2014/05/down87180219.pdf (13.12.2021) Bond, W.; Schwartz, L.; Weaver, K.; Levick, D.; Giuliano, M.; Graber, M. (2012): Differential diagnosis generators: an evaluation of currently available computer programs. In: Journal of general internal medicine 27(2), S. 213–219 Borchardt, F. (2012): Krankenhaus-Rechnungsprüfungen. Spannungsfeld zwischen Konflikt und Kooperation. vdek (Verband der Ersatzkassen), 31.7.2012, www.vdek.com/magazin/ausgaben/2012-0708/titel- krankenhaus-rechnungspruefungen.html (13.12.2021) Brinkman, A.; Nik-Zainal, N.; Simmer, F.; Rodríguez-González, F.; Smid, M.; Alexandrov, L.; Butler, A.; Martin, S.; Davies, H.; Glodzik, D.; Zou, X.; Ramakrishna, M. et al. (2019): Partially methylated domains are hypervariable in breast cancer and fuel widespread CpG island hypermethylation. In: nature communications 10(1749[2019]) Brown, J.; Lane, K.; Moore, K.; Platt, R. (2009): Defining and Evaluating Possible Database Models to Implement the FDA Sentinel Initiative. Final Report. www.brookings.edu/ wpcontent/uploads/2012/04/03_Brown.pdf (13.12.2021) BSI (Bundesamt für Sicherheit in der Informationstechnik) (2017): Schutz Kritischer Infrastrukturen durch IT-Sicherheitsgesetz und UP Kritis. www.bsi.bund.de/SharedDocs/Downloads/DE/BSI/Publikationen/Broschueren/Schutz-Kritischer- Infrastrukturen-ITSig-u-UP-KRI- TIS.pdf;jsessionid=BDD80015069CF8DE62A413465ABDD1AA.internet471?__blob=publicationFile&v= 1 (13.12.2021) Bundesrechnungshof (2019): Bericht an den Rechnungsprüfungsausschuss des Haushaltsausschusses des Deutschen Bundestages nach § 88 Abs. 2 BHO. über die Prüfung der Krankenhausabrechnungen durch die Krankenkassen der gesetzlichen Krankenversicherung. www.bundesrechnungshof.de/de/veroeffentlichungen/produkte/beratungsberichte/langfassungen/langfas sungen-2019/2019-bericht-krankenhausabrechnungen-durch-die-krankenkassen-der- gesetzlichenkrankenversicherung-pdf/@@download/file (13.12.2021) Bundesregierung (2003): Geoinformationspolitik in Deutschland. Antwort der Bundesregierung auf die Kleine Anfrage der Abgeordneten Ernst Burgbacher, Daniel Bahr (Münster), Rainer Brüderle, weiterer Abgeordneter und der Fraktion der FDP – Drucksache 15/1157 –. Deutscher Bundestag, Drucksache 15/1209, Berlin Bundesregierung (2005): Bericht der Bundesregierung über die Fortschritte zur Entwicklung der verschiedenen Felder des Geoinformationswesens im nationalen, europäischen unter internationalen Kontext. Unterrichtung durch die Bundesregierung. Deutscher Bundestag, Drucksache 15/5834, Berlin Bundesregierung (2008): Zweiter Bericht der Bundesregierung über die Fortschritte zur Entwicklung der verschiedenen Felder des Geoinformationswesens im nationalen, europäischen und internationalen Kontext. Unterrichtung durch die Bundesregierung. Deutscher Bundestag, Drucksache 16/10080, Berlin Bundesregierung (2012a): Dritter Bericht der Bundesregierung über die Fortschritte zur Entwicklung der verschiedenen Felder des Geoinformationswesens im nationalen, europäischen und internationalen Kontext. Deutscher Bundestag, Drucksache 17/11449, Berlin Bundesregierung (2012b): Entwurf eines Gesetzes zur Verbesserung der Rechte von Patientinnen und Patienten. Deutscher Bundestag, Drucksache 17/10488, Berlin Bundesregierung (2016a): Chancen der Nutzung von Open Data. Antwort auf die kleine Anfrage der Fraktion BÜNDNIS 90/DIE GRÜNEN. Deutscher Bundestag, Drucksache 18/7485, Berlin Bundesregierung (2016b): Entwurf eines Gesetzes zur Änderung des Bundesstatistikgesetzes und anderer Statistikgesetze. Deutscher Bundestag, Drucksache 18/7561, Berlin Bundesregierung (2016c): Stand der Weiterentwicklung des pauschalierenden Entgeltsystems Psychiatrie und Psychosomatik. Deutscher Bundestag, Deutscher Bundestag, Drucksache 18/7281, Berlin Bundesregierung (2017): Vierter Bericht der Bundesregierung über die Fortschritte zur Entwicklung der verschiedenen Felder des Geoinformationswesens im nationalen, europäischen und internationalen Kontext (4. Geo-Fortschrittsbericht der Bundesregierung). Unterrichtung durch die Bundesregierung. Deutscher Bundestag, Drucksache 18/12872, Berlin Bundesregierung (2018a): Big Data, Scoring und Datenhandel von Parteiaffinitäten der Bundesbürger durch die Deutsche Post Direkt GmbH. Antwort auf die Klei-ne Anfrage der Fraktion BÜNDNIS 90/DIE GRÜNEN. Deutscher Bundestag, Drucksache 19/2150, Berlin Bundesregierung (2018b): Stand der Einführung des elektronischen Gesundheitsberuferegisters. Antwort auf die Kleine Anfrage der Fraktion BÜNDNIS 90/DIE GRÜNEN. Deutscher Bundestag, Drucksache 19/4185, Berlin Bundesregierung (2018c): Strategie Künstliche Intelligenz der Bundesregierung. www.bmwi.de/Redaktion/DE/Publikationen/Technologie/strategie-kuenstliche-intelligenz-der- bundesregierung.pdf?__blob=publicationFile&v=10 (13.12.2021) Bundesregierung (2018d): Zukunft der elektronischen Gesundheitskarte. Antwort auf die Kleine Anfrage der Fraktion der FDP. Deutscher Bundestag, Drucksache 19/2358, Berlin Bundesregierung (2019a): Bericht der Bundesregierung zur Evaluierung des Gesetzes zur Förderung der elektronischen Verwaltung sowie zur Änderung weiterer Vorschriften. Deutscher Bundestag, Drucksache 19/10310, Berlin Bundesregierung (2019b): Datenschutz und Beratung im Arzneimittelversandhandel. Antwort auf die Kleine Anfrage der Fraktion DIE LINKE. Deutscher Bundestag, Drucksache 19/7831, Berlin Bundesregierung (2019c): Eckpunkte einer Datenstrategie der Bundesregierung. Deutscher Bundestag, Drucksache 19/16075, Berlin Bundesregierung (2019d): Erster Bericht der Bundesregierung über die Fortschritte bei der Bereitstellung von Daten (1. Open-Data-Fortschrittsbericht). Deutscher Bundestag, Drucksache 19/14140, Berlin Bundesregierung (2020a): Daten helfen heilen. Innovationsinitiative »Daten für Ge-sundheit«: Roadmap für eine bessere Patientenversorgung durch Gesundheitsforschung und Digitalisierung. www.bundesgesundheitsministerium.de/fileadmin/Dateien/5_Publikationen/Gesundheit/Berichte/Roadmap_I nnovationsinitiative_Daten_fuer_Gesundheit_barrierefrei.pdf (13.12.2021) Bundesregierung (2020b): Schaffung eines europäischen Cloud- und Datennetzwerkes. Antwort auf die Kleine Anfrage der Fraktion der FDP. Deutscher Bundestag, Drucksache 19/16816, Berlin Bundesregierung (2021a): Datenstrategie der Bundesregierung. Unterrichtung durch die Bundesregierung. Deutscher Bundestag, Drucksache 19/26450, Berlin Bundesregierung (2021b): Fünfter Bericht der Bundesregierung über die Fortschritte zur Entwicklung der verschiedenen Felder des Geoinformationswesens im nationalen, europäischen und internationalen Kontext (5. Geo-Fortschrittsbericht). Unterrichtung durch die Bundesregierung. Deutscher Bundestag, Drucksache 19/30737, Berlin Bundesregierung (2021c): Zukunft des deutschen Traumaregisters. Antwort der Bundesregierung auf die Kleine Anfrage der Abgeordneten der Fraktion BÜNDNIS 90/DIE GRÜNEN. Deutscher Bundestag, Drucksache 19/30638, Berlin Bundesregierung (2022): Evaluierungsbericht der Bundesregierung gemäß § 142 des Urheberrechtsgesetzes zu den durch das Urheberrechts-Wissensgesellschafts-Gesetz reformierten Vorschriften der §§ 60a bis 60h des Urheberrechtsgesetzes. www.bmj.de/SharedDocs/Gesetzgebungsverfahren/Dokumente/Evaluierungsbericht_Urheberrechts- Wissensgesellschafts-Gesetz.pdf?__blob=publicationFile&v=2 (19.05.2022) Castelvecchi, D. (2016): Can we open the black box of AI? In: Nature (538), S. 20–23 Cetl, V.; Nunes de Lima, V.; Tomas, R.; Lutz, M.; D'Eugenio, J.; Nagy, A.; Robbrecht, J. (2017): Summary Report on Status of implementation of the INSPIRE Directive in EU. Publications Office of the European Union, EUR Nr. 28930 EN, Luxembourg, https://publications.jrc.ec.europa.eu/repository/bitstream/JRC109035/jrc109035_jrc109035_jrc_inspire_e u_summaryreport_online.pdf (13.12.2021) Cheng, J.-Z.; Ni, D.; Chou, Y.-H.; Qin, J.; Tiu, C.-M.; Chang, Y.-C.; Huang, C.-S.; Shen, D.; Chen, C.-M. (2016): Computer-Aided Diagnosis with Deep Learning Architecture: Applications to Breast Lesions in US Images and Pulmonary Nodules in CT Scans. In: Nature Scientific reports 6, S. 244–254 Ching, T.; Himmelstein, D.; Beaulieu-Jones, B.; Kalinin, A.; Do; B.; Way; G.; Ferrero, E.; Agapow, P.-M.; Zietz, M. et al. (2018): Opportunities and obstacles for deeplearning in biology and medicine. In: Journal of Royal Society Interface 15 DEK (Datenethikkommission) (2019): Gutachten der Datenethikkommission der Bundesregierung. Berlin, www.bmi.bund.de/SharedDocs/downloads/DE/publikationen/themen/it-digitalpolitik/gutachten- datenethikkommission.pdf?__blob=publicationFile&v=6 (13.12.2021) Deutscher Ethikrat (2017): Big Data und Gesundheit – Datensouveränität als informationelle Freiheitsgestaltung. Berlin, www.ethikrat.org/fileadmin/Publikationen/Stellungnahmen/deutsch/stellungnahme-big-data-und- gesundheit.pdf (13.12.2021) DFG (Deutsche Forschungsgemeinschaft) (2013): Sicherung guter wissenschaftlicher Praxis. Denkschrift. www.dfg.de/download/pdf/dfg_im_profil/reden_stellungnahmen/download/empfehlung_wiss_praxis_1310 .pdf (13.12.2021) DFG (Deutsche Forschungsgemeinschaft) (2019): Leitlinien zur Sicherung guter wissenschaftlicher Praxis. www.dfg.de/download/pdf/foerderung/rechtliche_rahmenbedingungen/gute_wissenschaftliche_praxis/kode x_gwp.pdf (13.12.2021) DGU (Deutsche Gesellschaft für Unfallchirurgie e. V.) (2012): Weißbuch Schwerverletztenversorgung. www.dgu-online.de/fileadmin/ dguonline/Dokumente/6._Versorgung_und_Wissenschaft/Qualit%C3%A4t_und_Sicherheit/20_07_2012_Kurz fassung_Weissbuch_DGU_Auflage2.pdf (13.12.2021) Dhungel, N.; Carneiro, G.; Bradley, A. (2017): Fully automated classification of mammograms using deep residual neural networks. In: Biomedical Imaging, S. 310–314 Dieterich, A.; Braun, B.; Gerlinger, T.; Simon, M. (Hg.) (2019): Geld im Krankenhaus. Eine kritische Bestandsaufnahme des DRG-Systems. Wiesbaden Dietrich, D. (2011): Was sind offene Daten? In: Dossier Open Data Dietzel, J.; Neumann, K.; Glaeske, G.; Greiner, W. (2015): Begleitforschung zum Morbi-RSA (Teil 1). Kriterien, Wirkungen und Alternativen. IGES Institut GmbH, Berlin, www.iges.com/e6/e1621/e10211/e13470/e13612/e13614/e13616/attr_objs13620/IGES_RSA- Begleitforschung_Teil_1_WEB_ger.pdf (13.12.2021) DIMDI (Deutsches Institut für Medizinische Dokumentation und Information) (2016): Informationssystem Versorgungsdaten (Datentransparenz). Evaluationsbericht 07/2013–02/2016 Teil 1 Dirschedl, P. (2012): G-DRG: Ein lernendes System? MDK Kongress 2012 Dkfz (Deutsches Krebsforschungszentrum) (2020): Personalisierte Krebstherapie, Präzisionsonkologie, Tumor- Genomsequenzierung. www.krebsinformationsdienst.de/service/iblatt/iblatt-tumor- genomsequenzierung.pdf (13.12.2021) DKG (Deutsche Krankenhausgesellschaft) (2017): Krankenhäuser als kritische Infrastrukturen – Umsetzungshinweise der Deutschen Krankenhausgesellschaft. www.dkgev.de/fileadmin/default/Mediapool/2_Themen/2.1_Digitalisierung_Daten/2.1.4._IT- Sicherheit_und_technischer_Datenschutz/2.1.4.1._IT- Sicherheit_im_Krankenhaus/2017_12_19_483_ITSiG_Kritis_Umsetzungshinweise_BSIG_v0.9.pdf (13.12.2021) DKG (2016): Checkliste zur Erfassung einer familiären Belastung für Brust- und Eierstockkrebs. www.medizin.uni- tuebingen.de/files/view/jReYQ7gOpJW7BgJndB2Droaq/Checkliste%20fam%20Krebserkrankungen.pdf (13.12.2021) DKG; Deutsche Krebshilfe; AWMF (Arbeitsgemeinschaft der Wissenschaftlichen Medizinischen Fachgesellschaften) (2012): Interdisziplinäre S3-Leitlinie für die Diagnostik, Therapie und Nachsorge des Mammakarzinoms. Version 3.0 Langversion. AWMF-Register Nr. 032 – 0450L, www.leitlinienprogramm-onkologie.de/leitlinien/mammakarzinom/ (13.12.2021) DKG; Deutsche Krebshilfe; AWMF (2021): Interdisziplinäre S3-Leitlinie für die Früherkennung, Diagnostik, Therapie und Nachsorge des Mammakarzinoms. Langversion 4.4. AWMF-Register Nr. 032 – 0450L, www.leitlinienprogramm-onkologie.de/leitlinien/mammakarzinom/ (13.12.2021) Döbler, K.; Follert, P. (2021): Stand und Perspektiven der sektorenübergreifen-den Qualitätssicherung. In: Klauber, J.; Wasem, J.; Beivers, A.; Mostert, C. (Hg.): Krankenhausreport 2021. Versorgungsketten – Der Patient im Mittelpunkt, S. 223–244 Drechsler, J.; Jentzsch, N. (2018): Synthetische Daten. Innovationspotenziale und gesellschaftliche Herausforderungen. Stiftung Neue Verantwortung, www.stiftung- nv.de/sites/default/files/synthetische_daten.pdf (13.13.2021) Drepper, D. (2014): Tödliche Keime. https://correctiv.org/recherchen/keime/artikel/2014/11/20/toedliche- keime/ (13.12.2021) Drösler, S.; Garbe, E.; Hasford, J.; Schubert, I.; Ulrich, V.; van de Ven, W.; Wambach, A.; Wasem, J.; Wille, E. (2017): Sondergutachten zu den Wirkungen des morbiditätsorientierten Risikostrukturausgleich. Bonn, www.bundesamtsozialesicherung.de/fileadmin/redaktion/Risikostrukturausgleich/20180125Sonderguta chten_Wirkung_RSA_2017_korr.pdf (13.12.2021) EFI (Expertenkommission Forschung und Innovation) (2020): Gutachten zu Forschung, Innovation und technologischer Leistungsfähigkeit Deutschlands 2020. Berlin, www.e- fi.de/fileadmin/Assets/Gutachten/EFI_Gutachten_2020.pdf (13.12.2021) EK (Europäische Kommission) (2013): Einführung in das Metadatenmanagement. www.europeandataportal.eu/sites/default/files/d2.1.2_training_module_1.4_introduction_to_metadata_ management_de_edp.pdf (13.12.2021) EK (2020): Weissbuch. Zur Künstlichen Intelligenz – ein europäisches Konzept für Exzellenz und Vertrauen. COM Nr. (2020) 65 final, https://ec.europa.eu/info/sites/info/files/commission-white-paper-artificial- intelligence-feb2020_de.pdf (13.12.2021) Eklund, A.; Nichols, T.; Knutsson, H. (2016): Cluster failure: Why fMRI inferences for spatial extent have inflated false-positive rates. In: PNAS 113(28) Ernst, S. (2010): Google StreetView: Urheber- und persönlichkeitsrechtliche Fragen zum Straßenpanorama. In: Computer und Recht (3), S. 178–184 Ertel, W. (2012): Angewandte Kryptographie. München Fayyad, U.; Piatetsky-Shapiro, G.; Smyth, P. (1996): From data mining to knowledge discovery in databases. In: AI magazine 17(3), S. 37 FDA (Food and Drug Administration) (2012): Computer-Assisted Detection Devices Applied to Radiology Images and Radiology Device Data – Premarket Notification [510(k)] Submissions. www.fda.gov/media/77635/download (13.12.2021) FDA (2017): Sentinel Initiative. Final Assessment Report. www.fda.gov/media/107850/download (13.12.2021) FDP (2019): EU-Medizinprodukteverordnung verantwortungsvoll implementieren – Patientenverordnung sicherstellen. Antrag der Abgeordneten Katrin Helling-Plahr, Christine Aschenberg-Dugnus, Michael Theurer, weiterer Abgeordneter und der Fraktion der FDP. Deutscher Bundestag, Drucksache 19/16035, Berlin Finlayson, S.; Bowers, J.; Ito, J.; Zittrain, J.; Beam, A.; Ko, I. (2019): Adversarial attacks on medical machine learning. In: Science (363; 6433), S. 1287–1289 Forschungsgruppe PMV (2010): Expertise zum Thema: Notwendigkeit des Datenzugangs und der Datentransparenz für ärztliche Körperschaften. Expertise für Bundesärztekammer im Rahmen der Förderinitiative zur Versorgungsforschung. www.bundesaerztekammer.de/fileadmin/user_upload/downloads/Datenzugang-1.pdf (13.12.2021) Frawley, W.; Piatetsky-Shapiro, G.; Matheus, C. (1992): Knowledge Discovery in Databases: An Overview. In: AI magazine (13/3), S. 57–70 Friedewald, M.; Bieker, F.; Obersteller, H.; Nebel, M.; Martin, N.; Rost, M.; Hansen, M. (2017): Datenschutz- Folgenabschätzung. Ein Werkzeug für einen besseren Datenschutz. www.forum- privatheit.de/download/datenschutz-folgenabschaetzung-3-auflage-2017// (13.12.2021) Fürstenberg, T.; Laschat, M.; Zich, K.; Klein, S.; Gierling, P.; Nolting, H.; Schmidt, T. (2013): G-DRG- Begleitforschung gemäß § 17b Abs. 8 KHG Endbericht des dritten Forschungszyklus (2008 bis 2010). Berlin Gamper, J.; Steimann, F. (1996): Medizinische Expertensysteme. Eine kritische Betrachtung. In: APIS Zeitschrift für Politik, Ethik. Wissenschaft und Kultur im Gesundheitswesen, S. 32–40 Gäßner, M. (2002): Expertensysteme (wissensbasierte Systeme) in der Medizin. http://docplayer.org/10915059- Expertensysteme-wissensbasierte-systeme-in-der-medizin-marcus-gaessner.html (13.12.2021) G-BA (Gemeinsamer Bundesausschuss) (2017): Informationen zum Mammographie-Screening. www.g- ba.de/downloads/17-98-2232/2019-01-21_G-BA_Entscheidungshilfe_Mammographie_bf.pdf? (13.12.2021) G-BA (2020): Beschluss des Gemeinsamen Bundesausschusses über eine Änderung der Richtlinie Methoden vertragsärztliche Versorgung. Biomarkerbasierte Tests zur Entscheidung für oder gegen eine adjuvante systemische Chemotherapie beim primären Mammakarzinom. www.g-ba.de/downloads/39-261- 4524/2020-10-15_MVV-RL_Biomarker-Tests_BAnz.pdf (13.12.2021) Gehring, P. (2018): Forschungsdatenmanagement. Viele Fronten. In: Forschung und Lehre (9) Geißelmann, K. (2018): Medizinprodukte: Risikoklasse für Apps steigt. In: Deutsches Ärzteblatt (115/12), S. A538 Gelitz, C. (2019): Künstliche neuronale Netze: Eine neue Form von KI? In: Spektrum (1) Gematik (2021): Elektronische Gesundheitskarte und Telematikinfrastruktur. Feature: Verarbeitung von Daten der elektronischen Patientenakte zu Forschungszwecken. öffentlicher Entwurf. https://fachportal.gematik.de/fileadmin/Fachportal/Downloadcenter/Vorabveroeffentlichungen/VorabV_ ePA_FDZ/gemF_ePA_FDZ_Anbindung_V1.0.0_CC.pdf (13.12.2021) Gerlinger, K. (2013): Fernerkundung – Handlungsfelder für einen Technologietransfer in die Länder Afrikas. In: TAB-Brief (42), S. 11–18 Gerste, R. (2014): Das düstere Geheimnis der Pumpe an der Broad Street. Zum 200. Geburtstag von John Snow. In: Chirurgische Allgemeine 15(2), S. 123–126 Gerste, R. (2020): Die Geister des Dr. Snow. In: Zeit online, 11.11.2020, www.zeit.de/2020/47/ cholerapandemie-john-snow-london- abwasserinfektionskrankheit?utm_referrer=https%3A%2F%2Fwww.google.com%2F (13.12.2021) Geßner, S.; Dugas, M. (2017): Das Portal für Medizinische Datenmodelle – Der Weg zur strukturierten Dokumentation. In: Forum der Medizin_Dokumentation und Medizin_Informatik 19(1), S. 4–7 Gilbert, F.; Astley, S.; Gillan, M.; Agbaje, O.; Wallis, M.; James, J.; Boggis, C.; Duffy, S. (2008): Single Reading with Computer-Aided Detection for Screening Mammography. In: The New England Journal of Medicine (359), S. 1675–1684 Gilbert, S.; Mehl, A.; Baluch, A.; Cawley, C.; Challiner, J.; Fraser, H.; Millen, E.; Mantazeri, M.; Multmeier, J.; Pick, F.; Richter, C. Türk, E. et al. (2020): How accurate are digital symptom assessment apps for suggesting conditions and urgency advice? A clinical vignettes comparison to GPs. In: British Medical Journal Open Gillessen-Kaesbach, G.; Paslak, B.; Stehr, F. (2016): Die Seltenen häufiger diagnostizieren. In: Laborwelt 17(4), S. 14 Goldhammer, K.; Wiegand, A. (2017): Ökonomischer Wert von Verbraucherdaten für Adress- und Datenhändler. Studie im Auftrag des Bundesministeriums für Justiz und für Verbraucherschutz. www.bmjv.de/SharedDocs/Downloads/DE/PDF/Berichte/Oekon_Wert_Daten_Adresshaendler.pdf%3F__ blob%3DpublicationFile%26v%3D6 (13.12.2021) Graham, D.; Campen, D.; Hui, R.; Spence, M.; Cheetham, C.; Levy, G.; Shoor, S.; Ray, W. (2005): Risk of acute myocardial infarction and sudden cardiac death in patients treated with cyclo-oxygenase 2 selective and non-selective non-steroidal anti-inflammatory drugs: nested case-control study. In: Lancet 365(9458), S. 475–481 Grosskreutz, H.; Lemmen, B.; Rüping, S. (2010): Privacy-Preserving Data-Mining. In: Informatik-Spektrum 33(4), S. 380–383 Grüebler, M. (2014): Open Data der Stadt Zürich. Was bringt's? https://de.slideshare.net/Opendatazurich/open- data-der-stadt-zrich-was-bringt-es (13.12.2021) GSK (GlaxsSmithKline) (2010): Aussetzung der Vermarktung von Arzneimitteln, die Rosiglitazon enthalten (Avandia®, Avandamet® und Avaglim®) in der europäischen Union. 2010, www.akdae.de/Arzneimittelsicherheit/RHB/Archiv/2010/20100923.pdf (13.12.2021) Haas, P. (2017): Elektronische Patientenakten. Einrichtungsübergreifende Elektronische Patientenakten als Basis für integrierte patientenzentrierte Behandlungsmanagement-Plattformen. Bertelsmann Stiftung, Gütersloh, www.bertelsmann-stif- tung.de/fileadmin/files/BSt/Publikationen/GrauePublikationen/VV_eEPA_Expertise_final.pdf (13.12.2021) Hallensleben, S.; Hustedt, C.; Fetic; L.; Fleischer, T.; Grünke, P.; Hagendorff, T.; Hauer, M.; Hauschke, A.; Heesen, J.; Herrmann, M.; Hillerbrand, R; Hubig, C. et al. (2020): From Principles to Practice. An interdisciplinary framework to operationalise AI ethics. Bertelsmann Stiftung, www.bertelsmann- stiftung.de/fileadmin/files/BSt/Publikationen/GrauePublikationen/WKIO_2020_final.pdf (13.12.2021) He, S. (2020): The Hype of Watson: Why Hasn't AI Taken Over Oncology? www.technologynetworks.com/informatics/articles/the-hype-of-watson-why-hasnt-ai-taken- overoncology-333571 (13.12.2021) Heaven, D. (2019): Deep Trouble for Deep Learning. In: Nature (574), S. 163–166 Hecker, D.; Döbel, I.; Petersen, U.; Rauschert, A.; Schmitz, V.; Voss, A. (2017): Zukunftsmarkt Künstliche Intelligenz – Potenziale und Anwendungen. Fraunhofer-Allianz Big Data, www.iais.fraunhofer.de/content/dam/bigdata/de/documents/Publikationen/KI-Potenzialanalyse_2017.pdf (13.12.2021) Heindel, W.; Bock, K.; Hecht; G.; Heywang-Köbrunner, S.; Kääb-Sanyal, V.; Sieg-mann-Luz, K.; Weigel, S. (2021): Systematische und qualitätsgesicherte Früher-kennung des sporadischen Mammakarzinoms. Update Screening-Effekte und wissenschaftliche Studien. In: Der Radiologe 61(2), S. 126–136 Hilty, L.; Oertel, B.; Wölk, M.; Pärli, K. (2012): Lokalisiert und identifiziert. Wie Ortungstechnologien unser Leben verändern. TA-SWISS Band 57, Zürich Holzinger, A.; Jurisica, I. (Hg.) (2014): Interactive Knowledge Discovery and Data Mining in Biomedical Informatics. State-of-the-Art Survey. Berlin, Heidelberg Home, P.; Pocock, S.; Beck-Nielsen, H.; Curtis, P.; Gomis, R.; Hanefeld, M.; Jones, N.; Komajda, M.; McMurray, J. (2009): Rosiglitazone evaluated for cardiovascular outcomes in oral agent combination therapy for type 2 diabetes (RECORD): a multicentre, randomised, open-label trial – The Lancet. In: The Lancet 373(9681), S. 2125–2135 Hornung, G. (2018): Industrie 4.0 und das Recht: Drei zentrale Herausforderungen. In: Hornung, G. (Hg.): Rechtsfragen der Industrie 4.0. Datenhoheit – Verantwortlichkeit – rechtliche Grenzen der Vernetzung, S. 9–64 Huser, M. (2005): Geo-Informationsrecht. rechtlicher Rahmen für geographische Informationssysteme. Zürich InEK (Institut für das Entgeltsystem im Krankenhaus) (2020): Weiterentwicklung des G-DRG-Systems für das Jahr 2021. Siegburg, www.g-drg.de/content/download/10160/73513/version/3/file/Abschlussbericht_aG- DRG-System2021.pdf (13.12.2021) InEK (Institut für das Entgeltsystem im Krankenhaus) (2021): Fallpauschalen-Katalog 2021. www.g-drg.de/aG- DRG-System_2021/Fallpauschalen-Katalog/Fallpauschalen-Katalog_2021 (13.12.2021) IQWiG (Institut für Qualität und Wirtschaftlichkeit im Gesundheitswesen) (2016): Biomarkerbasierte Tests zur Entscheidung für oder gegen eine adjuvante systemische Chemotherapie beim primären Mammakarzinom. Abschlussbericht. IQWiG-Berichte Nr. 457, www.iqwig.de/download/D14- 01_Abschlussbericht_Biomarker-bei-Mammakarzinom.pdf (13.12.2021) IQWiG (2018): Biomarkerbasierte Tests zur Entscheidung für oder gegen eine adjuvante systemische Chemotherapie beim primären Mammakarzinom. Addendum zum Auftrag D14-01. IQWiG-Berichte Nr. 655, www.iqwig.de/download/d18-01_biomarker-bei-mammakarzinom_addendum-zum-auftrag-d14- 01_v1-1.pdf (13.12.2021) IQWiG (2020): Biomarkerbasierte Tests zur Entscheidung für oder gegen eine adjuvante systemische Chemotherapie beim primären Mammakarzinom. Aktualisierung zum Auftrag D14-01 Rapid Report. IQWiG-Berichte Nr. 883, www.iqwig.de/download/d19-01_biomarker-bei-mammakarzinom_rapid- report_v1-1.pdf?rev=186407 (13.12.2021) Jaume-Palasí, L.; Spielkamp, M. (2017): Ethik und algorithmische Prozesse zu Entscheidungsfindung oder - vorbereitung. AlgorithmWatch, Arbeitspapier Nr. 4, https://algorithmwatch.org/wp-con- tent/uploads/2017/06/AlgorithmWatch_Arbeitspapier_4_Ethik_und_Algorithmen.pdf (13.12.2021) Jie, Z.; Zhiying, Z.; Li, L. (2021): A meta-analysis of Watson for Oncology in clinical application. In: Nature Scientific reports (11) Jones, N. (2014): Computer science: The learning machines. In: Nature 505(7482), S. 146–148 Kääb-Sanyal, V.; Hand, E. (2020): Jahresbericht Evaluation 2018. Deutsches Mammographie-Screening- Programm. Kooperationsgemeinschaft Mammographie, https://fachservice.mammo- programm.de/download/evaluationsberichte/Jahresbericht-Evaluation_2018.pdf (13.12.2021) Kaplan, S. (2017): Failure to warn: An early warning system for drug risks falls flat. www.statnews.com/2017/06/06/sentinel-fda-drug-risks/ (13.12.2021) Karg, M. (2008): Datenschutzrechtliche Rahmenbedingungen für die Bereitstellung von Geodaten für die Wirtschaft. Gutachten im Auftrag der GIW-Kommission. ULD (Unabhängiges Landeszentrum für Datenschutz Schleswig-Holstein), www.datenschutzzentrum.de/uploads/geodaten/datenschutzrechtliche- rahmenbedingungen-bereitstellung-geodaten.pdf (13.12.2021) Karlberg, S. (2018): Gene und Daten gegen Krebs. In: Der Tagesspiegel vom 28.2.2018 KBV (Kassenärztliche Bundesvereinigung) (2016): Qualitätssicherungsvereinbarung MRSA. www.kbv.de/media/sp/QS-MRSA.pdf (13.12.2021) KBV (Kassenärztliche Bundesvereinigung) (2021): Richtlinie der Kassenärztlichen Bundesvereinigung nach § 75 Abs. 7 SGB V zur Vergabe der Arzt-, Betriebsstätten- sowie der Praxisnetznummern. www.kbv.de/media/sp/Arztnummern_Richtlinie.pdf (13.12.2021) Kettritz, U. (2018): Überdiagnose im Mammographie-Screening. aktuelle Daten und Bewertung. www.ggg-b.de/vortraege/15.pdf (13.12.2021) KI-Enquete-Kommission (Enquete-Kommission Künstliche Intelligenz) (2020): Bericht der Enquete- Kommission Künstliche Intelligenz – Gesellschaftliche Verantwortung und wirtschaftliche, soziale und ökologische Potenziale. Deutscher Bundestag, Drucksache 19/23700, Berlin Knobloch, B.; Weidner, J. (2000): Eine kritische Betrachtung von Data-Mining-Prozessen. Ablauf, Effizienz und Unterstützungspotenziale. In: Jung, R.; Winter, R. (Hg.): Data Warehousing 2000. Methoden, Anwendungen, Strategien. Heidelberg, S. 345–365 Köhler, S.; Schulz, M.; Krawitz, P.; Bauer, S.; Dölken, S.; Ott, C.; Mundlos, C.; Horn, D.; Mundlos, S.; Robinson, P. (2009): Clinical diagnostics in human genetics with semantic similarity searches in ontologies. In: American journal of human genetics 85(4), S. 457–464 Köhler, S.; Vasilevsky, N.; Engelstad, M.; Foster, E.; McMurray, J.; Aymé, S.; Bayman, G.; Bello, S.; Boerkoel, C.; Boycott, M.; Brudno, M.; Buske, O. (2017): The Human Phenothype Ontology in 2017. In: Nucleic Acids Research (45), S. 865–876 Kooi, T.; Litjens, G.; van Ginneken, B.; Gubern-Mérida, A.; Sánchez, C.-I.; Mann, R.; den Heeten, A.; Karssemeijer, N. (2017): Large scale deep learning for computer aided detection of mammographic lesions. In: Medical image analysis (35), S. 303–312 Krahnert, S. (2016): Aktuelle Debatte: Aufweichung der ärztlichen Schweigepflicht? www.krahnert- medizinrecht.de/debatte-aufweichung-schweigepflicht/ (13.12.2021) Kreutzer, T.; Fischer, G. (2022): Das Urheberrechts-Wissensgesellschafts-Gesetz in der Praxis. https://irights.info/wp-content/uploads/2022/05/Kurzstudie-Das-UrhWissG-in-der- Praxis_Publikation_DOI.pdf (19.05.2022) Kriegel, H.-P.; Kröger, P.; Zimek, A. (2009): Outlier Detection Techniques. www.dbs.ifi.lmu.de/Publikationen/Papers/tutorial_slides.pdf (13.12.2021) Krokotsch, A. (2017): Erst Papierberg, dann Datenmüll: Fallstricke der digitalen Patientenakte. In: Forum der Medizin_Dokumentation und Medizin_Informatik 19(1), S. 14–17 Ksoll, W.; Schiedbauer, T.; Beck, A. (2017): Open Data – Wertschöpfung im digitalen Zeitalter. Bertelsmann Stiftung, www.bertelsmann-stiftung.de/fileadmin/files/Projekte/Smart_Country/OpenData_2017_final.pdf (13.12.2021) Kummer, K.; Pischler, N.; Zeddies, W. (2006): Das Amtliche deutsche Vermessungswesen. Stark in den Regionen und einheitlich im Bund – für Europa. In: Zeitschrift für Geodäsie, Geoinformation und Landmanagement (zfv) 131(5), S. 234–241 Kunze, A. (2013): Patientendaten. Behandeln statt verkaufen. In: Die Zeit (48/2013) Kuschel, L. (2018): Wem »gehören« Forschungsdaten? In: Forschung und Lehre (9) Kuzev, P. (2016): Open Data: Die wichtigsten Fakten zu offenen Daten. Konrad-Adenauer-Stiftung, Berlin, www.kas.de/wf/doc/kas_44530-544-1-30.pdf?160315122244 (13.12.2021) Laursen, L. (2016): Doctors Still Struggle to Make the Most of Computer-Aided Diagnosis. https://spectrum.ieee.org/doctors-still-struggle-to-make-the-most-of-computer-aided-diagnosis (13.12.2021) Lehman, C.; Wellman, R.; Buist, D.; Kerlikowske, K.; Tosteson, A.; Miglioretti, D.; Breast Cancer Surveillance Consortium (2015): Diagnostic Accuracy of Digital Screening Mammography With and Without Computer-Aided Detection. In: JAMA Intern Med. 175(11), S. 1828–1837 Lenzen-Schulte, M. (2017): Medizinische Suchmaschinen: Mit einem Mausklick zur Diagnose. In: Deutsches Ärzteblatt 114(25) Liu, X.; Faes, L.; Kale, A.; Wagner, S.; Fu, D.; Bruynseels, A.; Mahendiran, T.; Moraes, G.; Shamdas, M.; Kern, C.; Ledsam. J.; Schmid, M. et al. (2019): A comparison of deep learning performance against healthcare professionals in detecting diseases from medical imaging: a systematic review and meta-analysis. In: The Lancet Digital Health (1/6), S. E271-E291 Lotter, W.; Sorensen, G.; Cox, D. (2017): A Multi-Scale CNN and Curriculum Learning Strategy for Mammogram Classification. In: Cardoso, J.; Arbel, T.; Carneiro, G.; Syeda-Mahmood, T.; Moradi, M.; Bradley, A.; Greenspan, H.; Papa, J.; Madabushi, A.; Nascimento, J.; Cardoso, J. et al. (Hg.): Deep Learning in Medical Image Analysis and Multimodal Learning for Clinical Decision Support, S. 169–177 Lücker, V. (2018): Medizinproduktrechtliche Rahmenbedingungen für E-Health-Produkte im europäischen Wirtschaftsraum. In: Bundesgesundheitsblatt 61(1), S. 278–284 Lüdtke, H. (2002): Tübinger Mole Analyzer: Digitale Bildanalyse für die Melanom-früherkennung. In: Deutsches Ärzteblatt 99(41) Machotta, T. (2013): Verkauf von Rezeptdaten? Apotheken-Rechenzentrum weist Vorwürfe zurück. apotheken.de, www.apotheken.de/index.php?id=25&cv=nc%3F&tx_ttnews%5Btt_news%5D=9380&cHash=48bcd2c838 9acb16df217926e442c62f (13.12.2021) Matthews, R. (2000): Storks Deliver Babies (p=0.008). In: Teaching Statistics 22(2), S. 36–38 McKee, L. (2012): OGC History. www.opengeospatial.org/ogc/historylong (13.12.2021) McKinney, S.; Sieniek, M.; Godbole, V.; Godwin, J.; Antropova, N.; Ashrafian, H.; Back, T.; Chesus, M.; Corrado, G.; Darzi, A.; Etemadi, M.; Garcia-Vicente, F. et al. (2020): International evaluation of an AI system for breast cancer screening. In: Nature (577), S. 89–113 Mendes, R.; Vilela, J. (2017): Privacy-Preserving Data Mining: Methods, Metrics, and Applications. In: IEEE Access (5), S. 10562–10582 Metschke, R.; Wellbrock, R. (2002): Datenschutz in Wissenschaft und Forschung. Berliner Beauftragter für Datenschutz und Informationsfreiheit, Berlin, www.forschungsdaten- bildung.de/files/metschkewellbrock2002.pdf (13.12.2021) MII (Medizininformatik Initiative) (2020): Mustertext Patienteneinwilligung. Version 1.6.d. www.medizininformatik-initiative.de/sites/default/files/2020-04/MII_AG-Consent_Einheitlicher- Mustertext_v1.6d.pdf (13.12.2021) Montjoye, Y.-A. de; Radaelli, L.; Singh, V.; Pentland, A. (2015): Unique in the shopping mall: On the reidentifiability of credit card metadata. In: Science 347(6221), S. 536–539 Moreau, C.; Wolfsteiner, M. (2017): Anonymisierungsverfahren in der Kommunal-statistik: Theorie und praktische Anwendung. In: Frankfurter Statistische Be-richte, S. 48–55 Mühr, C. (2018): Was fehlt für eine sektoren- und einrichtungsübergreifende Qualitätssicherung? www.g- ba.de/downloads/17-98-4690/2018-09-24_QS-Konferenz_PV1-2_Mu%CC%88hr_G-BA.pdf (13.12.2021) Müller-Quade, J.; et al. (2020): Sichere KI-Systeme für die Medizin. Whitepaper aus der Plattform Lernende Systeme. München, www.plattform-lernende-syste- me.de/files/Downloads/Publikationen/AG3_6_Whitepaper_07042020.pdf (13.12.2021) Muscholl, M.; Kadioglu, D.; Lablans, M.; Storf, H.; Göbel, J.; Pfalz, A.; Ückert, F.; Wagner, T. (2016): OSSE – Open-Source-Registersystem für Seltene Erkrankungen in der EU. www.osse- register.de/OSSE_summary_de.pdf (13.12.2021) Nielsen, M. (2018): Künstliche Intelligenz. Alpha Go - Computer lernen Intuition. In: Spektrum der Wissenschaft (1), S. 22–27 Nissen, S.; Wolski, K. (2007): Effect of Rosiglitazone on the Risk of Myocardial Infarction and Death from Cardiovascular Causes. In: The New England Journal of Medicine (356), S. 2457–2471 Nohr, H. (2017): Big Data im Lichte der EU-Datenschutz-Grundverordnung. In: JurPC (Web-Doc. 111/2017) Orwat, C. (2019): Diskriminierungsrisiken durch Verwendung von Algorithmen. Antidiskriminierungsstelle des Bundes, https://publikationen.bibliothek.kit.edu/1000103134 (13.12.2021) Paik, S.; Shak, S.; Tang, G.; Kim, C.; Baker, J.; Cronin, M.; Baehner, F.; Walker, M.; Watson, D.; Park, T.; Hiller, W.; Fisher, E. et al. (2004): A Multigene Assay to Predict Recurrence of Tamoxifen-Treated, Node- Negative Breast Cancer. In: New England Journal of Medicine 351(27), S. 2817–2826 Pasquinelli, M. (2018): Matadata Society. In: Braidotti, R.; Hlavajova, M. (Hg.): Posthuman Glossary, S. 253–256 Pfeffer, S. (2002): Expertensysteme in der Medizin. In: JurPC (Web-Dok. 91/2002) Phillips, F. (2017): A perspective on ›Big Data‹. In: Science and Public Policy 44(5), S. 730–737 Pisano, E. (2020): AI shows promise for breast cancer screening. In: Nature (577), S. 35–36 Prognos (2016): Gutachten zum aktuellen Umsetzungsstand des KFRG. Endbericht. Basel, www.prognos.com/sites/default/files/2021-01/20160818_prognos_schlussversion-gutachten_kkr.pdf (13.12.2021) Prognos (2018): Stand der klinischen Krebsregistrierung. Gutachten. Basel, www.gkv- spitzenverband.de/media/dokumente/krankenversicherung_1/qualitaetssicherung_2/klinische_krebsregister /2018-10-19_Prognos-Gutachten_Stand_der_klinischen_Krebsregistrierung_final.pdf (13.12.2021) Puppe, F. (2014): Entscheidungsunterstützungssyteme, medizinische. GI (Gesellschaft für Informatik), https://gi.de/informatiklexikon/entscheidungsunterstuetzungssyteme-medizinische (13.12.2021) Rahm, E. (2015): Vorlesungsskript. 1. Data Warehouses – Einführung. https://dbs.uni-leipzig.de/file/dw- kap1.pdf (13.12.2021) RatSWD (Rat für Sozial- und WirtschaftsDaten) (2017): Forschungsethische Grundsätze und Prüfverfahren in den Sozial- und Wirtschaftswissenschaften. www.ratswd.de/dl/RatSWD_Output9_Forschungsethik.pdf (13.12.2021) RatSWD (2020): Datenerhebung mit neuer Informationstechnologie. Empfehlungen zu Datenqualität und - management, Forschungsethik und Datenschutz. www.ratswd.de/dl/RatSWD_Output6.6_Datenerhebung- neueIT.pdf (13.12.2021) Revermann, C.; Sauter, A. (2007): Biobanken für die humanmedizinische Forschung und Anwendung. Studien des Büros für Technikfolgen-Abschätzung beim Deutschen Bundestag Band 23, Berlin Rey, G.; Wender, K. (2018): Neuronale Netze. Eine Einführung in die Grundlagen, Anwendungen und Datenauswertung. Bern RfII (Rat für Informationsinfrastrukturen) (2020): Stellungnahme des RfII. Datentreuhandstellen gestalten – Zu Erfahrungen der Wissenschaft. Göttingen, www.rfii.de/?wpdmdl=4259 (13.12.2021) Rhön-Klinikum (2017): Kognitives Assistenzsystem für Einsatz im Krankenhaus erfolgreich erprobt – Rhön- Klinikum AG. Pressemeldung. www.rhoen-klinikum-ag.com/presse/pressemeldungen/news/article/ rhoenklinikum-ag-kognitives-assistenzsystem-fuer-einsatz-im-krankenhaus-erfolgreich-erprobt.html (13.12.2021) Rhön-Klinikum; IBM (2016): IBM-Watson-Technologie: Uniklinik Marburg testet kognitiven Assistenten für die Diagnose seltener Krankheiten. https://e-health-com.de/details-news/ibm-watson-technologie- uniklinik-marburg-testet-kognitiven-assistenten-fuer-die-diagnose-seltener-kr/ (13.12.2021) Ribli, D.; Horváth, A.; Unger, Z.; Pollner, P.; Csabai, I. (2018): Detecting and classifying lesions in mammograms with Deep Learning. In: Nature Scientific reports 8(4165) Riehm, T. (2018): Dateneigentum – Schutz nach allgemeinem Zivilrecht. In: Hornung, G. (Hg.): Rechtsfragen der Industrie 4.0. Datenhoheit – Verantwortlichkeit – rechtliche Grenzen der Vernetzung, S. 73–96 RKI (Robert Koch Institut) (2016): Regionale Verteilung des Anteils von MRSA und VRE bei nosokomialen Infektionen mit S. aureus und Enterokokken Untersuchung auf Intensivstationen sowie bei postoperativen Wundinfektionen. In: Epidemiologisches Bulletin (22), S. 191–196 Ross, C.; Swetlitz, I. (2017): IBM pitched Watson as a revolution in cancer care. It's nowhere close. www.statnews.com/2017/09/05/watson-ibm-cancer/ (13.12.2021) Rott, P. (2018): Rechtspolitischer Handlungsbedarf im Haftungsrecht, insbesondere für digitale Anwendungen. Gutachten im Auftrag des Verbraucherzentrale Bundesverbandes. vzbv (Verbraucherzentrale Bundesverband), www.vzbv.de/sites/default/files/downloads/2018/05/04/gutachten_handlungsbedarf_im_haftungsrecht.pd f (13.12.2021) Rüchardt, D. (2019): Chancen und Risiken der Plattformökonomie. Wie Platt-formen die Digitalwirtschaft bestimmen. Computerwoche, www.cowo.de/a/3547305 (13.12.2021) Rüschemeyer, G. (2020): Die mangelnde Offenlegung von Studienergebnissen kann Ihrer Gesundheit schaden! Cochrane Deutschland, www.cochrane.de/de/news/die-mangelnde-offenlegung-von- studienergebnissenkann-ihrer-gesundheit-schaden (13.12.2021) Samek, W.; Montavon, G.; Vedaldi, A.; Hansen, L.; Müller, K. (Hg.) (2019): Explainable AI: Interpreting, Explaining and Visualizing Deep Learning Schepers, J.; Schlünder, I.; Drepper, J.; Semler, S.; Rüping, S.; Quix, C.; Stroetmann, K.; Rennoch, J. (2015): Data-Mining in der Medizin und im Gesundheitssystem – gesellschaftspolitische und rechtliche Herausforderungen. Gutachten für den Deutschen Bundestag, vorgelegt dem Büro für Technikfolgen- Abschätzung beim Deutschen Bundestag (TAB). Berlin Schink, T.; Holstiege, J.; Kowalzik, F.; Zepp, F.; Garbe, E. (2014): Risk of febrile convulsions after MMRV vaccination in comparison to MMR or MMR+V vaccination. In: Vaccine 32, S. 645–650 Schneider, U. (2015): Sekundärnutzung klinischer Daten – rechtliche Rahmen-bedingungen. Schriftenreihe der TMF Band 12, Berlin Scholz, R.; Beckedahl, M.; Noller, S.; Renn, O. (Hg.) (2021): DiDaT Weißbuch. Verantwortungsvoller Umgang mit digitalen Daten -Orientierungen eines transdisziplinären Prozesses, www.nomos- elibrary.de/10.5771/9783748924111.pdf?download_full_pdf=1 (13.12.2021) Schröder, G. (2003): Mut zum Frieden und Mut zur Veränderung. Regierungserklärung von Bundeskanzler Gerhard Schröder vor dem Deutschen Bundestag am 14. März 2003 in Berlin. www.bundestag.de/webarchiv/textarchiv/2013/43257637 (13.12.2021) Schubert, I.; Ihle, P.; Köster, I.; Küpper-Nybelen, J.; Rentzsch, M.; Stallmann, C.; Swart, E.; Winkler, C. (2014): Daten für die Versorgungsforschung. Zugang und Nutzungsmöglichkeiten. Datengutachten für das Deutsche Institut für Medizinische Dokumentation und Information (DIMDI). https://e-health- com.de/fileadmin/user_upload/dateien/Downloads/dimdi-sekundaerdaten-expertise.pdf (13.12.2021) Schüller-Zwierlein, A.; Leiwesmayer, B. (2018): Neuerungen im Urheberrecht. Stand und Perspektiven. www.uni-regensburg.de/bibliothek/medien/pdf/urheberrecht_neuerungen.pdf (13.12.2021) Shearer, C. (2000): The CRISP-DM Model: The New Blueprint for Data Mining. In: Journal of Data Warehousing (5), S. 13–20 Shortliffe, E. (1987): Computer programs to support clinical decision making. In: Journal of the American Medical Association (JAMA) 258(1), S. 61–66 Sickles, E.; D’Orsi, C.; Bassett, L.; Appleton, C.; Berg, W.; Burnside, E.; Feig, S.; Gavenonis, S.; Newell, M.; Trinh, M. et al. (2013): ACR BI-RADS® Atlas, Breast Imaging Reporting and Data System. 5th Edition. American College of Radiology, Reston Siemoneit, O. (2018): Big Data, quo vadis? Trends, Treiber, Determinanten, Wild-cards. KIT, KIT Scientific Working Papers Nr. 86, https://publikationen.bibliothek.kit.edu/1000082069 (13.12.2021) Silver, D.; Hubert, T.; Schrittwieser, J.; Antonoglou, I.; Lai, M.; Guez, A.; Lanctot, M.; Sifre, L.; Kumaran, D.; Graepel, T.; Lillicrap, T. et al. (2017): Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm. https://arxiv.org/pdf/1712.01815 (13.12.2021) SPD; BÜNDNIS 90/DIE GRÜNEN (2001): Nutzung von Geoinformationen in der Bundesrepublik Deutschland. Entschließungsantrag der Abgeordneten Dr. Margrit Wetzel, Klaus Barthel (Starnberg), Dr. Axel Berg, weiterer Abgeordneter und der Fraktion der SPD sowie der Abgeordneten Hans-Josef Fell, Kerstin Müller (Köln), Rezzo Schlauch und der Fraktion BÜNDNIS 90/DIE GRÜNEN zu der Großen Anfrage der Abgeordneten Dr.-Ing. Rainer Jork, Ilse Aigner, Günter Baumann, weiterer Abgeordneter und der Fraktion der CDU/CSU – Drucksachen 14/3214, 14/4139 –. Deutscher Bundestag, Drucksache 14/5323, Berlin Stausberg, J.; Semler, S.; Neugebauer, E. (2014): Ein Register von Registern und Kohorten: Das Registerportal von TMF und DNVF. GMDS (Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e. V.), Jahrestagung, Göttingen Stock, W. (2018): Informationsmarkt. www.isi.hhu.de/fileadmin/redaktion/Fakultaeten/Philosophische_Fakultaet/Sprache_und_Information/Inform ationswissenschaft/Dateien/Wolfgang_G._Stock/Informationsmarkt.pdf (13.12.2021) SVR Gesundheit (Sachverständigenrat zur Begutachtung der Entwicklung im Gesundheitswesen) (2014): Bedarfsgerechte Versorgung − Perspektiven für ländliche Regionen und ausgewählte Leistungsbereiche. www.svr-gesundheit.de/fileadmin/Gutachten/Gutachten_2014/Langfassung2014.pdf (13.12.2021) SVR Gesundheit (Sachverständigenrat zur Begutachtung der Entwicklung im Gesundheitswesen) (2021): Digitalisierung für Gesundheit – Ziele und Rahmenbedingungen eines dynamisch lernenden Gesundheitssystems. www.svr-gesundheit.de/gutachten/gutachten-2021/ (13.12.2021) TAB (Büro für Technikfolgen-Abschätzung beim Deutschen Bundestag) (2010): Stand und Perspektiven klinischer Forschung in Deutschland und im Vergleich zu anderen Ländern und besonderer Berücksichtigung nichtkommerzieller Studien (Bührlen, B.; Georgieff, P.; Vollmar, H.). TAB- Arbeitsbericht Nr. 135, Berlin TAB (2012): Fernerkundung: Anwendungs-potenziale in Afrika (Gerlinger, K.). TAB-Arbeitsbericht Nr. 154, Berlin TAB (2014): Big Data in der Cloud (Leimbach, T.; Bachlechner, D.). TAB-Hintergrundpapier Nr. 18, Berlin TAB (2016): Technologien und Visionen der Mensch-Maschine-Entgrenzung (Kehl, C.; Coenen, C.). TAB- Arbeitsbericht Nr. 167, Berlin TAB (2017a): Neue Arzneimittel gegen vernachlässigte Krankheiten (Gerlinger, K.). TAB-Arbeitsbericht Nr. 170, Berlin TAB (2017b): Microtargeting: psychometrische Analyse mittels Big Data (Kind, S.; Weide, S.). TAB- Themenkurzprofil Nr. 18, Berlin TAB (2018): Gesundheits-Apps (Evers-Wölk, M.; Oertel, B.; Sonk, M.). TAB-Arbeitsbericht Nr. 179, Berlin TAB (2019): Beobachtungstechnologien im Bereich der zivilen Sicherheit. Möglichkeiten und Herausforderungen (Caviezel, C.; Hempel, L.; Revermann, C.; Steiger, S.). TAB-Arbeitsbericht Nr. 190, Berlin (im Erscheinen) TAB (2020): Mögliche Diskriminierung durch algorithmische Entscheidungssysteme und maschinelles Lernen – ein Überblick (Kolleck, A.; Orwat, C.). TAB-Hintergrundpapier Nr. 24, Berlin TAB (2021): Digitalisierung der Landwirtschaft (Kehl, C.; Steiger, S.). TAB-Arbeitsberichte Nr. 193 und 194, Berlin Taichman, D.; Backus, J.; Baethge, C.; Bauchner, H.; de Leeuw, P.; Drazen, J.; Fletcher, J.; Frizelle, F.; Groves, T.; Haileamlak, A.; James, A.; Laine, C. et al. (2016): Bereitstellung von Primärdaten klinischer Studien. Ein Vorschlag des International Committee of Medical Journal Editors (ICMJE). In: Deutsches Ärzteblatt 113(41-3) Taylor, P.; Potts, H. (2008): Computer aids and human second reading as interventions in screening mammography: Two systematic reviews to compare effects on cancer detection and recall rate. In: European Journal of Cancer 44(6), S. 798–807 Tenckhoff, B. (2015): Nutzung von Daten für die einrichtungs- und sektorenübergreifende Qualitätssicherung. Vortrag GMDS-Jahrestagung Tenckhoff, B. (2017): Sekundärdatennutzung medizinischer Dokumentation. Chancen und Risiken ambulanter Routinedaten im KV-System. In: Forum der Medi-zin_Dokumentation und Medizin_Informatik (1), S. 11– 14 Thiel, R.; Deimel, L.; Schmidtmann, D.; Piesche, K.; Hüsing, T.; Rennoch, J.; Stroetmann, V.; Stroetmann, K. (2018): #SmartHealthSystems. Digitalisierungsstrategien im internationalen Vergleich. Bertelsmann Stiftung, www.bertelsmann-stiftung.de/fileadmin/files/Projekte/Der_digitale_Patient/VV_SHS- Gesamtstudie_dt.pdf (13.12.2021) Timmers, J.; den Heeten, G.; Adang, E.; Otten, J.; Verbeek, A.; Broeders, M. (2012): Dutch digital breast cancer screening: implications for breast cancer care. In: European journal of public health 22(6), S. 925–929 Tremmel, S.; Gieselmann, H.; Eikenberg, R. (2019): Massive Datenschutzmängel in der Gesundheits-App Ada. In: c't magazin für computertechnik (22), S. 14 ff. Triaille, J.-P.; de Meeus d'Argenteuil, J.; de Francquen, A. (2014): Study on the legal framework of text and data mining (TDM). https://publications.europa.eu/en/publication-detail/-/publication/074ddf78-01e9-4a1d- 9895-65290705e2a5/language-en (13.12.2021) Van 't Veer, L.; Hongyue, D.; van de Vijver, M.; He, Y.; Hart, A.; Mao, M.; Peterse, H.; van der Kooy, K.; Marton, M.; Witteveen, A.; Schreiber, G. et al. (2002): Gene expression profiling predicts clinical outcome of breast cancer. In: Nature (415), S. 530–536 Veta, M.; Pluim, J.; van Diest, P.; van de Viergever, M. (2014): Breast Cancer Histopathology Image Analysis: A Review. In: IEEE Transactions on Biomedical Engineering 61(5), S. 1400–1411 Vfa (Verband der forschenden Arzneimittelhersteller) (2020): Stellungnahme zum Referentenentwurf des Bundesministeriums für Gesundheit. Verordnung zur Neufassung der Datentransparenzverordnung und zur Änderung der Datentransparenz-Gebührenverordnung. www.vfa.de/download/stellungnahme- referentenentwurf-datentransparenzverordnung.pdf (13.12.2021) Vodafone Institute for Society and Communications (Hg.) (2016): Big Data: Wann Menschen bereit sind, ihre Daten zu teilen. Eine europäische Studie, www.vodafone-institut.de/ wpcontent/uploads/2016/01/VodafoneInstitute-Survey-BigData-Highlights-de.pdf (13.12.2021) Vomweg, T. (2017): Lektionen vom Mammographie-Screening. In: Pneumologe 14(3), S. 131–139 Von der Weiden, S. (2018): KI stellt die bessere Diagnose als der Arzt. In: VDI nach-richten (18), S. 13 Von Unger, H.; Simon, D. (2016): Ethikkommissionen in den Sozialwissenschaften. Historische Entwicklungen und internationale Kontroversen. RatSWD Working Papers Nr. 253, www.ratswd.de/dl/RatSWD_WP_253.pdf (13.12.2021) Wangermann, T. (2016): Open Data aus internationaler Perspektive. Berlin, www.data.gv.at/ wpcontent/uploads/2016/07/Open-Data-aus-internationaler-Perspektive.pdf (13.12.2021) Ware, W. (2005): The Vioxx Saga: Perspective on the Recall. www.yourhealthbase.com/Vioxx.htm (13.12.2021) Weichert, T. (2018): Big Data im Gesundheitsbereich. Gutachten im Rahmen des ABIDA-Projektes – Assessing Big Data. www.abida.de/sites/default/files/ABIDA%20Gutachten-Gesundheitsbereich.pdf (13.12.2021) Welzel, C.; Grosch, D. (2018): Das ÖFIT-Trendsonar Künstliche Intelligenz. Kompetenzzentrum Öffentliche IT, www.oeffentliche-it.de/documents/10181/14412/Das+ÖFIT-Trendsonar+Künstliche+Intelligenz (13.12.2021) Wiegerling, K.; Nerurkar, M.; Wadephul C. (2018): Ethische und anthropologische Aspekte der Anwendung von Big-Data-Technologien. In: Kolany-Raiser, B.; Heil, R.; Orwat, C.; Hoeren, T. (Hg.): Big Data und Gesellschaft. Eine multidisziplinäre Annäherung, S. 1–68 Wilkens, L. (2017): Methodenstreit auf dem Rücken von Brustkrebspatientinnen? Die Versorgungsrealität. www.hello-healthcare.com/files/ sitefiles/Events/01%20Summit%2010.%20Maerz%202017/02%20Vortraege/5.%20Prof.%20Wilkens.pdf (13.12.2021) Wilkinson, M.; Dumontier, M.; Aalbersberg, I.; Appleton, G.; Axton, M.; Baak, A.; Blomberg, N.; Boiten, J.- W.; Bonino da Silva Santos, L.; Bourne, P.; Bouwman, J. et al. (2016): The FAIR Guiding Principles for scientific data management and stewardship. In: Nature Scientific Data 3(160018) Winsberg, F.; Elkin, M.; Marcey, J.; Bordaz, V.; Weymouth, W. (1967): Detection of radiographic abnormalities in mammograms by means of optical scanning and computer analysis. In: Radiology 89(2), S. 211–215 Wissenschaftliche Dienste (2016): Zur Diskussion eines Patientenentschädigungs- und Härtefallfonds. Deutscher Bundestag, Dokumentation Nr. WD 9-3000-043/16, www.bundestag.de/resource/blob/438414/ad2b99467206f9b330605cea405e7c17/wd-9-043-16-pdf- data.pdf (13.12.2021) Wissenschaftliche Dienste (2019): E-Government in Deutschland. Aktueller Stand auf Bundes- und Landesebene. Deutscher Bundestag, Sachstand Nr. WD 3-3000-134/19, www.bundestag.de/resource/blob/655082/32a17c3834d5c5c5d6f5a7232f0491c0/WD-3-134-19-pdf- data.pdf (13.12.2021) Witten, I.; Frank, E.; Hall, M. (2011): Data Mining: practical machine learning tools and techniques. Third Edition. Burlington WR (Wissenschaftsrat) (2009): Stellungnahme zum Status und der zukünftigen Entwicklung des Rates für Sozial- und Wirtschaftsdaten (RatSWD). Drs. 9504-09, Aachen Zweig, K. (2016): 1. Arbeitspapier: Was ist ein Algorithmus? Algorithm Watch, http://algorithmwatch.org/arbeitspapier-was-ist-ein-algorithmus/ (13.12.2021) Zweig, K. (2019a): Algorithmische Entscheidungen: Transparenz und Kontrolle. In: Arnold, N.; Wangermann, T. (Hg.): Digitalisierung und künstliche Intelligenz: Orientierungspunkte, S. 143–163 Zweig, K. (2019b): Algorithmische Entscheidungen: Transparenz und Kontrolle. Konrad-Adenauer-Stiftung, Analysen & Argumente Nr. 338, www.kas.de/documents/252038/4521287/AA338+Algorithmische+Entscheidungen.pdf/533ef913-e567- 987d-54c3-1906395cdb81?version=1.0&t=1548228380797 (13.12.2021) 8 Anhang 8.1 Data-Mining im Urheber- und Leistungsschutzrecht Die Begriffe Text- und Data-Mining (TDM) sind seit 2018 im deutschen und seit 2019 im europäischen Urheberrecht verankert. Das Urheberrecht definiert geistige bzw. immaterielle Eigentumsrechte, also die Rechte urhebender Personen an ihren Texten, Bildern, Datensammlungen (Werken), deren Reichweite und Grenzen sowie deren Verwertungsmöglichkeiten. Text- und Data-Mining wird dort definiert als automatisierte Analyse von digitalen Werken bzw. von Texten und Daten in digitaler Form um daraus Informationen insbesondere über Muster, Trends und Korrelationen zu gewinnen (§ 44b UrhG176; RL 2019/790/EU177). Diese Definition entspricht der Auffassung von Data-Mining im engeren Sinn innerhalb dieses Berichts. Schutzgegenstand und immaterielle Eigentumsrechte Urheberrechtlich geschützt sind geistig schöpferische Werke, darunter fallen Darstellungen wissenschaftlicher oder technischer Art wie Karten oder Tabellen, (Licht-)Bilder und Filme, Sprach- und Schriftwerke sowie Computerprogramme (§ 2 UrhG), Datenbanken (§ 4 UrhG) oder nichtamtliche Normen (z. B. ISO- oder DIN-Normen), nicht aber amtliche Werke wie Gesetze, amtliche Erlasse, Bekanntmachungen sowie Entscheidungen und Leitsätze dazu (§ 5 UrhG). Voraussetzung für einen Urheberrechtsschutz ist ein Mindestmaß an schöpferischer Tätigkeit bzw. geistig kreativem Schaffen, was über technisch-handwerkliche Tätigkeiten und Fleißarbeit, wie die Bedienung technischer Geräte zur Datenerhebung, Dokumentationen, systematisches Aufzählen oder Klassifizierungstätigkeiten anhand sachlogischer Kriterien, hinausgeht (Huser 2005, S. 72 ff.; Kuschel 2018; Schepers et al. 2015, S. 259). Geschützt wird die Form eines Werkes, die zugrunde liegende spezifische kreative Idee und deren Ausgestaltung, nicht jeder einzelne Inhaltsbestandteil: Bei wissenschaftlichen Darstellungen, Karten oder Plänen sind nicht die zugrundeliegenden einzelnen Werte/Daten (die in der Regel maschinell erzeugt und nicht kreativ geschaffen wurden) oder Worte (Zitationen kleinerer Bestandteile sind ohne Erlaubnis der urhebenden Person zulässig, sofern diese genannt wird), bei Bildern ist nicht jeder einzelne Bildpunkt, bei Tabellen nicht jede einzelne Ziffer geschützt. Auch bei Datenbanken werden nur die kreative Auswahl und die Anordnung von Daten, nicht aber einzelne Inhaltselemente urheberrechtlich geschützt. Das Urheberrecht gewährt natürlichen Personen geistige Eigentumsrechte (Intellectual Property Rigths) an ihrem Werk. Sie umfassen › unveräußerliche Persönlichkeitsrechte (automatische Urheberschaftsanerkennung bei der Veröffentlichung eines Werkes [§§ 12 ff. UrhG]) und › veräußerliche Verwertungsrechte (u. a. zur Vervielfältigung, Veröffentlichung, Bearbeitung, Umgestaltung, freien Benutzung [§§ 15 ff. UrhG]), die 70 Jahre nach dem Tod der urhebenden Person(en) erlöschen; danach ist das jeweilige Werk gemeinfrei für alle verwendbar (§ 64 UrhG). Strukturierte, semantisch und syntaktisch normierte (Roh-)Datensätze und -bestände, die das wesentliche Fundament für Data-Mining-Prozesse im Sinne dieses Berichts sind, entstehen in der Regel nicht durch schöpferische, sondern durch technische Tätigkeiten und Fleißarbeit, werden zunehmend automatisiert erzeugt und in standardisierten Datenbanken gehalten. Diese datengenerierenden und -aufbewahrenden Leistungen werden wegen der zu geringen Schöpfungshöhe allerdings nicht urheberrechtlich, sondern von verwandten Schutzrechten, daen Leistungsschutzrechten, erfasst (Teil 2 UrhG). Derartige Datensätze und -bestände werden nur mittels veräußerlicher Verwertungsrechte geschützt. Für unterschiedliche Leistungsformen definiert das Urhebergesetz jeweils spezifische Schutzfristen, die im Lauf der Zeit ausgeweitet wurden. Die Spanne reicht von 15 Jahren für Datenbanken als systematische Anordnung von Werken, Daten oder anderen unabhängigen Elementen (§§ 87a ff. UrhG) über 50 Jahre für Licht- und Laufbilder sowie Filme (§§ 72 und 94 f. UrhG) bis zu 70 Jahre für Tonträger (§ 85 UrhG). 176 Gesetz über Urheberrecht und verwandte Schutzrechte (Urheberrechtsgesetz – UrhG) 177 Richtlinie (EU) 2019/790 des Europäischen Parlaments und des Rates vom 17. April 2019 über das Urheberrecht und die verwandten Schutzrechte im digitalen Binnenmarkt und zur Änderung der Richtlinien 96/9/EG und 2001/29/EG Mehrheitlich wird die Leistung zur Generierung von Bild-, Ton- oder Textmaterial geschützt, d. h. die Person, die den Aufnahmeauslöser betätigt, erhält das originäre Verwertungsrecht, das jedoch bei Leistungen, die im Rahmen von Angestellten- oder Auftragsverhältnissen erbracht werden, auf vertraglicher Basis ausdrücklich oder stillschweigend der arbeit- oder auftraggebenden juristischen Person übertragen wird.178 Ist eine erhebliche Investition für die Erstellung des Datenträgers (vor allem in Bezug auf Datenbanken, aber auch bei Filmen oder Tonträgern) erforderlich, wird der herstellenden juristischen Person, die diese Investition tätigte, das Verwertungsrecht direkt gewährt. Damit liegt die Verfügungsmacht über die erzeugten Daten bei der juristischen Person, die diese gespeicherten Datenbestände finanziert hat und entsprechende Nutzungsrechte vergeben kann. Die übertragbaren Verwertungsrechte sollen es schöpferisch tätigen Personen ermöglichen, Art und Umfang der Nutzung ihrer Werke vertraglich zu definieren und mit der Zahlung einer Vergütung zu verbinden. Sie sind in unterschiedlichen kreativen Bereichen ein zentrales Element diverser Geschäftsmodelle und Verwertungsketten, zu denen Verlage aber auch Bibliotheken, Sammlungen, Archive und Repositorien sowie Verwertungsgesellschaften gehören können. Über die Reichweite immaterieller Eigentumsrechte bzw. die Weiterverwendungsmöglichkeiten von schöpferischen Werken durch Dritte wird seit Jahren gerungen. Der Begriff des Leistungsschutzes wird nicht nur im Urheberrecht verwendet. Auch bei einigen Produktarten mit besonderer Kritikalität für Mensch und Umwelt (z. B. Arzneimittel, Chemikalien), deren Sicherheit und Wirksamkeit im Rahmen der Produktentwicklung geprüft werden müssen, werden die dafür nötigen Investitionen temporär geschützt (Kasten 8.1). Kasten 8.1 Leistungsschutz und Datennutzung im Produktrecht Für einige zulassungspflichtige, forschungsintensive Produkte definiert das jeweilige Produktrecht einen spezifischen Leistungsschutz in Form von Datenexklusivität und Unterlagenschutz (TAB 2017a, S. 175 ff.). Vorreiter sind das Arzneimittel- und das Chemikalienrecht. Entsprechenden Substanzen werden per se besondere Wirksamkeiten auf Menschen, Tiere und/oder Umwelt unterstellt. Deshalb gilt im Umgang mit ihnen ein grundsätzliches Verbotsprinzip mit Erlaubnisvorbehalt. Um eine Marktzulassung zu erhalten, müssen diverse Studien durchgeführt und Daten erhoben werden, anhand derer die substanzspezifische Sicherheit (Schädigungspotenzial, Umweltverträglichkeit) und Wirksamkeit (Nutzenpotenzial) belegt werden. Wenn bei diesen Studien Tests an Menschen vorgenommen werden, sind auch diese genehmigungspflichtig. Dafür müssen studienbeantragende Stellen zum einen darlegen, dass der erwartete Erkenntnisgewinn gegenüber den mit der Studie einhergehenden Sicherheitsrisiken überwiegt – die Studie somit ethisch vertretbar ist. Zum anderen müssen sie jede klinische Studie mittels definierter Metadatensätze (u. a. verwendete Substanz, Studienverantwortlichkeit, Studiendesign, Kurzbeschreibung) registrieren lassen. Sie sind für die Studiendurchführung, die Richtigkeit und den Schutz der erhobenen Daten verantwortlich und haften bei Schäden. Sie sollen zudem zumindest Zusammenfassungen der Studienergebnisse, nicht aber die generierten Primärdaten öffentlich zugänglich machen (wissenschaftliche Publikation). Diese Daten und die Studienergebnisse legen sie im Rahmen der Produktzulassung bzw. -zertifizierung den jeweiligen Prüfinstanzen vor, die diese als Geschäftsgeheimnisse behandeln. Um die jeweiligen Investitionen für die Produktentwicklung zu schützen, werden neben Patenten befristete exklusive gewerbliche Nutzungsrechte an den Primärdaten und den Zulassungsunterlagen gewährt (in Europa in der Regel 10 Jahre). Erst danach erhalten Hersteller wirkstoffgleicher Substanzen (Generika) eine Marktzulassung. Im Arzneimittelbereich müssen die Primärdaten auch nach Ablauf der Schutzfristen nicht zugänglich gemacht werden, zumal es sich regelmäßig um personenbezogene Daten besonderer Kategorie handelt (Kasten 3.6). Es gibt jedoch ein vereinfachtes Zulassungsverfahren nach Ablauf der Schutzfrist. Konkurrenten müssen lediglich nachweisen, dass ihr Generikum weitgehend identisch zum Referenzarzneimittel ist und können in Bezug auf Sicherheit und Wirksamkeit auf die Zulassungsunterlagen und Primärdaten des Originals verwiesen (§ 24b AMG). Im Chemikalienrecht ist nach der Sperrfrist eine gemeinsame Datennutzung vorgesehen, wobei es sich bei den primären Studiendaten nicht um personenbezogene Daten besonderer Kategorie handelt 178 Im Hochschulbereich gibt es aufgrund der verfassungsrechtlich gewährleisteten Wissenschaftsfreiheit und der Konstellation, dass berufene Professor/innen ihre Aufgaben frei und selbständig wahrnehmen, Hochschulangestellte jedoch dienstliche Aufgaben erfüllen, einige Besonderheiten bezüglich der vertraglich zu konkretisierenden Übertragung von Nutzungsrechten an die Hochschule (ausführlicher z. B. Kuschel 2018). und sekundärnutzende Stellen Ausgleichszahlungen an Dateneigner entrichten müssen (Art. 62 ff. der Verordnung [EU] 528/2012179). Seit Jahren wird über den Zugang zu klinischen Studiendaten diskutiert (Rüschemeyer 2020; Taichman et al. 2016). Verfahren für einen gesicherten Datenzugang gibt es bisher nicht. Dadurch können Data-Mining- Aktivitäten Dritter vollständig verhindert werden. Der Ansatz im Chemikalienrecht, der den Aufwand für die Datenerhebung auf mehrere Schultern verteilt, ermöglicht eine Datenweiterverwendung durch Dritte tendenziell eher. Beschränkung immaterieller Eigentumsrechte und Ausweitung der Data-Mining-Möglichkeiten Ebenso wie das (immaterielle) Eigentumsrecht (Art. 14 GG, Art. 17 GRCh180) gehört die Freiheit, wissenschaftlich zu arbeiten und zu forschen in Deutschland und Europa zu den bürgerlichen Grundrechten (Art. 5 GG, Art. 13 GRCh). Kollidieren Grundrechte ist zwischen diesen abzuwägen und ein gesetzlicher Ausgleich herzustellen. Vervielfältigungen von größeren Teilen geschützter Werke sind in vielen Ländern für nichtkommerzielle Forschungszwecke ohne Autorisierung zulässig. In Deutschland sind derartige Vervielfältigungen traditionell mit einem Vergütungsanspruch urhebender Personen verknüpft, der kollektiv mittels Verwertungsgesellschaften und Reproduktionspauschalen realisiert werden kann.181 Da durch die Digitalisierung neue Nutzungsformen urheberrechtlich geschützter Werke möglich werden, wird die Grundrechteabwägung und eine Angleichung bestehender Regelungen immer wieder thematisiert. 2018 wurde das nationale Urheberrecht an die Erfordernisse der Wissensgesellschaft angeglichen und die in Kombination mit Vergütungspauschalen zulässigen nichtgewerblichen Nutzungsbefugnisse ausgeweitet.182 Zum einen wurde der Umfang der zulässigen Vervielfältigung geschützter Werke zu Bildungs-, Archivierungs- und Forschungszwecken ausgeweitet. Zum anderen wurde Text- und Data-Mining zu nichtkommerziellen Forschungszwecken im Urhebergesetz verankert. Dazu darf eine Vielzahl urheberrechtlich geschützter Werke automatisiert vervielfältigt werden (Ursprungsmaterial), um einen maschinell analysierbaren Korpus zu erstellen, der wiederum einem begrenzten Personenkreis für die gemeinsame wissenschaftliche Forschung sowie Dritten zur Prüfung der Resultate zugänglich gemacht werden darf. Um die Vorgaben der guten wissenschaftlichen Arbeit einhalten zu können, dürfen Vervielfältigungen des Ursprungmaterials und der erstellte Korpus langfristig in Bibliotheken und Forschungseinrichtungen archiviert werden (§ 60d Abs. 3 UrhG). Treiber für die Aufnahme von Text- und Data-Mining ins Urheberrecht waren vor allem die Entwicklungen bei digitalen Literaturdatenbanken und deren Recherchewerkzeuge zur Nutzung wissenschaftlicher Publikationen (ausführlicher z. B. Schüller-Zwierlein/Leiwesmayer 2018, S. 25 ff.). Diese Urheberrechtsreform wurde kontrovers diskutiert. Mehr als 100 Stellungnahmen gingen ein.183 Insbesondere wissenschaftsnahe Institutionen begrüßten die nutzerfreundlich ausgestalteten Schrankenbestimmungen und die Verankerung von Text- und Data- Mining im Urheberrecht. Kritik wurde vor allem von wirtschaftlich agierenden Organisationen geäußert. U.a. wurde auf die Unschärfe etlicher Begriffe hingewiesen, der Zeitpunkt als verfrüht bezeichnet (den diesbezüglichen europäischen Aktivitäten solle nicht vorgegriffen werden) und die Annahme bezweifelt, dass die Regelungen keinen oder kaum Einfluss auf die jeweiligen Marktstrukturen hätten. Aus der datenanalytischen Perspektive ergaben sich Herausforderungen u.a. zur Reichweite etlicher Begriffe, zum Auf- und Ausbau von Datenrepositorien und - infrastrukturen, die einen regelkonformen Datenzugang ermöglichen sollen, sowie zu nachhaltigen Geschäftsmodellen, einschließlich Kosten- und Erlösbeteiligungen. »Wissenschaftliche Forschung« und »nichtkommerzielle Zwecke« sind Kernbegriffe, deren Interpretation war und ist schwierig: Wie weit reichen diese Begriffe? Wo hören wissenschaftliche Forschung und nichtkommerzielle Datennutzung auf und wo fängt die gewerbliche Entwicklung von digitalen Produkten und Diensten an? 179 Verordnung (EU) Nr. 528/2012 des Europäischen Parlaments und des Rates vom 22. Mai 2012 über die Bereitstellung auf dem Markt und die Verwendung von Biozidprodukten Text von Bedeutung für den EWR 180 Charta der Grundrechte der Europäischen Union (2000 C 364/01) 181 In etlichen anderen Ländern, wie z.B. den USA, Großbritannien, Israel oder Südkorea gibt es keinen Vergütungsanspruch bei nichtkommerzieller Nutzung zu Bildungs- und Forschungszwecken (definiert durch Fair-Use-Klauseln im Copyright). 182 Gesetz zur Angleichung des Urheberrechts an die aktuellen Erfordernisse der Wissensgesellschaft (UrhWissG) 183 www.bmjv.de/SharedDocs/Gesetzgebungsverfahren/DE/UrhWissG.html (2.11.2021) Wo sind Citizen-Science-Ansätze zu verorten? Ist eine wissenschaftliche Forschung auch noch mit nichtkommerziellen Zwecken verknüpft, wenn ein Prototyp eines Modells oder Algorithmus für die Finalisierung und Einbettung in Anwendungssoftware in einem ausgegründeten Spin-off finalisiert oder an gewerbliche Entwickler veräußert wird? Wie sind Algorithmen zu bewerten, die perspektivisch u. a. in komplexere datenanalytische Software integriert oder auf digitalen Plattformen angeboten werden sollen und in gestuften Versionen kostenlose, werbefinanzierte oder kostenpflichtige Dienstleistungen ermöglichen? Wer entscheidet bei derartigen Fragen? Wie lassen sich die Vorgaben überwachen? Dürfen ausschließlich öffentliche oder akademische Einrichtungen bzw. öffentlich finanzierte Forschungsprojekte derartig privilegiert werden? Können die Potenziale von Text- und Data- Mining-Ansätzen ausgeschöpft werden, wenn der Digitalwirtschaft die Datennutzung verwehrt wird? 2018 wurde auch festgelegt, dass die Regelungen nach 4 Jahren evaluiert werden, um dann über deren Fortbestand zu entscheiden (§ 142 UrhG).184 Die nationale Urheberrechtsreform von 2018 griff den europäischen Aktivitäten vor. Die Richtlinie (EU) 2019/790 über das Urheberrecht und die verwandten Schutzrechte im digitalen Binnenmarkt (DSM-RL) enthielt ebenfalls Formulierungen zum Text- und Data-Mining, die eine weitere Anpassung des nationalen Urheberrecht bis Mitte 2021 erforderten, ohne dass die Ergebnisse der vereinbarten Evaluation vorlagen und berücksichtigt werden konnten. Mit dem Gesetz zur Anpassung des Urheberrechts an die Erfordernisse des digitalen Binnenmarktes wurden die europäischen Vorgaben 2021 in nationales Recht umgesetzt. › Zum einen wurden die Regelungen zum Text- und Data-Mining für wissenschaftliche Forschungszwecke angepasst: berechtigte Forschungsorganisationen und nichtkommerzielle Forschungszwecke wurden genauer definiert (§ 60d UrhG) und die pauschalierte Vergütung gestrichen (§ 60h Abs. 2 Nr. 3 UrhG). › Zum anderen wurde Text- und Data-Mining allgemein zugelassen, sofern Rechtsinhabende dem nicht widersprochen haben (Opt-out-Ansatz). Vervielfältigungen von digitalen Werken sind dafür zulässig und müssen im Anschluss gelöscht werden (§ 44b UrhG). Auch im Rahmen dieses Gesetzgebungsprozesses gaben unterschiedliche Institutionen Stellungnahmen ab.185 Umstritten sind die unterschiedlichen Verfahren für nichtkommerzielle Forschungszwecke und andere Absichten, die trotz begrifflicher Konkretisierung praxisfern seien, weil Data-Mining eine hochrelevante Technik der Digitalwirtschaft sei und man den Prozess im weiteren Sinne betrachten müsse, der vielfältige Algorithmen und Digitalprodukte hervorbringe, die kommerziell weiterverwendet würden. Umstritten ist auch die teilweise Vergütungsfreiheit. Einerseits ist die Verteilung der Vergütung aufwendig und kompliziert, zumal einzelne Werke bei Big-Data-Ansätzen nur einen minimalen Beitrag leisten und Data-Mining-Weiterverwendungen die primären Geschäftsmodelle nicht beeinträchtigen würden. Andererseits wird nicht berücksichtigt, dass viele kreativ Tätige, die Teile des Ursprungmaterials für Data-Mining schaffen, von ihrer Tätigkeit leben müssen und deshalb auch am sekundär erzeugten Mehrwert beteiligt werden wollen. Zudem wird darauf hingewiesen, dass die im Rahmen der nichtkommerziellen Forschung zulässige Archivierung von Ursprungsmaterial und Korpora zur Prüfung von Forschungsergebnissen aufwendig ist und früher oder später Fragen zur Sekundärnutzung aufwerfen wird. Mit der Urheberrechtsreform von 2018 hat der Deutsche Bundestag den Gesetzgeber aufgefordert, die 2018 eingeführten Regelungen nach 4 Jahren zu evaluieren. Dazu hat zum einen das Bundesministerium für Justiz vielfältige Akteure um Stellungnahmen gebeten und im Namen der Bundesregierung einen Evaluierungsbericht erstellt (Bundesregierung 2022). Ergänzend hat das Bundesministerium für Bildung und Forschung dazu eine Studie mit qualitativen Interviews in Auftrag gegeben, um die Sicht von Praktiker/innen zusätzlich einzuholen (Kreutzer/Fischer 202). Im Rahmen der Evaluation wurden die gesetzlichen Regelungen zum Text- und Data- Mining grundsätzlich als praktikabel bewertet. Die Abgrenzung zwischen nichtkommerzieller und kommerzieller Forschung sei in der Praxis oftmals schwierig. Rechtsunsicherheiten gebe es bezüglich des Personenkreises und der Dauer der Bereitstellung vervielfältigter Werke und erstellter Korpora, der Aufbewahrungsfristen sowie den Möglichkeiten und Grenzen der Nachnutzung dauerhaft gespeicherter Korpora (Bundesregierung 2022, S. 12). Unterschiedliche Positionen gab es zur praktischen Relevanz der Regeln zum Text- und Data-Mining. Einerseits wird auf die wachsende Bedeutung entsprechender Ansätze hingewiesen, andererseits gäbe es bisher nur eine moderate Nutzung geschützter Werke zum Text- und Data-Mining auf Basis von § 60d UrhG (Bundesregierung 2022, S. 56). 184 Der Evaluationsbericht soll dem Bundestag bis zum 1. März 2022 vorgelegt werden. Dazu erstellte Stellungnahmen unter www.bmj.de/SharedDocs/Gesetzgebungsverfahren/DE/UrhWissG_Evaluation.html; jsessionid=6869C726ED2EF3ECC400C13B3CA28E68.2_cid324?nn=6712350 (4.5.2022) 185 www.bmj.de/SharedDocs/Gesetzgebungsverfahren/DE/Gesetz_Anpassung-Urheberrecht-dig-Binnenmarkt.html (4.5.2022) Grenzen des Urheberrechts Die Regularien des Urheberrechts zum Text- und Data-Mining greifen nur bei Datenwerken und -beständen, die öffentlich zugänglich sind. Wissenschaftliche Bibliotheken als ein Treiber dieser Entwicklung halten in ihren Repositorien bisher vor allem wissenschaftliche Texte, in denen ein methodisches Vorgehen skizziert und erzielte Ergebnisse diskutiert werden, nicht aber die diesen Texten zugrundeliegenden Analysedatensätze. Aus der datenanalytischen Perspektive stellt sich vor allem die Frage nach der Zugänglichkeit zu expliziten Datenrepositorien und dem Auf- und Ausbau von Dateninfrastrukturen, die diesen Zugang rechtssicher gewährleisten sollen. Die Tatsache, dass Datenwerke und -bestände trotz Urheber- und Leistungsschutzrechten für Data-Mining zu wissenschaftlichen Forschungszwecken verwendet werden dürfen, sollte nicht darüber hinwegtäuschen, dass vielfältige, zunehmend maschinell generierte (Roh-)Datenbestände aufgrund der zu geringen Schöpfungs-, Leistungs- oder Investitionshöhe gar nicht vom Urheber- oder Leistungsschutzrecht erfasst werden. An derartigen Datenbeständen gibt es zwar formaljuristisch keine immateriellen Eigentumsrechte, jedoch ist die Stelle, die die Verfügungsgewalt über die datenerhebenden und -speichernden Medien hat, de facto im Besitz dieser Daten. Oftmals sind sie per se unzugänglich, weil die jeweilige datenverarbeitende Stelle Rechte auf Geschäftsgeheimnisse hat, weil es keine praktikablen Datenzugangsstrukturen gibt und/oder weil die Daten aufgrund ihrer Kritikalität auf gesetzlicher Grundlage geschützt werden müssen (z. B. Datenschutz-Grundverordnung oder Satellitendatensicherheitsgesetz). Die datenverarbeitende Stelle hat dadurch eine faktische Nutzungsexklusivität, auch wenn ihr urheberrechtlich keine exklusiven Verwertungsrechte zuerkannt werden. In der Auseinandersetzung um die rechtliche Weiterentwicklung des Umgangs mit Daten wird mitunter der Begriff des Dateneigentums diskutiert. In der rechtswissenschaftlichen Diskussion überwiegt derzeit die Skepsis gegenüber einem Dateneigentum. Expertengremien empfehlen immaterielle Eigentumsrechte an Daten nicht über das bestehende Maß hinaus zu vertiefen (DEK 2019, S. 18; KI-Enquete-Kommission 2020, S. 183). Bei personenbezogenen Daten würden damit eher neue Probleme entstehen. Wichtiger wäre es, den rechtskonformen Zugang zu Daten(beständen) und die Datennutzung stärker in den Blick zu nehmen. 8.2 Abbildungen Seite Abb. 2.1 Data-Mining: schematische Darstellung der Prozessschritte .......................................................................... 29 Abb. 2.2 Position der Choleraopfer und der Wasserbrunnen in London 1854 ......................................................................... 30 Abb. 2.3 Datenstrukturen (schematische Darstellung) ............................ 32 Abb. 2.4 Grobarchitektur von Datenhaltung und Analyse ...................... 36 Abb. 2.5 Teilung eines Analysedatenbestandes zur Kreuzvalidierung ...................................................................... 45 Abb. 3.1 Verschlüsselung, Pseudonymisierung, Anonymisierung und Vergröberung von Datensätzen ......................................... 75 Abb. 4.1 Erhebung medizinischer Datenbestände und deren Zugänglichkeit im Überblick .................................................... 105 Abb. 4.2 Radiologische Befundung von Mammografien ........................ 113 Abb. 4.3 Schematische Darstellung prognostischer Multigentests ......... 118 Abb. 4.4 Leistungsabrechnungsdaten der gesetzlichen Krankenversicherung ................................................................ 130 Abb. 5.1 Regionale MRSA-Diagnosen in Deutschland (2013) ............... 145 Abb. 5.2 Datenmodell: Nationaler Versorgungsdatenbestand ................ 158 Abb. 5.3 Vierfeldertafel zum Finden unerwünschter Arzneimittelwirkungen ............................................................. 165 8.3 Tabellen Tab. 2.1 Statistische Gütekriterien von Klassifikationsverfahren ........... 46 Tab. 3.1 Kritikalitätsstufen algorithmischer Systeme ............................. 89 Tab. 4.1 Programme zur Unterstützung med. Entscheidungen (Auswahl) ................................................................................. 122 8.4 Kästen Kasten 2.1 Codierungen von Objekten und Merkmalen (DIN 6763) ......... 34 Kasten 2.2 GAIA-X .................................................................................... 38 Kasten 2.3 Beispielhafte externe Prüfung voreingestellter Analysetools ... 48 Kasten 3.1 Kritische Infrastrukturen ........................................................... 54 Seite Kasten 3.2 Europäische Regulierungsinitiativen zur Verbesserung der Datennutzung ...................................................................... 56 Kasten 3.3 Open-Data-Konzepte ................................................................ 57 Kasten 3.4 Amtliche Geoinformationssysteme ATKIS und ALKIS .......... 59 Kasten 3.5 Rechtsgrundlagen der Geodateninfrastruktur ........................... 62 Kasten 3.6 Personenbezogene Daten besonderer Kategorie ....................... 69 Kasten 3.7 Reidentifizierungsexperiment ................................................... 76 Kasten 3.8 Einwilligungsmodelle ............................................................... 82 Kasten 4.1 Ärztliche Schweigepflicht und medizinische Daten ................. 93 Kasten 4.2 Standardisierung und Interoperabilität in der Medizin ............. 97 Kasten 4.3 Codierungen und Klassifikationen zur Leistungsabrechnung ................................................................ 127 Kasten 5.1 Data-Mining im Rahmen der Pharmakovigilanz (Beispiele)................................................................................. 162 Kasten 8.1 Leistungsschutz und Datennutzung im Produktrecht ............... 194 8.5 Abkürzungen ABDA Bundesvereinigung Deutscher Apothekerverbände AGB Allgemeine Geschäftsbedingungen AOK Allgemeine Ortskrankenkasse ARZ Apothekenrechenzentren BAN bundeseinheitliche Arztnummer (von den Ärztekammern an alle approbierten Ärzt/innen vergeben) BAS Bundesamt für Soziale Sicherung BDSG Bundesdatenschutzgesetz BfArM Bundesinstitut für Arzneimittel und Medizinprodukte BGB Bürgerliches Gesetzbuch BMBF Bundesministerium für Bildung und Forschung BMG Bundesgesundheitsministerium BMV-Ä Bundesmantelvertrag Ärzte BMWi Bundesministerium für Wirtschaft und Energie BSI Bundesamt für Sicherheit in der Informationstechnik BSNR Betriebsstättennummer (von den Kassenärztlichen Vereinigungen für Arztpraxen vergeben, die Leistungen zu Lasten der GKV erbringen) BStatG Bundesstatistikgesetzes CAD computer-assisted detection (Software medizinischen Bildbefundung) DAPI Deutsche Arzneiprüfungsinstitut DaTraV Datentransparenzverordnung DEK Datenethikkommission DFG Deutsche Forschungsgemeinschaft DGU Deutsche Gesellschaft für Unfallheilkunde DiGA digitale Gesundheitsanwendungen DIMDI Deutsches Institut für Medizinische Dokumentation und Information (seit 2020 Teil des BrArM) DIN Deutsches Institut für Normung DRG Diagnosis Related Groups (deutsch: diagnoseorientierte Fallgruppe) DSFA Datenschutz-Folgenabschätzung DSGVO Datenschutz-Grundverordnung DVG Digitale-Versorgung-Gesetz EBM Einheitlicher Bewertungsmaßstab FDA Food and Drug Administration (US-amerikanische Lebensmittel und Arzneimittel-Agentur) FDI Forschungsdateninfrastruktur G-BA Gemeinsamer Bundesausschusses GDI-DE Geodateninfrastruktur Deutschland G-DRG German Diagnosis Related Groups (nationale diagnoseassoziierte Fallpauschalen zur Vergütung stationärer Behandlungsleistungen) GeoZG Geodatenzugangsgesetz GG Grundgesetz GIS Geoinformationssystem GKK gesetzliche Krankenkasse GKV gesetzliche Krankenversicherung HPO Human Phenotype Ontology (eine an der Charité federführend entwickelte Ontologie zur Beschreibung menschlicher Phänotypen) ICD International Statistical Classification of Diseases and Related Health Problems (Internationale statistische Klassifikation der Krankheiten und verwandter Gesundheitsprobleme) ICGC International Cancer Genome Consortium ID Identifikations(nummer) IK Institutionenkennzeichen (von der Arbeitsgemeinschaft Institutionenkennzeichen vergeben für Einrichtungen zu Leistung Lasten jeglicher Sozialleistungsträger erbringen InEK Institut für das Entgeltsystem im Krankenhaus IT Informationstechnologie KBV Kassenärztliche Bundesvereinigung KI künstliche Intelligenz (Artificial Intelligence – AI) KNN künstliche neuronale Netze KV-Nr. Krankenversicherungsnummer KRITIS Kritische Infrastrukturen KVen Kassenärztliche Vereinigung(en) LANR lebenslange Arztnummer (von den Kassenärztlichen Vereinigungen für niedergelassene Ärzt/innen vergeben, die Leistungen zu Lasten der GKV erbringen) MBO-Ä Musterberufsordnung der in Deutschland tätigen Ärztinnen und Ärzte Morbi-RSA morbiditätsorientierter Risikostrukturausgleich mRNA messenger ribonucleic acid (deutsch auch Boten-Ribonukleinsäure) MRSA Methicillin-resistenter Staphylococcus aureus (auch multiresistente Keime) MSKCC Memorial Sloan Kettering Cancer Center NFDI Nationale Forschungsdateninfrastruktur NCT Nationales Centrum für Tumorerkrankungen (Heidelberg) PIS/KIS Praxis- oder Krankenhausinformationssysteme PKV private Krankenversicherung PPN Pharmacy Product Number (europäisches Nummernsystem für Arzneimittel) ProdHaftG Produkthaftungsgesetz PZN Pharmazentralnummer (nationales Nummernsystem für Arzneimittel) QS Qualitätssicherung RatSWD Rat für Sozial- und Wirtschaftsdaten RKI Robert Koch-Institut SGB Sozialgesetzbuch SNOMED Systematized Nomenclature of Medicine UAW unerwünschte Arzneimittelwirkungen UrhG Urheberrechtsgesetz WIdO wissenschaftliches Institut der Ortskrankenkassen Zi Zentralinstitut für die Kassenärztliche Versorgung Gesamtherstellung: H. Heenemann GmbH & Co. KG, Buch- und Offsetdruckerei, Bessemerstraße 83–91, 12103 Berlin, www.heenemann-druck.de Vertrieb: Bundesanzeiger Verlag GmbH, Postfach 10 05 34, 50445 Köln, Telefon (02 21) 97 66 83 40, Fax (02 21) 97 66 83 44, www.bundesanzeiger-verlag.de ISSN 0722-8333] Technikfolgenabschätzung (TA) Data-Mining - gesellschaftspolitische und rechtliche Herausforderungen 2023-01-09