Datenlebenszyklus

Ariadne zeigt größte Sorgfalt, wenn es um die Privatsphäre von Menschen geht. Dies ist einer der Grundwerte von Ariadne und hat einzigartige Ansätze entwickelt, um den Schutz der Privatsphäre zu ermöglichen!

Datenlebenszyklus

Der gesamte Lebenszyklus von Daten kann in drei Hauptschritten beschrieben werden, die in der folgenden Abbildung visuell dargestellt sind, die den Lebenszyklus von Daten in der Ariadne-Infrastruktur erläutert. Der erste Schritt ist die Datenerfassung. Der zweite Schritt sind die Daten Rundfunk und der dritte und letzte Schritt ist die Datenspeicherung.

Datenerhebung

Ariadne-Sachverständige sind für die Erfassung von Daten verantwortlich, die von Smartphones gesendet werden. Ariadne-Sachverständige sind nur über ein VPN-Netzwerk erreichbar. Die Verbindung zu den Vermessern wird nach einem asymmetrischen Verfahren verschlüsselt. Insbesondere wird der RSA-Algorithmus verwendet nach a Asymmetrischer 4096-Bit-Schlüssel. Eine begrenzte Anzahl von Benutzern hat Zugriff auf den Schlüssel. Eingehende Daten können anhand von drei Kategorien beschrieben werden.

Zufälliger Mac

Der erste und häufigste eingehende Informationsstrom sind randomisierte MAC-Adressen. Android und iOS verwenden randomisierte MAC-Adressen, wenn sie nach neuen Netzwerken suchen, obwohl sie derzeit keinem Netzwerk zugeordnet sind. Diese Informationen gelten seitdem als anonyme Informationen kann nicht mit einer Person in Verbindung gebracht werden. Insbesondere können viele zufällige MAC-Adressen mit einem einzelnen Telefon und viele Telefone mit einer einzelnen MAC-Adresse verbunden werden, wenn die MAC-Randomisierung aktiviert ist.

Statisch, aber nicht der echte MAC

Der zweite gemeinsame Datenstrom stammt von Geräten, die mit dem Netzwerk verbunden wurden. Hier ist die MAC-Adresse stabil, während sich das Telefon in der Prämisse befindet, jedoch ist die Adresse eine zufällige MAC-Adresse und kann es nicht mit dem Benutzer in Verbindung stehen. Wenn das Telefon getrennt und wieder mit dem Netzwerk verbunden wird, verwendet es wahrscheinlich eine andere MAC-Adresse.

Hash-ID

Ariadne Surveyor-Geräte erzeugten bei der Erkennung eines Signals eine Kennung, die dieses Signal mit dem Telefon verknüpfen kann. Diese ID muss mit dem Gerät verknüpft werden, da jeder Telefonstandort auf der Grundlage von Messwerten von mehreren Geräten berechnet wird. Wie Infolgedessen werden Telefone, die ihre gelesene MAC-Adresse verwenden, an dieser Stelle nur pseudo-anonymisiert.

Datenübertragung

Daten werden nach einer MQTT-Implementierung übertragen. Übertragene Daten werden mit TLS 1.2 mit der ECDHE-ECDSA-AES128-GCM-SHA256-Verschlüsselungssuite verschlüsselt. Wenn in der Cloud gesammelte Daten vorübergehend gehasht und basierend auf der geclustert werden pseudo-anonymisierte ID. In diesem Schritt werden die Standorte von Personen verbunden.

Salzinjektion

Nachdem der Standort berechnet wurde, wird dem Identifikator zufällig generiertes Salt injiziert und somit ein neuer Identifikator zugewiesen. Der Hash für die Injektion ändert sich täglich und daher gibt es keine Möglichkeit, den echten zu berechnen MAC-Adresse nicht mehr. Diese Daten können bereits als anonym betrachtet werden.

Differential Privacy Anonymization

In der Differential-Privacy-Komponente wird zufällig eine Hash-Funktion ausgewählt, mit der das/die identifizierbare(n) Merkmal(e) in einen gemeinsamen Hash-Raum gehasht werden. Dazu werden zwei oder mehr verschiedene Hash-Funktionen verwendet. Die Summe von Die Wahrscheinlichkeiten für die Auswahl einer Hash-Funktion müssen sich zu 1,0 summieren.Je gleichmäßiger verteilt die Wahrscheinlichkeiten für die Auswahl einer bestimmten Hash-Funktion sind, desto geringer ist die Chance, dass ein Angreifer das identifizierbare Attribut aus dem ausgegebenen Hash-Wert erraten kann erstellte ein lokales Muster, indem er die Anzahl der Vorkommen für jeden in den Ergebnissen erscheinenden Hash-Wert berechnete. Diese Anzahl von Vorkommen kann auch als Wahrscheinlichkeit dafür interpretiert werden, dass eine Person tatsächlich dort ist. Eine relativ niedrige Zahl (im Vergleich zu anderen Vorkommenszählungen) könnte dies implizieren Dieses gezählte gehashte Individuum war wahrscheinlich nicht wirklich vorhanden, sondern ist eher ein Ergebnis der Anwendung verschiedener Hash-Funktionen, die zu unterschiedlichen Hash-Werten für dasselbe Individuum führen. Wenn dieser Ansatz streamweise durchgeführt wird, kann die lokale Komponente das berechnete Muster an das bereits vorhandene Ausgabemuster des aktuellen Tages anhängen. Dies ist möglich, weil wir in der Wiederbesuchsanalyse an Wiederbesuchen interessiert sind, die verschiedene Tage berücksichtigen, und das Anhängen der Ausgabemuster in einem streamingweisen Modus die lokale Wahrscheinlichkeit erhöht, dass die Personen tatsächlich nur an dem bestimmten Tag dort sind. Nach dem Sammeln der lokalen Besuchsmuster, die bereits zu tagesseparierten Dateien aggregiert werden können, bestimmt die zentrale Komponente das Wiederbesuchsmuster, das angibt, wie viele Personen wahrscheinlich eine bestimmte Anzahl von Malen wiederkommen würden. Wenn verschiedene lokale Geräte Daten erfassen und lokale Muster für einen bestimmten Tag berechnen, kann die zentrale Komponente einfach anhängen die jeweiligen Muster zueinander, um das Gesamtmuster für den Tag zu erhalten. Um die Wiederbesuchsgruppenmitgliedschaft jedes Hash-Werts zu erhalten, wird eine in einem späteren Abschnitt beschriebene Funktion ausgeführt, die für das Erhalten der Wiederbesuchsgruppenmitgliedschaften verantwortlich ist.

K-Anonymity-Anonymisierung

In der K-Anonymity-Komponente wird eine für die Trajektorienanonymisierung angepasste Implementierung angewendet. Dieser Ansatz basiert auf einem Clustering ähnlicher Trajektorien und zielt auf optimale Lösungen mit den gegebenen Einschränkungen ab. Bei diesem Ansatz werden alle eingehenden Bündel von Daten werden in kleine Cluster geclustert. Eine gute Clusterübereinstimmung wird erkannt, wenn der Informationsverlust auf einem hohen Optimum bleibt, das über einen vordefinierten Schwellenwert identifiziert wird. In einem zweiten Schritt identifiziert der Algorithmus Datencluster, die entweder nicht weiter verzögert werden konnten oder sie sind perfekte Cluster gebildet haben, und sie löscht sie bzw. veröffentlicht sie. Genauer gesagt ruft die Clusterauswahl alle gebildeten Cluster aus einer Liste eingehender Daten ab und untersucht den Informationsverlust für jeden Cluster einzeln. Wenn es einen Cluster gibt, wo die der Informationsverlust unter der zulässigen Grenze liegt, dann wird der bestimmte Cluster Mitglied des Clusters Die Verzögerungsbeschränkungen werden basierend auf der minimalen Clustergröße und der maximal zulässigen Wartezeit definiert. Jede Verallgemeinerung von Clustern (mit geringem Informationsverlust) wird immer im Gedächtnis gehalten, um zur Reduzierung von Fusionen und Erhöhung der Informationsqualität zukünftiger Anonymisierungsversuche genutzt zu werden.

Datenspeicherung

Daten werden auf einem Server in Frankfurt, Deutschland, gespeichert und von Amazon Web Services Deutschland betrieben. AWS ist mit allen ISO-Zertifikaten und Vorschriften ausgestattet, um den Schutz der Daten zu gewährleisten. AWS verfügt insbesondere über eine Compliance-Zertifizierung mit ISO/IEC 27001:2013, 27017:2015, 27018:2019 und ISO/IEC 9001:2015 Ariadne Maps GmbH hat keine Outsourcing-Partner, daher kann niemand außer Ariadne Maps GmbH auf die gespeicherten Daten zugreifen Ariadne Maps GmbH streamt keine Informationen, die einer Person zugeordnet werden können, und speichert niemals Informationen, die einer einzelnen Person entsprechen, und löscht alle gesammelten Informationen in regelmäßigen Abständen. Ariadne Maps GmbH speichert nur aggregierte Daten, die nicht mit Personen verknüpft werden können und daher nicht in den Anwendungsbereich fallen DSGVO. Die Ariadne Maps GmbH hat ein Alarmprotokoll eingerichtet, das den Zugriff für nicht autorisierte Benutzer sofort blockiert und den Zugriff auf alle Dienste im Falle eines Passwortlecks blockiert. Dieses Protokoll wurde bereits getestet.

Datenzugriff

Auf Daten kann über eine grafische Benutzeroberfläche, also ein Dashboard, zugegriffen werden. Wie bereits erwähnt, betreffen alle Daten Personengruppen und keine Einzelpersonen. Auf das Dashboard kann nur über Benutzername und Passwort zugegriffen werden und alle Passwörter sind komplexe (mind. 8-stellige Groß-/Kleinschreibung, Zahlen und Sonderzeichen) werden erzwungen Benutzer können eigene Passwörter zurücksetzen und der Zugriff auf Daten ist verschlüsselt Daten werden nur über eine HTTPS-Verbindung übertragen Ein Protokollierungsmechanismus für Benutzerzugriffe ist vorhanden Ort und Daten werden nicht in außereuropäische Länder übertragen.