Überblick
Was wir aus den Data Science-Forschungen zu COVID-19 lernen können
Datenwissenschaftler können Ihr Fachwissen in den Bereichen Reinigung, Integration und Modellierung anwenden, um komplexe Fragen zu beleuchten.
Data Science in der Pandemie
Data Science hat gerade einen großen Auftritt, wenngleich auch nicht zum ersten Mal: Wie schon zu früheren Gelegenheiten, etwa bei den US-Wahlen 2008 und 2016, würde die Öffentlichkeit gerne mittels Daten die Zukunft der Gesellschaft vorherzusagen. Mal klappte das ganz gut, etwa "als die Demokraten den Datenkrieg 2008 gewannen". Mal klappte es weniger gut, etwa 2016, als die Daten bei der „Ausrufung einer Wahl versagten“. Aber erst im Jahr 2020, als die Regierungen weltweit ein Mittel gegen die Ausbreitung von COVID-19 suchten, wurde der Öffentlichkeit die Auswirkungen der Data Science auf unser aller Leben wirklich bewusst.
Allerdings stieg nicht nur das Bewusstsein für die Bedeutung von Daten, sondern auch für ihre Komplexität. Viele verschiedene Menschen veröffentlichen in sozialen Medien epidemiologische Diagramme und Kurven. Dabei werden sie regelmäßig in Meinungsverschiedenheiten darüber verwickelt, was diese Daten bedeuten und auf welche Modelle sie achten sollten.
Big Data-Spezialisten sind diese Diskussionen nicht fremd, im Unternehmensumfeld gibt es sie schon lange. Sie wissen, dass Meinungsverschiedenheiten unvermeidlich und sogar notwendig sind, um genauere Modelle zu entwickeln - solange diese Diskussionen kollegial ablaufen.
Innovation durch Zusammenarbeit
Wie Sarah Callaghan in der Zeitschrift Patterns schreibt: "Ich möchte alle Datenwissenschaftler, die bei diesen Modellierungsbemühungen helfen möchten, dringend bitten, nicht einfach die Daten zu erfassen und sie in ihre bevorzugte Analysesoftware einzuspeisen. Die Zahlen, die sich daraus ergeben, können erschreckend sein, insbesondere ohne das fachspezifische Wissen, mit dem Epidemiologen alles in einen Kontext stellen."
Callaghan fordert Datenwissenschaftler dazu auf, sich der Kaggle COVID-19 Open Research Dataset Challenge (CORD-19) anzuschließen, einer Antwort auf den Aufruf des Büros für Wissenschafts- und Technologiepolitik des Weißen Hauses, COVID-19-spezifische Fragen mit hoher Priorität anzugehen. Sie meint, dass die Kaggle-Challenge eine Gelegenheit ist, "bei der wir alle als Team zusammenarbeiten und unsere jeweiligen Stärken ausspielen können".
Für Unternehmen sind solche kollaborativen Initiativen eine gute Gelegenheit, um die Faktoren zu ermitteln, die eine Gruppe von Menschen binden und produktiv machen. Wenn solche Bemühungen auf eines der dringendsten Probleme unserer Welt seit langem gerichtet werden, ist die Schaffung effektiver kollaborativer Datenrichtlinien und -initiativen in Reichweite.
Hier sind einige konkrete Lektionen, die Unternehmen aus COVID-19 Data Science-Initiativen lernen können:
1. Sammeln Sie alle Daten
Das kontinuierliche Sammeln der Echtzeitdaten Ihres Unternehmens ist keine einfache Aufgabe. COVID deckte einen Mangel an verfügbaren Tests und die Abhängigkeit von manuell gesammelten und codierten Daten auf. Das belegt die Bedeutung von Infrastruktur und Prozessen, die für das Sammeln großer Datenbestände mit einer Vielzahl an Datentypen eingerichtet werden müssen. Wenn Sie Daten nicht genau erfassen, können Ihre Modelle verzerrt und Zeit für die Analyse vertrödelt werden.
Gerade im Unternehmen ist es wichtig, all Ihre Daten zu analysieren, nicht nur einige davon. Dieses Prinzip trieb uns an, als wir unsere Hybrid-Cloud-Datenanalysesoftware Vantage auf 100 Prozent der Daten eines Unternehmens angesetzt haben. Wir wussten, dass dieses hohe Maß an Transparenz der beste Weg für Geschäftsleiter sein würde, vorher unidentifizierte Verbindungen zu erkennen.
2. Daten offen und zugänglich machen
Organisationen und Teams werden immer bestrebt sein, ihre Daten für sich zu behalten. Wenn aber eine globale Krise wie eine Pandemie das Leben aller bedroht, lässt dieser „territoriale“ Instinkt schnell nach. Kollaboration und offene Daten werden dann immer wichtiger. Wie können Sie ein solches Maß an Offenheit und Zusammenarbeit auch bei geschäftskritischen Projekten erreichen?
Nun, die Zugänglichkeit von Daten beginnt mit Ihrer Governance, die für mehr als nur Integrität und Sicherheit sorgen sollte. Ihre Governance muss als Teil einer umfassenderen Datenanalyse-Strategie entwickelt werden. Erwägen Sie die Erstellung einer mehrschichtigen Datenarchitektur, mit der Sie die Kontrolle über Ihre Metadaten - z. B. Ihre Geschäftsregeln und Definitionskriterien - behalten und gleichzeitig Ihren Mitarbeitern den Zugriff auf Daten agil ermöglichen. Sie können beispielsweise rohe, unstrukturierte Datensätze für den Technical Data Scientist öffnen, aber strukturiertere und automatisiertere Schnittstellen für den Business Analyst einrichten. Beide Rollen haben die Freiheit, mit denselben Daten zu arbeiten und Erkenntnisse zu gewinnen, während Ihre Datensicherheit und -integrität intakt bleiben.
3. Community-Feedback und -Austausch fördern
Obwohl die Teilnehmer der COVID-19-Challenge von Kaggle um Preisgelder konkurrieren, diskutieren sie auch offen über Tools und Ansätze, die anderen bei der Entwicklung ihrer Data Science-Projekte helfen könnten. Die Kaggle-Teilnehmer geben den Organisatoren zudem regelmäßig Feedback, um die Challenge reibungsloser ablaufen zu lassen.
Das Unternehmen kann das gleiche Maß an Gemeinschaft und Unterstützung schaffen. Es muss nur eine Kultur des kontinuierlichen Lernens erzeugen, in der der Austausch von Ideen und die abteilungsübergreifende Zusammenarbeit belohnt werden. Bei Teradata haben wir eine Plattform namens Transcend, die wesentlich zu unserer Kultur des kollaborativen Lernens beiträgt. Unsere Mitarbeiter nutzen Transcend, um sicher mit unseren eigenen Unternehmensdaten zu experimentieren und zu sehen, wie andere Teams unsere Produkte und Dienstleistungen für die Bedürfnisse unserer Kunden zu optimieren versucht haben.
4. Integrieren und Freigeben von Daten, um die Erkennung einzuladen
Daten müssen im Kontext gesehen werden – nur so kann eine Community mit Antworten versorgt werden. Die Ingenieure der Johns Hopkins University haben dies früh verstanden, als sie die weit verbreitete COVID-19 Global Map mit Echtzeit-Falldaten aus der ganzen Welt erstellten.
Die Darstellung von Daten im Größenverhältnis oder der Vergleich mit anderen bekannten Ankerwerten kann Antworten aufdecken, die Daten isoliert niemals zeigen würden. Aus diesem Grund ist es so wichtig, Datensätze und -typen zu integrieren und Datenwissenschaftlern die Werkzeuge zur Visualisierung und Kommunikation des Kontexts zur Verfügung zu stellen. Durch die Bereitstellung dieses Kontexts - oft durch leicht verständliche Datenvisualisierungen - haben Datenwissenschaftler der Öffentlichkeit geholfen, die Bedrohung durch das Virus zu verstehen und Gegenmaßnahmen zu ergreifen.
Die Verantwortung eines Data Scientist
Obwohl Datenwissenschaftler nicht auf die gleiche Weise an vorderster Front dieser Pandemie stehen wie wichtige Arbeiter, haben sie immer noch eine entscheidende Rolle zu spielen - sogar eine Bürgerpflicht -, um sie zu bekämpfen. Datenwissenschaftler können ihre Expertise in der Bereinigung, Integration, Modellierung und Kommunikation von Daten einsetzen, um komplexe Fragen zu beleuchten. Wann immer Daten ein großer Knackpunkt sind (und das ist es häufig), kann der Data Scientist Hindernisse für das Verständnis beseitigen.
Unternehmensleiter wiederum haben die Verantwortung, die Hindernisse zu beseitigen, die jedem in der Organisation im Weg stehen, der Antworten in Daten finden könnte. Für ein Unternehmen mit einer florierenden Lernkultur tun dies oft viele Menschen, wenn der Weg frei ist, um einen sinnvollen Unterschied zu machen.