Data-Mining – Wikipedia
Unter Data-Mining [englisch data mining, aus englisch data ‚Daten‘ und englisch mine ‚graben‘, ‚abbauen‘, ‚fördern‘)[1] versteht man die systematische Anwendung statistischer Methoden auf große Datenbestände (insbesondere „Big Data“ bzw. Massendaten) mit dem Ziel, neue Querverbindungen und Trends zu erkennen. Solche Datenbestände werden aufgrund ihrer Größe mittels computergestützter Methoden verarbeitet. In der Praxis wurde der Unterbegriff Data-Mining auf den gesamten Prozess der sogenannten „Knowledge Discovery in Databases“ (englisch für Wissensentdeckung in Datenbanken; KDD) übertragen, der auch Schritte wie die Vorverarbeitung und Auswertung beinhaltet, während Data-Mining im engeren Sinne nur den eigentlichen Verarbeitungsschritt des Prozesses bezeichnet.[2]
] (vonDie Bezeichnung Data-Mining (eigentlich etwa „Abbau von Daten“) ist selbst irreführend, denn es geht um die Gewinnung von Wissen aus bereits vorhandenen Daten und nicht um die Generierung oder das Abgreifen von Daten selbst.[3] Die prägnante Bezeichnung hat sich dennoch durchgesetzt. Die reine Erfassung, Speicherung und Verarbeitung von großen Datenmengen wird gelegentlich ebenfalls mit dem Buzzword Data-Mining bezeichnet. Im wissenschaftlichen Kontext bezeichnet es primär die Extraktion von Wissen, das „gültig (im statistischen Sinne), bisher unbekannt und potentiell nützlich“[4] ist „zur Bestimmung bestimmter Regelmäßigkeiten, Gesetzmäßigkeiten und verborgener Zusammenhänge“.[5] Fayyad definiert es als „ein[en] Schritt des KDD-Prozesses, der darin besteht, Datenanalyse- und Entdeckungsalgorithmen anzuwenden, die unter akzeptablen Effizienzbegrenzungen eine spezielle Auflistung von Mustern (oder Modellen) der Daten liefern“.[2]
Das Schließen von Daten auf (hypothetische) Modelle wird als Statistische Inferenz bezeichnet.
Abgrenzung von anderen Fachbereichen
[Bearbeiten | Quelltext bearbeiten]Viele der im Data-Mining eingesetzten Verfahren stammen eigentlich aus der Statistik, insbesondere der multivariaten Statistik und werden oft nur in ihrer Komplexität für die Anwendung im Data-Mining angepasst, oft dabei zu Ungunsten der Genauigkeit approximiert. Der Verlust an Genauigkeit geht oft mit einem Verlust an statistischer Gültigkeit einher, so dass die Verfahren aus einer rein statistischen Sicht mitunter sogar „falsch“ sein können. Für die Anwendung im Data-Mining sind oft jedoch der experimentell verifizierte Nutzen und die akzeptable Laufzeit entscheidender als eine statistisch bewiesene Korrektheit.
Ebenfalls eng verwandt ist das Thema maschinelles Lernen, jedoch ist bei Data-Mining der Fokus auf dem Finden neuer Muster, während im maschinellen Lernen primär bekannte Muster vom Computer automatisch in neuen Daten wiedererkannt werden sollen. Eine einfache Trennung ist hier jedoch nicht immer möglich: Werden beispielsweise Assoziationsregeln aus den Daten extrahiert, so ist das ein Prozess, der den typischen Data-Mining-Aufgaben entspricht; die extrahierten Regeln erfüllen aber auch die Ziele des maschinellen Lernens. Umgekehrt ist der Teilbereich des unüberwachten Lernens aus dem maschinellen Lernen sehr eng mit Data-Mining verwandt. Verfahren aus dem maschinellen Lernen finden oft im Data-Mining Anwendung und umgekehrt.
Die Forschung im Bereich der Datenbanksysteme, insbesondere von Indexstrukturen spielt für das Data-Mining eine große Rolle, wenn es darum geht, die Komplexität zu reduzieren. Typische Aufgaben wie Nächste-Nachbarn-Suche können mit Hilfe eines geeigneten Datenbankindexes wesentlich beschleunigt werden und die Laufzeit eines Data-Mining-Algorithmus dadurch verbessert werden.
Das Information Retrieval (IR) ist ein weiteres Fachgebiet, das von Erkenntnissen des Data-Mining profitiert. Hier geht es vereinfacht gesprochen um die computergestützte Suche nach komplexen Inhalten, aber auch um die Präsentation für den Nutzer. Data-Mining-Verfahren wie die Clusteranalyse finden hier Anwendung, um die Suchergebnisse und ihre Präsentation für den Nutzer zu verbessern, beispielsweise indem man ähnliche Suchergebnisse gruppiert. Text Mining und Web Mining sind zwei Spezialisierungen des Data-Mining, die eng mit dem Information Retrieval verbunden sind.
Die Datenerhebung, also das Erfassen von Informationen in einer systematischen Art und Weise, ist eine wichtige Voraussetzung, um mit Hilfe von Data-Mining gültige Ergebnisse bekommen zu können. Wurden die Daten statistisch unsauber erhoben, so kann ein systematischer Fehler in den Daten vorliegen, der anschließend im Data-Mining-Schritt gefunden wird. Das Ergebnis ist dann unter Umständen keine Konsequenz der beobachteten Objekte, sondern verursacht durch die Art, in welcher die Daten erfasst wurden.
Deutsche Bezeichnung
[Bearbeiten | Quelltext bearbeiten]Eine etablierte deutsche Übersetzung für den englischen Terminus Data-Mining existiert bislang nicht.[6]
Es gibt verschiedene Versuche, eine sachlich in allen Aspekten zutreffende deutsche Bezeichnung für den ungenauen englischen Ausdruck zu finden. Der Duden[5] beschränkt sich auf den eingedeutschten Anglizismus „Data-Mining“ (engl. „data mining“). Vorschläge zur Eindeutschung sind beispielsweise „Datenmustererkennung“[7] (was oft als Wiedererkennung bestehender Muster missinterpretiert wird) und „Datenschürfung“ (was der Originalbedeutung nicht vollkommen gerecht wird). Der Fremdwörter-Duden verwendet als wörtliche Übersetzung „Datenförderung“, kennzeichnet dies aber als nicht passende Übersetzung.[8] Auch der gezielte Aufruf nach Vorschlägen durch die Zeitschrift für Künstliche Intelligenz brachte keine überzeugenden Vorschläge.[6] Keiner dieser Bezeichner konnte nennenswerte Verbreitung erreichen, oft da bestimmte Aspekte des Themas wie die Wissensentdeckung verloren gehen, und falsche Assoziationen wie zur Mustererkennung im Sinne von Bilderkennung entstehen.
Gelegentlich wird die deutsche Bezeichnung „Wissensentdeckung in Datenbanken“ (für das englische Knowledge Discovery in Databases) verwendet, die den gesamten Prozess umfasst, der auch den Data-Mining-Schritt enthält. Des Weiteren betont diese Bezeichnung sowohl die wissenschaftlichen Ansprüche, als auch, dass der Prozess in der Datenbank abläuft (und sich eben nicht beispielsweise ein Mensch durch Interpretation eine Meinung aus den Daten bildet).
Data-Mining-Prozess
[Bearbeiten | Quelltext bearbeiten]Data-Mining ist der eigentliche Analyseschritt des Knowledge Discovery in Databases Prozesses. Die Schritte des iterativen Prozesses sind grob umrissen:[4]
- Fokussieren: die Datenerhebung und Selektion, aber auch das Bestimmen bereits vorhandenen Wissens
- Vorverarbeitung: die Datenbereinigung, bei der Quellen integriert und Inkonsistenzen beseitigt werden, beispielsweise durch Entfernen oder Ergänzen von unvollständigen Datensätzen.
- Transformation in das passende Format für den Analyseschritt, beispielsweise durch Selektion von Attributen oder Diskretisierung der Werte
- Data-Mining, der eigentliche Analyseschritt
- Evaluation der gefundenen Muster durch den Experten und Kontrolle der erreichten Ziele
In weiteren Iterationen kann nun bereits gefundenes Wissen verwendet („in den Prozess integriert“) werden um in einem erneuten Durchlauf zusätzliche oder genauere Ergebnisse zu erhalten.
Aufgabenstellungen des Data-Mining
[Bearbeiten | Quelltext bearbeiten]Typische Aufgabenstellungen des Data-Mining sind:[2][4]
- Ausreißer-Erkennung: Identifizierung von ungewöhnlichen Datensätzen: Ausreißern, Fehlern, Änderungen
- Clusteranalyse: Gruppierung von Objekten aufgrund von Ähnlichkeiten
- Klassifikation: bisher nicht Klassen zugeordnete Elemente werden den bestehenden Klassen zugeordnet.
- Assoziationsanalyse: Identifizierung von Zusammenhängen und Abhängigkeiten in den Daten in Form von Regeln wie „Aus A und B folgt normalerweise C“.
- Regressionsanalyse: Identifizierung von Beziehungen zwischen (mehreren) abhängigen und unabhängigen Variablen
- Zusammenfassung: Reduktion des Datensatzes auf eine kompaktere Beschreibung ohne wesentlichen Informationsverlust
Diese Aufgabenstellungen können noch grob gegliedert werden in Beobachtungsprobleme (Ausreißer-Erkennung, Clusteranalyse) und Prognoseprobleme (Klassifikation, Regressionsanalyse).
Ausreißer-Erkennung
[Bearbeiten | Quelltext bearbeiten]In dieser Aufgabe werden Datenobjekte gesucht, die inkonsistent zu dem Rest der Daten sind, beispielsweise indem sie ungewöhnliche Attributswerte haben oder von einem generellen Trend abweichen. Das Verfahren Local Outlier Factor sucht beispielsweise Objekte, die eine von ihren Nachbarn deutlich abweichende Dichte aufweisen, man spricht hier von „dichtebasierter Ausreißer-Erkennung“.
Identifizierte Ausreißer werden oft anschließend manuell verifiziert und aus dem Datensatz ausgeblendet, da sie die Ergebnisse anderer Verfahren verschlechtern können. In manchen Anwendungsfällen wie der Betrugserkennung sind aber gerade die Ausreißer die interessanten Objekte.
Clusteranalyse
[Bearbeiten | Quelltext bearbeiten]Bei der Clusteranalyse geht es darum, Gruppen von Objekten zu identifizieren, die sich auf eine gewisse Art ähnlicher sind als andere Gruppen. Oft handelt es sich dabei um Häufungen im Datenraum, woher der Begriff Cluster kommt. Bei einer dichteverbundenen Clusteranalyse wie beispielsweise DBSCAN oder OPTICS können die Cluster aber beliebige Formen annehmen. Andere Verfahren wie der EM-Algorithmus oder k-Means-Algorithmus bevorzugen sphärische Cluster.
Objekte, die keinem Cluster zugeordnet wurden, können als Ausreißer im Sinne der zuvor genannten Ausreißer-Erkennung interpretiert werden.
Klassifikation
[Bearbeiten | Quelltext bearbeiten]Bei der Klassifikation geht es ähnlich der Clusteranalyse darum, Objekte Gruppen (hier als Klassen bezeichnet) zuzuordnen. Im Gegensatz zur Clusteranalyse sind hier aber in der Regel die Klassen vordefiniert (Beispielsweise: Fahrräder, Autos) und es werden Verfahren aus dem maschinellen Lernen eingesetzt um bisher nicht zugeordnete Objekte diesen Klassen zuzuordnen.
Assoziationsanalyse
[Bearbeiten | Quelltext bearbeiten]In der Assoziationsanalyse werden häufige Zusammenhänge in den Datensätzen gesucht und meist als Schlussregeln formuliert. Ein beliebtes (wenn auch anscheinend fiktives) Beispiel, das unter anderem in der Fernsehserie Numbers – Die Logik des Verbrechens erwähnt wurde, ist folgendes: bei der Warenkorbanalyse wurde festgestellt, dass die Produktkategorien „Windeln“ und „Bier“ überdurchschnittlich oft zusammen gekauft werden, meist dargestellt in Form einer Schlussregel „Kunde kauft Windeln Kunde kauft Bier“. Die Interpretation dieses Ergebnisses war, dass Männer, wenn sie von ihren Ehefrauen Windeln kaufen geschickt werden, sich gerne noch ein Bier mitnehmen. Durch Platzierung des Bierregals auf dem Weg von den Windeln zur Kasse konnte angeblich[9] der Bierverkauf weiter gesteigert werden.
Regressionsanalyse
[Bearbeiten | Quelltext bearbeiten]Bei der Regressionsanalyse wird der statistische Zusammenhang zwischen unterschiedlichen Attributen modelliert. Dies erlaubt unter anderem die Prognose von fehlenden Attributswerten, aber auch die Analyse der Abweichung analog zur Ausreißer-Erkennung. Verwendet man Erkenntnisse aus der Clusteranalyse und berechnet separate Modelle für jeden Cluster, so können typischerweise bessere Prognosen erstellt werden. Wird ein starker Zusammenhang festgestellt, so kann dieses Wissen auch gut für die Zusammenfassung genutzt werden.
Zusammenfassung
[Bearbeiten | Quelltext bearbeiten]Da Data-Mining oft auf große und komplexe Datenmengen angewendet wird, ist eine wichtige Aufgabe auch die Reduktion dieser Daten auf eine für den Nutzer handhabbare Menge. Insbesondere die Ausreißer-Erkennung identifiziert hierzu einzelne Objekte, die wichtig sein können; die Clusteranalyse identifiziert Gruppen von Objekten, bei denen es oft reicht, sie nur anhand einer Stichprobe zu untersuchen, was die Anzahl der zu untersuchenden Datenobjekte deutlich reduziert. Die Regressionsanalyse erlaubt es, redundante Informationen zu entfernen und reduziert so die Komplexität der Daten. Klassifikation, Assoziationsanalyse und Regressionsanalyse (zum Teil auch die Clusteranalyse) liefern zudem abstraktere Modelle der Daten.
Mit Hilfe dieser Ansätze wird sowohl die Analyse der Daten als auch beispielsweise deren Visualisierung (durch Stichproben und geringere Komplexität) vereinfacht.
Spezialisierungen
[Bearbeiten | Quelltext bearbeiten]Während die meisten Data-Mining-Verfahren versuchen, mit möglichst allgemeinen Daten umgehen zu können, gibt es auch Spezialisierungen für speziellere Datentypen.
Textmining
[Bearbeiten | Quelltext bearbeiten]Im Textmining geht es um die Analyse von großen textuellen Datenbeständen. Dies kann beispielsweise der Plagiats-Erkennung dienen oder um den Textbestand zu klassifizieren.
Webmining
[Bearbeiten | Quelltext bearbeiten]Beim Webmining geht es um die Analyse von verteilten Daten, wie es Internetseiten darstellen. Für die Erkennung von Clustern und Ausreißern werden hier aber nicht nur die Seiten selbst, sondern insbesondere auch die Beziehungen (Hyperlinks) der Seiten zueinander betrachtet. Durch die sich ständig ändernden Inhalte und die nicht garantierte Verfügbarkeit der Daten ergeben sich zusätzliche Herausforderungen. Dieser Themenbereich ist auch eng mit dem Information Retrieval verbunden.
Zeitreihenanalyse
[Bearbeiten | Quelltext bearbeiten]In der Zeitreihenanalyse spielen die temporalen Aspekte und Beziehungen eine große Rolle. Hier können mittels spezieller Distanzfunktionen wie der Dynamic-Time-Warping-Distanz bestehende Data-Mining-Verfahren verwendet werden, es werden aber auch spezialisierte Verfahren entwickelt. Eine wichtige Herausforderung besteht darin, Reihen mit einem ähnlichen Verlauf zu erkennen, auch wenn dieser etwas zeitlich versetzt ist, aber dennoch ähnliche Charakteristika aufweist.
Probleme des Data-Mining
[Bearbeiten | Quelltext bearbeiten]Daten-Defekte
[Bearbeiten | Quelltext bearbeiten]Viele der Probleme bei Data-Mining stammen aus einer ungenügenden Vorverarbeitung der Daten oder aus systematischen Fehlern und Verzerrung bei deren Erfassung. Diese Probleme sind oft statistischer Natur und müssen bereits bei der Erfassung gelöst werden: aus nicht repräsentativen Daten können keine repräsentativen Ergebnisse gewonnen werden. Hier sind ähnliche Aspekte zu beachten wie bei der Erstellung einer repräsentativen Stichprobe.
Parametrisierung
[Bearbeiten | Quelltext bearbeiten]Die im Data-Mining verwendeten Algorithmen haben oft mehrere Parameter, die geeignet zu wählen sind. Mit allen Parametern liefern sie gültige Ergebnisse, und die Parameter so zu wählen, dass die Ergebnisse auch nützlich sind, ist eine Aufgabe des Benutzers. Wählt man beim Clusteranalyse-Algorithmus DBSCAN beispielsweise die Parameter und klein, so findet der Algorithmus eine fein aufgelöste Struktur, neigt aber auch dazu, Cluster in kleine Stücke zu zerteilen. Wählt man die Parameter größer, so findet er nur noch die Hauptcluster, die jedoch schon bekannt sein können, und dadurch auch nicht hilfreich. Weiterentwickelte Methoden haben oft weniger Parameter oder diese Parameter sind leichter zu wählen. Beispielsweise ist OPTICS eine Weiterentwicklung von DBSCAN, die den Parameter weitgehend eliminiert.
Evaluation
[Bearbeiten | Quelltext bearbeiten]Die Bewertung von Data-Mining-Ergebnissen stellt den Benutzer vor das Problem, dass er einerseits neue Erkenntnisse gewinnen möchte, andererseits Verfahren dann nur schwer automatisiert bewerten kann. Bei Prognoseproblemen wie der Klassifikation, Regressionsanalyse und Assoziationsanalyse lässt sich hier die Prognose auf neuen Daten zur Bewertung verwenden. Bei Beschreibungsproblemen wie der Ausreißer-Erkennung und der Clusteranalyse ist dies schwieriger. Cluster werden meist intern oder extern bewertet, also anhand ihrer mathematischen Kompaktheit oder ihrer Übereinstimmung mit bekannten Klassen.[10] Die Ergebnisse von Ausreißer-Erkennungs-Verfahren werden mit bekannten Ausreißern verglichen. Bei beiden stellt sich jedoch die Frage, ob diese Bewertung wirklich zur Aufgabenstellung der „neuen Erkenntnisse“ passt und nicht letztlich die „Reproduktion alter Erkenntnisse“ bewertet.
Interpretation
[Bearbeiten | Quelltext bearbeiten]Als statistische Verfahren analysieren die Algorithmen die Daten ohne Hintergrundwissen über deren Bedeutung. Daher können die Verfahren meist nur einfache Modelle wie Gruppen oder Mittelwerte liefern. Oftmals sind die Ergebnisse als solche nicht mehr nachvollziehbar. Diese maschinell gewonnenen Ergebnisse müssen aber anschließend noch von dem Benutzer interpretiert werden, bevor man sie wirklich als Wissen bezeichnen kann.
Anwendungsgebiete
[Bearbeiten | Quelltext bearbeiten]Data-Mining in der Industrie
[Bearbeiten | Quelltext bearbeiten]Neben den Anwendungen in den verwandten Bereichen der Informatik findet Data-Mining auch zunehmend Einsatz in der Industrie:
- Entscheidungsunterstützungssystem
- Im Finanzsektor:
- Rechnungsprüfung zur Betrugserkennung
- Kreditscoring zur Bestimmung von Ausfallswahrscheinlichkeiten kann als klassisches Beispiel von Data-Mining gesehen werden
- Im Marketing:
- Marktsegmentierung, beispielsweise Kunden in Bezug auf ähnliches Kaufverhalten bzw. Interessen für gezielte Werbemaßnahmen
- Warenkorbanalyse zur Preisoptimierung und Produktplatzierung im Supermarkt
- Zielgruppen-Auswahl für Werbekampagnen
- Kundenprofil-Erstellung zum Management von Kundenbeziehungen in Customer-Relationship-Management-Systemen
- Business Intelligence
- Im Internet:
- Angriffserkennung
- Empfehlungsdienste für Produkte wie beispielsweise Filme und Musik
- Netzwerkanalyse in sozialen Netzwerken
- Web-Usage-Mining um das Nutzerverhalten zu analysieren
- Text Mining zur Analyse von großen Textbeständen
- Pharmakovigilanz (Arzneimittelüberwachung nach Marktzulassung im Hinblick auf unbekannte unerwünschte Ereignisse)
- Medizin
- Pflegewesen
- Bibliometrie
- Explorative Datenanalyse
- Prozessanalyse und -optimierung:
- Mit Hilfe des Data-Mining lassen sich technische Prozesse analysieren und die Zusammenhänge der einzelnen Prozessgrößen untereinander ermitteln. Dies hilft bei der Steuerung und Optimierung von Prozessen. Erste erfolgreiche Ansätze konnten bereits in der chemischen Industrie und Kunststoffverarbeitung erreicht werden.[11]
- Analyse von Produktdaten: auch Daten aus dem Produktlebenszyklus können mittels Data Mining analysiert werden. Diese Daten fallen insbesondere bei Wartung und Service an. Sie lassen sich zur Optimierung und Weiterentwicklung des Produktes verwenden und können dazu beitragen, Innovationen zu generieren[12].
Educational Data Mining
[Bearbeiten | Quelltext bearbeiten]Data Mining hat ebenfalls in der Lehre, vor allem der Hochschullehre Einzug erlangt. Im Bildungsbereich spricht man von Educational Data Mining, mit dem in der Pädagogik das Ziel verfolgt wird „aus einer riesigen Datenmenge überschaubare Typen, Profile, Zusammenhänge, Cluster und darauf bezogen typische Abfolgen, Zusammenhänge und kritische Werte zu ermitteln.“ Aus den ermittelten Daten werden Handlungsempfehlungen abgeleitet, um pädagogische Prozesse planen zu können.[13]
Rechtliche, moralische und psychologische Aspekte
[Bearbeiten | Quelltext bearbeiten]Data-Mining als wissenschaftliche Disziplin ist zunächst wertneutral. Die Verfahren erlauben die Analyse von Daten aus nahezu beliebigen Quellen, beispielsweise Messwerte von Bauteilen oder die Analyse von historischen Knochenfunden. Beziehen sich die analysierten Daten jedoch auf Personen, so entstehen wichtige rechtliche und moralische Probleme; typischerweise aber bereits bei der Erfassung und Speicherung dieser Daten, nicht erst bei der Analyse, und unabhängig von der konkret verwendeten Analysemethode (Statistik, Datenbankanfragen, Data-Mining, …).
Rechtliche Aspekte
[Bearbeiten | Quelltext bearbeiten]Daten, die unzulänglich anonymisiert wurden, können möglicherweise durch Datenanalyse wieder konkreten Personen zugeordnet (deanonymisiert) werden. Typischerweise wird man hier jedoch nicht Data-Mining einsetzen, sondern einfachere und spezialisierte Analysemethoden zur Deanonymisierung. Eine derartige Anwendung – und vor allem die unzulängliche Anonymisierung zuvor – sind dann möglicherweise illegal (nach dem Datenschutzrecht). So gelang es Forschern beispielsweise anhand weniger Fragen Nutzerprofile eindeutig in einem sozialen Netzwerk zu identifizieren.[14] Werden beispielsweise Bewegungsdaten nur pseudonymisiert, so kann mit einer einfachen Datenbankanfrage (technisch gesehen kein Data-Mining!) oft der Nutzer identifiziert werden, sobald man seinen Wohnort und Arbeitsplatz kennt: die meisten Personen können anhand der 2–3 Orte, an denen sie am meisten Zeit verbringen, eindeutig identifiziert werden.
Das Datenschutzrecht spricht allgemein von der „Erhebung, Verarbeitung oder Nutzung“ personenbezogener Daten, da diese Problematik nicht erst bei der Verwendung von Data-Mining auftritt, sondern auch bei der Verwendung anderer Analysemethoden (bspw. Statistik). Ein zuverlässiger Schutz vor einer missbräuchlichen Analyse ist nur möglich, indem die entsprechenden Daten gar nicht erst erfasst und gespeichert werden.
Moralische Aspekte
[Bearbeiten | Quelltext bearbeiten]Die Anwendung von Data-Mining-Verfahren auf personenbeziehbare Daten wirft auch moralische Fragen auf. Beispielsweise, ob ein Computerprogramm Menschen in „Klassen“ einteilen sollte. Zudem eignen sich viele der Verfahren zur Überwachung und für eine fortgeschrittene Rasterfahndung. So stellt beispielsweise der SCHUFA-Score eine durch Statistik, vielleicht auch Data-Mining, gewonnene Einteilung der Menschen in die Klassen „kreditwürdig“ und „nicht kreditwürdig“ dar und wird entsprechend kritisiert.
Psychologische Aspekte
[Bearbeiten | Quelltext bearbeiten]Data-Mining-Verfahren selbst arbeiten wertneutral und berechnen nur Wahrscheinlichkeiten, ohne die Bedeutung dieser Wahrscheinlichkeit zu kennen. Werden Menschen jedoch mit dem Ergebnis dieser Berechnungen konfrontiert, so kann das überraschte, beleidigte oder befremdete Reaktionen hervorrufen. Daher ist es wichtig abzuwägen, ob und wie man jemanden mit derartigen Ergebnissen konfrontiert.
Google gewährt seinen Nutzern Einblick in die für sie ermittelten Zielgruppen[15] – sofern kein Opt-out erfolgt ist – und liegt dabei oft falsch. Eine amerikanische Kaufhauskette kann aber anhand des Einkaufsverhaltens erkennen, ob eine Kundin schwanger ist.[16] Mit Hilfe dieser Information können gezielt Einkaufsgutscheine verschickt werden. Selbst eine Vorhersage des Datums der Geburt ist so möglich.
Softwarepakete für Data-Mining
[Bearbeiten | Quelltext bearbeiten]- Clustan mit Schwerpunkt statistische Verfahren zur Clusteranalyse
- Environment for DeveLoping KDD-Applications Supported by Index-Structures (ELKI) mit Schwerpunkten auf Clusteranalyse und Ausreißer-Erkennung
- Konstanz Information Miner (KNIME)
- Neural Designer mit Schwerpunkt Maschinelles Lernen
- PSPP Teil des GNU Projekts mit Schwerpunkt auf Statistische Analysen, Regressions-, Clusteranalyse, Open Source Alternative zu SPSS
- GNU R-Projekt mit Schwerpunkt Statistik, skript-/programmiersprachen-orientiert
- RapidMiner (früher YALE („Yet Another Learning Environment“)) mit Schwerpunkt Maschinelles Lernen, alle Phasen des gesamten Data-Mining-Prozess von der Datenintegration und -transformation (ETL-Prozess) über die Modellierung, automatische Optimierung und Evaluierung bis zur operativen Anwendung und Berichterstellung (Reporting) abdeckend
- Waikato Environment for Knowledge Analysis (WEKA) mit Schwerpunkt Maschinelles Lernen
- Scikit-learn mit Schwerpunkt Maschinelles Lernen
Literatur
[Bearbeiten | Quelltext bearbeiten]Folgende Literatur liefert einen Überblick über das Gebiet Data-Mining aus Sicht der Informatik.
Aufgaben- und anwendungsspezifische Literatur findet sich in den jeweiligen Artikeln.
- Martin Ester, Jörg Sander: Knowledge Discovery in Databases. Techniken und Anwendungen. Springer, Berlin 2000, ISBN 3-540-67328-8.
- Ian H. Witten, Eibe Frank, Mark A. Hall: Data Mining: Practical Machine Learning Tools and Techniques. 3. Auflage. Morgan Kaufmann, Burlington, MA 2011, ISBN 978-0-12-374856-0 (englisch, waikato.ac.nz – Software zum Buch: WEKA).
- Sholom M. Weiss, Nitin Indurkhya: Predictive Data Mining. A Practical Guide. Morgan Kaufmann, Burlington, MA 1997, ISBN 1-55860-403-0 (englisch).
- Jiawei Han, Micheline Kamber, Jian Pei: Data Mining: Concepts and Techniques. Morgan Kaufmann, Burlington, MA 2011, ISBN 978-0-12-381479-1 (englisch).
- Usama M. Fayyad, Gregory Piatetsky-Shapiro, Padhraic Smyth: From Data Mining to Knowledge Discovery in Databases. In: AI Magazine. Band 17, Nr. 3, 1996, S. 37–54 (englisch, kdnuggets.com [PDF]).
Weblinks
[Bearbeiten | Quelltext bearbeiten]Einzelnachweise
[Bearbeiten | Quelltext bearbeiten]- ↑ Eintrag Data-Mining. In: duden.de. Abgerufen am 18. Dezember 2016.
- ↑ a b c Usama M. Fayyad, Gregory Piatetsky-Shapiro, Padhraic Smyth: From Data Mining to Knowledge Discovery in Databases. In: AI Magazine. Band 17, Nr. 3, 1996, S. 37–54 (als PDF auf: kdnuggets.com).
- ↑ Jiawei Han, Micheline Kamber: Data mining: concepts and techniques. 1. Auflage. Morgan Kaufmann, 2001, ISBN 1-55860-489-8, S. 5 (Thus, data mining should habe been more appropriately named „knowledge mining from data,“ which is unfortunately somewhat long).
- ↑ a b c Martin Ester, Jörg Sander: Knowledge Discovery in Databases. Techniken und Anwendungen. Springer, Berlin 2000, ISBN 3-540-67328-8.
- ↑ a b Duden online: Duden: Data-Mining: Bedeutung, Rechtschreibung, Grammatik, Herkunft. Bibliographisches Institut, abgerufen am 9. August 2011.
- ↑ a b [Von der Zeitschrift „Künstliche Intelligenz“ …] „wurde ein Wettbewerb durchgeführt, einen adäquaten deutschen Begriff zu finden. Und so leid es mir tut, es wurde kein adäquater deutscher Begriff gefunden.“
Hans-Peter Kriegel: Datenbanktechniken zur Unterstützung des Wissenserwerbs. In: Heinz Mandl, Gabi Reinmann-Rothmeier (Hrsg.): Wissensmanagement: Informationszuwachs – Wissensschwund? Die strategische Bedeutung des Wissensmanagements. Oldenbourg, München/Wien 2000, ISBN 3-486-25386-7, S. 47–71. - ↑ N. Bissantz, J. Hagedorn: Data Mining. (Datenmustererkennung), In: Wirtschaftsinformatik. 35 (1993) 5, S. 481–487.
- ↑ Duden – Das Fremdwörterbuch: „engl. eigtl. ‚Datenförderung‘“
- ↑ Diese Geschichte ist vermutlich eine moderne Sage. Das Bier wird je nach Variante neben den Windeln, auf dem Weg zur Kasse oder am anderen Ende des Supermarktes (damit der Kunde an möglichst vielen weiteren Produkten vorbeigehen muss) platziert.
KDNuggets-Beitrag, der eine mögliche Quelle des Mythos erwähnt - ↑ I. Färber, S. Günnemann, H.-P. Kriegel, P. Kröger, E. Müller, E. Schubert, T. Seidl, A. Zimek: On Using Class-Labels in Evaluation of Clusterings. In: MultiClust: 1st International Workshop on Discovering, Summarizing and Using Multiple Clusterings Held in Conjunction with KDD 2010, Washington, DC. 2010 (als PDF auf: dbs.informatik.uni-muenchen.de).
- ↑ C. Kugler, T. Hochrein, M. Bastian, T. Froese: Verborgene Schätze in Datengräbern, QZ Qualität und Zuverlässigkeit, 2014, 3, S. 38–41.
- ↑ Wissen, was gefragt ist: Data Mining kann Innovationen beschleunigen. In: IPH. Abgerufen am 12. März 2018.
- ↑ Martin Schön & Martin Ebner: Das Gesammelte interpretieren. Educational Data Mining und Learning Analytics. In: Martin Ebner & Sandra Schön (Hrsg.): Lehrbuch für Lernen und Lehren mit Technologien. 2. Auflage. 2013, S. 1–2 (core.ac.uk [PDF]).
- ↑ Sicherheitslücke: IT-Forscher enttarnen Internetsurfer. In: Spiegel Online. Abgerufen am 7. Dezember 2011.
- ↑ Kontoeinstellungen: Ihr Browser wird nicht unterstützt. Abgerufen am 11. Dezember 2023.
- ↑ How Target Figured Out A Teen Girl Was Pregnant Before Her Father Did. In: Forbes.com. Abgerufen am 16. Februar 2012 (englisch).