Datenbereinigung zur Datenanalyse in der Soziologie

Die Datenbereinigung ist ein entscheidender Bestandteil der Datenanalyse, insbesondere wenn Sie Ihre eigenen quantitativen Daten erfassen. Nachdem Sie die Daten erfasst haben, müssen Sie sie in ein Computerprogramm wie SAS, SPSS oder Excel eingeben. Während dieses Vorgangs treten Fehler auf, unabhängig davon, ob dies von Hand oder von einem Computerscanner ausgeführt wird. Unabhängig davon, wie sorgfältig die Daten eingegeben wurden, sind Fehler unvermeidlich. Dies kann falsche Codierung, falsches Lesen von geschriebenen Codes, falsches Erfassen von geschwärzten Markierungen, fehlende Daten usw. bedeuten. Bei der Datenbereinigung werden diese Codierungsfehler erkannt und korrigiert.

Es gibt zwei Arten der Datenbereinigung, die für Datensätze durchgeführt werden müssen. Sie sind Code-Reinigung und Eventual-Reinigung möglich. Beides ist für den Datenanalyseprozess von entscheidender Bedeutung, da Sie bei Nichtbeachtung fast immer irreführende Forschungsergebnisse erzielen.

Mögliche-Code-Reinigung

Jede gegebene Variable verfügt über einen festgelegten Satz von Antwortmöglichkeiten und Codes, die zu jeder Antwortmöglichkeit passen. Zum Beispiel die Variable Geschlecht Es stehen drei Antwortoptionen und Codes zur Verfügung: 1 für männlich, 2 für weiblich und 0 für keine Antwort. Wenn Sie einen Befragten für diese Variable mit 6 codiert haben, liegt es auf der Hand, dass ein Fehler gemacht wurde, da dies kein möglicher Antwortcode ist. Beim Bereinigen von möglichen Codes wird überprüft, ob in der Datendatei nur die Codes enthalten sind, die den Antwortoptionen für jede Frage (mögliche Codes) zugewiesen sind.

Einige Computerprogramme und statistische Softwarepakete, die für die Dateneingabe verfügbar sind, überprüfen diese Art von Fehlern, während die Daten eingegeben werden. Hier definiert der Benutzer die möglichen Codes für jede Frage, bevor die Daten eingegeben werden. Wenn dann eine Zahl außerhalb der vordefinierten Möglichkeiten eingegeben wird, erscheint eine Fehlermeldung. Wenn der Benutzer beispielsweise versucht, eine 6 für das Geschlecht einzugeben, gibt der Computer möglicherweise einen Signalton aus und lehnt den Code ab. Andere Computerprogramme dienen zum Testen auf unzulässige Codes in vervollständigten Datendateien. Das heißt, wenn sie während des gerade beschriebenen Dateneingabevorgangs nicht überprüft wurden, gibt es Möglichkeiten, die Dateien nach Abschluss der Dateneingabe auf Codierungsfehler zu überprüfen.

Wenn Sie kein Computerprogramm verwenden, das während der Dateneingabe nach Codierungsfehlern sucht, können Sie einige Fehler ermitteln, indem Sie einfach die Verteilung der Antworten auf die einzelnen Elemente im Datensatz untersuchen. Beispielsweise könnten Sie eine Häufigkeitstabelle für die Variable generieren Geschlecht und hier würden Sie die Nummer 6 sehen, die falsch eingegeben wurde. Sie können dann nach diesem Eintrag in der Datendatei suchen und ihn korrigieren.

Notfallreinigung

Die zweite Art der Datenbereinigung wird als Kontingenzbereinigung bezeichnet und ist etwas komplizierter als die mögliche Codebereinigung. Die logische Struktur der Daten kann den Antworten bestimmter Befragter oder bestimmter Variablen bestimmte Grenzen setzen. Bei der Notfallbereinigung wird überprüft, ob solche Daten tatsächlich nur in den Fällen vorhanden sind, in denen Daten zu einer bestimmten Variablen vorliegen sollten. Angenommen, Sie haben einen Fragebogen, in dem Sie die Befragten fragen, wie oft sie schwanger waren. Bei allen weiblichen Befragten sollte eine Antwort in den Daten codiert sein. Männer sollten jedoch entweder leer gelassen werden oder einen speziellen Code für die Nichtbeantwortung haben. Wenn in den Daten Männchen mit 3 Schwangerschaften angegeben sind, wissen Sie, dass ein Fehler vorliegt, der korrigiert werden muss.

Verweise

Babbie, E. (2001). Die Praxis der Sozialforschung: 9. Auflage. Belmont, Kalifornien: Wadsworth Thomson.