Checkliste für die Dateneingabe mit Excel
Excel eignet sich nur eingeschränkt zur statistischen Auswertung klinischer Studien, aber zur Dateneingabe und Verwaltung bei medizinischen Studienarbeiten ist es brauchbar. Hier einige Rezepte, von Muss sein bis Das Beste zum Schluss.
Muss sein…
- Die Excel-Datei hat einen eindeutigen Namen einschließlich Erstellungsdatum oder Versionsnummer:
SchafFreiburgZK_1_0.xls
oderSchafFreiburgZK_10_10_09.xlsx
. Verwenden Sie aber nie einen Namen mitfinal.xls
, sonst… - Alle Arbeitsblätter haben einen explizit vergebenen Namen; also nicht nur
Tabelle1
, sondernStammzellen
. Zum Umbenennen: rechte Maustaste auf den Reiter unten, dannUmbenennen
. - Leere Arbeitsblätter oder Testseiten werden gelöscht.
- Die Daten werden in der Langform gespeichert: Jede Zeile ist selbstbeschreibend. Eine Zeile enthält die Daten eines Patienten, Probanden oder Versuchstiers; falls zu verschiedenen Zeiten und an verschiedenen Orten gemessen wurde, zusätzlich zur Patientennummer noch Zeit und den Ort zur vollständigen Beschreibung. Zum Test, ob alle Zeilen selbstbeschreibend sind, prüfen Sie, ob bei einer beliebigen Anordnung der Zeilen oder der Spalten die Bedeutung gleich bleibt.
- Der erste Tag einer Studie ist nicht Tag 1, sondern Tag 0.
- Die erste Zeile enthält nur die Kurznamen der Felder (Feldnamen), keinerlei weiteren Dekorationen
- Die Feldnamen bestehen aus nicht mehr als 8-10 Buchstaben, Ziffern, oder dem Unterstrich. Ausnahmen sind möglich, aber nur für eher unwichtige Felder. Denken Sie daran, dass die Namen in Tabellenüberschriften oder Bildbeschreibungen verwendet werden, dort sollte kein Platz verschwendet werden, aber trotzdem eine Identifikation möglich sein.
- Die Feldnamen beginnen mit einem Buchstaben und enthalten keine Sonderzeichen, Leerzeichen, Punkte oder Minuszeichen; das einzige sinnvolle Sonderzeichen ist der Unterstrich (_, rechts unten auf der Tastatur). Also nicht:
Feld 1
, sondernFeld1
oderfeld_1
. Umlaute und ß könnten verwendet werden, aber eine Kreuzworträtsel-Schreibweise wiegroesse
kann Ärger vermeiden. - Die Feldnamen folgen einem einheitlichen Schema, auch bei der Verwendung von Großbuchstaben und Sprache. Möglich sind (PatId, Alter, Groesse, BioOss0), aber nicht die Mischung (pat, age, Size, biooss_anfang). Englische Feldnamen sind für wissenschaftliche Publikationen zu bevorzugen. Sie können nur Kleinbuchstaben verwenden und Wortteile durch einen Unterstrich abtrennen, etwa
blutdruck_1
; dann aber bitte dieses Schema einheitlich verwenden. - Für den Feldnamen Patienten-Nummer wird
PatId
oderPatNr
oderpat_id
verwendet; wenn nur freiwillige Probanden beteiligt sind etwaSubjID
oderSubj
odersubject
; bei Tieren etwasheep_id
oderrat_id
. - Beschreibungen der Felder, soweit nicht eindeutig, werden als Kommentar in die Kopfzeile eingefügt (Rechte Maustaste/Kommentar).
- Falls mehrere Kopfspalten übersichtlich optisch zusammengefasst werden sollen (etwa: Laborwerte, Histologie), kann eine Hintergrundfarbe verwendet werden, nicht dagegen eine zusätzliche Zeile mit Text, die mehrere Spalten zusammenfasst.
- Die oberste Zeile des Datenblocks bleibt den Feldnamen vorbehalten, dann kommen Daten und nichts anderes. In einer Spalte stehen nur Zahlen oder nur Texte, keine Mischung. Falls Daten kommentiert werden müssen („Messgerät war hier unzuverlässig“), sind diese als Kommentar einzugeben.
- Bei Laborwerten wird die Maßeinheit in der Kopfzeile als Kommentar eingefügt.
- Farben können auch zum Markieren von Zeilen benutzt werden, etwa wenn Sie sich bestimmte Zeilen zum Überprüfen vormerken wollen.
- Die erste Spalte enthält die Patientennummer, die direkt folgenden Spalten Details zum Ort, Zeitpunkt oder zur Randomisierungsgruppe (beschreibende Werte). Die folgenden Spalten könnten also
visit
undtreatment
heißen. - Messwerte sind in den Spalten rechts von den beschreibenden Werten eingetragen.
- Einzelne Spalten mit Zwischengrößen, die Excel manchmal benötigt, können ausgeblendet werden. Spalte durch Doppelklick auf den Kopf (etwa A) auswählen, rechte Maustaste,
ausblenden
. - Alle Leerzeilen oder Leerspalten im Datenblock werden entfernt. Felder mit fehlende Daten werden leer gelassen, nicht mit NA bezeichnet. Auch wenn Sie im Statistikkurs etwas anderes gelernt haben: Verwenden Sie keine Ersatzgrößen, also etwa 999 oder -9, wenn eine Zahl fehlt, sondern lassen Sie das Feld leer. Wenn nur gelegentlich Felder leer sind, können Sie zur eigenen Erinnerung im Feld einen Kommentar hinterlegen, etwa ‘Messgerät defekt’ oder ’Aufzeichnung nicht lesbar`.
- Heutige Programme können mit leeren Feldern gut umgehen, und selbst Excel rechnet manchmal richtig, wenn ein Feld leer ist, etwa bei Mittelwerten. Überraschenderweise sieht aber Excel manchmal in leeren Feldern auch eine Null. Prüfen Sie dies, indem Sie eine Null (0) in ein leeres Feld eingeben; wenn sich der aus dem Feld berechnete Wert nicht ändert, dann hat Excel gedacht (… oder eher entschieden), dass ein leeres Feld Null bedeutet. Dann müssen Sie sich etwas anderes überlegen, es gibt keine einfache Lösung.
- Jede Spalte hat eine einheitliche Anzahl Kommastellen, und zwar möglichst wenige. Schnelle Übersicht ist wichtiger als Scheingenauigkeit, mehr als drei Ziffern sind in der Medizin selten relevant. Das Ausblenden von überflüssigen Kommastellen (Format/Zellen) ist insbesondere bei berechneten Spalten wichtig. Sie können und sollen Kommastellen beliebig ausblenden, denn intern wird die Zahl dadurch nicht verändert, und auch Statistikprogramme lesen immer 3.14159, auch wenn nur 3.1 sichtbar ist. Es gibt keine Ausreden, dass das Putzen von Kommastellen “viel Arbeit” ist: Bereich anwählen, dann dies Schaltfläche oben anklicken bis es passt:
- Spalten, die Zählungen (= Anzahl der Kniebeugen) enthalten, werden nie mit Kommastellen dargestellt; es soll also 23, nicht 23.00 erscheinen.
- Patienten können Sie mit Nummern oder mit Codes (AWS02 oder P03) kodieren. Verwenden Sie so viele führende Nullen, dass alle Patienten die gleiche Anzahl Zeichen haben, also etwas P03, nicht P3, wenn Sie mehr als 9 Patienten haben. Grund: falls Sie die Null vergessen, wird falsch sortiert: P19, P2, P20.
- Nummerische Spalten werden immer rechtsbündig, Textspalten immer linksbündig dargestellt; in der Standardeinstellung macht Excel das automatisch. Zentrierte Texte sind nur in der Kopfzeile erlaubt. Falls in einer Spalte mit rechtsbündigen Zahlen eine plötzlich und unerklärlich linksbündig steht, dann haben Sie versehentlich Text eingegeben; etwa ein Buchstabe ‘o’ anstelle einer Null; oder Sie haben den falschen Dezimaltrenner benutze, also Punkt oder Komma, je nach Einstellung am Rechner.
- Behandlungsgruppen oder Patientengruppen werden nicht nummerisch kodiert (1, 2), sondern mit einem nicht zu langen Textfeld, etwa
pla
für Placebo,antib
für Antibiotika - Das Geschlecht kodieren Sie mit
m
undf
, oderm
undw
, nicht mit 0 und 1. Verwenden Sie Ziffern nur bei Mess- oder Zählwerten. In der Großindustrie, die sehr lange an uralten SOPs festhält, ist die Codierung mit Ziffern noch üblich, und der Prof hat vielleicht mal dort gearbeitet. Wenn Sie für die Großindustrie arbeiten, verwenden Sie aber auch kein Excel zur Dateneingabe. - Verwenden Sie also kurze Text-Bezeichner, wenn die Größen nicht geordnet sind, wie etwa bei Geschlecht oder Behandlung. Wenn die Größen geordnet sind (rauche nicht, 20-39 pro Tag, 40 pro Tag), können Sie eine nummerische Kodierung (0, 1, 2) zu verwenden. Wenn einer der Werte für “kein” oder “nie” steht, weisen Sie dem eine Null zu; wenn es “Kein” nicht gibt, etwas bei Altergruppen, beginnen Sie mit 1. Damit die Beschriftungen von Tabellen und Grafiken besser verständlich werden, können Sie auch eine gemischte Bezeichnung verwenden, etwa: 0_nein, 1_exposition_5_mm, 2_exposition_10mm, 3_osteolyse; mit dieser Kennzeichnung wird die Sortierreihenfolge erzwungen.
- Likert-Skalen sind ein wichtiger Sonderfall von geordneten Größen. Ich empfehle folgende Kodierung: trifft zu (2), trifft eher zu (1), teils-teils (0), trifft eher nicht zu (-1), trifft nicht zu (-2), weil sich dann bei Mittelwertbildung Zustimmung mit positiven Zahlen, Ablehnung mit negativen Zahlen ausdrückt. In Wikipedia finden Sie eine etwas andere Kodierung, die auch brauchbar ist.
Beispiel für Dateneingabe. Die Daten sind als echte Tabelle formatiert, es erscheinen dann automatisch die Dropdown-Buttons. Die Spaltenüberschriften sind senkrecht angeordnet, damit sie weniger Breite einnehmen, und so ausgerichtet, dass der Text nicht mit den Drop-Down-Buttons kollidiert — siehe Bildausschnitt rechts. Alle Spaltenüberschriften haben einen Kommentar, zu erkennen am roten Haken oben rechts. Überflüssige Spalten rechts und unten sind ausgeblendet. Geschlecht, Behandlungsgruppe und Diabetes sind mit Kurznamen, nicht mit Zahlencodes kodiert. Um die Blutdruckwerte (sys, dia) bei den beiden Visiten optisch zu trennen, wurden sie farblich hervorgehoben; Sie können auch nur die Kopfzeile farblich markieren, das ist manchmal übersichtlicher. Verwenden Sie zur Farbmarkierung ungesättigte Farben, nicht knallrot, das sieht nach 2. Jahrtausend aus.
Macht das Leben leichter…
- Alle Spalten werden durch Doppelklick auf den Trenner in der Kopfzeile auf kleinstmögliche Breite formatiert. Bei vielen Spalten den gesamten Bereich anwählen (Strg-A) und dann mit
Format/Spaltenbreite
automatisch anpassen. - Einen besseren Überblick über die Daten bekommen Sie, wenn Sie die Feldnamen in der ersten Spalte vertikal anordnet und eine kleinere Fettschrift verwendet:
- Die oberste Zeile und die Spalte mit Patientennummern werden fixiert, damit sie immer sichtbar bleiben. Dazu in das Feld B2 gehen, und
Ansicht/Fenster Fixieren
wählen. - Wenn Sie überflüssige Zeilen und Spalten unten und am rechten Rand ausblenden, verbessert das den Überblick. Dann können Sie schneller blättern, und landen nicht immer wieder im Niemandsland. Dazu die erste Leerspalte rechts durch Klick auf die Kopfzeile anwählen;
Shift
gedrückt halten (nicht loslassen),Ende, Pfeil rechts
. Dadurch wird der Bereich angewählt. Rechte Maustaste,Ausblenden
. Unten analog:Shift
Taste gedrückt halten,Ende
,Pfeil unten
. - Probieren Sie auch mal
Ende, Pfeil rechts
mit und ohne gedrückte Shift-Taste, wenn Sie vorher im Datenbereich waren. Und auchEnde
,Pfeil unten
. Aus die Mauserei, mit Tastatur geht’s alles schneller!
- Mit der Funktion Filter können Sie schnell die größten und die kleinsten Werte in einer Spalte erkennen, und so prüfen, ob nicht eventuell Ausreißer durch Tippfehler in einer Spalte vorliegen. Am häufigsten sind Eingabefehler, bei denen der Dezimalpunkt und das Dezimalkomma — je nach Systemeinstellung — vermischt werden. Eine Mischung von
1.3
und1,5
(haben Sie’s gemerkt?) in einer Spalte verdaut Excel klaglos, aber beim Rechnen gibt es Fehlermeldungen. Zumindest, wenn man Glück hat; mit Pech ist das Ergebnis schlicht falsch und keiner hat es gemerkt. - Wenn Sie vermeiden wollen, dass Sie solche Fehler bei der Dateneingabe machen, können Sie Felder mit einer Datenprüfung versehen; Details gibt es unter diesem Stichwort in der Excel-Hilfe oder im Internet, etwa hier.
Weiterhin empfiehlt der Koch…
* Noch komfortabler als mit dem Filter bekommen Sie den Überblick, wenn Sie den Bereich in eine echte Tabelle umwandeln. Wählen Sie den gesamten Datenbereich an, und dann Als Tabelle Formatieren
. Welches Farbschema Sie verwenden, ist gleichgültig, die Farbe ist nur Dekoration. Sie können nun die Reihenfolge der Zeilen durch Sortieren beliebig ändern und die Sortierung wieder rückgängig machen, ohne befürchten zu müssen, dass einzelne Spalten durcheinander geraten. Das Kopieren von Formeln innerhalb einer Spalte sparen Sie sich auch: einfach ganz oben die Formel einmal einfügen, kopiert wird automatisch. * Wenn Sie eine echte Tabelle verwenden, können Sie Ihre Verweise auch zu Spaltennamen machen. Beispiel: Sie wollen den BMI aus Gewicht in kg und Körpergröße in cm berechnen, und haben die Spalten weight
(Spalte D) und height
(Spalte E). So wird der BMI üblicherweise in einer Formel berechnet, wenn der Bereich keine echte Tabelle ist:
- Und so geht es, wenn Sie den Bereich in eine echte Tabelle umgewandelt haben. Besonders dann, wenn die Felder nicht in der Nähe liegen, versteht man bei dieser Variante besser, was gemacht wird, und findet Fehler leichter. Wenn Sie die Formel schreiben und die öffnende Klammer
[
eingeben, erscheint sogar eine Liste mit Vorschlägen, aus denen Sie auswählen können.
Statistik mit Excel
Die Statistikfunktionen in Excel sind lieblos gemacht, geben teilweise falsche Ergebnisse und wurden seit Jahrzehnten nicht mehr auf einen besseren Stand gebracht; die verwendete Terminologie weicht von der üblichen nach Microsoft-Gusto ab. Außerdem sind Apple-Besitzer im Nachteil, denn dort sind die Statistik-Funktionen erst ab Excel 2016 vorhanden; da hat wohl die Qualitätskontrolle von Apple einen Strich durch die Rechnung gemacht. Besseres ist leider nicht einfach zu erhalten, die Löhnware, zum Beispiel XLSTAT, ist eher für den Markt der Wirtschafts-Informatiker gemacht.
In der Windows-Version finden Sie die Statistikfunktionen auf der Seite Daten
ganz rechts im Block Datenanalyse
. Falls dieser Block nicht sichtbar ist, gehen Sie auf Datei/Optionen
, und aktivieren die Analyse-Funktionen. Die Analyse-Funktionen - VBA benötigen sie normalerweise nicht.
Excels schlimmster Bug
Ich empfehle, alle Daten einer Studie auf dem ersten Arbeitsblatt im Excel-Worksheet zu halten, damit Sie den Überblick behalten; nennen wir dieses Blatt Daten
. Leider breitet sich die Datenwüste oft über ziemlich vielen Spalten aus, und Sie möchten die Auswertung auf Unterseiten machen, auf denen nur wenige wichtige Spalten sichtbar sind, die Sie für diese Teilauswertung benötigen.
Natürlich können Sie mit Copy/Paste die entscheidenden Spalten herausnehmen und diese auf eine neue Seite übertragen. Aber was passiert, wenn Sie weitere Daten hinzufügen oder Fehler auf der Datenseite korrigieren? Denken Sie wirklich daran, alle Änderungen auch in die Auswertung zu übertragen? Ich nicht…
Es gibt eine Lösung… aber nur fast, weil Microsoft das in der ersten Version von Excel vermasselt hat und es jetzt nicht mehr ändern kann. Angenommen, auf der Datenseite haben Sie folgendes:
Der Wert in Feld B3 fehlt, deshalb ist das Feld leer. Sie wollen diese Werte nur auch auf der Statistik
-Seite sehen, aber so, dass Änderungen an der Datenseite sich hier spiegeln. Das geht einfach: Schreiben Sie
=Daten!A1
in das Feld A1
auf der Statistikseite; Excel holt sich dann das Ergebnis live von der Seite Daten
. Kopieren Sie die Formel in den Bereich A1..B4
Perfekt? Fast. In Feld B3
steht eine 0 (Null!) anstelle eines Leerfeldes. Leider kommen in der Medizin immer wieder Leerfelder vor, die ganz sicher nicht Null bedeuten. Es gibt eine nicht sehr befriedigende Alternative: verwenden Sie folgende Formel für Feld A1:
=WENN(Daten!A1 = "", "",Daten!A1)
In Worten: Wenn das Feld A1
auf der Seite Daten
leer ist, dann fülle die leere Zeichenfolge ""
ein; sonst nehme den Wert von A1. Je nach Einstellung Ihres Computers müssen Sie in der obigen Formel ein ;
anstelle eines Kommas ,
verwenden; darauf werden Sie aber bei der Eingabe aufmerksam gemacht. Diese Formel kopieren Sie in alle Zielfelder. Die Lösung ist deshalb unschön, weil für Excel die leere Zeichenfolge ""
etwas anderes ist als ein Leerfeld, auch wenn man es nicht sieht. Bisher ist es aber noch nicht schief gegangen; oder vielleicht doch, und ich habe es nicht gemerkt?
Das Beste zum Schluss: Pivot-Tabellen
Nach Excels größten Sünden nun zum Excels bestem Feature, das leider viel zu selten verwendet wird: Pivot-Tabellen und Pivot-Graphiken können bei der Erstellung von Tabellen und Kreuztabellen sehr, sehr hilfreich sein. Sie brauchen ein paar Stunden, um die Möglichkeiten an einfachen Beispielen auszuprobieren, aber die Investition zahlt sich ganz sicher aus. Dokumentation finden Sie auf den Hilfe-Seiten und im Internet. Leider können Sie damit keine statistischen Test berechnen; wenn Sie mit Leichtigkeit ein paar Seiten in der Arbeit füllen können, ist aber auch ganz nett.
Zum Anbeißen ein Beispiel: Verschiedene Dosierungen einer Medikaments, und wie oft dies Wirksamkeit als Sehr gut, .. ungenügend bewertet wurde. ____ Eine Pivot-Tabelle; wenn Sie diese in die Arbeit übernehmen wollen, sollten Sie die Spalten- und Zeilenbeschriftungen etwas gutachterfreundlicher gestalten, also etwas “Anzahl von ID Zeilenbeschriftungen” und “Spaltenbeschriftung” weglassen. ____ Versuchen Sie diese Tabelle mal auf konventionelle Art zu erstellen!