Die R-Funktion substring() un­ter­stützt dich bei der Da­ten­auf­be­rei­tung für Analysen, etwa wenn du Textdaten in struk­tu­rier­te Formate bringen willst.

Was ist R substring() genau?

In R ist substring() eine Stan­dard­funk­ti­on, mit der du Teil­zei­chen­ket­ten aus einem String ex­tra­hierst. Du de­fi­nierst dabei exakt den Start- und Endpunkt, um den ge­wünsch­ten Bereich zu isolieren. Ob zur Da­ten­be­rei­ni­gung oder um gezielte Infos aus un­struk­tu­rier­tem Text zu ziehen – die Ein­satz­mög­lich­kei­ten sind viel­fäl­tig. So lassen sich bei­spiels­wei­se Post­leit­zah­len aus Adress­fel­dern oder Zeit­an­ga­ben aus Da­tums­stem­peln gewinnen.

Die substring()-Funktion bietet dir volle Kontrolle über Position und Länge der Auswahl. In der Da­ten­ana­ly­se ist sie daher ein wichtiges Werkzeug, um Textdaten für die weitere Ver­ar­bei­tung präzise vor­zu­be­rei­ten und zu struk­tu­rie­ren.

Die Syntax der substring()-Funktion in R

Die Funktion gibt eine ex­tra­hier­te Teil­zei­chen­ket­te aus. Dabei nutzt sie folgende Parameter:

substring(x, first, last)
R
  • x: Der Aus­gangs­text, aus dem du Teile ex­tra­hie­ren möchtest.
  • first: Der Index des ersten Zeichens für deinen neuen Teil­string.
  • last: Der Index des letzten Zeichens für deinen neuen Teil­string.

Hier siehst du ein Beispiel:

original_string <- "data analysis"
result <- substring(original_string, 1, 4)
print(result)
# Output: data
R

Dabei wählen wir den Bereich von Index 1 bis 4 aus dem String "data analysis" und speichern das Ergebnis in der Variable result. Das Ergebnis lautet "data"

Zum Hauptmenü