R substring(): So filterst du Informationen aus Strings

Inhaltsverzeichnis

Die R-Funktion substring() unterstützt dich bei der Datenaufbereitung für Analysen, etwa wenn du Textdaten in strukturierte Formate bringen willst.

Was ist R substring() genau?

In R ist substring() eine Standardfunktion, mit der du Teilzeichenketten aus einem String extrahierst. Du definierst dabei exakt den Start- und Endpunkt, um den gewünschten Bereich zu isolieren. Ob zur Datenbereinigung oder um gezielte Infos aus unstrukturiertem Text zu ziehen – die Einsatzmöglichkeiten sind vielfältig. So lassen sich beispielsweise Postleitzahlen aus Adressfeldern oder Zeitangaben aus Datumsstempeln gewinnen.

Die substring()-Funktion bietet dir volle Kontrolle über Position und Länge der Auswahl. In der Datenanalyse ist sie daher ein wichtiges Werkzeug, um Textdaten für die weitere Verarbeitung präzise vorzubereiten und zu strukturieren.

Die Syntax der substring()-Funktion in R

Die Funktion gibt eine extrahierte Teilzeichenkette aus. Dabei nutzt sie folgende Parameter:

substring(x, first, last)

x: Der Ausgangstext, aus dem du Teile extrahieren möchtest.
first: Der Index des ersten Zeichens für deinen neuen Teilstring.
last: Der Index des letzten Zeichens für deinen neuen Teilstring.

Hier siehst du ein Beispiel:

original_string <- "data analysis"
result <- substring(original_string, 1, 4)
print(result)
# Output: data

Dabei wählen wir den Bereich von Index 1 bis 4 aus dem String "data analysis" und speichern das Ergebnis in der Variable result. Das Ergebnis lautet "data"

R substring(): So filterst du In­for­ma­tio­nen aus Strings

Was ist R substring() genau?

Die Syntax der substring()-Funktion in R

R substring(): So filterst du Informationen aus Strings