Articles → NLP → Regexp Tokenizer In NLP

Regexp Tokenizer In NLP

This article explains the regexp tokenizer in NLP.

Purpose

A regular expression (regexp) tokenizer splits text into tokens using regular expression (regex) patterns.

Example

Consider the following example: -

from nltk.tokenize import RegexpTokenizer

text = "I have 2 dogs, 3 cats, and a parrot!"

# Only words (no punctuation, no numbers)
tokenizer = RegexpTokenizer(r'[A-Za-z]+')
print(tokenizer.tokenize(text))
# Output: ['I', 'have', 'dogs', 'cats', 'and', 'a', 'parrot']

# Words + numbers
tokenizer = RegexpTokenizer(r'\w+')
print(tokenizer.tokenize(text))
# Output: ['I', 'have', '2', 'dogs', '3', 'cats', 'and', 'a', 'parrot']

Output

Posted By -	Karan Gupta

Posted On -	Saturday, August 23, 2025

Query/Feedback

Your Email Id		**

Subject		*

Query/Feedback	Characters remaining 250	**