Articles → NLP → Sub-Word Tokenizer In NLP

Sub-Word Tokenizer In NLP

This article describes the sub-word tokenizer in NLP.

Purpose

Sub-word tokenization is a technique where text is split into smaller units, larger than characters but smaller than words. These units are called sub-words.

Install Libraries

To begin, install the transformers library.

pip install transformers

Example

from transformers import AutoTokenizer

# Load a pretrained tokenizer (e.g., BERT's WordPiece tokenizer)
tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")

text = "Playfulness makes NLP interesting"

# Tokenize
tokens = tokenizer.tokenize(text)
print("Subword Tokens:", tokens)

Output

Posted By -	Karan Gupta

Posted On -	Monday, September 15, 2025

Query/Feedback

Your Email Id		**

Subject		*

Query/Feedback	Characters remaining 250	**