GPT-4o Omni: GPT-4o Language Tokenization

Understanding Tokenization

Before we dive into the specifics of GPT-4o's tokenization improvements, it's essential to understand what tokenization is and why it matters. Tokenization involves splitting text into individual tokens, which can be words, subwords, or characters. These tokens are then used as input for the language model. Effective tokenization is crucial for several reasons:

Efficiency: Fewer tokens mean faster processing and reduced computational cost.
Accuracy: Better tokenization leads to more accurate language understanding and generation.
Multilingual Support: Efficient tokenization across languages ensures the model can handle diverse linguistic inputs effectively.

GPT-4o’s Tokenization Advancements

GPT-4o’s new tokenizer has been optimized to achieve significant compression across different languages. This means that the same text can now be represented with fewer tokens, enhancing the model's efficiency and performance. The tokenizer’s effectiveness is illustrated by the improvements in tokenization for 20 representative languages, spanning various language families.

Gujarati: 4.4x Fewer Tokens

Original Tokens: 145
New Tokens: 33
Example:

Original: "હેલો, મારું નામ જીપીટી-4o છે. હું એક નવા પ્રકારનું ભાષા મોડલ છું. તમને મળીને સારું લાગ્યું!"
New: "હેલો, મારું નામ જીપીટી-4o છે. હું એક નવા પ્રકારનું ભાષા મોડલ છું. તમને મળીને સારું લાગ્યું!"

Telugu: 3.5x Fewer Tokens

Original Tokens: 159
New Tokens: 45
Example:

Original:"నమస్కారము, నా పేరు జీపీటీ-4o. నేను ఒక్క కొత్త రకమైన భాషా మోడల్ ని. మిమ్మల్ని కలిసినందుకు సంతోషం!"
New:"నమస్కారము, నా పేరు జీపీటీ-4o. నేను ఒక్క కొత్త రకమైన భాషా మోడల్ ని. మిమ్మల్ని కలిసినందుకు సంతోషం!"

Tamil: 3.3x Fewer Tokens

Original Tokens: 116
New Tokens: 35
Example:

Original: "வணக்கம், என் பெயர் ஜிபிடி-4o. நான் ஒரு புதிய வகை மொழி மாடல். உங்களை சந்தித்ததில் மகிழ்ச்சி!"
New: "வணக்கம், என் பெயர் ஜிபிடி-4o. நான் ஒரு புதிய வகை மொழி மாடல். உங்களை சந்தித்ததில் மகிழ்ச்சி!"

Marathi: 2.9x Fewer Tokens

Original Tokens: 96
New Tokens: 33
Example:

Original: "नमस्कार, माझे नाव जीपीटी-4o आहे. मी एक नवीन प्रकारची भाषा मॉडेल आहे. तुम्हाला भेटून आनंद झाला!"
New: "नमस्कार, माझे नाव जीपीटी-4o आहे. मी एक नवीन प्रकारची भाषा मॉडेल आहे. तुम्हाला भेटून आनंद झाला!"

Hindi: 2.9x Fewer Tokens

Original Tokens: 90
New Tokens: 31
Example:

Original: "नमस्ते, मेरा नाम जीपीटी-4o है। मैं एक नए प्रकार का भाषा मॉडल हूँ। आपसे मिलकर अच्छा लगा!"
New: "नमस्ते, मेरा नाम जीपीटी-4o है। मैं एक नए प्रकार का भाषा मॉडल हूँ। आपसे मिलकर अच्छा लगा!"

Urdu: 2.5x Fewer Tokens

Original Tokens: 82
New Tokens: 33
Example:

Original:"ہیلو، میرا نام جی پی ٹی-4o ہے۔ میں ایک نئے قسم کا زبان ماڈل ہوں، آپ سے مل کر اچھا لگا!"
New:"ہیلو، میرا نام جی پی ٹی-4o ہے۔ میں ایک نئے قسم کا زبان ماڈل ہوں، آپ سے مل کر اچھا لگا!"

Arabic: 2.0x Fewer Tokens

Original Tokens: 53
New Tokens: 26
Example:

Original:"مرحبًا، اسمي جي بي تي-4o. أنا نوع جديد من نموذج اللغة، سررت بلقائك!"
New:"مرحبًا، اسمي جي بي تي-4o. أنا نوع جديد من نموذج اللغة، سررت بلقائك!"

Persian: 1.9x Fewer Tokens

Original Tokens: 61
New Tokens: 32
Example:

Original: "سلام، اسم من جی پی تی-۴او است. من یک نوع جدیدی از مدل زبانی هستم، از ملاقات شما خوشبختم!"
New:"سلام، اسم من جی پی تی-۴او است. من یک نوع جدیدی از مدل زبانی هستم، از ملاقات شما خوشبختم!"

Russian: 1.7x Fewer Tokens

Original Tokens: 39
New Tokens: 23
Example:

Original:"Привет, меня зовут GPT-4o. Я — новая языковая модель, приятно познакомиться!"
New:"Привет, меня зовут GPT-4o. Я — новая языковая модель, приятно познакомиться!"

Korean: 1.7x Fewer Tokens

Original Tokens: 45
New Tokens: 27
Example:

Original:"안녕하세요, 제 이름은 GPT-4o입니다. 저는 새로운 유형의 언어 모델입니다, 만나서 반갑습니다!"
New:"안녕하세요, 제 이름은 GPT-4o입니다. 저는 새로운 유형의 언어 모델입니다, 만나서 반갑습니다!"

Vietnamese: 1.5x Fewer Tokens

Original Tokens: 46
New Tokens: 30
Example:

Original:"Xin chào, tên tôi là GPT-4o. Tôi là một loại mô hình ngôn ngữ mới, rất vui được gặp bạn!"
New:"Xin chào, tên tôi là GPT-4o. Tôi là một loại mô hình ngôn ngữ mới, rất vui được gặp bạn!"

Chinese: 1.4x Fewer Tokens

Original Tokens: 34
New Tokens: 24
Example:

Original:"你好，我的名字是GPT-4o。我是一种新型的语言模型，很高兴见到你!"
New:"你好，我的名字是GPT-4o。我是一种新型的语言模型，很高兴见到你!"

Japanese: 1.4x Fewer Tokens

Original Tokens: 37
New Tokens: 26
Example:

Original:"こんにちは、私の名前はGPT-4oです。私は新しいタイプの言語モデルです、初めまして!"
New:"こんにちは、私の名前はGPT-4oです。私は新しいタイプの言語モデルです、初めまして!"

Turkish: 1.3x Fewer Tokens

Original Tokens: 39
New Tokens:30
Example:

Original:"Merhaba, benim adım GPT-4o. Ben yeni bir dil modeli türüyüm, tanıştığımıza memnun oldum!"
New:"Merhaba, benim adım GPT-4o. Ben yeni bir dil modeli türüyüm, tanıştığımıza memnun oldum!"

Italian: 1.2x Fewer Tokens

Original Tokens: 34
New Tokens: 28
Example:

Original:"Ciao, mi chiamo GPT-4o. Sono un nuovo tipo di modello linguistico, è un piacere conoscerti!"
New:"Ciao, mi chiamo GPT-4o. Sono un nuovo tipo di modello linguistico, è un piacere conoscerti!"

German: 1.2x Fewer Tokens

Original Tokens: 34
New Tokens: 29
Example:

Original:"Hallo, mein Name ist GPT-4o. Ich bin ein neues KI-Sprachmodell. Es ist schön, dich kennenzulernen!"
New:"Hallo, mein Name ist GPT-4o. Ich bin ein neues KI-Sprachmodell. Es ist schön, dich kennenz"

Spanish: 1.1x Fewer Tokens (from 29 to 26)

Original Tokens: 29
New Tokens: 26
Example:

Original:"Hola, me llamo GPT-4o. Soy un nuevo tipo de modelo de lenguaje, ¡es un placer conocerte!"
New:"Hola, me llamo GPT-4o. Soy un nuevo tipo de modelo de lenguaje, ¡es un placer conocerte!"

Portuguese: 1.1x Fewer Tokens (from 30 to 27)

Original Tokens: 30
New Tokens:27
Example:

Original:"Olá, meu nome é GPT-4o. Sou um novo tipo de modelo de linguagem, é um prazer conhecê-lo!"
New:"Olá, meu nome é GPT-4o. Sou um novo tipo de modelo de linguagem, é um prazer conhecê-lo!"

French: 1.1x Fewer Tokens (from 31 to 28)

Original Tokens: 31
New Tokens: 28
Example:

Original:"Bonjour, je m'appelle GPT-4o. Je suis un nouveau type de modèle de langage, c'est un plaisir de vous rencontrer!"
New:"Bonjour, je m'appelle GPT-4o. Je suis un nouveau type de modèle de langage, c'est un plaisir de vous rencontrer!"

English: 1.1x Fewer Tokens (from 27 to 24)

Original Tokens: 27
New Tokens: 24
Example:

Original:"Hello, my name is GPT-4o. I'm a new type of language model, it's nice to meet you!"
New: "Hello, my name is GPT-4o. I'm a new type of language model, it's nice to meet you!"

GPT-4o Language Tokenization Enhancing Multilingual Efficiency