トークン

トークンとは、文章をモデルが理解できる最小の単位に分解したものです。
自然言語処理の世界では、文をそのまま扱うのではなく、小さな単位に切り分けて処理します。その「切り分けられたかけら」がトークンです。

例：「私は薬剤師です。」
→「私」「は」「薬」「剤」「師」「です」「。」のように切り分けられる。
（実際にはモデルや分割方式によって異なります）

生成AIが文章を生成する際、単語そのものではなく、トークン単位で確率的に次の出力を予測しています。例えば「おはよう」と入力したとき、次に来るトークンが「ござい（『ございます』のかけら）」なのか「。」なのかを確率で判断して出力します。これにより文が自然につながるようになっています。

トークンは必ずしも「1文字＝1トークン」「1単語＝1トークン」とは限りません。

ChatGPTやGeminiなどのサービスをAPI経由で組み込む場合は、その利用料金はトークン数に比例して決まることがほとんどです。入力トークンと出力トークンの合計で計算されるため、長文を扱うとその分料金が高くなります。

ブラウザやアプリで直接使用する場合は、それほどトークンのことを気にしなくても良いのですが、各モデルには「最大トークン数」が存在し、それを超えると入力や出力が切り捨てられるため、注意が必要です。

薬剤師のためのAIノートをもっと見る