第1回目「生成AI(1)」で、「自然言語処理の基盤が言葉の分散表現で、それを具現化したものが埋め込みベクトルだ」と書いた。
そこで、今回(第2回目)は自然言語処理の根幹をなす分散表現と埋め込みベクトルについてレポートする。

ChatGPTと次のような対話をし、どのような答えが返ってくるのか確認を行った。
[1] 分散表現とは何か?
[2] 意味の近さは何で判断できるのか?
[3] 使われ方についてのパラメータが主な構成要素か?
[4] 用語をネットワークに学習させるという事は具体的にどんなことをするのか?
[5] 分散表現はどんなベクトル表現の形式か?
[6] 分散表現の全体像は?

今回のレポートをまとめると、

1.自然言語処理では言葉は分散表現であらわされており、具体的には100~300次元のベクトル表現になっている。
2.似た文脈の単語は似たベクトル表現を持つ。
3.分散表現で示される言葉は意味と言うより、どのように使われるかの文脈=文章を示している。

となる。
言葉の分散表現とそれの埋め込みベクトル表現によって、言葉をコンピュータが計算で扱えるようになった訳である。

「生成AI(2) 分散表現と埋め込みベクトル」の記事を読む