AI – Page 4 – Neohope的网络笔记

Apple Intelligence三层模型结构

Posted on 2024/06/17 by neohope — No Comments ↓

苹果在AI上很久没有实质性进展了：
Siri多年没有进步，停止了造车项目，解散了部分AI团队。
虽然陆续低调的进行了一些AI公司收购，但没有什么可称道的成果，实在算不上有什么进展。

今年WWDC上，终于发布了AI相关的内容，一如既往的“重新定义”了AI的概念：发明了一个新词Apple Intelligence，缩写还是AI。

咱们仔细看一下这个Apple Intelligence，还是动了一些脑筋的，整体架构分了三层：
1、首先是在移动设备端，运行了一个30亿参数的小模型，处理一些简单的任务（苹果自研芯片，让小模型可以在功耗可控的情况下，及时响应这些请求）
2、如果本地模型无法处理，就将请求发送到是云端，通过苹果自己的大模型，响应用户请求
3、如果任务太复杂，苹果自家模型处理不好，则将请求发送到合作伙伴提供的大模型，比如GPT-4o等，合作伙伴会不断增加
当然，对于用户的授权，和数据隐私保护，还是做了不少工作的

这样乍一看，好像没有什么吗，就是集成了多个模型。但咱们加上一个事实后，这个事情就不这么简单了：
苹果对自己的操作系统完全可控，就让本地模型可以获取比竞争对手高的多的权限。
苹果自家模型，可以读邮件、可以看日程、可以访问通讯记录、可以查看网页浏览记录，可以搜集全部图像。。。
也就是说，苹果的自家模型，可以高效收集客户设备上所有信息。
同样的，苹果自家模型，可以调用用户设备全部的功能，包括第三方APP的功能。
通过整合这些信息，就可以让苹果自家模型，吊打全部竞争对手。

细思极恐，在移动小模型上，在IOS设备上，几乎已经没有了任何生存空间。
如果Google也在安卓上，部署自己的小模型，那安卓设备上的机会，也就不存在了。
无论Google如何选择，国内厂商必然快速跟进，那手机小模型这个赛道很快就不存在了。
而第三方的移动小模型和应用，无论如何努力，由于无法控制操作系统底层，几乎不可能形成任何竞争优势，几乎必然出局。

可以看下，现在国内大模型赛道整体太卷了，小厂商几乎没有机会：
1、大模型的研发、训练，需要大量的资金、人员、算力、数据的投入，小厂玩不起，大厂不赚钱
2、开源大模型的性能，比闭源大模型并不差太多，而且也在疯狂迭代，没有商业模式，更没有资本愿意长期投入，小厂更玩不起
3、小厂在垂直赛道可能会有些机会，但如果市场足够大，被大厂嗅到，没有赚钱途径的大厂一定会下场卷死你
4、移动端小模型，上面也说了，没有操作系统权限，小厂几乎没有机会了
5、在APP创新上，国内互联网流量过于集中，应用开发出来只能依附于几个大流量平台。这些平台不会允许某几个应用过热，而且在有了热度后，大厂还会无良的抄小厂的作业，让某类APP瞬间消失

所以很可惜，虽然大家都知道大模型是个好东西。但国内环境太卷了：
没有给小厂的生态位，没有好的生态
就不会有大量的创新，后面难以出现百花齐放的场景
到头来，还是要等别人创新后，大厂去抄？
大家都懂，但停不下来。
卷来卷去，难有赢家。

好像扯远了。。。
其实，对于苹果，其实还有两个事情做的挺到位的
1、将prompt屏蔽了，让普通人可以更便捷的使用AI
2、再次发挥，强大的整合能力，提前抢占了移动AI的入口

当然，对于个人来说，用好大模型，提高自己获取知识的速度，提升自己的认知圈，扩展自己的能力边界，还是很重要的。

将被大模型+机器人严重冲击的行业

Posted on 2024/05/26 by neohope — No Comments ↓

这里说的冲击严重，指的是可能导致从业人员大规模失业，而不是单纯的提升工作效率。
现在看起来，下面的部分行业从业人员，会受到较大冲击：

文字处理
1、客服人员（聊天机器人、语音机器人）
2、翻译人员（普通文件翻译）
3、文员（部分工作机会会被替代）
4、内容审核人员
5、内容创作人员（新闻转发、内容创作）
6、部分开发人员（部分代码编写人员）
7、部分法律从业者（文档整理、案例分析、合同审查）
8、部分保险从业者（部分业务员、部分核保任务）
9、部分财务人员（部分财务审计任务）

自动驾驶
1、网约车驾驶员
2、长途运输司机
3、物流人员（自动配送）

产业自动化
1、流水线工人（机器人）
2、仓库管理（无人仓储）
3、养殖人员
4、农业人员

qwen.cpp简明教程

Posted on 2024/02/25 by neohope — No Comments ↓

1、下载并编译qwen.cpp

git clone --recursive https://github.com/QwenLM/qwen.cpp
cd qwen.cpp
cmake -B build
cmake -B build -DGGML_OPENBLAS=ON
cmake -B build -DGGML_CUBLAS=ON
cmake --build build -j --config Release

2、下载模型，转化为ggml格式

#从hf下载模型，下载完成后，本地地址为 ~/.cache/huggingface/hub/模型名称
#部分代码文件会有缺失，可以到hf上对比下载
from transformers import AutoModelForCausalLM
model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen-7B-Chat",trust_remote_code=True)

#模型转化为ggml格式
#同时进行量化，降低资源需求
python3 qwen_cpp/convert.py -i PATH_TO_MODEL -t q4_0 -o qwen7b-q40-ggml.bin

3、运行模型

./build/bin/main -m qwen7b-q40-ggml.bin --tiktoken PATH_TO_MODEL/qwen.tiktoken -i

chatglm.cpp简明教程

Posted on 2024/02/25 by neohope — No Comments ↓

1、下载并编译chatglm.cpp

git clone --recursive https://github.com/li-plus/chatglm.cpp.git
cd chatglm.cpp
git submodule update --init --recursive
#cmake -B build
cmake -B build -DGGML_OPENBLAS=ON
#cmake -B build -DGGML_CUBLAS=ON
cmake --build build -j --config Release

2、下载模型，转化为ggml格式

#从hf下载模型，下载完成后，本地地址为 ~/.cache/huggingface/hub/模型名称
#部分代码文件会有缺失，可以到hf上对比下载
from transformers import AutoModel
model = AutoModel.from_pretrained("THUDM/chatglm-6b",trust_remote_code=True)

#模型转化为ggml格式
#同时进行量化，降低资源需求
pip install torch tabulate tqdm transformers accelerate sentencepiece
python3 chatglm_cpp/convert.py -i PATH_TO_MODEL -t q4_0 -o chatglm-6b-q40-ggml.bin

3、运行模型

./build/bin/main -m chatglm-6b-q40-ggml.bin -i

4、常见问题

#下面的错误，是transformers版本太高导致
AttributeError: 'ChatGLMTokenizer' object has no attribute 'sp_tokenizer'. Did you mean: '_tokenize'?
#需要降低transformers版本
pip uninstall transformers
pip install transformers==4.33.2

大语言模型资料汇总

Posted on 2024/02/16 by neohope — No Comments ↓

一、之前整理了一些大模型的Demo，汇总如下
1、ChatGPT
https://github.com/neohope/NeoDemosChatGPT

2、Llama2
https://github.com/neohope/NeoDemosLlama2
可同步看一下中文版Llama2
https://github.com/ymcui/Chinese-LLaMA-Alpaca-2

3、阿里千问
https://github.com/neohope/NeoDemosQwen

4、清华ChatGLM
https://github.com/neohope/NeoDemosChatGLM

二、建议看一下llama.cpp
1、llama.cpp
https://github.com/ggerganov/llama.cpp

2、python的llama.cpp封装
https://github.com/abetlen/llama-cpp-python

3、千问的qwen.cpp实现
https://github.com/QwenLM/qwen.cpp

4、ChatGLM的chatglm.cpp实现
https://github.com/li-plus/chatglm.cpp

三、还有量化
https://github.com/AutoGPTQ/AutoGPTQ

四、当然还有langchain
https://github.com/langchain-ai/langchain

五、如果有余力，看一下Transformer实现
https://github.com/huggingface/transformers

llama.cpp简要教程

Posted on 2024/02/14 by neohope — No Comments ↓

1、下载并编译llama.cpp

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
make

2、下载llama-2-7b-chat
a、可以从fb或hf下载
b、可以使用脚本下载工具，比如llama-dl
c、可以使用Chinese-LLaMA-2-7B
d、可以使用其他三方源

3、模型转换为ggml格式

python3 convert.py ../llama/llama-2-7b-chat/ 
Loading model file ../llama/llama-2-7b-chat/consolidated.00.pth
params = Params(n_vocab=32000, n_embd=4096, n_layer=32, n_ctx=2048, n_ff=11008, n_head=32, n_head_kv=32, n_experts=None, n_experts_used=None, f_norm_eps=1e-06, rope_scaling_type=None, f_rope_freq_base=None, f_rope_scale=None, n_orig_ctx=None, rope_finetuned=None, ftype=None, path_model=PosixPath('../llama/llama-2-7b-chat'))
Found vocab files: {'tokenizer.model': PosixPath('../llama/tokenizer.model'), 'vocab.json': None, 'tokenizer.json': None}
Loading vocab file '../llama/tokenizer.model', type 'spm'
Vocab info: <SentencePieceVocab with 32000 base tokens and 0 added tokens>
Special vocab info: <SpecialVocab with 0 merges, special tokens unset, add special tokens unset>
tok_embeddings.weight                            -> token_embd.weight                        | BF16   | [32000, 4096]
norm.weight                                      -> output_norm.weight                       | BF16   | [4096]
output.weight                                    -> output.weight                            | BF16   | [32000, 4096]
layers.0.attention.wq.weight                     -> blk.0.attn_q.weight                      | BF16   | [4096, 4096]
...
layers.31.ffn_norm.weight                        -> blk.31.ffn_norm.weight                   | BF16   | [4096]
skipping tensor rope_freqs
Writing ../llama/llama-2-7b-chat/ggml-model-f16.gguf, format 1
Ignoring added_tokens.json since model matches vocab size without it.
gguf: This GGUF file is for Little Endian only
[  1/291] Writing tensor token_embd.weight                      | size  32000 x   4096  | type F16  | T+   3
...
[291/291] Writing tensor blk.31.ffn_norm.weight                 | size   4096           | type F32  | T+ 314
Wrote ../llama/llama-2-7b-chat/ggml-model-f16.gguf

4、模型量化，减少资源使用

./quantize ../llama/llama-2-7b-chat/ggml-model-f16.gguf  ../llama/llama-2-7b-chat/ggml-model-f16-q4_0.gguf q4_0 
main: build = 2060 (5ed26e1f)
main: built with cc (Ubuntu 11.4.0-1ubuntu1~22.04) 11.4.0 for x86_64-linux-gnu
main: quantizing '../llama/llama-2-7b-chat/ggml-model-f16.gguf' to '../llama/llama-2-7b-chat/ggml-model-f16-q4_0.gguf' as Q4_0
llama_model_loader: loaded meta data with 15 key-value pairs and 291 tensors from ../llama/llama-2-7b-chat/ggml-model-f16.gguf (version GGUF V3 (latest))
llama_model_loader: Dumping metadata keys/values. Note: KV overrides do not apply in this output.
llama_model_loader: - kv   0:                       general.architecture str              = llama
llama_model_loader: - kv   1:                               general.name str              = llama
llama_model_loader: - kv   2:                       llama.context_length u32              = 2048
llama_model_loader: - kv   3:                     llama.embedding_length u32              = 4096
llama_model_loader: - kv   4:                          llama.block_count u32              = 32
llama_model_loader: - kv   5:                  llama.feed_forward_length u32              = 11008
llama_model_loader: - kv   6:                 llama.rope.dimension_count u32              = 128
llama_model_loader: - kv   7:                 llama.attention.head_count u32              = 32
llama_model_loader: - kv   8:              llama.attention.head_count_kv u32              = 32
llama_model_loader: - kv   9:     llama.attention.layer_norm_rms_epsilon f32              = 0.000001
llama_model_loader: - kv  10:                          general.file_type u32              = 1
llama_model_loader: - kv  11:                       tokenizer.ggml.model str              = llama
llama_model_loader: - kv  12:                      tokenizer.ggml.tokens arr[str,32000]   = ["<unk>", "<s>", "</s>", "<0x00>", "<...
llama_model_loader: - kv  13:                      tokenizer.ggml.scores arr[f32,32000]   = [0.000000, 0.000000, 0.000000, 0.0000...
llama_model_loader: - kv  14:                  tokenizer.ggml.token_type arr[i32,32000]   = [2, 3, 3, 6, 6, 6, 6, 6, 6, 6, 6, 6, ...
llama_model_loader: - type  f32:   65 tensors
llama_model_loader: - type  f16:  226 tensors
llama_model_quantize_internal: meta size = 740928 bytes
[   1/ 291]                    token_embd.weight - [ 4096, 32000,     1,     1], type =    f16, quantizing to q4_0 .. size =   250.00 MiB ->    70.31 MiB | hist: 0.037 0.016 0.025 0.039 0.057 0.077 0.096 0.111 0.116 0.111 0.096 0.077 0.057 0.039 0.025 0.021 
...   
[ 291/ 291]               blk.31.ffn_norm.weight - [ 4096,     1,     1,     1], type =    f32, size =    0.016 MB
llama_model_quantize_internal: model size  = 12853.02 MB
llama_model_quantize_internal: quant size  =  3647.87 MB
llama_model_quantize_internal: hist: 0.036 0.015 0.025 0.039 0.056 0.076 0.096 0.112 0.118 0.112 0.096 0.077 0.056 0.039 0.025 0.021 
main: quantize time = 323302.84 ms
main:    total time = 323302.84 ms

5、使用模型

./main -m ../llama/llama-2-7b-chat/ggml-model-f16-q4_0.gguf -n 256 --repeat_penalty 1.0 --color -ins

使用ChatGPT翻译了几本书

Posted on 2023/06/24 by neohope — No Comments ↓

在2014年左右，一直想翻译几本小册子（主要是介绍编的程经验教训，内容其实很老了，但当时有些内容确实触动了我），陆陆续续翻译了其中的一些文章，但各种原因还是没能翻译完毕，算是一个小遗憾。

最近用ChatGPT硬翻了一遍，感觉效果还可以，感兴趣的朋友可以随便翻翻。

架构师应该知道的97件事【ChatGPT翻译版本，52篇】
https://github.com/neohope/97-things-every-software-architect-should-know.git

敏捷程序员应该知道的97件事【ChatGPT翻译版本，26篇】
https://github.com/neohope/97-things-every-agile-developer-should-know.git

程序员应该知道的97件事【ChatGPT翻译版本，97篇】
https://github.com/neohope/97-things-every-programmer-should-know.git

对比了一下自己翻译的版本：
1、最大的感触之一是质量的提升，比Goolge、NewBing翻译的都要好很多，十年前的翻译效果更是没法比
2、最大的感触之二是效率，175篇文章，加上编程、翻译及校对的时间，花了不到10小时（很多是零散时间），平均一篇文章3分半不到，比之前人工+Google的速度快了不止10倍
3、有些文章质量仍有待提升

还有一些感触：
1、虽然有些文章质量有待提升，但非专业领域翻译相关工作被替代可能性十分高大概率会被迫转型，专业领域翻译相关工作效率也会大幅增加大概率不需要这么多人力了
2、后续互联网客服、视频脚本编写、字幕翻译、新闻稿编写、文章编纂、律师助理等文字相关工作人员，会逐步面临更大职业压力
3、建议早点学会用AI提升个人生产力，淘汰不会用AI的人

谈谈ChatGPT

Posted on 2023/05/09 by neohope — No Comments ↓

春节期间，试用了ChatGPT，让我被惊艳到了。
大模型的涌现效果，能达到ChatGPT3.5的程度，着实让我有些吃惊，真是大力出奇迹啊。

在此之前，我一直认为本次AI技术革命已经接近尾声了：
1、在影像和视频方面，AI已经可以实现商业化：医疗影像AI诊断、自动驾驶、人脸识别、图像搜索、P图滤镜等；
2、在语音方面，语音识别和语音合成已经很成熟；
3、在NLP方面，简单重复任务可以较好完成，比如机器翻译、文本搜索等。但在复杂任务上，还处于有多少人工就有多少智能的尴尬阶段，距离商业化有较长的路需要走；
而且，无论是哪个领域，大家可以发现，AI还是只是一种能力、一个工具，也就是处于“业务X+AI”的模式。
就算AI是生产力，但想象空间也就那么大，因为领域已经被限制死了。

但ChatGPT改变了这个局面，聊天这个场景，可以让ChatGPT成为一个各种能力的插座。
也就是说，一个类似于ChatGPT的大模型，如果能快速整合各种外部能力，从“业务X+AI”，变成“AI+业务X、业务Y、业务Z”的模式，很可能会成为下一代互联网的入口，并从各种维度给人类带来全新体验。

钢铁侠的贾维斯（J.A.R.V.I.S.）还是保守了，我们有更广阔的空间，十分期待这个时代能尽快到来。

同时，国内大厂的大模型层出不穷，究竟谁能成功，还要看三个地方：
1、要有足够大量的数据
2、要有AI人才储备
3、要有足够算力，如果现在才去买显卡，就很难赶上了
国内满足这几点的有：质谱【从闭源到开源】、阿里【闭源到开源】、百度【已掉队】、字节【已掉队】

最近看了一些ChatGPT资料，整理了一些相关示例：
https://github.com/neohope/NeoDemosChatGPT

其中多数例子，来源于极客时间徐文浩老师的课程《AI大模型之美》：
https://time.geekbang.org/column/intro/100541001?tab=catalog

================
补充0812：
当前国内大模型厂商，在底层方面依赖英伟达，在模型技术层面无法相互拉开差距，只能继续向上做：
1、在基础模型层面，支持各类开源模型，弥补自家模型缺点
2、在行业领域，开展合作，把垂直领域模型吃掉
3、在应用层面，也开始逐步布局
加上外资撤出，投资方的钱更难拿，围剿之下，AI方向国内的创业氛围就比较差了。

Transformer03：自注意力机制

Posted on 2022/06/07 by neohope — No Comments ↓

Transformer模型的核心是自注意力机制（Self-Attention），它允许模型在处理序列时，能够捕捉序列内部不同位置之间的依赖关系。自注意力机制的计算过程可以概括为以下几个步骤：

1. 查询（Query）、键（Key）、值（Value）的生成：
对于输入序列中的每个元素，模型会分别生成对应的查询（Q）、键（K）和值（V）。这通常是通过输入序列与三个不同的权重矩阵相乘来实现的。

2. 注意力分数的计算：
对于序列中的每个元素，计算其查询（Q）与序列中所有元素的键（K）的点积，然后除以一个缩放因子（通常是键向量维度的平方根），得到一个注意力分数。

Attention Score

其中，（Q）和（K）分别是查询和键的向量，\(d_k\) 是键向量的维度。

3. Softmax归一化：
使用Softmax函数对注意力分数进行归一化处理，使得所有元素的注意力分数之和为1。这表示每个元素对其他元素的注意力贡献是相对的。

Attention Weights

4. 加权求和：
将归一化后的注意力权重与对应的值（V）相乘，然后将所有元素的加权值相加，得到最终的输出。

Output

5. 多头注意力：
Transformer模型中的自注意力通常不是只计算一次，而是通过多头注意力（Multi-Head Attention）来实现。这意味着模型会并行地执行多次自注意力机制，每个头都有自己的查询、键和值权重矩阵。最后，这些头的输出会被拼接起来，并通过一个线性层来整合信息。

6. 残差连接和层归一化：
在自注意力层之后，通常会有一个残差连接，它将自注意力层的输入直接添加到输出上，然后通过一个层归一化（Layer Normalization）来稳定训练过程。

整个自注意力机制使得Transformer能够并行处理序列中的所有元素，并且能够捕捉到元素之间的长距离依赖关系，这是它在处理序列数据时非常有效的原因之一。

让我们通过一个简单的例子来说明自注意力机制的计算过程。假设我们有一个由3个词组成的序列：[“I”, “love”, “coding”]，并且每个词的词嵌入维度是4。

步骤1: 词嵌入
首先，我们将每个词转换为词嵌入向量。假设词嵌入矩阵已经预先训练好，我们可以直接获取每个词的词嵌入向量：

– “I” -> [0.1, 0.2, 0.3, 0.4]
– “love” -> [0.5, 0.6, 0.7, 0.8]
– “coding” -> [0.9, 1.0, 1.1, 1.2]

步骤2: 添加位置编码
接下来，我们为每个词嵌入向量添加位置编码。假设我们使用标准的正弦和余弦函数生成位置编码，并且序列的最大长度是3。位置编码向量如下：

– 位置1的编码：[sin(0), cos(0), sin(8), cos(8)] （这里8是4*2，因为每个词嵌入维度是4）
– 位置2的编码：[sin(1), cos(1), sin(9), cos(9)]
– 位置3的编码：[sin(2), cos(2), sin(10), cos(10)]

将位置编码向量与词嵌入向量相加：

– “I” (位置1): [0.1+sin(0), 0.2+cos(0), 0.3+sin(8), 0.4+cos(8)]
– “love” (位置2): [0.5+sin(1), 0.6+cos(1), 0.7+sin(9), 0.8+cos(9)]
– “coding” (位置3): [0.9+sin(2), 1.0+cos(2), 1.1+sin(10), 1.2+cos(10)]

步骤3: 自注意力计算
现在我们开始自注意力的计算过程。首先，我们需要为每个词生成查询（Q）、键（K）和值（V）向量。假设我们使用相同的词嵌入向量作为Q、K和V的初始输入，并通过不同的权重矩阵进行转换：

– Q = W^Q * 输入向量
– K = W^K * 输入向量
– V = W^V * 输入向量

这里W^Q、W^K和W^V是模型的可学习参数。

步骤4: 计算注意力分数
对于序列中的每个词，我们计算其查询向量与序列中所有词的键向量的点积，然后除以键向量维度的平方根进行缩放：

– 对于词”I”，其注意力分数是它自己的Q与所有词的K的点积：

Attention Score

步骤5: Softmax归一化
使用Softmax函数对每个词的注意力分数进行归一化处理：

– 对于词”I”，归一化后的注意力权重是：

Attention Weights

步骤6: 加权求和
最后，将归一化后的注意力权重与对应的值向量相乘，并求和得到最终的输出：

– 对于词”I”，其输出是：

Output

这个过程对于序列中的每个词都要重复执行，以计算整个序列的输出。自注意力机制允许模型在处理每个词时，都能够考虑到序列中其他所有词的信息，从而捕捉词与词之间的复杂关系。

请注意，这个例子是一个简化的版本，实际的Transformer模型可能会使用多头自注意力机制，并且会有多个层来进一步处理信息。此外，词嵌入和位置编码通常是通过预训练得到的，而不是从头开始训练。

Transformer02：词嵌入及位置编码的计算

Posted on 2022/06/07 by neohope — No Comments ↓

一句话经过分词和嵌入之后，输入到Transformer模型的过程如下：

1. 构建输入序列：
将分词后得到的词或字符序列转换为对应的词嵌入向量。每个词或字符都有一个对应的嵌入向量，这些向量通常通过预训练的词嵌入模型获得。

2. 添加位置编码：
由于Transformer模型本身不包含递归或卷积结构，因此它无法直接捕捉序列中的位置信息。为了解决这个问题，需要为每个词嵌入向量添加一个位置编码。位置编码通常是根据词在序列中的位置生成的，它与词嵌入向量相加，使得模型能够利用位置信息。

3. 输入到Transformer：
将包含位置编码的词嵌入向量作为输入序列送入Transformer模型。在Transformer模型中，输入序列被处理为一系列向量，每个向量对应序列中的一个元素（词或字符）。

4. 多头自注意力：
Transformer模型使用多头自注意力机制来处理输入序列。在自注意力层中，每个元素的嵌入向量都会与序列中所有其他元素的嵌入向量进行比较，以计算注意力权重。这个过程在多个“头”中并行进行，每个头都有自己的查询（Q）、键（K）和值（V）权重矩阵。

5. 层归一化和前馈网络：
自注意力层的输出会经过层归一化，然后送入前馈神经网络。前馈网络通常由两个线性变换和一个非线性激活函数组成。这个过程在每个Transformer层中重复进行。

6. 堆叠多个Transformer层：
Transformer模型通常由多个相同的层堆叠而成，每个层都包含自注意力机制和前馈网络。通过这种方式，模型可以在不同层捕捉不同级别的特征和依赖关系。

7. 输出处理：
经过多个Transformer层处理后，模型的输出可以用于各种NLP任务，如语言翻译、文本摘要、问答等。对于特定的任务，可能还需要在Transformer模型的顶部添加额外的层，如线性层或分类层。

总之，每个嵌入向量并不是有自己的Transformer，而是所有嵌入向量一起作为输入序列，被送入同一个Transformer模型中进行处理。通过多头自注意力机制，模型能够捕捉序列内部不同位置之间的依赖关系，从而实现对输入句子的深入理解。

通过一个简单的例子来说明词嵌入和位置编码的计算过程。

### 词嵌入（Word Embedding）

假设我们有一个句子：”I love natural language processing”。首先，我们需要将这个句子分词成单词列表：[“I”, “love”, “natural”, “language”, “processing”]。

接下来，每个单词将通过一个词嵌入矩阵转换成一个固定维度的向量。假设我们的词嵌入维度是4，那么每个单词将被映射到一个4维空间中。例如：

– “I” -> [0.1, 0.2, 0.3, 0.4]
– “love” -> [0.5, 0.6, 0.7, 0.8]
– “natural” -> [0.9, 1.0, 1.1, 1.2]
– “language” -> [1.3, 1.4, 1.5, 1.6]
– “processing” -> [1.7, 1.8, 1.9, 2.0]

这里的数字是随机生成的，实际的词嵌入向量是通过训练得到的，能够捕捉单词的语义信息。

### 位置编码（Positional Encoding）

Transformer模型不包含递归或卷积结构，因此无法直接捕捉序列中单词的顺序信息。为了解决这个问题，我们需要为每个词嵌入向量添加位置编码。

位置编码通常是通过正弦和余弦函数的组合来生成的，以确保不同维度的位置编码具有不同的频率。假设我们的词嵌入维度是4，我们可以为每个位置生成一个4维的位置编码向量：

– 位置1的编码：[sin(1/10000), cos(1/10000), sin(2/10000), cos(2/10000)]
– 位置2的编码：[sin(2/10000), cos(2/10000), sin(4/10000), cos(4/10000)]
– 以此类推…

将位置编码向量与相应的词嵌入向量相加，得到最终的输入向量：

– “I” (位置1): [0.1+sin(1/10000), 0.2+cos(1/10000), 0.3+sin(2/10000), 0.4+cos(2/10000)]
– “love” (位置2): [0.5+sin(2/10000), 0.6+cos(2/10000), 0.7+sin(4/10000), 0.8+cos(4/10000)]
– 以此类推…

这样，每个单词的嵌入向量都包含了其在句子中的位置信息，使得Transformer模型能够在处理序列时考虑到单词的顺序。

### 注意事项

– 词嵌入和位置编码的具体计算方法可能因不同的模型和实现而有所不同。
– 实际应用中，词嵌入通常是通过预训练模型（如Word2Vec、GloVe或BERT）得到的，而不是从头开始训练。
– 位置编码的生成方法在不同的Transformer变体中可能有所不同，例如Transformer-XL和XLNet采用了不同的方法来处理长序列。

这个例子展示了词嵌入和位置编码的基本计算过程，以及它们如何帮助Transformer模型理解和处理自然语言序列。

在实际应用中，词嵌入和位置编码可以预先计算并缓存，以提高效率。下面是一些具体的情况：

1. 词嵌入的缓存：
– 词嵌入通常是通过预训练语言模型得到的，这些模型在大规模语料库上训练，学习到的词嵌入向量能够捕捉丰富的语义信息。
– 一旦词嵌入矩阵训练完成，对于任何给定的单词，其对应的词嵌入向量就可以直接从预训练的模型中获取，而不需要每次重新计算。

2. 位置编码的缓存：
– 位置编码的生成方式是固定的，例如使用正弦和余弦函数的组合，这意味着对于给定的维度和最大序列长度，位置编码向量可以预先计算出来。
– 在模型初始化阶段，可以生成一个位置编码矩阵，其中每一行对应一个位置的位置编码。在处理输入序列时，只需根据序列中单词的位置索引来选择相应的位置编码向量。

3. 缓存的优势：
– 缓存词嵌入和位置编码可以显著减少模型在每次前向传播时的计算量，特别是对于大型模型和长序列。
– 缓存还可以减少模型的延迟，因为从内存中读取预先计算好的向量比实时计算要快得多。

4. 实际应用：
– 在实际的深度学习框架中，如TensorFlow或PyTorch，词嵌入和位置编码通常作为模型的参数或静态变量存储，以便在模型训练和推理过程中重复使用。

5. 灵活性：
– 虽然位置编码通常是固定的，但在某些情况下，如果模型需要处理可变长度的序列，位置编码也可以动态生成。但即使如此，对于常见的序列长度，位置编码的计算可以预先完成，并存储在查找表中以供快速访问。

通过这种方式，词嵌入和位置编码的预先计算和缓存，可以使得Transformer模型更加高效地处理输入数据，特别是在处理大量数据或需要快速响应的应用场景中。