[[DyT.pdf|DyT]]
在过去 normalization 模块总是被认为是重要的,其中 layer norm 是最流行的一种,但是通过观察发现 trasnfromer 中的 normalization 总是充当着 tanh 的作用,我们发现不需要 normalization 也能达到很好的效果。
1604 字
|
8 分钟
transformer
2025-03-21
72 字
|
1 分钟
明日方舟linux
2025-03-16
https://jedsek.xyz/posts/other/linux-arknights/
150 字
|
1 分钟
SimpleIsEffective
https://arxiv.org/pd/2410.20724
1137 字
|
6 分钟
beam search
2025-03-11
llm 是一种语言模型,建模下一个 token 的条件概率。既然是一种局部的概率生成模型,那么就可以对整个输出空间做探索,最简单的方式就是每次都选概率最大的那个,也就是贪心解码或者 temperatrue=0,通常应用于
363 字
|
2 分钟
ChatKBQA
https://arxiv.org/pdf/2310.08975
304 字
|
2 分钟
RDF和SPARQL
2025-03-11
关系型数据库是最流行的数据库,将数据抽象成行和列的表格,但是现实世界并不是表格而是网络,RDF 就是图数据库的一种描述形式,或者是一种协议,他使用三元组的方式描述事物之间的关系。RDF 要求事物之间的联系(谓语)必须有明确的定义。RDF 要求每套谓语必须有一个明确的 URL,通过 URL 区分不同的谓语。RDF 官方定义了一套常用的谓语,URL 如下。
341 字
|
2 分钟
我的总结
借鉴 thing on graph 的方法,我希望从实现《多跳推理》的方法,目前的思路如下:
379 字
|
2 分钟