RWKVにおけるwkv構造
前回のブログで,RWKVのattentionに相当する構造であるwkvが,GPT modeとRNN modeの二つの方法で計算できることを示しました.
一方で,そもそもwkvの式がどういう経緯でattention相当であるのかは,かなり疑問だったので,自分なりの理解を残しておきます.
📣announcement (2024/02/21)
gojiteji's blog has moved to
前回のブログで,RWKVのattentionに相当する構造であるwkvが,GPT modeとRNN modeの二つの方法で計算できることを示しました.
一方で,そもそもwkvの式がどういう経緯でattention相当であるのかは,かなり疑問だったので,自分なりの理解を残しておきます.
RWKVという,Transformerの学習の並列性と,RNNのようにシーケンス長によらず対して一定の空間計算量で推論ができる,いいとこ取りをしたモデルが2023年5月にarxivに上がった.
自分の理解は,以下の方向の考え方がしやすかったが,あまりネットに(特に日本語で)落ちていなかったのでブログに書いておきます.
Stable diffusion[1]では,A road sign with the word "apple"
と入力すれば,上の画像のように,文字を画像化することが可能です.
一方で,下の画像のように「意味に対応する文字列っぽいもの」がそれとなく表示されるものの,果たして本当に”文字”として学習しているのか?という疑問を持ったため,簡単に実験してみました.
これはNAISTアドベントカレンダー2022 21日目の投稿です。
先日HuggingFace Spacesにて,3つのAIによる決議システム「NAGI System」を公開しました.その仕組みを簡単に紹介します.
これはNAISTアドベントカレンダー2022 1日目の代理投稿です。
「語彙力がない」「ボキャ貧」なんて言葉を人間は使いますが,AIにもそういった特徴はあるのでしょうか?少し気になったので検証してみました.やり方は簡単で,言語モデルごとの語彙の集合を用いてベン図を描きました.
ソースコード:https://github.com/gojiteji/AI_vocab_comparison/blob/main/Vocab_comparison.ipynb
注意:
トークン化手法ごとにprefixが違う場合あります.異なるトークン化手法を用いているものは,prefixは全て削除しました.従って,後続トークンとしてのback(ex. feedback)と,先頭トークンとbackが同一トークンとして扱われます.また,extra idや言語コード,special tokenは削除しておりません.
これはNAISTアドベントカレンダー2022二日目の投稿です。
2022年を振り返ると、Stable diffusionを用いたモデルが研究者からイラストレーターまで、その生成精度の高さから様々なインパクトを与えた年でした。特に、Text-to-Imageである点、文字で条件付けができることは、人間の考えとAIの表現のコミュニケーションエラーが格段に縮まったように思います。
突然ですが、1990年代に生まれたText-to-Imageといえば、思い当たるものが一つありませんか?
While reading the code for Hugging Face’s T5, I felt uncomfortable with the processing around the paddings, so I examined them below.
1 | この資料はラボ内自主勉強会に向けて書いたものです。間違い等ありましたら教えてください。 |
PyTorchでカスタムモデルを作成する際にクラスで継承するやつ
1 | class SimpleModel(nn.Module): |
HuggingFaceのdatasetsレポジトリに小さなPRを出したところ、色々と話が進み、最初のPR部分以外にもcommitできたので、その話を書きます。
大学院の研究でopus_gnome
という対訳コーパスでダウンロードしようとしたところ、ドキュメントのサンプルにミスを見つけたため、ISSUEを立ち上げました。
簡単そうな内容だったため、forkしてPRを出しました。
しばらくすると、huggingfaceのMLエンジニアの方からコメントが来ました。
お久しぶりです。いろいろあって、今年初めてのブログを書くことになりました。この記事は、7月23日(土)に開催されたISUCON12の参加記録です。チーム名にゃんべるぐで学生枠で参加しました。ISUCONは10以来の2回目の参加でした。(昨年は院試のため不参加)
結論から言うと、Scoreは最高3222、追試で3058で終了し、予選敗退となりました。(https://isucon.net/archives/56838276.html)
5月下旬、チームを組んでくれるメンバーを募集したところ、大学時代に所属していたITサークルから2人協力してくれることになりました。