Zennの「ディープラーニング」のフィード
フィード

イラストドメインにおけるピクセル空間フローマッチングモデルの事前学習
Zennの「ディープラーニング」のフィード
!ファイルサイズの大きい画像が含まれるため、モバイル回線での閲覧は推奨しません。(約 30 MB) やったこと512x512 解像度付近の複数解像度で画像を生成できる 380 M パラメータの JiT モデルを学習しました。前回 の記事の発展的な感じです。https://zenn.dev/platina/articles/jit-animeface前回と異なり、上半身だけでなく全身画像の生成もできるようになっています。今回も同様に、使用したコードは以下のレポで公開してますが、予告なく破壊的変更を main ブランチに push する可能性があるので、使用する場合は気をつ...
4日前

【Transformerとは? - 第七回A】Self-Attentionの正体 ~Self-Attentionは何を変えたのか~
Zennの「ディープラーニング」のフィード
1. はじめに本記事は、「機械学習素人が Transformer を理解するまでの記録」という連載の第七回です。ChatGPT は日常的に使っているものの、Transformer の中身は実はよく分かっていないという立場から、基礎に立ち返って理解していく過程を整理しています。 1.1. シリーズの内容導入回:【Transformerとは? - 導入回】機械学習素人が Transformer を理解するまでの記録Transformerとは(概要)ニューラルネットワークとは何か重み・バイアス・活性化関数脳との関係(比喩として)ニューラルネットワ...
5日前

「混ぜる」データ拡張は本当に有効なのか? mixup が示した汎化と頑健性
Zennの「ディープラーニング」のフィード
「混ぜる」データ拡張は本当に有効なのか? mixup が示した汎化と頑健性本稿では、データ拡張手法の一つである mixup を紹介する。大規模な深層ニューラルネットワークは高い表現力を持つ一方で、訓練データの記憶への過度な依存や、敵対的サンプルに対する脆弱性といった望ましくない性質を示すことがある。こうした問題を緩和するための、きわめて単純かつ汎用的な手法が mixup である。mixup の基本的な考え方は、2つのサンプルとそれぞれのラベルを 凸結合 し、そのようにして生成された仮想的な中間サンプルに対してモデルを学習させる点にある。一見すると、このような操作は意味の曖昧な中...
5日前

LLM Architecture Gallery徹底解説:30+モデルの内部構造を4軸で横断比較する
Zennの「ディープラーニング」のフィード
LLM Architecture Gallery徹底解説:30+モデルの内部構造を4軸で横断比較する この記事でわかることSebastian RaschkaのLLM Architecture Galleryの全体像と活用方法MHA→GQA→MLA→Linear Attentionへ至るアテンション機構の進化と各方式の設計意図QK-Norm・RMSNorm・NoPEなど正規化・位置エンコーディングの選択基準Mixture-of-Experts(MoE)設計の分類と、密モデルとの使い分け判断基準2026年3月時点のフロンティアモデル(Qwen3.5、Kimi K2.5、G...
5日前

機械学習入門講義メモ
Zennの「ディープラーニング」のフィード
きっかけ研究室の先生に今の研究は機械学習を使うものが多く、また身近な技術のため今や必須となってきていると伺った。そしてその先生と勉強会をする機会を頂き「ゼロから作るDeep Learning」という本をベースに機械学習を学ぶことにした。 この記事について勉強会で習った内容をベースに記述します。なるべく内容が間違いないよう精査するが、間違っている可能性を含んでいるため参考程度にお願いしたいです。 パーセプトロンパーセプトロンとは「複数の入力を受け取り計算結果が閾値を超えると1、超えないと0を出力する」ものです。以下は2入力の例。y = \begin{cases} ...
6日前

【超入門】「YOLO」って何がすごいの?物体検出モデルの仕組みから実践まで解説!
Zennの「ディープラーニング」のフィード
はじめに本記事では、初心者の方に向けて「YOLO(ヨロ)」という物体検出モデルについて、基礎から実践までをわかりやすく解説していきます。画像認識技術に興味があるけれど、「どこから手をつけていいか分からない」「YOLOって名前は聞くけど、何がすごいの?」という方の疑問を解消する内容になっています。 概要 YOLOとは何か?YOLO(You Only Look Once) とは、一言で表すと、非常に高速で高精度な「リアルタイム物体検出・画像セグメンテーションモデル」のことです。現在(特にUltralyticsが提供するYOLO)は、単なる特定の物体を枠で囲む機能にとどま...
8日前

活性化関数とは?種類・役割・使い分けをわかりやすく解説
Zennの「ディープラーニング」のフィード
はじめにニューラルネットワークの各層に必ず組み込まれている活性化関数(Activation Function)。地味な存在に思えますが、活性化関数がなければディープラーニングは成り立ちません。この記事では、活性化関数の役割・代表的な種類・使い分けを、数式をなるべく使わずに解説します。!小学5年生でもわかるシンプルな説明はこちら👉 【小学5年生でもわかる】活性化関数ってなに? 活性化関数とは活性化関数とは、ニューラルネットワークの各ニューロンの出力に適用される非線形変換です。入力の重み付き和を計算した後、活性化関数を通すことで非線形性を導入します。 なぜ活性化関数...
9日前

【小学5年生でもわかる】活性化関数ってなに?
Zennの「ディープラーニング」のフィード
活性化関数ってなに?活性化関数は、**AIの脳の中にある「スイッチ」**です。人間の脳では、信号が来たときに「この信号は大事だから次に伝えよう」「これは無視しよう」と判断する神経細胞があります。活性化関数はまさにこれと同じ役割をしています。 どんなスイッチがあるの?ReLU(レル):0より小さい信号は「いらない!」とゼロにして、0以上の信号はそのまま通す。一番よく使われるスイッチですシグモイド:信号を「0から1の間」に変換する。「どれくらい当てはまるか」を確率のように表現したいときに使いますソフトマックス:複数の答えの中から「どれが一番ありそうか」を確率にして教...
9日前

Qwen3.5の27Bが9Bに負けた RTX 4060の逆説
Zennの「ディープラーニング」のフィード
Qwen3.5の27Bが9Bに負けた RTX 4060の逆説Qwen3.5が出た。9B、27B、MoE構成の35B-A3B。パラメータ数だけ見れば大きいほど賢いで終わる話だが、それを8GB VRAMのGPUに押し込んだらどうなるか。結論から言うと、スペック表の数字と実用体験の間には、思っていたより遥かに大きな溝があった。VRAM使用量、コンテキスト長、パラメータ数——この3点セットだけで選んだモデルが、実際に使ったら期待と全然違う。そのなぜを解剖する。 検証環境GPU: NVIDIA GeForce RTX 4060 8GBCPU: AMD Ryzen 7(...
9日前

混ぜるAIから、守って選ぶAIへ ―― Beaconの設計思想とGhostDrift研究体系における次世代研究としての位置づけ
Zennの「ディープラーニング」のフィード
1. なぜ今、Beaconを「次世代研究」として位置づけるのか近年のAI研究において、Transformerに代表されるAttention(注意)機構は圧倒的な成果を挙げてきました。しかし、GhostDrift数理研究所が研究を進める「Beacon(ビーコン)」アーキテクチャを次世代研究として位置づける理由は、それが単なる「新しいAttentionの変種」だからではありません。Beaconは、従来の「いかに混合するか」を中心としたAttention設計に対し、「保護してから選ぶ」という順序そのものを設計対象に含めようとする試みです。本稿では、Beaconアーキテクチャが外部の先...
9日前

過学習(Overfitting)とは?原因と対策をわかりやすく解説
Zennの「ディープラーニング」のフィード
はじめに機械学習を学び始めると、必ず出てくるのが**過学習(Overfitting)**という概念です。正則化やドロップアウトといった対策手法とセットで理解しておきたい、機械学習の基本中の基本です。この記事では、過学習とは何か、なぜ起こるのか、どう防ぐのかを、数式をなるべく使わずに解説します。 過学習とは過学習とは、モデルが訓練データに対しては高い精度を出すのに、未知のデータ(テストデータ)に対してはうまく予測できない状態のことです。英語では Overfitting と呼びます。たとえるなら、テスト勉強で過去問の答えだけを丸暗記した状態です。同じ問題なら解けますが、少し違...
10日前

【詳解】RecGPT:アリババが明かすLLM推薦システムの決定版。リコールから説明性までを統合する「3塔アーキテクチャ」
Zennの「ディープラーニング」のフィード
1. はじめに:なぜ今、推薦システムにLLMが必要なのか現代の推薦システムは、IDベースの協調フィルタリング(CF)から、セマンティックな理解を伴う次世代のフェーズへ移行しています。アリババが公開した「RecGPT」は、大規模言語モデル(LLM)を推薦システムの「リコール(召喚)」と「説明性(Explainability)」に直接統合し、CTR(クリック率)やIPV(商品詳細閲覧)を5%以上向上させた非常に強力なソリューションです。本記事では、RecGPTの技術的な詳細、特にLLMの能力をどのように既存の双塔(Two-Tower)モデルに組み込んだのか、その工程を詳解します。...
12日前

VICReg: 自己教師あり学習における崩壊回避の明示的設計
Zennの「ディープラーニング」のフィード
VICReg: 自己教師あり学習における崩壊回避の明示的設計本稿では、自己教師あり学習における重要な課題である 表現崩壊 を、 明示的に防ぐ 手法として VICReg を取り上げる。近年の画像表現学習では、同一画像から得た異なるビューをそれぞれエンコーダに入力し、得られた埋め込み表現が一致するよう学習を行う方法が一般的である。一方で、この枠組みでは、エンコーダが定数ベクトルのような情報を持たない表現ばかりを出力してしまう 崩壊 を防ぐことが大きな課題となる。VICReg (Variance-Invariance-Covariance Regularization) は、この問題に...
13日前

理論と実装をつなぐ機械学習入門
Zennの「ディープラーニング」のフィード
機械学習を勉強していると「ライブラリを使えばできるけど、中で何が起きているか分からない」という壁にぶつかることがあります。この本では、11種類の機械学習アルゴリズムを取り上げ、アルゴリズムの概要から、数式の理解、スクラッチ実装までの流れを詳しく解説しています。【対象者】・機械学習を勉強中で理論も理解したいエンジニア・ライブラリの中身が気になっている人・数式と向き合いたい人【前提知識】・Pythonの基本的な文法・高校数学レベルの知識(微分、行列)
15日前

時系列ファウンデーションモデル2025-2026年最前線:Chronos-2・TimesFM・Sundialを徹底比較
Zennの「ディープラーニング」のフィード
時系列ファウンデーションモデル2025-2026年最前線:Chronos-2・TimesFM・Sundialを徹底比較 この記事でわかること時系列ファウンデーションモデル(TSFM)の基本概念と、NLPのLLMとの類似点・相違点2025-2026年にリリースされた主要5モデル(Chronos-2、TimesFM-2.5、Moirai-MoE、Sundial、Timer-XL)のアーキテクチャと特徴GIFT-Evalベンチマークによる各モデルの定量比較とモデル選定基準ゼロショット予測・Few-shot学習・共変量対応など、TSFMの実践的な活用パターンTSFMの現在の限...
15日前

深層学習―基礎と概念― 第4章 解答例
Zennの「ディープラーニング」のフィード
4.1 (★)E(\mathbf{w})=\frac{1}{2} \sum_{n=1}^{N}\left\{y\left(x_{n}, \mathbf{w}\right)-t_{n}\right\}^{2} \tag{1.2}で与えられる二乗和誤差関数について考える.関数y(x,\mathbf{w})は多項式y(x, \mathbf{w})=w_{0}+w_{1} x+w_{2} x^{2}+\cdots+w_{M} x^{M}=\sum_{j=0}^{M} w_{j} x^{j} \tag{1.1}である.この誤差関数を最小化する係数\mathbf{W} = \{w...
15日前

Beaconアーキテクチャは Transformer と同じ構造原理の粒度で論じうるか —— “守ってから選ぶ” attention 提案の
Zennの「ディープラーニング」のフィード
現在のAIモデルの根幹を成すTransformerアーキテクチャは、「注意機構(Attention)」の概念によって飛躍的な成功を収めた。しかし、標準的なソフトマックスベースの注意機構は、すべての候補を「重み付きで混ぜ合わせる(Mix-first)」というアプローチを前提としている。これに対し、新たに提案されたattention architecture**「Beaconアーキテクチャ」**は、softmax注意の効率化や疎化としてではなく、別系統の構造原理として読める提案を示している。Beaconの中核は、少数派だが重要な候補が危険域に入る場合にのみ条件付き保護を行い、その後に最終代...
15日前

【Transformerとは? - 第六回C】再帰型ニューラル言語モデル(RNNLM):文脈を“記憶”する言語モデル
Zennの「ディープラーニング」のフィード
1. はじめに本記事は、「機械学習素人が Transformer を理解するまでの記録」という連載の第六回です。ChatGPT は日常的に使っているものの、Transformer の中身は実はよく分かっていないという立場から、基礎に立ち返って理解していく過程を整理しています。これまで、ニューラルネットワークや自然言語処理の基礎を順に見てきました。そして前回は、ニューラル言語モデルの最初の形である FFNNLM を扱いました。ただし、その理解を進める中で、「結局、文脈を固定長でしか見られないのでは?」という根本的な違和感が残ります。この違和感を解消するた...
16日前

【G検定対策】ディープラーニングの基本用語をやさしく整理してみる
Zennの「ディープラーニング」のフィード
はじめにG検定のディープラーニングの章に入ると、急に用語の密度が上がります。活性化関数誤差逆伝播法勾配降下法CNNRNNLSTMAttentionTransformerDropoutBatch Normalizationこのあたりが一気に出てきて、「結局どれがモデルで、どれが学習方法で、どれが補助機能なの?」となりやすいです。今回は、翔泳社発行の『ディープラーニングG検定公式テキスト』をベースに、ディープラーニングの基本用語を初学者向けに整理します。参考書の用語棚が少し雑に見えるときほど、いったん役割ごとに分けるとかなり楽になります。 今回のトピッ...
17日前

【Transformerとは? - 第六回B】ニューラル言語モデル(FFNNLM):n-gramをニューラルネットで拡張する
Zennの「ディープラーニング」のフィード
1. はじめに本記事は、「機械学習素人が Transformer を理解するまでの記録」という連載の第六回です。ChatGPT は日常的に使っているものの、Transformer の中身は実はよく分かっていないという立場から、基礎に立ち返って理解していく過程を整理しています。 1.1. 今回の内容前回の記事では、言語モデルの基本概念を整理し、言語モデルとは「次の単語の確率」を計算するモデルであるその最も基本的な実装が n-gram モデルであることを見ました。しかし、n-gram にはいくつかの根本的な問題があります。例えば文脈を 固定長 n...
17日前