Zennの「ディープラーニング」のフィード
フィード

SSIM Lossを用いてConditionalVAEの損失関数を定義する(PyTorch)
Zennの「ディープラーニング」のフィード
ConditionalVAEとはConditionalVAE (CVAE) は、最も基底のAEから始まっていくつかの派生が加わったもので、順にAE→VAE→CVAEと変遷してきました。AE(AutoEncoder):データの圧縮を行うエンコーダと、再構成を行うデコーダを組み合わせたものVAE(VariationalAE):AEが圧縮した特徴が、多次元正規分布に従うようにモデル構造と損失関数を調整したものCVAE(ConditionalVAE):VAEに、教師ラベルの概念を追加して潜在空間に条件を加えたもの AEたちの損失関数AEは、通常は入力データと再構成データとの...
1日前

複数のデータセットを結合したデータセットを自作(PyTorch)
Zennの「ディープラーニング」のフィード
なんで作りたいの?卒業研究でPyTorchを利用した深層学習をやっていた時に、1つの音声データを細かく区切ってデータセットを作っていました。 データセットに入れる音声データを増やすとなったときに、データセットを一から作り直すのがひたすら面倒だったので…「音声データごとにデータセット作って後からくっつければ良くね??????」と思った次第でございます。 後々よく調べてみると、torch.utils.data.ConcatDatasetという全く同じ名前のクラスがありました。みんな考えることって同じなんですね…。ただ、自分で実装していろいろ理解が深まりました。 初心者研究生な...
3日前

グラフニューラルネットワークって何?②GNNと他の深層学習モデル:Transformer
Zennの「ディープラーニング」のフィード
GNNって結局どんなもの?ほかの深層モデルとどう違う?さて、上の質問の一つ目に答えるのは簡単である。というのも、GNNというものは非常に抽象的な概念であり、実際にはグラフ畳み込みニューラルネットワーク(GCN)やグラフアテンションネットワーク(GAT)等の具体的なモデルになってはじめて何をやっているのかがコードレベルで分かるのである。一方で、二つ目の質問は、私も学生時代に投げかけられて興味深いと感じていたので、今回の内容で触れ始めていこうと考える。皆さんも自分のなじみのあるモデルとGNNの関連性を知ることができれば、「他人」のように遠かったGNNを「遠い親戚」くらいには親しく感じて...
3日前

OCRに関する技術調査その2(PaddleOCRベースの精度改善検討)
Zennの「ディープラーニング」のフィード
0. はじめにお疲れ様です。STARAI社員の中岸です!前回、OCR(光学文字認識(こうがくもじにんしき、英: Optical character recognition):活字、手書きテキストの画像を文字コードの列に変換する技術)に関する記事を書きましたが、今回はもう少し深堀りして精度向上に向けてなにかできることはないかと色々と苦戦しながら調べてみた結果についてまとめてみました。今回は、PaddleOCRのOCRモデルについて色々と試してみました。以降では、それぞれ試してみたことをセクションにして、サンプル画像(今回の処理対象は前回と似たような日本語ベースのダミー請求書、手書...
5日前

ゼロからつくるDeepLearning 2 格闘日誌5/1 1-2章
Zennの「ディープラーニング」のフィード
ゼロから作るDeep Learning 2を友達と読んでいます.自分用のまとめかつ,補充知識として重要なことを書いています.読者対象はゼロから作るDeep Learning 実装が終わったくらいの方,Deep Learning 2を読んでいる方です.!以下のコードはゼロから作る Deep Learning 2のコードを複写/一部改変しています.利用の際には十分に注意し,本書の記述に従ってください.ゼロつく2の読者にとっては1章は既習の内容だと思うので、飛ばして2章からぜひ.(追記:2025/05/06)commonで関数を実装したほうが便利そうなので,やっぱり1章もさらっと...
5日前

【随時更新】【論文】 Open-Vocabulary Segmentationまとめ
Zennの「ディープラーニング」のフィード
Open-Vocabulary Segmentation系の論文について、気が向いたときに簡単にまとめています。随時更新です。各図表は紹介している論文のものを使用しています。 A Simple Framework for Open-Vocabulary Segmentation and Detection (ICCV2023)[1]物体検出とセグメンテーションを統合的に学習するOpen-VocabularyモデルであるOpenSeeDを提案。タスク間の性質の違いに対して、デコーダ内部でForeground QueryとBackground Queryを分離し、別々にマッチ...
5日前

[JOAI] 第一回日本人工知能オリンピックで金賞を受賞しました...!!
Zennの「ディープラーニング」のフィード
この度、日本人工知能オリンピック(JOAI)に参加 し、金賞を受賞することができました!! 🏅(まだ正式に受賞はしていないのですが、順位的にはいただけるはず..)今回のコンペティションを通して様々なことを学ばせていただいたので、その記録をしておきたかったのと、これから人工知能オリンピックに参加される皆様の参考になれば良いな と思い、この記事を書くことにしました。ぜひご一読下さい...!! 🤖✨https://ioai-japan.org/ 日本人工知能オリンピック(JOAI)について!ここで紹介する内容は第一回 JOAI の内容であり、以降の開催においてはルール等が変更さ...
7日前

【論文まとめ】Zero-Shot Monocular Scene Flow Estimation in the Wild(CVPR2025)
Zennの「ディープラーニング」のフィード
Zero-Shot Monocular Scene Flow Estimation in the Wild( (CVPR2025) [1]Zero-shot monocular scene flow estimationモデルを提案。使用している図表および計算式はすべて論文[1:1]のものを使用、引用しています。 背景Segmenta Anything[2]やDepth Anything[3]、DUSt3R[4]のように、SegmentationやDepth推定においては強力な性能を持つ手法が提案されているが、Scene Flow(SF)はそうではない。以下の3つの問題...
7日前

【誤差逆伝播法 -Back Propagation】計算グラフと自動微分
Zennの「ディープラーニング」のフィード
はじめに誤差逆伝播法(Back Propagation)は深層学習の基礎的な概念ですが、Pytorch・TensorFlowでは自動化されており普段の業務において意識することは少ないです。下記書籍を拝読中に、丁寧な説明を目にしたため、復習を兼ねて読書メモを残します。!この資料は『岡崎直観、荒瀬由紀他(2023)「自然言語処理の基礎」 p.55-60』を写経、一部改変した内容です。 Contains 手計算で求める例以下の関数に関して、(x, y, z) = (-2, 5, -4)における勾配を計算します。f(x, y, z) = (x + y)zこの関数の偏...
9日前

うさぎでもわかる最新OSSの着せ替えAIモデル徹底解説
Zennの「ディープラーニング」のフィード
うさぎでもわかる最新OSSの着せ替えAIモデル徹底解説こんにちは、うさぎモデルだぴょん!今回は最新のオープンソース着せ替えAIモデル(Virtual Try-On)について詳しく解説するのだ! 1. はじめに着せ替えAIモデル(Virtual Try-On)とは、人物の画像と服の画像を入力すると、その人が指定した服を着ているように見える画像を生成する技術だぴょん。近年、AIの進化とともに、その精度や自然さが飛躍的に向上しているのだ!特に拡散モデル(Diffusion Model)の登場によって、より自然で高品質な着せ替え画像が生成できるようになってきました。これによって、フ...
9日前

うさぎでもわかるRVC - 少量データで実現する高品質音声変換技術
Zennの「ディープラーニング」のフィード
うさぎでもわかるRVC(Retrieval-based Voice Conversion)こんにちは!今回は、Retrieval-based Voice Conversion(RVC)という音声変換技術について、うさぎでもわかるように解説していきます。 RVCとは何かRetrieval-based Voice Conversion(RVC)は、少量の音声データから高品質な音声変換を実現するAI技術です。一般的に「ボイスチェンジャー」というと、機械的な音声加工を想像するかもしれませんが、RVCは全く異なるアプローチを取ります。RVCの最大の特徴は、わずか10分程度の音声データ...
10日前

【感情分析】日本語音声基盤モデル「くしなだ」を使ってみた!
Zennの「ディープラーニング」のフィード
日本語音声基盤モデル「くしなだ」って何。「日本語音声基盤モデル「いざなみ」「くしなだ」を公開」https://www.aist.go.jp/aist_j/press_release/pr2025/pr20250310/pr20250310.htmlということで、「国立研究開発法人産業技術総合研究所」(略して産総研)が、作った音声言語基盤モデルです。 早速動かしてみよう!悲しいかな、私はAIに全く詳しくない上に、大昔のシングルモーダルが主流なAI時代の人間であるため、今回の「基盤モデルって何・・・・・・・ぜんぜんわかりませえねねぇぇぇぇえん!」となっていました。ということで...
10日前

【論文まとめ】 Semantic Library Adaptation (CVPR2025)
Zennの「ディープラーニング」のフィード
Semantic Library Adaptation: LoRA Retrieval and Fusion for Open-Vocabulary Semantic Segmentation (CVPR2025) [1]Open-vocabulary semantic segmentationのためのtraining-freeなtest-time domain adaptation手法であるSemantic Library Adaptation (SemLA)を提案。使用している図表および計算式はすべて論文[1:1]のものを使用、引用しています。 背景Open voca...
10日前

グラフニューラルネットワークって何?①グラフ概要
Zennの「ディープラーニング」のフィード
グラフニューラルネットワーク(GNN)って何?深層学習が大人気だった数年前、私の周りの世の中は畳み込みニューラルネットワーク(CNN)や、回帰型ニューラルネットワーク(RNN)が溢れていたような気がする。画像処理にはCNN、時系列データにはRNNやLSTM、生成系には敵対的生成ネットワーク(GAN)という、その頃の人間が聞けば懐かしいと感じる概念の最盛期に、ひっそりと?グラフ構造を対象としたグラフニューラルネットワーク(GNN)というものが存在していたのはご存知だろうか。GNNを利用すると、読み込んだグラフの特性や各ノードの特性、さらには、各ノード間の関係性まで上手く捉えることがで...
11日前

うさぎでもわかる最新AI動画生成技術とその検出方法 - Veo2、Imagen3、SynthIDの世界
Zennの「ディープラーニング」のフィード
うさぎでもわかる最新AI動画生成技術とその検出方法 - Veo2、Imagen3、SynthIDの世界 はじめに「あれ?この動画、本物?それともAIが作ったの?」と思ったことはありませんか?最近のAI動画生成技術は急速に進化して、見分けるのが難しくなってきました。うさぎさんでも「これはにんじんなのか偽物なのか、わからないぴょん…」と悩むレベルです。AI生成コンテンツの進化には大きな可能性がある一方で、悪用やフェイク情報の拡散といった課題も生じています。この記事では、GoogleのVeo2やImagen3といった最新のAI動画生成技術の特徴と、それらが生成したコンテンツを検出す...
11日前

松尾研発スタートアップの正体とは?松尾研出身ではない企業の謎を解く
Zennの「ディープラーニング」のフィード
松尾研発スタートアップの正体とは?松尾研出身ではない企業の謎を解く はじめに「松尾研発スタートアップ」という言葉をよく耳にするようになりました。AI業界や投資の世界では、「松尾研発」というブランドは高い評価を受けており、多くの注目を集めています。しかし、不思議なことに、これらの企業の中には東京大学松尾研究室の出身者が創業していない会社も含まれているのです。「松尾研出身でもないのに、なぜ松尾研発と名乗れるのだろう?」「松尾研発の認定基準はどうなっているのだろう?」この記事では、これらの疑問を解き明かし、松尾研発スタートアップの実態と、松尾研出身ではない企業が「松尾研発」を名...
13日前

A Simple Framework for Open-Vocabulary Segmentation and Detection
Zennの「ディープラーニング」のフィード
A Simple Framework for Open-Vocabulary Segmentation and Detection (ICCV2023) [1]セグメンテーションと物体検出を共同で学習するOpen-vocabulary Segmentation and Detection (OpenSeeD)を提案。使用している図はすべて論文[1:1]のものを使用しています。 背景図(a)OD(物体検出)データセットはクラス数は多いが、疎な情報なのに対して、SG(セグメンテーション)データセットはクラス数は少ないが密な情報である。例えば、ODデータセットとして一般的に...
13日前

Deepseekで話題になっているCoT(Chain-of-Thought)データセットについて解説、入手先・LLMへの役割とは?
Zennの「ディープラーニング」のフィード
はじめに近年、生成AIや大規模言語モデル(LLM: Large Language Models)の進化は目覚ましく、特に自然な推論能力を持つモデルの開発が注目されています。この中で、「CoT(Chain-of-Thought)」データセットは、AIモデルに多段階の推論プロセスを学ばせるための鍵となるリソースとして重要性を増しています。本文では、CoTデータセットの特徴とその活用方法について解説するとともに、国内外の調査データを基にした業界動向と事例を交え、その実効性と将来性を考察します。 1. CoTデータセットとは何か?(1) CoTの定義「Chain-of-Thoug...
14日前

『ディープラーニングG検定公式テキスト』を読んだ
Zennの「ディープラーニング」のフィード
G検定取得のため『ディープラーニングG検定公式テキスト』を読んだので学習メモを残す。ただし、第二版を読んだため、いまであれば最新の第三版を読まれるべし。 学習メモ 1. 人工知能(AI)とは人工知能(Artificial Intelligence)1956年にアメリカで開催されたダートマス会議において、ジョン・マッカーシーが初めて使った言葉。この会議以降「人工知能」が学術的な研究分野として認められる。ロジックセオリスト世界初の人工知能プログラム。AI研究の中核となる概念を生み出す探索としての推論: 探索木を探索する。根は初期の仮説であり、それぞれの分...
16日前

G検定の勉強におすすめの参考書・問題集
Zennの「ディープラーニング」のフィード
概要先日 2025 年 3 月 7 日(金)〜3 月 8 日(土)に開催された G 検定(JDLA Deep Learning for GENERAL 2025#2) を受験し、合格することができました。勉強のために 2 冊の参考書と 3 冊の問題集を使ったので、それぞれの教本について自分なりのレビューを残したいと思います。特徴やおすすめ度、どの順番でこなすのが良いか?といった観点からレビューしていきます。また、私の合格体験を元におすすめ勉強法の記事も作成していますので、参考までによろしければこちらもご覧ください。こちらと併せて、少しでも G 検定の受験を考えている方の参...
17日前