Zennの「ディープラーニング」のフィード
フィード

【基盤モデル:第一弾】OlmoEarthの紹介
1
Zennの「ディープラーニング」のフィード
はじめに最近になって基盤モデルの重要性に気付き始め(今更感はありますが)、リモートセンシング分野における基盤モデルの理解を深めようと考えました。リモセン分野においても既に多数の基盤モデルが登場していますが、すべてを網羅するのは時間的に不可能です。そこで、僕が業務で担当している農業分野に絞って学習を進めることにしました。農業分野で特に注目されているのが「Galileo」と「Presto」です(他のモデルが優秀でないという意味ではなく、比較的新しいという理由からです)。さらに、2025年には「OlmoEarth」という新しいモデルが発表され、Galileoとの詳細な性能比較も行わ...
4日前

機械学習ワークロードを GKE に移行している話
Zennの「ディープラーニング」のフィード
はじめにこちらはキャディ株式会社のアドベントカレンダーに寄稿しています。こんにちは、キャディの Analysis Platform Group でバックエンドエンジニアをしています、廣岡です。普段は機械学習推論のためのインフラやバックエンド構築・運用を主に担当しています。私たちのチームでは Google Cloud のマネージドサービスを使って機械学習システムを構築してきました。しかしここ最近で、運用の複雑化とワークロードの増加により基盤の見直しを検討しました。ここではキャディ内の機械学習ワークロードを既存のマネージドサービスから Google Kubernetes Engi...
4日前

私が持っている書籍一覧を公開します!!
Zennの「ディープラーニング」のフィード
今回は、私が持っている書籍をブクログに登録して公開しました!!直近かなりKindle上で読んでいるのですがまだインポートできておらず、以下で共有しているのは紙媒体の書籍に限りますKindle上の書籍についても近々アップロードしようと思います ブクログとは?ブクログとは本の感想や評価をチェックしたり、webやアプリで本棚を作成して感想やレビューを書いたりすることができるサービスになります。私自身自分が持っている書籍を電子データとして管理したいと思った時に見つけたサービスですが、他の方と共有できる機能は便利だと思って使いはじめました。https://booklog.jp/...
4日前

16GB GPUで動く軽量AI画像生成モデル「Z-Image」を阿里千问工作室がリリース
Zennの「ディープラーニング」のフィード
最近、AI画像生成に興味があり、自宅の16GB GPUで動かせるモデルを探していました。多くの高品質モデル(MidjourneyやSDXLなど)は24〜48GB GPUが必要で、個人開発者にはハードルが高いです。そこで、**阿里千问工作室(Alibaba Qianwen Studio)が公開した「Z-Image」**を試してみました。6Bパラメータで軽量化されており、16GB GPUでも快適に動作します。 Z-Imageの特徴低VRAMで推論可能(16GB GPUでもOK)安定した出力(商品画像やプロトタイプに最適)高速推論で実用的混合精度・量子化・KVキャッシュなど...
4日前

【LLM】Long Context + Short Instruction (LCSI) との格闘記:評価・データ・アーキテクチャの急所
Zennの「ディープラーニング」のフィード
!Note regarding Language:I am preparing to move to Japan and learning Japanese.My Japanese level is currently N4 (still learning!), so I used Grok (AI) to help translate and polish this article from my original English draft.If there are any unnatural expressions, please blame the AI! 🤖Engli...
5日前

論文読書:Multimodal learning of protein–protein interactions for accurate
Zennの「ディープラーニング」のフィード
https://pubs.acs.org/doi/10.1021/acsomega.5c06443 Contribution SummaryJisong, Honglianらは、詳細な構造情報を用いたPPI予測がないため精度が限られているという課題のため、ESM-2の埋め込みとProMIMの特徴量、さらに側鎖を含んだ構造情報を用いたモデル作成を行い、SoTAを達成し、側鎖情報が少しながら重要であることがわかった AuthorJisong Mo, Hongliang Duan MotivationPPI予測の従来は、実験と分子ドッキングシミュレーション・MD(分子動力学...
7日前

LLM自作入門をE資格合格後にやってみた感想
Zennの「ディープラーニング」のフィード
はじめにはじめまして、大学 4 年生のとうふです。今回で Zenn への投稿は 11 本目になりました!最近、インターンで LLM を用いた AI エージェント開発に取り組んでおり、より深く LLM の仕組みを理解するために「つくりながら学ぶ!LLM 自作入門」をハンズオン形式で学習しました。また私は E 資格を取得しており、今回ミニ GPT を自作する過程で、E 資格で学んだ理論が「実装としてどう落とし込まれているのか」 を具体的に確認する良い経験にもなりました。この記事では書籍内容の網羅的な解説はせず、「LLM 自作入門をやってみて特に面白かった点」「E 資格の...
8日前

30万kmの道のり、東京でE2E自動運転を走らせる
Zennの「ディープラーニング」のフィード
はじめにチューリングで自動運転第一グループのマネージャをやっている棚橋です。今週、チューリングは無事にシリーズA 1st closeの資金調達を発表することができました。E2E自動運転の開発においても、ようやく都内を30分ほど走行できるレベルに到達しつつあります。しかし、ここに至るまでの道のりは決して平坦ではなく、多くの失敗や試行錯誤を積み重ねてきました。実際にチューリングでは今まで累計約30万kmもの走行データを取ってきました。この記事ではこれまでの開発の道のり、そして今後について書きたいと思います。 E2E自動運転開発は簡単?E2E自動運転のタスクは極めてシンプルで...
13日前

フローマッチングの数学的原理とその応用
Zennの「ディープラーニング」のフィード
はじめに本記事は、近年の生成AI分野で注目を集めるフローマッチング(Flow Matching, FM)の理論的基盤を、数学的な側面から解説することを目的とします。フローマッチングは、拡散モデル(Diffusion Models)の一般化と見なすことができ、より柔軟なパス設計やシミュレーションフリーな学習を実現することで、生成モデルの新たな可能性を切り拓いています。僕自信が実験をやってみたい組み合わせにである、事前学習済みの拡散モデル(DDPM)をフローマッチングの枠組みでファインチューニングするアプローチは、両者の長所を組み合わせるという疑問を答えたいです。本記事では、まずフ...
22日前

時系列予測におけるスケーリング則:ルックバックウィンドウサイズの最適化(論文解説)
Zennの「ディープラーニング」のフィード
はじめに時系列予測モデルにおいて、ルックバックウィンドウ(過去データの参照範囲)をどの程度取るべきかは、実務上の重要な選択です。従来は「長いウィンドウを使えば使うほど良い」という考え方が一般的でしたが、この仮定は必ずしも正しくないと言われます。GPTなどの大規模言語モデルでは「データが多いほど、モデルが大きいほど性能が上がる」というスケーリング則が成り立ちます。しかし、時系列予測では異なる挙動を示します。過去データの参照範囲を長くしすぎると、逆に予測精度が下がるケースが存在します。本記事では、arXivに公開された論文「Scaling Law for Time Series F...
24日前

Daniel Murfet氏による特異学習理論(SLT)解説を読んだ感想
Zennの「ディープラーニング」のフィード
特異学習理論(SLT)のディープラーニングへ適用した研究を推進する一人であるメルボルン大学のDaniel Murfet先生のインタビューが今後のディープラーニング、AIの理解と発展、特にアラインメント問題に関して非常に示唆に富む内容であったので概略、感想を日本語で書きます。口語であり非常に長く、やや難解な内容も含むので読む際は各種自動翻訳等を併用することをおすすめします。https://www.lesswrong.com/posts/q6Tky4RzEmTwfGndB/axrp-episode-31-singular-learning-theory-with-daniel-murf...
24日前

パーセプトロンの構造で見る政治思想と歴史変化
Zennの「ディープラーニング」のフィード
パーセプトロンとは、入力された複数の情報に重みを掛け合わせ、合計がある閾値を超えた場合に「発火」するという仕組みであり、人工知能における最も基本的なモデルである。1950年代にフランク・ローゼンブラットによって提案されたこの構造は、単純ながらも“学習”という概念を数学的に表現した点で画期的だった。このパーセプトロンは、人工知能の内部構造としてだけでなく、社会や政治、さらには歴史的変化のメカニズムを理解する上でも示唆的である。なぜなら、社会や政治もまた「入力(情報)」を受け取り、「何をどれだけ重視するか(重み)」を決定し、「最終的な出力(政策や判断)」を導くという構造を持っているからだ...
1ヶ月前

ディープラーニングG検定を受けてみた!受験体験と学習ポイントのまとめ
Zennの「ディープラーニング」のフィード
こんにちは。今回は私が受験した ディープラーニングG検定(ジェネラリスト検定) について、概要から勉強方法、受験した感想までまとめて共有します。 G検定とはG検定(ジェネラリスト検定) は、日本ディープラーニング協会(JDLA)が主催する検定で、ディープラーニングの基本知識を有し、適切な活用方針を決定して、事業活用する能力を有しているかを問う試験です。つまり、ディープラーニングを広く理解し、ビジネスへの応用方針を考えられる人を対象にしています。🔗 [日本ディープラーニング協会(JDLA)公式サイト] 受験料区分金額(税込)一般13,200...
1ヶ月前

【2025年版】生成AIエンジニアのためのPythonライブラリ完全ガイド
Zennの「ディープラーニング」のフィード
はじめにはじめまして、株式会社dotConfでAIエンジニアをしている古菅です!ChatGPT、Stable Diffusion、Midjourneyなど、強力な生成AIツールが次々と登場しています。「これらの技術を自分でも開発・カスタマイズしたい」 と考えたとき、どのPythonライブラリを学べば良いのでしょうか?本記事では、生成AIプログラミングに必要なPythonライブラリを、基礎から応用まで体系的にまとめました。 この記事で分かること生成AI開発に必要なPythonライブラリの全体像各ライブラリの使い分けと実践的な使用例初心者から実務レベルまでの段階的学習...
1ヶ月前

Rustのproc-macroで自動微分してGPT-2を学習してみた
Zennの「ディープラーニング」のフィード
はじめに深層学習フレームワークにおいては、自動微分によってロスの勾配を求め、勾配降下法によってモデルのパラメータを最適化することで学習が進みます。例えばPyTorchの場合、torch.Tensorを使うことで計算グラフが記録されていき、この情報から誤差逆伝播法によって勾配が計算されます[1]。ところで、自動微分はよりコード生成的なアプローチ、即ち、関数の定義を受け取り、その導関数の定義を自動生成するという方法で実装することもできます。このアプローチが機能するかどうかは言語のメタプログラミングのやり易さに依存すると言って良いでしょう。もしCやFortranでこのアプローチを...
1ヶ月前

【論文解説】Snakes and Ladders: Two Steps Up for VideoMamba
Zennの「ディープラーニング」のフィード
はじめに今回は私が輪講に用いた資料を使って論文の解説をしていきます!資料は以下のURLから見れますので、フルバージョンで見たい方はこちらからどうぞ。👉 SpeakerDeckのスライドはこちら原論文:Snakes and Ladders: Two Steps Up for VideoMambahttps://arxiv.org/abs/2406.19006 0. 超ざっくりまとめ 目的Video Understanding分野では、精度面でSSM系モデルがTransformer系モデルに劣っている→ SSM系モデルの代表 VideoMamba を改良し、T...
1ヶ月前

RSNA 2025 3D脳動脈セグメンテーションの作り方
Zennの「ディープラーニング」のフィード
!「最終的なアプローチ」を見れば一瞬でわかります。コンペ内容をすでに把握している方は読み飛ばしてOKです。 はじめにkaggle RSNA2025 では、脳内動脈瘤(intracranial aneurysm)を検出・局所化することを目的とした AI コンペティションが開催されている。配布されているデータには、以下が含まれている:画像(CT や MRI 等、4000件くらい)どの部位に動脈瘤があるかのラベル(13クラス+有無、予測対象)多クラスのセグメンテーションラベル(13クラス、補助データ、200件ほど)動脈瘤の座標情報(13クラスxy座標、補助データ)こ...
2ヶ月前

多言語対応の視覚音声認識モデル "Zero-AVSR" を動かす【論文】
Zennの「ディープラーニング」のフィード
Zero-AVSR: Zero-Shot Audio-Visual Speech Recognition with LLMs by Learning Language-Agnostic Speech Representations[1]https://arxiv.org/abs/2503.06273 TL;DR"AV-HuBERT"と"Llama"の知識を組み合わせることで、明示的にコーパスから学習しなくても視覚音声認識ができる新しい視覚音声データセット"MARC"は、元データにラベル無しデータを用いることで対応言語数と総再生時間を大幅に増加同じ「ゼロショット推論」で...
2ヶ月前

【随時更新】DLの教材ごとにわかりやすかった内容まとめ
Zennの「ディープラーニング」のフィード
はじめにほぼ自分用のメモですが、気になる教材がありましたらぜひご覧ください。 ディープラーニングを支える技術 「正解」を導くメカニズム誤差逆伝播法(P130〜139)畳み込み層におけるチャンネルの扱い(P147~148)CNNにおいて、空間方向が小さくなり、チャンネル数が大きくなっていくイメージ(P224〜228)SENetの構造(P235〜237)ViTとCNNは画像の異なる特徴を捉える(P238) ディープラーニングを支える技術〈2〉 ——ニューラルネットワーク最大の謎勾配降下法における3つの問題点とそれが解消された理由(P12〜25) Vi...
2ヶ月前

GeoAIとは
Zennの「ディープラーニング」のフィード
参考論文1:GeoAI enabled urban computing: status and challenges, Dec 2024 GeoAIとはGeoAI(Geospatial Artificial Intelligence、地理空間人工知能)は、地理情報科学(GIS)と人工知能(AI)を統合した学際的な分野 目的AIとGISの分野を統合することでダウンストリームアプリケーションをよりサポートできるインテリジェントな技術的枠組みを確立すること GeoAIの歴史理論的黎明期 (1950s-1970s)◦ トブラーの地理学第一法則(「すべてのものは他のすべてのも...
2ヶ月前