Zennの「LLM」のフィード
フィード

チャット形式の画像生成 UX を改善した話
Zennの「LLM」のフィード
背景自作のチャット UI で、LLM にプロンプトを投げて回答を得る仕組みを作っていました。ChatGPT のように、テキストで質問したり、モードを切り替えて画像を生成したりできるイメージです。画像生成には以下を利用していました:nanobananaGPT-Image-1このときの仕様はざっくりいうとこんな感じです。画像生成モード = OFF→ テキストプロンプトに対して、普通のテキスト回答が返ってくる画像生成モード = ON→ プロンプトに対して「画像」が生成されるこの時点では 「画像生成のみ対応」 で、一度出力した画像を編集することはできない仕...
8時間前

簡単なRAGチャットボットを作って、RAG、Embedding、VetcorDBについてさっくり理解しよう
Zennの「LLM」のフィード
はじめにこんにちは。Kouchと申します。以前こんな記事を書きました。https://zenn.dev/kouch/articles/9338930c27f02c今回はこの中でもRAGについて、実際にPythonのコードをお見せしながら解説していこうと思います。せっかくなので、小さなチャットボットを作り、RAGが動いた感動ポイントを皆さんにも味わってもらえればと思います。 RAG実装の全体像 今回のゴール事前にある程度のテキストを与えて、そのテキストに紐づいた回答を生成するチャットボット、を今回のゴールとします。今回インプットする事前情報はこちらです。text...
9時間前

【サクッと】Python&Gemini APIでCLI AI Agent作ってみた
Zennの「LLM」のフィード
はじめにAI Agentは兎にも角にもとりあえず作ってみようという記事を読んだので、簡単に作ってみました。いくつかの概念は抽象的に理解しやすい。沸騰したお湯は熱して待つだけ。他の概念は実際に試してみる必要がある。自転車の仕組みは、実際に乗ってみないと理解できない。https://fly.io/blog/everyone-write-an-agent/ やったことPythonとGemini APIを使用してCLIで動作するAgentを作ってみました。一般的なLLMチャットアプリにあるような機能をCLIでそれっぽく再現してます。GeminiAPIは無料枠あります。 コ...
12時間前

Kaggleコンペ紹介:MAP - Charting Student Math Misunderstandings
Zennの「LLM」のフィード
はじめにこんにちは、松尾研究所 データサイエンティストの力岡です。今回は、Kaggleで開催された 「MAP - Charting Student Math Misunderstandings」 コンペに参加し、金メダルを獲得することができました。本記事では、コンペの概要と上位解法、私達の取り組みについて紹介します。https://matsuo-institute.com/2025/10/825/!本記事は私の理解として記述をしているため、一部に誤りや解釈の相違が含まれる可能性があります。あらかじめご了承ください。 コンペ概要https://www.kaggle.c...
13時間前

【Colaboratory】gemma3を使ってみる
Zennの「LLM」のフィード
自分用の備忘録ですが、よかったら参照ください。躓きポイントは以下の通り(筆者は1時間ほど溶かしました...)HuggingFaceのTokenの権限設定gemma3の利用規約に同意する 0 前提HuggingFaceのアカウントは持っているとするモデルはgemma3-4b-itを使用(画像とテキスト入力がしたかったため)環境はGoogle Colaboratoryを使用HuggingFaceのgemma3-4b-itのページで公開されているので、それを使用 1. HuggingFaceでtokenの生成HuggingFaceにログインする右上の自分のア...
13時間前

RAGの検索結果を並び替えるだけで高速化する手法
3
Zennの「LLM」のフィード
導入こんにちは、株式会社ナレッジセンスの須藤英寿です。今回は、検索結果を効率的にキャッシュすることで、Agentで利用するRAGの速度を高速化することのできる手法「RAGBoost」について紹介します。https://arxiv.org/pdf/2511.03475 サマリーRAGは検索とLLMを組み合わせることで、チャット形式で情報を検索できる便利な手法です。一方で、検索にかかる時間や、コンテキストの増加によるコストや時間の増加が問題となります。今回紹介する「RAGBoost」は、検索手法の工夫とコンテキストの再利用でRAGの高速化に成功しています。特にAgent内で...
15時間前

LLM で使われる位置情報のベクトル化について調べてみる
Zennの「LLM」のフィード
こんにちは、初めましての方は初めまして。かわらです。転職をして 11 月から所属が変わりました。ただ、分野は変わらない(機械学習がメインの IT エンジニア)ので、これからも気の向くままに機械学習などの技術を調べて zenn に書き残していきたいと思っています。最近、位置情報のベクトル化の技術の一つに Wavelet-based positional encoding という技術があるのを知りました。気になってどういう技術なのかを調べていたのですが、調べているうちに「他の位置情報の表現方法についても知りたいな」と思い始め、どうせ調べるならまとめてアウトプットしようと思いこの記事を書くこ...
21時間前

ElevenLabs APIを使った多言語リアルタイム対話システム作ってみた
Zennの「LLM」のフィード
背景 / 目的ちょっと思いつきで多言語のリアルタイムの対話ってどうやって技術的に実現できるだ?と思って作ったものを備忘録としてまとめる。どうせOpenAI APIでもリアルタイム音声対話できるっしょ?と思ったが、目的の言語が対象外の可能性があった、中身がややブラックボックスで扱いにくかったため、少しハンドリングしやすいものを検証した背景がある。結果として、ElevenLabs の Realtime STT + Streaming TTS, OpenAI API を Python で組み合わせ、対話型音声インターフェースの PoC を最小構成で形にする過程と得られた知見を共有する...
1日前

VLMにおける空間把握能力
Zennの「LLM」のフィード
空間把握能力とはVLM(Vision Language Model)と聞くと、画像が入力可能なLLMというのがシンプルな解釈ですが、個々のVLMのスペックは結構違います。そのスペックの中でも「LLMにはなくVLM独自のもの」 & 「重要なもの」としては空間把握能力と思っています。空間把握能力とは、どれぐらい細かい粒度で画像中の物体を把握できるかということを定義とします。ピクセルや数ピクセルの単位で物体を認識できる場合にはかなり能力が高く、それができない場合には能力が低いというイメージです。本記事では、「空間的Groudingタスクに対応したVLM」=「空間把握能力の高い...
1日前

プロンプトエンジニアリング、RAG、ファインチューニング、の違いを直感的に理解しよう
1
Zennの「LLM」のフィード
はじめにみなさんこんにちは!こーちと申します。最近は生成AI周りの勉強をしてまして、そもそもの仕組みの構造的な部分と、実際にコードを書いてプロダクトを作ってみる、という2つのアプローチで勉強をしています。今日はコードというよりは、日本語で構造を説明していこうと思います。以前Googleの「生成AIリーダー」という資格をとったことがあり、https://note.com/kouchsato/n/n059423e912caこの内容と、その後に調べたことをまとめていこうと思います。 ファインチューニング、RAG、プロンプトエンジニアリングを直感的に理解しようそれぞれ言葉自...
1日前

OSS版PageIndexと自作Pythonコードで「ツリー検索」を実装する
Zennの「LLM」のフィード
この記事では、PageIndexをOSSとPythonで試してみた内容を書いていきます。 PageIndexとはPageIndexは、章立てになっているPDFやMarkdownなどの文書をJSON形式のツリー構造に変換し、そのJSONをもとに情報の検索を行う手法です。概念としての詳細は「ベクトルDB不要」なRAG手法「PageIndex」を解説の記事がわかりやすいと思います。この記事では、実装にフォーカスした、OSSとして公開されているPageIndexと独自のPythonコードを組み合わせた内容を書いていきます。!PageIndexではAPI版とOSS版があります。OS...
1日前

新人が徹底解説!Agent Bricks カスタムLLM の"使いこなし方"
Zennの「LLM」のフィード
はじめにこんにちは、Databricksビジネス推進室の澁谷です。2025年6月にサンフランシスコで開催されたDatabricksの年次カンファレンス「Data + AI Summit 2025」にてAIエージェント構築ツール「Agent Bricks」が発表されました。2025年10月現在、Agent Bricksは限定されたリージョンでのベータ版提供となっており、該当の環境を触れるユーザーが先行して利用できます。https://www.databricks.com/jp/blog/introducing-agent-brickshttps://docs.databric...
2日前

【図解】ChatGPTなど、TransformerのLLMの仕組み
Zennの「LLM」のフィード
はじめに世界的にLLMの導入が進んでいますが、意外と仕組みは知られていないと感じています。ですが、仕組みを知っていれば、思わぬ失敗を防いだり、よりよい活用ができると考えています。そこで、この記事を書くことにしました。O'Reillyの「直感 LLM」で学んだことが中心になります。(良著でした)https://www.oreilly.co.jp/books/9784814401154/ LLMとはChatGPTやGeminiの背後にあるものです。Large Language Modelの略であり、大規模言語モデルと訳されます。 TransformerとはCh...
2日前

Mac Mini M4 (16 GB) にOllama/AnythingLLM/gpt‑oss‑20bでローカルLLM構築
Zennの「LLM」のフィード
1. 事前準備 – Homebrew が無い場合はインストール/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"TipMac Mini M4(Apple Silicon)では Homebrew があればほとんどのツールをコマンドラインだけで入れられます。 2. Docker を CLI でインストール & 起動macOS では Docker Desktop が唯一の公式エンジンですが、GUI を開かずに CLI だけで使...
2日前

FT-LLM 2026 参加記録 #5|枠組みを固めた!
Zennの「LLM」のフィード
こんにちは、チーム Z リーダーです。FT-LLM 2026 チューニングコンペティション 参加記録の5日目。 ✅ 今日のハイライト学習用データセットの構造(スキーマ)を定義早めに固定できたのは大きい。おそらく今後も改訂あるだろうけど一旦決めた。 チームに投げているが反応なくこのまま行くだろう。高校数学のデータセットが1つ完成収集→整形→LaTeX体裁の最低限のチェックまで通した。評価スクリプトを実行可能に触ってみて正解だった。評価スクリプトの想定ファイル構造や入出力の前提を確認できた。数式集の推論を開始回し始めた。まずは動かして挙動を掴むフェー...
2日前

中国AIの雄 DeepSeek徹底解説:高性能と低コストを両立する次世代LLMの技術と戦略
Zennの「LLM」のフィード
OpenAIを脅かす中国のAI企業DeepSeek。彼らがオープンソースで公開したDeepSeek-V2は、なぜ高性能と低コストを両立できたのか? 本書は、その秘密であるMoE(Mixture-of-Experts)とMLA(Multi-head Latent Attention)の技術を、一般のエンジニア向けに徹底解説。AI開発の民主化を加速させるDeepSeekの技術と戦略を理解し、次世代AIを使いこなすための視点を提供します。
2日前

なぜ、認知能力が低いと絶望的にLLM AIを活用しづらいのか?
Zennの「LLM」のフィード
はじめに生成AIである LLM(Large Language Model)は、「誰でも使える未来のツール」として語られています。しかし、実際には AI を使いこなせる人と使いこなせない人の間に絶望的な差が生まれています。この差を決定しているのは、ツールの知識ではなく、ユーザー側の認知能力と、真実性を感じる基準です。認知能力が低い人は、AIの回答が尤もらしいかどうかで真偽を判断します。一方で認知能力が高い人は、自分の知識体系との論理的整合性を基準に真偽を判断します。この「真実みを感じる基準の違い」が、LLM活用の可否を左右します。そして、この能力こそ、昔から「頭が良い人材」と呼ばれ...
2日前

自分専用RSSリーダーの構築方法
Zennの「LLM」のフィード
自分専用RSSリーダーの構築方法 はじめに日本と海外のLLM関連ニュースを効率的に追いかけたい――技術の進化が目まぐるしいAI分野では、複数の情報源を日々クロールするのは時間の無駄でした。特に英語サイトの記事を一つ一つ開いて内容を確認するのは非効率的です。たとえば、Hugging FaceやOpenAI、Anthropicなどの公式ブログ、AI専門ニュースサイト、研究論文アーカイブなど、多くの情報源があります。これらを手動でチェックするのは大変です。そこで、RSSフィードから自動収集し、英語記事は日本語に翻訳して一元管理できるシステムを構築しました。さらに、RSSを提供して...
2日前

LLMが導く統合自動運転 ― ALN-P3解説
1
Zennの「LLM」のフィード
本記事は論文:ALN-P3(Unified Language Alignment for Perception, Prediction, and Planning)を読み記載したものです。 1. はじめに 1.1 背景とモチベーション自動運転技術は、主に 知覚(Perception)・予測(Prediction)・計画(Planning) の3段階で構成される。この「P3スタック」は、周囲環境の把握、他車の動きの予測、そして自車の最適な行動計画という一連の処理を担う。近年、この3要素を End-to-End(E2E) で統合的に学習するアプローチが進展し、代表的なものに Un...
2日前

生成AI導入がうまくいかない理由と、現場で効く5つの対応策
Zennの「LLM」のフィード
はじめに近年、生成AI(LLM / RAG / マルチモーダル / エージェント)の活用は多くの業務領域に広がりつつあります。しかし、導入が進む一方で、期待した成果を得られず苦労するケースも少なくありません。現場で頻出する代表的な困りごととして、以下の3点が挙げられます。本記事では、これらの困りごとに対する実務的な対応策をまとめます。困りごと作ったけど使われない期待している回答や要約が生成されないハルシネーションが生じる 対応策1:要求を具体化する生成AIは、目的が曖昧なまま導入すると効果を発揮しにくいです。「作ったけど使われない」問題の多くは、目的...
2日前