Fixstars Tech Blog /proc/cpuinfoのフィード

https://zenn.dev/p/fixstars

このブログは、高速化のエキスパートであるフィックスターズのエンジニアたちが、技術的な知見や検証結果を自由に発信しているテックブログです。「ソフトウェアの高速化・最適化」と「最新ハードウェア/AI技術の活用」に焦点を当てた、専門性の高い記事が中心です。

フィード

記事のアイキャッチ画像
Qwen3.5-27B の推論に適したハードウェアは?
はてなブックマークアイコン 1
Fixstars Tech Blog /proc/cpuinfoのフィード
概要Qwen が2026年2月に発表した最新のオープンウェイトモデル Qwen3.5 シリーズは、主にエージェント型のコーディングタスクで今までの Qwen シリーズを超える性能となっており、少なくとも今後数か月はオープンウェイトモデルとして主流の選択肢の一つとなると考えられます。そこで今回は、 Qwen3.5 シリーズから中規模のモデル Qwen3.5-27B を使用して、次の 4 種類のデバイスで推論速度を調査しました。H200 (エンタープライズ向け GPU )RTX PRO 6000 Blackwell Max-Q Workstation Edition(ワークステー...
5日前
記事のアイキャッチ画像
EAGLE-3 を用いた gpt-oss-120b の推論高速化
Fixstars Tech Blog /proc/cpuinfoのフィード
概要LLM を高速に推論する手法の一つに投機的デコード (Speculative Decoding) があります。この記事では、OpenAI 社のオープンウェイト LLM gpt-oss-120b を題材として、投機的デコード手法のひとつである EAGLE-3 を使うことによる実行時間の変化を NVIDIA RTX PRO 6000 Blackwell Max-Q Workstation Edition で測定し、どのような場合に EAGLE-3 を使うのが適切かについて検討しました。 手法まず、今回の記事で利用する手法について簡単に説明します。 投機的デコードhttp...
12日前
記事のアイキャッチ画像
NVIDIA Blackwell におけるマルチモーダル学習の高速化
Fixstars Tech Blog /proc/cpuinfoのフィード
はじめにFixstars でアルバイトをしている若林大起です。これまでの連載では、LoRA 学習のプロファイリング や MPS による GPU 活用 を通じて、同アーキテクチャの性能を引き出す手法を模索してきました。しかし、画像とテキストを同時に扱う大規模マルチモーダルモデル (LMM) は、その計算コストの高さと複雑なデータ構造ゆえに、単一のテキストモデルよりも最適化の難易度が高い傾向にあります。そこで今回は、LMM の学習最適化におけるベストプラクティスを調査するため、NVIDIA Blackwell アーキテクチャおよび LLaVA-NeXT を題材に、LLM の高速化で一...
18日前
記事のアイキャッチ画像
QLoRAによるLLM省メモリFine-tuningと高速デプロイ: TensorRT-LLM・Triton・H100検証 1
Fixstars Tech Blog /proc/cpuinfoのフィード
はじめにこんにちは。フィックスターズでアルバイトとして研究を行っている小島です。大規模言語モデル(LLM)の巨大化は、法外な Fine-tuning のコストという新たな課題を生み出しました。大規模化した LLM の恩恵を享受したい開発者にとって、その手段は自明ではありません。同時に、学習済みモデルをいかにして高速かつ安定的にデプロイするかは、実用化に向けた共通の課題となっています。本記事では、それら二つの大きな壁を打ち破るための技術スタックを紹介します。まず、Fine-tuning 時のメモリ問題を解析します。次に、 QLoRA による効率的な Fine-tuning で計算...
20日前
記事のアイキャッチ画像
QLoRAによるLLM省メモリFine-tuningと高速デプロイ: TensorRT-LLM・Triton・H100検証 2
Fixstars Tech Blog /proc/cpuinfoのフィード
7. 【新ワークフロー】TensorRT-LLM を用いたデプロイ 7.1 TensorRT-LLM 概要(新情報)TensorRT-LLMは、NVIDIA GPU上で最新の大規模言語モデル(LLM)の推論性能を高速化・最適化するための、NVIDIAの包括的なオープンソースライブラリです。TensorRT-LLMのワークフローは以下の通りです。参考NeMo ------------- |HuggingFace ------ | load ...
20日前
記事のアイキャッチ画像
AIStationで LLM 強化学習はどこまで可能か:verl を用いた 3B/7B モデルの検証
Fixstars Tech Blog /proc/cpuinfoのフィード
概要Fixstars AIStation(以降 AIStation)を利用し、verl による強化学習を試行しました。検証の結果、特定の条件下において、 Qwen2.5-7B-Instruct は OOM(Out of Memory)により学習不可能でしたが、より小さいモデルである Qwen2.5-3B-Instruct は学習可能であることが判明しました。このことから、条件に依存するものの、小規模なパラメータを持つモデルであれば、AIStation でも verl による強化学習が実施可能であることが示されました。 はじめにこんにちは、ソリューション第四事業部ディレ...
1ヶ月前
記事のアイキャッチ画像
NVIDIA Blackwell における Multi-Process Service (MPS) を用いた GPU 利用効率の改善
Fixstars Tech Blog /proc/cpuinfoのフィード
はじめにFixstars でアルバイトをしている若林大起です。前回の記事では、最新の NVIDIA Blackwell アーキテクチャ上での LoRA ファインチューニングにおいて、PyTorch Profiler を駆使してカーネル発行のボトルネックを特定し、単一 AI タスクの学習速度を高速化する手法を紹介しました。しかし、GPU リソースの活用という観点では、「1つのタスクを速くする」ことだけが正解ではありません。特に推論サーバや多数の実験を回す MLOps 基盤においては、「いかに多くのタスクを同時にさばくか(スループット)」がコスト対効果を決定づけます。今回は、このよう...
2ヶ月前
記事のアイキャッチ画像
NVIDIA RTX PRO 6000 Blackwell Max-Q 上での LLM fine-tuning の実行速度・メモリ効率調査
Fixstars Tech Blog /proc/cpuinfoのフィード
投稿者より本記事はインターンシップで勤務された前田 優希さんによる寄稿となります。最新 GPU の NVIDIA RTX PRO 6000 Blackwell Max-Q を用いて、LLM の fine-tuning にかかる実行速度とメモリ量を調査していただきました。 記事の要約本記事では、以下のことを示しています。 1. fine-tuning 手法とその速度・メモリ消費の実験的測定について効率的な fine-tuning 手法である LoRA、QLoRA を用いて LLM を fine-tuning する方法を調査した。また、fine-tuning を高速・省...
2ヶ月前
記事のアイキャッチ画像
LiDARを用いた3D Gaussian Splatting向けのデータセット作成について
Fixstars Tech Blog /proc/cpuinfoのフィード
はじめにこんにちは。アルバイトの木村です。この記事では、インターンシップで開発した、3D Gaussian Splatting向けのデータセット作成システムについて紹介します。このシステムの最大の特徴は、一般的なカメラ画像に加えて、LiDARから得られる正確な点群も活用する点です。開発にはROS2やSLAMといった技術を活用しました。本記事では、このシステムがどういった実装になったのかや、実際に会議室を測定した結果、どのようなデータが取得でき、どのような課題が見えたのかを詳しく解説します。 背景 3D Gaussian Splatting(3DGS)とStructur...
3ヶ月前
記事のアイキャッチ画像
NVIDIA Blackwell 上での LoRA チューニングに向けたプロファイリングと最適化
Fixstars Tech Blog /proc/cpuinfoのフィード
はじめにFixstars でアルバイトをしています若林大起です。近年 AI モデルを個人の好みや特定の用途に合わせて改変する「パーソナライゼーション」の需要が高まってきています。このため、クラウドの潤沢な計算資源だけでなく、ハードウェア資源が限られているローカル環境で部分的に学習を行う機会が増えてきました。しかし、ローカル環境で追加学習のコードをそのまま動かすだけでは、マシンの性能を十分に引き出せず非効率な学習を行っている場合が少なくありません。この問題を解決し、限られた GPU リソースを最大限に活用するためには、プロファイリングによって性能のボトルネックを特定し、的確なチュー...
3ヶ月前
記事のアイキャッチ画像
3D Gaussian Splatting を約 40 % 高速化した話
Fixstars Tech Blog /proc/cpuinfoのフィード
はじめにアルバイトの星井です.本記事は,3D Gaussian Splatting の高速化の成果報告です.以前にも本サイト(3D Gaussian Splatting の紹介と高速化)にて 3D Gaussian Splatting の高速化についての報告を紹介しましたが, この時は全体の処理時間に対して 約 4 % 程度の高速化でしたが,今回は約 40 % の高速化を達成しました.今回は以前の成果に加えて,CUDA カーネルの高速化に取り組みました. 並列計算におけるデータの安全性を保つために不可欠な atomicAdd 命令. しかし,その安全性の代償として生じる重さが...
4ヶ月前
記事のアイキャッチ画像
NVIDIA RTX PRO 6000 Blackwell Max-Q 上でBLASベンチマークを動かしてみる
Fixstars Tech Blog /proc/cpuinfoのフィード
はじめにこんにちは。Hosojimaです。強力なワークステーション向けGPUであるNVIDIA RTX PRO 6000 Blackwell Max-Q(以下 6000 Blackwell Max-Q)が発売されました。前回の記事では、NVIDIAのデータシートをもとに、ハイエンドGPUであるNVIDIA H100 PCIe(以下 H100 PCIe)との性能比較を行いました。今回は実機上でのベンチマーク検証です。行列積をはじめとした行列演算は、AI・ディープラーニング、物理シミュレーションや 3D CGレンダリングなど様々な場面で絶えず実行されており、その性能は特にこのよ...
6ヶ月前
記事のアイキャッチ画像
Intel AMX (Advanced Matrix Extension) 解説(基礎編)
Fixstars Tech Blog /proc/cpuinfoのフィード
TL;DRAMX とはAdvanced Matrix ExtensionIntel が 4th Gen Xeon (Sapphire Rapids) に導入した新命令セット行列積を高速に計算できる専用命令理論性能は、1 コアあたり 3,482 [GFLOPS] (AVX512 の 16 倍)※ AVX512 理論性能:1 コアあたり 217 [GFLOPS]サンプルコードclang ver.gcc ver.OpenBLAS での実性能確認1 コアの場合、AVX512 の 11.7 倍112 コアの場合、A...
7ヶ月前
記事のアイキャッチ画像
NVIDIA RTX PRO 6000 Blackwell Max-Q はどのようなGPUなのか?
Fixstars Tech Blog /proc/cpuinfoのフィード
はじめにこんにちは。 エンジニアの廣岡です。「NVIDIA RTX PRO 6000 Blackwell Max-Q Workstation Edition」(以降、6000 Blackwell Max-Q)が発売され、入手できました。今回から数回に分けて、6000 Blackwell Max-Qの性能について解説していきます。 初回は、NVIDIAのデータシートをもとに、その特徴と性能を、ハイエンドGPUであるNVIDIA H100 PCIe(以下、H100 PCIe)と比較しながらご紹介します。なお、記事の末尾には、今回主に比較するH100 PCIeに加え、参考としてN...
7ヶ月前
記事のアイキャッチ画像
社内LLMサービス展開から1か月をデータで振り返る
Fixstars Tech Blog /proc/cpuinfoのフィード
フィックスターズの生成AIチームは、セキュリティ要件の高い案件でも自由に活用できる社内ネットワークに閉じた LLM API サービスを構築し、3月末に全社展開しました。利用開始から1か月経過したところで、今回の取り組みの内容と、利用ログの分析結果をご紹介します。また、外部の API サービスを利用することに比べたメリット・デメリットについてもまとめました。 GPUサーバーのスペックデプロイするためのサーバーとしては主にNVIDIA GPU H100 が4台搭載されたマシンを利用しています。チーム内で様々なモデルの性能を検証した結果、次の2種類の LLM を常時提供しています。...
10ヶ月前
記事のアイキャッチ画像
3D Gaussian Splatting を用いた異常検知手法:Splat Pose & Detect の高速化
Fixstars Tech Blog /proc/cpuinfoのフィード
はじめにアルバイトの星井です。インターンシップの課題として、「3D Gaussian Splatting を用いた物体検出手法の調査と高速化」に取り組みました。 物体検出手法を調査したのち、3D Gaussian Splatting を用いた異常検知手法である Splat Pose & Detect: Pose-Agnostic 3D Anomaly Detection についての高速化を行い、約 6 倍の高速化に成功しました。 背景3D Gaussian Splatting for Real-Time Radiance Field Rendering とは、202...
10ヶ月前
記事のアイキャッチ画像
3D Gaussian Splatting の紹介と高速化
Fixstars Tech Blog /proc/cpuinfoのフィード
はじめにアルバイトの星井です。本記事は、インターンシップの課題として取り組んだ、「3D Gaussian Splatting の高速化」の成果報告です。本記事では、今非常にホットな、3D Gaussian Splatting という手法のレンダリングについて約 15 % 高速化した方法とその結果を紹介します。「マハラノビス距離」に着目したレンダリングの最適化により、画質を落とさずに処理速度を向上させることに成功しました。 3D Gaussian Splatting とは?3D Gaussian Splatting for Real-Time Radiance Field...
1年前
記事のアイキャッチ画像
llama.cpp を使って RTX 6000 Ada で Llama 4 Scout を動かす
Fixstars Tech Blog /proc/cpuinfoのフィード
以前の検証では、 Llama 4 Scout を動かすために NVIDIA H100 GPU が搭載されたサーバーを使っていました。 H100 はコストが高く、消費電力や騒音などの面からも導入できる場所は限られています。今回はその代替として、比較的安価で静音性に優れた RTX 6000 Ada が 2 枚搭載されたサーバー で Llama 4 Scout を動かす方法を解説します。 環境構築バックエンドとして今回は llama.cpp を利用します。git clone git@github.com:ggml-org/llama.cpp.gi...
1年前
記事のアイキャッチ画像
INT4 量子化を使って Llama 4 Scout を NVIDIA H100 1 枚で動かす
Fixstars Tech Blog /proc/cpuinfoのフィード
プレスリリース によると、Llama 4 Scout は INT4 量子化をすることでNVIDIA H100 1 枚に載り、最大 1000 万トークンまで入力できるとされています。一方で、前回の記事で紹介した通り、vLLM では H100 1 枚に載せきることはできず、 1000 万トークンを入力することもできませんでした。そこで、今回は公式に提供されているスクリプトを使用して、これらを実現できるかについて調べます。 環境構築公式の手順に従って環境構築をします。まずは llama-stack ライブラリをインストールします。uv venv -p 3....
1年前
記事のアイキャッチ画像
Llama 4 Scout のファインチューニングとパフォーマンスエンジニアリング
Fixstars Tech Blog /proc/cpuinfoのフィード
前回までの記事では Llama 4 Scout, Maverick の推論、とくにロングコンテキスト性能に焦点を当てて、公開されている実装を試しました。Llama 4 をオンプレミス環境で動かしてみたvLLM で Llama 4 をデプロイする際の最適なコンテキスト長を検証するINT4 量子化を使って Llama 4 Scout を NVIDIA H100 1 枚で動かす今回は Llama 4 Scout のファインチューニングを題材として、 LLaMA-Factory ライブラリを用いて動作確認を行います。その後、動作時の GPU 利用率を観...
1年前