2026年4月18日
AI
VLM(画像言語モデル)での図面読み取り精度検証
Qwen3.5系VLMを使ったCAD図面・手書き図面の読み取り精度を完全オフライン環境で検証。前処理・プロンプト・段階処理の設計指針と運用に向けた組み込み方法を解説。

要約
製造業や建設業の現場では、過去数十年分の設計図面・施工図・配管図が紙やPDFで残っており、それらを検索可能なデジタル資産に変える要望が強くなっています。VLM(Vision Language Model:画像言語モデル)の進化で「図面をAIに直接見せて読み取らせる」アプローチが現実的になりました。
本記事では、Qwen3.5系の画像言語モデル(72B〜122B)を使い、CAD図面・手書き図面の読み取り精度を完全オフライン環境で検証した結果と、運用に向けた前処理・プロンプト・段階的処理の設計指針をまとめます。
結論:標準的なCAD図面は実用域、手書き・密集レイアウトは要前処理。
なぜVLMが図面に効くのか
従来のOCRは「画像から文字を取り出す」ことに特化しており、文字以外の情報(線・記号・レイアウト・寸法補助線)を扱えませんでした。VLMは画像とテキストを同じ潜在空間で扱うため、以下のような図面特有の処理が一発でできます。
- 図面の構造理解:正面図・側面図・断面図の関係を把握
- テキストと位置の対応:「A部詳細」というラベルと矢印の指し示す箇所を結びつける
- 記号の解釈:溶接記号、表面粗さ記号、公差記号などを文脈で理解
- テーブル抽出:部品表(BOM)から品目・数量・材質を構造化して取得
検証環境
| 項目 | 内容 |
|---|---|
| AIモデル | Qwen3.5 122B(画像言語モデル) |
| 比較対象 | Qwen2.5 VL 72B、InternVL2 26B |
| ハードウェア | ASUS Ascent GX10(GB10 / 128GB統合メモリ) |
| ネットワーク | 完全オフライン(外部通信なし) |
| 推論エンジン | vLLM |
結果サマリ
| タスク | CAD図面 | 手書き図面 | 備考 |
|---|---|---|---|
| 部品名称・寸法 | ◎ | △ | 手書きは字の癖で精度ブレ |
| 部品表(BOM) | ◎ | ○ | 表組みが綺麗なら高精度 |
| 構造理解(投影関係) | ◎ | ○ | 図枠が明確なら問題なし |
| 詳細図リンク | ○ | △ | 矢印の方向認識が課題 |
| 記号解釈 | ○ |
高精度が出た事例
1. CAD部品図の寸法・注記抽出
A4サイズのCAD図面1枚に対して「すべての寸法値とその対象部位、すべての注記を抽出してJSONで出力」と指示。約30〜40箇所の寸法が95%以上の精度で正しく構造化されました。
2. 部品表(BOM)の構造化
図面右上の部品表を、列名(No / 部品名 / 数量 / 材質 / 備考)と行データに自動で構造化。20行程度のBOMでほぼ100%の正確性で抽出できました。
課題が残った事例
1. 手書き修正の判別
CAD図面の上に手書きで赤入れされたケース。印字された数字と手書き数字の混在を正確に区別するのは困難。
対策:色分離の前処理(赤チャネル抽出)→ 元画像と分離画像を別々にVLMへ。
2. 1枚に複数モデルが混在
A3図面に複数の部品図が並んでいると、境界を誤認するケース。
対策:前段で物体検出(YOLO等)またはVLM自身に「図枠を矩形で抽出」させてからクロップ。
3. 社内独自記号
対策:プロンプトに記号例(few-shot)を埋め込む、または記号→意味のマッピングテーブルを併用。
設計指針:前処理 + プロンプト + 段階処理
1. 前処理パイプライン
| 処理 | 目的 |
|---|---|
| 解像度正規化 | モデル既定の入力サイズに合わせる |
| コントラスト調整 | スキャン時の薄さを補正 |
| 自動回転補正 | 90度ずれの自動補正 |
| 色分離 | 印字/手書き/朱書きを別画像化 |
| ROI切り出し | 図枠検出 → 部品ごとの分割 |
2. プロンプト設計
- 役割固定:「あなたは機械設計図面を読み取るAIです」と冒頭で固定
- 出力スキーマ強制:JSON Schemaを明示
- few-shot例:社内独自記号は必ず例示
- 不明時の挙動:「読み取れない場合は
nullを返す」と明示
3. 段階処理
Step 1: 図枠検出 Step 2: 各図枠ごとにクロップして個別質問 Step 3: 部品表領域を別途切り出して構造化 Step 4: 各ステップの結果をマージ
モデル選定の指針
| モデル | パラメータ | VRAM要件 | 用途 |
|---|---|---|---|
| Qwen2.5 VL 7B | 7B | ~12GB | プロトタイプ・速度優先 |
| InternVL2 26B | 26B | ~30GB | 中規模、バランス型 |
| Qwen2.5 VL 72B | 72B | ~50GB | 本格運用、精度重視 |
| Qwen3.5 122B | 122B | ~80GB | 最高精度、要GB10級 |
運用に向けた組み込み
[ 図面ファイル(PDF/画像) アップロード ] ↓ [ 前処理: 解像度・コントラスト・回転補正 ] ↓ [ 図枠検出(領域分割) ] ↓ [ 各領域に対してVLM呼び出し(並列) ] ↓ [ 出力スキーマ検証( ↓ ↓
完全自動化を目指さず、信頼度の低い箇所だけ人間がレビューする Human-in-the-Loop が現実解です。
まとめ
VLMは図面読み取りの主力技術になりつつあります。前処理・プロンプト設計・段階処理・人間レビュー の4点をきちんと組み立てて初めて、業務に使えるレベルに到達します。「VLMに丸投げ」ではなく、各ステップを勉強しながら頑強に組み立てることが、最終的な精度と運用安定に繋がります。