バージョン: 1.0.4

カメラ画像認識 (GPT-4o)

概要

このサンプルは、OpenAIのGPT-4oを使用して、ARグラスのカメラに写っている物を認識します。

APIキーについて

このサンプルを動作させるには、OpenAIの有料プランであるGPT-4oのAPIキーが必要です。

詳細

MiRZAに載せる上での特徴

スマートフォンと異なりARグラス上のカメラは視界に追従するため、視界内の状況について自然に把握することができます。

使用技術

ChatGPT
TextToSpeech
UnityWebRequest

ユースケース

画像検索
視覚障害者のための周囲の状況説明

お問い合わせ先

NTTコノキューデバイス

Unityプロジェクトのセットアップ

1. Snapdragon Spaces SDKのインポート

まだ、Snapdragon Spaces SDKをインポートしていない場合はインポートします。
- 基本パッケージ
以下のサンプルのパッケージもインポートする必要があります。
- 基本サンプル

2. 依存パッケージのインポート

UniTaskのインポート

Window > PackageManagerを開きます。
左上の+▼ボタンから、「Add package from git URL...」を選択します。
URLの欄に、https://github.com/Cysharp/UniTask.git?path=src/UniTask/Assets/Plugins/UniTaskを入力して「Add」を選択します。
UniTaskが、Unityプロジェクトにインポートされます。

Newtonsoft.Jsonのインポート

Window > PackageManagerを開きます。
左上の+▼ボタンから、「Add package by name...」を選択します。
Nameの欄に、com.unity.nuget.newtonsoft-jsonを入力して「Add」を選択します。
Newtonsoft.Jsonが、Unityプロジェクトにインポートされます。

3. MiRZAライブラリのインポート

「MiRZAライブラリのUnityプロジェクトでの利用方法」の通りに、MiRZAライブラリをインポートします。
- タッチセンサーを使用して画像認識を開始する際に、MiRZAライブラリを使用しています。

4. コノキューデバイスサンプルのインポート

以下のUnityパッケージをダウンロードします。
- QONOQDevices_SharedAssets_1.0.1
- QONOQDevices_GPTImageAnalyzer_1.0.4
ダウンロードしたUnityパッケージをUnityEditorのProjectタブにドラッグ&ドロップします。
サンプルがUnityプロジェクトにインポートされます。

5. シーンのセットアップ

Projectの以下のシーンを選択します。
- Assets/Samples/QONOQDevices/1.0.4/Scenes/Spaces Feature (Single)/GPT Image Analyzer/[Headworn] GPT Image Analyze Speaker
  　
Sample Assets/Image Analyze Speakerオブジェクトを選択します。
GPT Image AnalyzerコンポーネントのOpen AI_API Keyに「OpenAI」のAPIキーを入力します。
- ※OpenAIの有料プランであるGPT-4oのAPIキーが必要です。

TIP

GPT Image AnalyzerコンポーネントのOpen AI API Key_TextにAPIキーが記載された.txt形式のファイルを格納することも出来ます。APIキーの.txtファイルのみを.gitignoreで除外することで、GitHub等で外部にプロジェクトを公開する場合に役立ちます。

Image CaptureコンポーネントのYuv MaterialにYUV420SPMaterialが設定されていることを確認します。合わせて、YUV420SPMaterialのShaderにYUV420SToRGBが設定されているか確認します。

TIP

本サンプルではAR Camera Managerから取得したXRCpuImageをRawImageのTextureとして表示するための変換をGPUを利用して行うことでパフォーマンスを向上させています。変換に用いているMaterialとShaderが正しく設定されていないとカメラ映像のPreviewが正しく表示されません。

音声出力を行う場合

Sample Assets/Image Analyze Speakerオブジェクトを選択します。
GoogleTextToSpeechConverterコンポーネントのGcp_API Keyに「Google Cloud」のAPIキーを入力します。
- ※「Cloud Text-to-Speech API」を有効にしておく必要があります。　
このサンプルを使用するには、カメラフレームへのアクセス機能の有効化を行う必要があります。

プロジェクト設定をHeadworn用に設定します。
シーンをビルドします。

アプリの使用方法

以下のいずれかの方法で、画像認識を開始できます。
- グラスの右側面のタッチセンサーをシングルタップする
- UI上の画像解析ボタンを押す
数秒後に、解析結果がUIの右側に表示されます。
- Google CloudのAPIキーを設定済みの場合は、音声出力も行われます。

アプリが正常に動作しない場合

インターネット機能の有効化に関するページをご確認ください。

概要​

カテゴリ​

MiRZAに載せる上での特徴​

使用技術​

ユースケース​

お問い合わせ先​

Unityプロジェクトのセットアップ​

1. Snapdragon Spaces SDKのインポート​

2. 依存パッケージのインポート​

UniTaskのインポート​

Newtonsoft.Jsonのインポート​

3. MiRZAライブラリのインポート​

4. コノキューデバイスサンプルのインポート​

5. シーンのセットアップ​

音声出力を行う場合​

アプリの使用方法​

アプリが正常に動作しない場合​

概要

カテゴリ