Multimodal AI
Multimodal AI
Multimodal AI
  • 画像をギャラリービューアに読み込む, Multimodal AI
  • 画像をギャラリービューアに読み込む, Multimodal AI
  • 画像をギャラリービューアに読み込む, Multimodal AI

Multimodal AI

通常価格
¥550,000
販売価格
¥550,000
通常価格
売り切れ
単価
あたり 

2022年末に登場したChatGPTは、AIが”ヒトのように流暢に“説明できるこを世界に示した。しかし「言葉とは裏腹な…」と言われるように、言葉と口調、表情は必ずしも一致するとは限らない。今後は、ヒトとAIのコミュニケーションでも、この課題のブレイクスルーする必要がある。

ヒトは3つのモーダリティ(Verbal, Vocal, Visual)を駆使するが、AIはVerbalだけを備えていた。シングルモーダルのAIにヒトの意図を正確に理解させるプロンプトエンジニアリングが重視される。

AIがアウトプットでヒトの能力を超えるには、インプットも同水準にしなくてはフェアではない。GPT4.0以降、生成AIは3Vをインプットするマルチモーダルが主流になりつつある。

図解のある膨大な資料を読み込んであっという間に要約したり、画像の中の非常識を見つけたり、ユーモアまでも理解する。感情認識も進化、ドラマの登場人物の3Vをインプットに「歓び」「驚き」「悲しみ」などを認識、AIはあらゆるフィールドで活躍することが期待されている。

AIがヒトと同じインプットで、ヒトのようにアウトプットできるとしても、思考回路は全く異なる。GANや拡散モデルなど様々な手法が実用化されつつあり、いずれヒトを超える日がやって来るだろう。

 

レポート形式:PDF (7.6MB)

元データ:PowerPoint、78スライド、A4サイズ