Multimodal AI

Name: Multimodal AI
Brand: Office Gahaku
Price: 500000.0 JPY
Availability: InStock

2022年末に登場したChatGPTは、AIが”ヒトのように流暢に“説明できるこを世界に示した。しかし「言葉とは裏腹な…」と言われるように、言葉と口調、表情は必ずしも一致するとは限らない。今後は、ヒトとAIのコミュニケーションでも、この課題のブレイクスルーする必要がある。

ヒトは３つのモーダリティ（Verbal, Vocal, Visual）を駆使するが、AIはVerbalだけを備えていた。シングルモーダルのAIにヒトの意図を正確に理解させるプロンプトエンジニアリングが重視される。

AIがアウトプットでヒトの能力を超えるには、インプットも同水準にしなくてはフェアではない。GPT4.0以降、生成AIは3Vをインプットするマルチモーダルが主流になりつつある。

図解のある膨大な資料を読み込んであっという間に要約したり、画像の中の非常識を見つけたり、ユーモアまでも理解する。感情認識も進化、ドラマの登場人物の3Vをインプットに「歓び」「驚き」「悲しみ」などを認識、AIはあらゆるフィールドで活躍することが期待されている。

AIがヒトと同じインプットで、ヒトのようにアウトプットできるとしても、思考回路は全く異なる。GANや拡散モデルなど様々な手法が実用化されつつあり、いずれヒトを超える日がやって来るだろう。

レポート形式：PDF (7.6MB)

元データ：PowerPoint、78スライド、A4サイズ