マルチモーダルとは、マルチモード(多様な様式)の形容詞で、人の意思疎通を言語に加え身振り・手振りなどの複数の情報伝達手段を表す言葉として使われてきた。
IT用語ではマルチモーダル○○などとIT技術の説明として使われることが多い。
映画館の4DX上映がマルチモーダルの分かりやすい例といえる。
シーンに合わせて座席が動いて衝撃を与え、雨のシーンで水しぶきがかかり、走るシーンで風が吹き、煙を霧で再現、場面に合わせた香りが漂ってくるなど、映像や音のみならず五感すべてを刺激して人間としてその場にいる時のような臨場感を出している。
人間は通常、視覚・聴覚・触覚・味覚・嗅覚以上を使って世界を認識しており、テクノロジーにおいても単体の感覚要素だけではなく複数の感覚器官の情報を同時に扱う研究が進んでいる。
具体的には、テキスト、音声、画像、動画、ジェスチャー、タッチなどの要素を組み合わせた情報処理ができるマルチモーダルAI(人工知能)がある。
その中でも複数の要素から動画などを作るマルチモーダル生成AI、五感を刺激して学ぶマルチモーダル学習、顔認証や音声認証で機器にアクセスするマルチモーダルインターフェースなど既に身近なものもある。
11月9日にはアメリカの新興工業によるウェアラブルAIが発表され、マグネットで装着できる約55グラムのマルチモーダルAIが注目だ。
この記事は「税理士新聞」の許可を頂き転載しています。