TPOにより意味が異なる
「単語(記号)」は何かしらの事象をしたものの一つで、その単語が出てきた文脈に依存して意味が変わります。辞典引いても複数の意味が掲載されてるので、その単語が出てくる文脈から「尤もらしい解釈」を選択することで、文章としての意味を理解しているはず。人間は。(より広義には「読み手・聞き手の解釈モデル」も考慮する必要が出てきますが、ここではスルー)
これに対して自然言語処理や機械学習等の「コンピュータに処理させる」という目的を達成するために、様々な技術が積み重ねられていて。そのうちの一つに分散表現というものが2013年頃から提案され、様々な拡張がされてきました。一方で「その表現をどううまく作るか」、「そもそも分散表現でどこまで概念を表現できているのか」等のタスクがあり、その一つとしてFacebookが公開したfasttextがあったのですが、より日本語に特化したもの(?)としてhottoSNS-w2vが公開されたようです。
ヒャッハー!ついに公開してやったぜー!!
ブログデータやTwitterデータを使って研究している方々は、ぜひ使ってみて下さい。
RT
日本語大規模SNS+Webコーパスによる単語分散表現モデルの公開 : hottoSNS-w2vの配布 https://t.co/3tchMyLksA @hottolink_prさんから— Takeshi Sakaki (@tksakaki) March 4, 2019
hottoSNS-w2vの例を見る限りでは、ウェーイの類義語で「うぇーい,ウエーイ,イェーイ,イエー,(☝՞ਊ՞)☝,パリピ,イエーイ,イェイ,ウェェェェ,イェア」がでてくるらしい。
一方で、「文脈」の中にはコミュニティや世代なんてのが含まれることもあって。
外人に「ヤバいってどういう意味?」と聞かれた時は「oh my god だよ」って答えてます。 https://t.co/olcZhS5em7
— Hirori_official (@hayamaka2hi6) March 4, 2019
機械翻訳に頼るゲーム開発者もたまに見ますが、機械翻訳の弱点はこの場面のようなニュアンスの区別ができないことです。
FPSで「援護してくれ!」と「布団をかけてくれ」は本当に死ぬか生きるかの違いなので、開発予算が厳しくても機械翻訳に丸投げしないことをオススメします。#ゲーム開発 #翻訳 pic.twitter.com/ovdAPHm95E
— On Takahashi 高橋 温(ゲーム翻訳家) (@OnTakahashi) February 28, 2019
なんて話も。いろいろ楽しいです。