読者です 読者をやめる 読者になる 読者になる

中堅企業IT部門の日常

中堅企業IT部門の中間管理職で半研究者の雑談です。毎週火曜日更新予定

ブログはどうかわったか - 形態素解析3

文書 統計 文書解析

引き続き、ブログの形態素解析です。

 

図示してみる

前回行った年度別に頻度を出すだけでも特徴的なワードがなんとなくわかるのですが、もう少し図的に表記することで、各年度の関係性が良く分かります。共起ネットワークという機能を使うと、各年のタグと同時に出力する語彙をネットワークでつないだ図が表示されます。

 

f:id:systembu:20161006235529p:plain

 

これを見ると、すべての年を通じて、「企業」「IT」という語彙が良く使われています。

また、「管理」は、2013年、2014年に、「会社」「仕事」「ユーザー」「ベンダー」などは、2014年、2015年によく出てくることがわかります。

 

「プロジェクト」「成功」などは、2013年独自の語彙で、「営業」は2016年独自の語彙です。

 プロジェクト管理の話題から、営業の愚痴へと移ってきているのがここでもわかるのかと思います。

 

 ちなみに、各年に出てくる語彙のマッピングとしては、各語彙の出現頻度で主成分分析を行う方法があるのですが、なぜかうまくいきません。本来は年は赤字で4か所にのみプロットされ、その付近の語彙が良く出現する語彙になるはずなのですが。。。

f:id:systembu:20161006232802p:plain

 今後暇なときに原因究明を。

 

さてここまで、KH-Coderで形態素解析をしてきましたが、正直、解析というのもおこがましい内容で、単にツール使って遊んでみました程度です。これで解析とかいうと研究者の方々には怒られそうです。

 

(KH-Coderのようなツールを使わず、Rでゴリゴリやる人向けの書籍です。こちらの方が分析内容の理解にはプラスかもしれません。手間はかかりますが) 

Rで学ぶ日本語テキストマイニング

Rで学ぶ日本語テキストマイニング

 

 

 

ブログランキング・にほんブログ村へ