読者です 読者をやめる 読者になる 読者になる

中堅企業IT部門の日常

中堅企業IT部門の中間管理職で半研究者の雑談です。毎週火曜日更新予定

ブログはどうかわったか - 形態素解析4-対応分析

文書 統計 文書解析 学習

前回、対応分析がうまくいかなかったのですが、樋口先生からコメントいただきまして、リトライしてみました。

 

まず、失敗作がこちら

f:id:systembu:20161006232802p:plain

大量に「2016」「2015」といった年が出力されています。これは<H1>タグの使い方が間違っているようです。

<H1>2015</H1>
[記事1]
<H1>2015</H1>
[記事2]
<H1>2014</H1>
[記事3]

というようなタグ付けを行っていたのですがこれが間違いだったようです。てっきり

  1. <H1>タグは次の<H1>がでてくるまでの範囲が有効
  2. <H1>タグの要素は同じ文字列なら名寄せされる(つまり、2015が複数あれば一つの2015として集約される。上記の例では[記事1]と[記事2]が同じ2015の要素とし認識される)

と思っていたのですが、上記2は間違いとのことでした。つまり、

<H1>2015</H1>

といったタグ付けは、文書内に1か所しか出現しないようにしないと複数回「2015」が出力されることになります。

コメントいただいた通り、

  • <H1>タグの要素は各一回しか出てこないようにする
  • <H2>タグで記事のタイトルを入れる

と修正してみました。こんな感じ 

<H1> 2016</H1>
<H2> 消える職種</H2>
[記事内容]
<H2> 悪意に満ちたベンダー保守</H2>
[記事内容]
<H2> デスマーチで支える日本のサービス品質</H2>
[記事内容]
<H1> 2015</H1>
<H2> 出世なんて運です。</H2>
[記事内容]

どうも、<H1>タグは、次の<H1>タグがでてくるまでが、影響範囲のようです。

結果としてはこんな感じなります。

無事出力できました。

f:id:systembu:20161019231432p:plain

 

これを見ると、2013年には「プロジェクト」「業務」「成功」が良く使われており、他の年と大きく離れていることがわかります。

2014年以降は、成分1の軸では近くにあり、「コミュニケーション」「経営」、あたりは、2014年、2015年の付近にあります。

2016年は、「ベンダー」「サービス」「営業」などが特徴的かと思います。

前回と同じで、結局このブログは、当初はITプロジェクトの成功を真面目に考えるつもりで書き始めたのですが、2014年ごろから趣旨が変わり始め、2016年は、ベンダー営業に対する愚痴(?)が多くなっていることが見て取れます。

 

このように、対応分析、共起ネットワークを使うと、ブログの内容がどのように変遷してきたかがよくわかるのではないでしょうか。このように、文書をなんらか分類(年やカテゴリ―等)し、頻度によりマッピングすることで、文書の傾向がつかみやすくなるのではないかと思います。

  

ちなみに、最初<H1>タグは、通常のHTMLタグと同じように、タグで囲っている範囲がスコープかと思い

<H1> 2016
<H2> 消える職種</H2>
[記事内容]
<H2> 悪意に満ちたベンダー保守</H2>
[記事内容]
<H2> デスマーチで支える日本のサービス品質</H2>
</H1>( ...タグで挟み込む)

とやってみたのですが、こちらでは解析できないようです。

樋口先生からコメントいただいた通り、タグのルールは少し難しいので、表形式でデータを作成するのがよいのかと思います。

 

さて、ここ4回ほどKH-Coderを使ってきましたが、こちらは本当に秀逸なツールです。初心者でも30分もあればすぐに分析ができます。Windowsであればインストールも簡単で、各分析もメニュー形式でシンプルですので、すぐに利用できると思います。

 

ただ、重要なのは結果を読み取ることです。分析結果はパッとでるのですが、それが持つ意味や各分析の理論的な違いなどはじっくり勉強していく必要があるのかと思います。今回も共起ネットワークと対応分析の理論的な関係はよくわかってません。今後勉強が必要です。

 

(樋口先生、コメントありがとうございました。 )

社会調査のための計量テキスト分析―内容分析の継承と発展を目指して

社会調査のための計量テキスト分析―内容分析の継承と発展を目指して

 

 

 

ブログランキング・にほんブログ村へ