Grav.Tree~グラツリ

生粋のライフハッカー・すっとんが、あなたの日常をちょっと良くする方法伝授します

MENU

読みやすい文章の書き方とは?テキストマイニングでロジカルに考えてみる

こんにちは、すっとんです。
 
みなさん、読みやすい文章ってどんなものをイメージしますか?
口語体の文章でしょうか、
はたまた論文のようなきっちりとした文章でしょうか。
 
筆者自身、こうしてブログで文章を書くことで色々な考え方をアウトプットしていますので、読みやすい文章というのは意識しているつもりです。
しかしながら、読みやすい文章というのはどうも漠然とした、尺度のない世界観ですよね。
筆者にとって少々苦手な分野です。
 
そこで、読みやすい文章というものをある程度ロジカルに考えてみると、こんな項目が浮かび上がってきました。
 
①テーマが一貫している
テーマが一貫しているとはどういったことか。
これは逆を考えてみると分かりやすいかもしれません。
以前筆者が書いた「ハラミ会」に関する記事。
この記事のテーマは「ハラミ会とは何か」というものですが、記事内では脱線に脱線を繰り返し、セクハラやその他ハラスメントの原因や対策にまで言及しており、複数のテーマを内包する文章になっています。
これが読みやすいか否かは別として、特にブログ記事については1記事1テーマを徹底して守ることが読みやすさにつながりそうです。
 
②意味が同じ単語はなるべく同じ表現を使う
これも逆事例を出すと分かりやすいかもしれません。
例えば、とある人を表現する際には「鈴木さん」と言ってみたり、「課長」、「Sさん」、「あの人」など言い方が様々にあります。
もちろん、文章の内容により必要に応じて表現の仕方は変える必要がありますが、読み手がいちいち脳内で同一人物を想起させる必要があるため極力合わせたほうが良いはずです。
 
前置きが少々長くなりましたが、本日はこれら①②について文章をロジカルに評価する、「テキストマイニング」という手法をご紹介していきたいと思います。

テキストマイニングとは

テキストマイニング

テキストマイニングとは、端的に言えば文章解析手法です。
いくつかの解析手法に沿って、文章を名詞句や動詞句、形容詞句に分けて単語同士の繋がりや文章内での比重、関連度合いなどを解析します。
これを使うと、あらかじめ自分が決めていたテーマに沿っているか、きちんとした単語が使用できているかチェックできそうです。

おすすめソフト

テキストマイニングは現在企業的にも注目株の1つで、有料ソフトから無料ソフトまで多種多様に存在します。
そんな中で本日ご紹介したいソフトは、「User Local」というソフトです。

textmining.userlocal.jp

 
Webサービスなのでパソコン等にインストール必要がなく、また非常に軽快な動作で解析してくれる筆者一押しサービスです。
当然無料です。

実際に解析してみる

ではでは、さっそくテキストマイニングを実施してみましょう。
使い方はとても簡単。

f:id:sutton5537:20190130185645p:plain

UserLocal テキストマイニング画面

解析したい文章を、入力画面にコピーして「テキストマイニングする」を押すだけ!

 
今回は、試しに上記でご紹介した「ハラミ会とは?初めて聞いたので調べてみた」の記事を解析してみましょう。
先に言っておくと、
テーマ:
  • ハラミ会とは何か
  • ハラミ会とはセクシャルハラスメントを未然に防ぐ会の略称
ということを念頭に、下記をご覧ください。
 
いざ結果です!

ワードクラウド:

文章中に出現する単語の中から特徴的な単語を選び出し、図示しています。単語の大きさはどれだけ特徴的であるかを表しており、色は品詞を表しています。(User Local結果画面より引用)

f:id:sutton5537:20190130184921p:plain

細かい意味まで知る必要はありません。
直観的に、「でかい文字ほど重要で、文字と文字が近いほど関連性が強い」という見方で大丈夫です。
ど真ん中をデカデカと陣取っている「すっとぶ」は、おそらく「すっとん」つまり筆者のことでしょう。
これはやばいですね。
「すっとぶ」の下に次点で「ハラミ」「セクハラ」「未然」という文字があるのが唯一の救いです。

単語出現頻度:

文章中に出現する単語の頻出度を表にしています。単語ごとに表示されている「スコア」の大きさは、与えられた文書の中でその単語がどれだけ特徴的であるかを表しています。通常はその単語の出現回数が多いほどスコアが高くなりますが、「言う」や「思う」など、どのような種類の文書にも現れやすいような単語についてはスコアが低めになります。
(User Local結果画面より引用)

f:id:sutton5537:20190130185035p:plain


これも細かい意味まで知る必要無しです。

出現頻度と、スコアがが重要なポイントですね。
名詞句で「ハラミ」と「セクハラ」がハイスコアなのは、テーマとして狙い通りです。
動詞句で「すっとぶ」のスコアがおそろしく高いのがアレですが・・・
てか動詞て。
 
動詞では、「考える」と「思う」が頻出しています。
これ結構クセで書き分けてしまうんですが、統一したほうが良いかもしれません。
同じく形容詞で、「難しい」と「むずかしい」が別単語としてカウントされてしまっていますね。
これは要・リライト対象。
どちらかに統一すべき単語でしょう。

共起キーワード:

文章中に出現する単語の出現パターンが似たものを線で結んだ図。出現数が多い語ほど大きく、また共起の程度が強いほど太い線で描画されます。
(User Local結果画面より引用)

f:id:sutton5537:20190130185155p:plain

出現頻度が高い単語ほど大きな丸で、単語同士の繋がりが強いほど線が太くなるということですね。
ここでは、「女性」「男性」「ハラミ」「セクハラ」が筆頭という感じ。
本記事のテーマ的にはあまり性差に意味はないので、リライトを検討したい部分です。
「ハラミ」「セクハラ」を中心に、関連強く持ってくるイメージでしょうか。

考察

テキストマイニングを実施した結果、それほど大きくテーマから逸脱してしまっている印象ではありませんでした。
 
しかしながら、やはり細かい点で抜け漏れがあることに気付かされました。
上記でご紹介した図以外にも、「2次元マップ」や「階層的クラスタリング」などの図もありそれぞれ参考になりそう。
 
これらを意識して記事をリライトすれば、文章を読みやすくすることが可能かもしれません。

まとめ

如何でしたでしょうか。
本日は、「読みやすい文章の書き方」という名目でテキストマイニングのご紹介をさせていただきました。
 
実はこの狙いの奥には、単に読みやすい文章を書くということに留まらず、ブログ記事のSEO対策になるのではないか?という目論見が含まれています。
Google検索は多種多様な検索アルゴリズムを用いていると聞きますが、どんなアルゴリズムを使っているにせよ確実にテキストマイニングを行っているはずです。
 
狙ったキーワードに対して文章や単語が狙い通りになっているか?
その確認のためのツールとして、試してみては如何でしょうか。
 
では今日はこのへんで!