急騰語の検出について #1104
Replies: 1 comment
-
もし自分だったらどうするかなと考えてみました。 過去【3ヶ月】分のデータを分析対象として、外部変数として最近【3日】分であれば「1」それ以外なら「0」というものを準備します。そして、この外部変数による特徴語の検索を行います。ここまで自動化しておいて、めぼしい結果があれば、さらに手動でコーディングして確認する感じでしょうか。 特徴語を検索すれば、全体に頻出する語を省いて、最近3日分に特徴的なものを出せます。「関連語検索」画面で、特徴語を探すための係数を選択できます。デフォルトのJaccard係数だと「全体に頻出する語を省」く働きがそれほど強くないですが、「確率比」や「Simpson」だと「全体では少ないけれど本当にそこにだけ出現する」というものを取り出せます。その代わり低頻度の語も拾うので、あまりに低頻度な語を拾わないように「確率比が【いくつ】以上で、なおかつ共起が【何回】以上」みたいな基準で引っかけるとよいかもしれません。 そういう基準を決めるためには、過去に急増・急騰していたワードの例、「こういうものを拾いたい」という例をもらえると良さそうに思います。その例を拾えるように基準を設定すればいいですよね。 ※「共起がいくつ以上」で拾えた方がよいのですが、現在のKH Coderの機能では「全体の文書数がいくつ以上」というフィルタしかできません。ここは改良の余地があるかもしれません。ただ、自動化するならいずれにせよプログラミングが必要ですから、併せて回収していただくと良いかも? ※【3ヶ月】【3日】【いくつ】【何回】みたいに書いた部分は、ご自身で必要に応じて調整していただく必要があると思います。 |
Beta Was this translation helpful? Give feedback.
-
いつもお世話になっています
電話相談を担当している担当から、毎日200くらい、2週間で2000弱ずつ蓄積していく住宅トラブルのQA議事テキストから、
急増・急騰しているワードなり、テーマを検出してほしいという依頼がきました
ある新しい事象が発生したとしても、日々10も出れば、相当顕著な傾向と言えるわけですが、
常連のワード(有意でないものもふくめて)が上位をしめていて、なかなか、数は少ないが重要な新ワードの発見はむずかしいとかんがえています
テキストマイニングのクラスター分析等でも、ある程度、特定の分析課題をしぼれば、少ないけれども重要な言葉を見いだすことができるようになりましたが、分析課題をしぼらず包括的に分析しようとすると、より上位の概念は見いだせるものの、すくなすけれど刺さるという言葉を見いだすことは、なかなか、そこまで届かないようです
今のところ、年単位で上位をしめているワードを、抽出しない語に指定したうえで、その他のワードのランキングの上下と、上昇率を2週間程度ごとに観察して、その言葉と、原テキストを観察してみようとかんがえていますが、単純な作業を愚直にやるということですが、先生のほうでアドバイスがあればよろしくおねがいします
膨大なテキストを蓄積・管理して、分析課題によって自由に条件設定して、自在に切り出して、テキストマイニングにかけられる体制を作りまして、テキストマイニングで分類されたり、抽出されたテキストを有する相談がどのような属性をもつか、自由に閲覧できるようにしました
台風がきたとか、コロナで経済が混乱したとか、姉歯問題が発覚したとか、なかなかインパクトある社会現象がおきないと、なかなか②週間おきに新事象を見いだすことはむずかしいかもしれません 左海冬彦@CHORD
Beta Was this translation helpful? Give feedback.
All reactions