「関連語検索」である条件で検索した場合、抽出語がその条件を反映するようにすることが可能でしょうか #1166
-
お使いのKH CoderのバージョンMac 3.Beta.07b ご質問の内容をお書きください■お使いのOS:macOS 14.1.2 樋口 耕一先生、 お世話になります。 「関連語検索」の画面にて特定の条件で検索を行う際、その条件に基づいて語が抽出されるよう設定することは可能でしょうか。 例えば、KH Coder入門書のデータを用いて「<>性別-->女性」というキーワードで検索を行ったところ、期待していたのは女性のレビューからの抽出された語でした。しかし、抽出された語のKWICを確認したところ、男性からのレビューも含まれていました。抽出される語を女性のレビューに限定することは可能ですか。 よろしくお願い申し上げます。 |
Beta Was this translation helpful? Give feedback.
Replies: 5 comments
-
(1)女性の回答の中にしか出現していなくて、男性の回答の中には出現していない語を探したいということでしたら、画面下部で「ソート:」をデフォルトの「Jaccard」から、「確率比」に変更してください。そうした語が上位に来ます。「全体」の出現数と、「共起」の数が一致していれば、女性の回答中にしか出現しなかったという意味になります。 ※「確率比」とか「確率差」の詳細についてはマニュアル + Alphaをご参照ください。 ※特定の条件を満たす「文書」を探す機能の方が充実していて、「語」を探す機能はいまいちだと思います。それでも「こんな検索をしたい」と書き込んでいただければ、「SQL文の実行」で実現できる可能性がなきにしも...という感じです。 (2)「バイキング」のKWICコンコーダンスを出したときに、男性の回答が混じるのがいやだ。女性の回答中の「バイキング」だけ、文脈をKWICで見たいということでしたら、文錦アドバンストKWICで実現できます。 |
Beta Was this translation helpful? Give feedback.
-
樋口 耕一先生 大変お世話になっております。 お忙しい中、貴重なご指導を賜り、心より感謝申し上げます。ご指導の通りに進めてみました。 1)「確率比」を用いてソートした結果、「全体」の数と「共起」の数が同じ場合、男性のレビューからの単語を重複させずに、女性のレビューの単語のみを抽出することが可能となりました。「確率比」は非常に興味深く、大いに学びになりました。 また、Simpson係数を用いた場合も同様の結果が得られました。 Q1: 現在の条件下で、Simpson係数と確率比が同じ結果を生むと考えてよいでしょうか。また、これら二つの指数に基づいて作成された共起ネットワークについて、よく似ていますが、解釈する際に留意すべき点はございますか。 2)しかし、私が実現したかったのは、男性のレビューの単語を重複させずに女性のレビューの単語を抽出することではなく、男性のレビューの単語を重複しても構わず、女性のレビューの単語から共起ネットワークを作成することでした。 たとえば、「バイキング」という語を例に取ると、1)の方法では男性のレビューに登場しているため、この語は抽出されません。その結果、「確率比」の下で作成された共起ネットワークでは「バイキング」は現れなくなります。 また、Jaccard指数を使用すると、男性のレビューが含まれてしまいます。 Q2: 新しいデータセットを作成せずに、女性のレビューのみを抽出し、それらのレビューに基づいて共起ネットワークを作成することは可能でしょうか。 Q3: 「文錦アドバンストKWIC」の機能を用いて、外部変数を含む検索結果の文脈を保存し、新たなデータセット(女性のレビューのみ)を作成することが可能でしょうか。 Q4: 添付している確率比によるソート順序を定めるルールについて、ご説明いただけるでしょうか。 よろしくお願い申し上げます。 |
Beta Was this translation helpful? Give feedback.
-
Q1 定義式が異なりますので、別のものとお考えください。 Q2 「関連語検索」の「共起ネット」ボタン正確に申しますと、(A)「関連語検索」画面で「<>性別-->女性」を検索して、画面下の「共起ネット」ボタンをクリックすると、女性の回答のみにもとづいて共起が計算され、共起ネットワークが作成されます。女性の回答のみにもとづいた共起ネットワークと言えるかと思います。この点については、詳細マニュアル + Alpha A.5.6節(の終わりの方)もご覧ください。 ただし、この(A)の方法では、男性の回答と比較して女性に多い語を選択し、それらの語を使ったネットワークになります。このため(B)女性の回答のみのデータをKH Coderにプロジェクトとして登録して作成したネットワークとは、一致しません。(B)の方法では、男性との比較なしに、単に女性に多い語を選択してネットワークを作成している点が(A)と異なります。
この共起ネットワークの計算(A)において、そういったことは起こりません。標準のKWICは、男女(外部変数)にかかわりなく、単に「バイキング」の前後の文脈を見る機能であるため、男性の回答も表示されます。しかし、「共起ネット」ボタンをクリックしたときに行なわれる計算(A)はまったく別の計算になります。Jaccardでも女性の回答のみにもとづいて共起が計算されます。 通常の共起ネットワークを作りたい場合(A)男性と比べて女性に多い語を使うのではなく、(B)単に女性に多い語を使って、女性データをもとに共起ネットワークを作るには、女性の回答だけを入れたデータファイルをお作りください。そのファイルを新たなプロジェクトとしてKH Coderに登録してください。そうしたデータファイルを作るには、KH Coderの機能を使われる場合、「ツール」「エクスポート」「部分テキストの取り出し」コマンドが使えます。あるいは、Excelのデータリボンでフィルタ機能を使っても、女性の回答だけを抽出してそれを別ファイルにコピー&ペーストして保存することができます。 Q3 この用途であれば、上述のKH CoderのコマンドかExcelを使う方法のほうが良いと思います。 Q4 確率比で並べ替えが行なわれています。確率比が同値の場合、現在のバージョンでは、特にこれといって順番は決まっていないように思います。強いて言えば、品詞順、(同一品詞内では)出現回数(TF)順でしょうか。 |
Beta Was this translation helpful? Give feedback.
-
樋口先生、 おはようございます。ご返信いただき、ありがとうございます。 「関連語検索」の「共起ネット」ボタン「関連語検索」を特定の条件で分析する際に、以下の点を確認しました。 特に2)のKWICの仕様を先生に確認いただき、大変参考になりました。 「部分テキストの取り出し」の機能「部分テキストの抽出」機能により、必要なデータを取り出すことができました。この機能は「特定のコードが与えられた文書のみを抽出する」の選択肢を含んでおり、Excelだけでは非常に困難なフィルタリング作業(例えば、コーディングのルールに基づくもの)も簡単に行えるため、大変役立ちます。 この度は貴重なご説明をいただき、大変参考になりました。心から感謝申し上げます。 |
Beta Was this translation helpful? Give feedback.
-
このスレッドをご覧になるほか方のために申し添えますと、詳細マニュアル + Alpha 「A.5.6 関連語検索」内の「共起ネットワーク」項に記載のことですね(4刷ではpp. 173-174)。 ※外部変数の列数が変わると、KH Coderの処理がなにか変わるというような意味ではありません。ある1つの外部変数「性別」が持つ、単一の値「女性」に注目するという意味だと思います。 |
Beta Was this translation helpful? Give feedback.
Q1 定義式が異なりますので、別のものとお考えください。
Q2
「関連語検索」の「共起ネット」ボタン
正確に申しますと、(A)「関連語検索」画面で「<>性別-->女性」を検索して、画面下の「共起ネット」ボタンをクリックすると、女性の回答のみにもとづいて共起が計算され、共起ネットワークが作成されます。女性の回答のみにもとづいた共起ネットワークと言えるかと思います。この点については、詳細マニュアル + Alpha A.5.6節(の終わりの方)もご覧ください。
ただし、この(A)の方法では、男性の回答と比較して女性に多い語を選択し、それらの語を使ったネットワークになります。このため(B)女性の回答のみのデータをKH Coderにプロジェクトとして登録して作成したネットワークとは、一致しません。(B)の方法では、男性との比較なしに、単に女性に多い語を選択してネットワークを作成している点が(A)と異なります。
この共起ネットワークの計算(A)において、そういったことは起こりません。標準のKWICは、男女(外部変数)にかかわりなく、単に「バイキング」の前後の文脈を見る機能であるため、男性の回答も表示されます。しかし、「共起ネット」ボタンをクリックしたときに行なわれる計算(A)はまったく別の計算になります。Jaccardでも女性の回答のみにもとづいて共起が計算されます。
通常の共起ネットワークを作りたい場合
(A)男性と比べて女性に多い語を使うのではなく、(B)単に女性に多い語を使って、女性データをもとに共…