发布信息

内容分析法——使用LIWC22软件

作者:本站编辑      2023-11-29 06:37:36     937

内容分析法是社科常用的定量研究方法。因为老师的要求,最近去学习了一下LIWC,简要总结一下。


LIWC简介

Linguistic Inquiry and Word Count 语言查询和词数统计

LIWC是一种基于语词计量的文本分析工具,它可以对文本内容的词语类别,尤其是心理学类的词语,进行量化分析。

LIWC的原理是将文本中的每个词与一个预先定义的词典进行匹配,统计每个词语类别在文本中出现的频率,从而反映文本的语言特征和心理状态。

LIWC的词典包含了多个维度的词语类别,例如语言维度(如功能词、标点符号等)、心理维度(如情感、认知、动机等)、社会维度(如家庭、朋友、工作等)和生物维度(如身体、健康、死亡等)。

在官方编写的《The Development and Psychometric Properties of LIWC-22》这本介绍与操作手册中,可以找到LIWC内含的词语维度分类明细。

(链接:https://www.liwc.app/static/documents/LIWC-22%20Manual%20-%20Development%20and%20Psychometrics.pdf)

LIWC的优点是操作简单、效率高、结果可靠,适用于各种类型的文本数据,如日记、信件、博客、社交媒体、演讲等。

LIWC的缺点是词典的覆盖度有限,不能识别新词、专有名词、复合词等,也不能分析文本的语法结构、语义关系、语用含义等。LIWC的应用领域非常广泛,包括心理健康、人际交往、社会心理、政治传播、组织行为等。

(LIWC词典的语料库来源)

LIWC的分析方法简要说明

例如,《CEOs’ temporal focus, firm strategic change, and performance: Insights from a paradox perspective》这篇文章里对“过去时间焦点”和“未来时间焦点”进行了测量,在LIWC词典中,我们认为“ago,” “learned,”“remembered” 这样的单词表示了过去焦点;而“will", “future"这样的单词表示了未来焦点。

我们可以计算分析文本(该篇选用的是LTS,即致股东的信)中的过去焦点词频,由于多篇分析文本的长度并不一致,需要除以文本的总词数以标准化。

过去焦点分数 = LTS中表示过去的单词数量/LTS总单词数量


为了进一步了解LIWC的计算方法,可以查看LIWC的源词典。

这里我找到了LIWC2015版本的简体中文词典。

可以看到,词典设置了多项属性,并记录了每一个词语拥有的属性。

以词语“敝人”为例,其拥有属性1、2、3、4,即“功能词、代词、个人代词、我”四项。

使用LIWC22软件

*可以下载python的安装包,在只使用LIWC的词典基础上,编写代码进内容分析。

chbrown/liwc-python: Linguistic Inquiry and Word Count (LIWC) analyzer (github.com)

链接:github.com/chbrown/liwc-python

更为简便的方法是,使用官方开发的LIWC22软件:

官方网站:www.liwc.app

LIWC22软件采取会员制,需要付费使用

在付费之后即可以激活软件,同时会有一串serial number,输入之后可以查看LIWC的词典原文。此外,还可以看到用户创建的非官方词典(没出钱可是看不了的)。这篇介绍播客梳理了LIWC的非官方词库并给出了中文翻译。

链接:https://textdata.cn/blog/share_your_dict_to_cntext/

(LIWC允许上传个人词典)

目前LIWC共收录了70多个非官方词典,这些词典如量表一样,一般都有相应的论文作为依据,依然具有较高的可靠性。

(部分非官方词典)

(词典Crovitz_Innovator_Identification:识别“创新者”和“非创新者”——对应的论文)


在下载LIWC22软件后,将需要分析的文本内容设置为txt格式,并导入软件,即可进行内容的分析,并将分析结果导出为excel表格。

教学视频(此为搬运版本,可以在油管找到原视频):https://www.bilibili.com/video/BV1ME411t7vg/?spm_id_from=333.337.search-card.all.click&vd_source=adf5456ae8714729026fcb61814c333d

扩展:文心textmind——更适合中国宝宝的LIWC

由于LIWC中文词库的有限性,尽管LIWC已经更新到了2022版本,但中文词库并没有同步更新,依然是2015版本。

中科院心理所参照LIWC词库研发了针对中文语境的TextMind,。“文心”为用户提供从简体中文自动分词,到语言心理分析的一揽子分析解决方案,其词库、文字和符号等处理方法专门针对简体中文语境,词库分类体系也与LIWC兼容一致。

文心(TextMind) -- 中国科学院心理研究所计算网络心理实验室 (psych.ac.cn)

http://ccpl.psych.ac.cn/textmind/

相关内容 查看全部