内容分析法是社科常用的定量研究方法。因为老师的要求,最近去学习了一下LIWC,简要总结一下。
LIWC简介
Linguistic Inquiry and Word Count 语言查询和词数统计
LIWC是一种基于语词计量的文本分析工具,它可以对文本内容的词语类别,尤其是心理学类的词语,进行量化分析。
LIWC的原理是将文本中的每个词与一个预先定义的词典进行匹配,统计每个词语类别在文本中出现的频率,从而反映文本的语言特征和心理状态。
LIWC的词典包含了多个维度的词语类别,例如语言维度(如功能词、标点符号等)、心理维度(如情感、认知、动机等)、社会维度(如家庭、朋友、工作等)和生物维度(如身体、健康、死亡等)。
在官方编写的《The Development and Psychometric Properties of LIWC-22》这本介绍与操作手册中,可以找到LIWC内含的词语维度分类明细。
(链接:https://www.liwc.app/static/documents/LIWC-22%20Manual%20-%20Development%20and%20Psychometrics.pdf)
LIWC的优点是操作简单、效率高、结果可靠,适用于各种类型的文本数据,如日记、信件、博客、社交媒体、演讲等。
LIWC的缺点是词典的覆盖度有限,不能识别新词、专有名词、复合词等,也不能分析文本的语法结构、语义关系、语用含义等。LIWC的应用领域非常广泛,包括心理健康、人际交往、社会心理、政治传播、组织行为等。
(LIWC词典的语料库来源)
LIWC的分析方法简要说明
例如,《CEOs’ temporal focus, firm strategic change, and performance: Insights from a paradox perspective》这篇文章里对“过去时间焦点”和“未来时间焦点”进行了测量,在LIWC词典中,我们认为“ago,” “learned,”“remembered” 这样的单词表示了过去焦点;而“will", “future"这样的单词表示了未来焦点。
我们可以计算分析文本(该篇选用的是LTS,即致股东的信)中的过去焦点词频,由于多篇分析文本的长度并不一致,需要除以文本的总词数以标准化。
过去焦点分数 = LTS中表示过去的单词数量/LTS总单词数量
为了进一步了解LIWC的计算方法,可以查看LIWC的源词典。
这里我找到了LIWC2015版本的简体中文词典。
可以看到,词典设置了多项属性,并记录了每一个词语拥有的属性。
以词语“敝人”为例,其拥有属性1、2、3、4,即“功能词、代词、个人代词、我”四项。
使用LIWC22软件
*可以下载python的安装包,在只使用LIWC的词典基础上,编写代码进内容分析。
chbrown/liwc-python: Linguistic Inquiry and Word Count (LIW C) analyzer (github.com)
链接:github.com/chbrown/liwc-python
更为简便的方法是,使用官方开发的LIWC22软件:
官方网站:www.liwc.app
LIWC22软件采取会员制,需要付费使用
在付费之后即可以激活软件,同时会有一串serial number,输入之后可以查看LIWC的词典原文。此外,还可以看到用户创建的非官方词典(没出钱可是看不了的)。这篇介绍播客梳理了LIWC的非官方词库并给出了中文翻译。
链接:https://textdata.cn/blog/share_your_dict_to_cntext/
(LIWC允许上传个人词典)
目前LIWC共收录了70多个非官方词典,这些词典如量表一样,一般都有相应的论文作为依据,依然具有较高的可靠性。
(部分非官方词典)
(词典Crovitz_Innovator_Identification:识别“创新者”和“非创新者”——对应的论文)
在下载LIWC22软件后,将需要分析的文本内容设置为txt格式,并导入软件,即可进行内容的分析,并将分析结果导出为excel表格。
教学视频(此为搬运版本,可以在油管找到原视频):https://www.bilibili.com/video/BV1ME411t7vg/?spm_id_from=333.337.search-card.all.click&vd_source=adf5456ae8714729026fcb61814c333d
扩展:文心textmind——更适合中国宝宝的LIWC
由于LIWC中文词库的有限性,尽管LIWC已经更新到了2022版本,但中文词库并没有同步更新,依然是2015版本。
中科院心理所参照LIWC词库研发了针对中文语境的TextMind,。“文心”为用户提供从简体中文自动分词,到语言心理分析的一揽子分析解决方案,其词库、文字和符号等处理方法专门针对简体中文语境,词库分类体系也与LIWC兼容一致。
文心(TextMind) -- 中国科学院心理研究所计算网络心理实验室 (psych.ac.cn)
http://ccpl.psych.ac.cn/textmind/