Skip to content

Latest commit

 

History

History
377 lines (212 loc) · 24 KB

古诗文网词频简要分析.md

File metadata and controls

377 lines (212 loc) · 24 KB

本文基于GushiwenSpider爬取的数据,结合所学所看从数值统计词频统计两个角度对获取的数据进行简要分析。

文学创作离不开特定的时代背景,文学作品的词频分布可以很好地呈现不同时期的社会现状、文学风向以及社会发展趋势。

而从数值统计与词频的角度能够很好地对上述观点加以印证,比如能够从统计数据中得出以下结论:

爱情——亘古不变的话题(见1.2 先秦篇,2.3 李煜篇, 2.5 元好问篇, 2.6 纳兰篇)

清王朝风云变幻,历史人物比作品更值得解析(见1.3 大清的诗人比诗词更值得解读?)

国虽大,好战恒亡(见2.1 隋炀帝——一言不合说打就打的战斗皇帝)

李白、杜甫对后世文学影响之深穿越千年(见2.2 杜甫很忙,李白也很忙)

正确的人放在错误的位置,仍然是个错误(见2.3 李煜---最悲催的“文青皇帝”)

重男轻女思想对女性的禁锢持续了数千年(见2.4 李清照--千古第一女词人)

一、数值统计:

首先,从数值角度简要分析,数据包括已保存的文件个数、文件包含字数统计。

1.1 概况

爬取的数据统计,如下表:

image

合计作者1437位(有名有姓的),文章共7625篇,其中无名氏的作品共691篇

各朝作者与作品数量折线图:

image

1.2 先秦作品多而作者少,都是高产文青?

从作品数量上看,唐宋元清为最多,作品数排名第五的为先秦,但作者却极少,为什么?

并不是先秦的先驱文艺老年们如陆游一样那么高产,而是因为这些先驱们只顾着做埋头做文章,没有留下姓名,他们有个统一名称,不是雷锋,叫“佚名”。

如上表所示,先秦有姓名的作者只有22人(去掉一个叫佚名的),而这22人写了几篇文章呢?635-537=98篇,而那个叫“佚名”的写了537篇,占了整个先秦的85%。 按保存的文件大小对这537篇文章排序,得到前十,如下图:

image

这些文章中,正文与正文之间的字数相差无几,可以说翻译、注释、赏析越多,作品就越深入人心。

这些无名氏们留下的多为经典之作,里面的名词名句至今广为流传,尤其是爱情这件小事,古今都是相通的。譬如说:《氓》,《关雎》,《蒹葭》等。

No.1

乘彼垝垣,以望复关。不见复关,泣涕涟涟。既见复关,载笑载言。

...

女也不爽,士贰其行。士也罔极,二三其德。

...

及尔偕老,老使我怨。淇则有岸,隰则有泮。总角之宴,言笑晏晏,信誓旦旦,不思其反。反是不思,亦已焉哉!

肯定是背过的,第一篇就是爱情悲剧,不是个好兆头。

话说历史上比较著名的爱情传说多为悲剧:梁山伯与祝英台,牛郎织女,白娘子和许仙,焦仲卿与秦罗敷(孔雀东南飞,婆媳关系同爱情一样,都是千古难题),小翠和穷书生,宝玉和黛玉,崔莺莺与张生(愿有情人终成眷属,大团圆),杜丽娘与柳梦梅(情不知所起,一往而深)等等。千金大小姐下嫁给穷书生的居多,因为作者都是穷书生。。。。。

No.2 七月

好像没有学过,但第一句话应该都听说过:“七月流火,九月授衣”

No.3 公输

中学课文学过,公输般(传说中的鲁班)和墨子的对话。

No.4 关雎

都学过吧?

“窈窕淑女 君子好逑”
“求之不得 辗转反侧”
“琴瑟友之 ”, “钟鼓乐之”

道尽了多少痴男怨女的神态,说多了都是泪!

下面还有一个《蒹葭》,又是情诗经典哪—— “所谓伊人 在水一方”。 琼瑶阿姨基于此而填了一首歌,名曰《在水一方》,邓丽君曾翻唱过,红遍大江南北。

似乎可以简单地从数字角度理解亘古不变的话题---爱情,放之古今、无论中外均为热词,都是应该上头条的。

image

接下来看另一个数据:字数统计。分别为正文字数、翻译(包括赏析)字数和作者介绍字数统计,如下图:

image

Top5分别为:元、宋、唐、先秦、清。

关注点在正文字数、翻译字数与作者介绍字数的比例上,因此忽略先秦。

元代,在处理的时候,把没有评分和翻译的文章整篇都填充到翻译部分了,元代的作品绝大多数都是没有翻译的,填充后正文与翻译字数基本持平。 看尽元代作者,也就两个名字稍微熟悉:

马致远—— “夕阳西下,断肠人在天涯”。
张养浩—— “兴,百姓苦;亡,百姓苦!”

唐和宋的翻译字数远大于正文字数,而正文字数又接近于作者介绍字数。

唐诗宋词,言简意赅,几个字都能被分析出长篇大论,从注释到翻译,再到历史背景,以及诗人表达了何种意义,等等,必然远多于正文,犹记得那些年语文课本上密密麻麻的抄的都是各种注释、解析、中心思想,铺满了课本空白处,同上面的比例大致相当。

更何况我大唐有诗仙、诗魔、诗鬼、诗圣。当原文就是长篇的时候,翻译、赏析就更不得了了。

譬如说白居易的《琵琶行》、《长恨歌》、《观刈麦》和李白的《蜀道难》、《将进酒》、《行路难》、《梦游天姥吟留别》等,那些年背不完的文章,翻译解析就不知多少字了。

“犹抱琵琶半遮面”“江州司马青衫湿”
“在天愿做比翼鸟,在地一起吃荔枝“(多么浪漫)
“长风破浪会有时,直挂云帆济沧海”

大清王朝就奇怪了,作者介绍能比翻译字数还多?

1.3 大清的诗人比诗词更值得解读?

众所周知,古代文学成就,除早期的《诗经》之外,几千年的文明史中最负盛名流传最广当属唐诗宋词元曲,明清小说。

在明清时,早期白话兴起,四大名著、三侠五义、三言二拍、聊斋等等,均出自于明清两朝,古诗文网没有收录小说作品,只收录了里面的一些诗词。故其正文与翻译部分皆远少于唐宋元也就不足为怪了。

倒是作者介绍字数多于翻译字数真心觉得奇怪,于是就随手翻翻那些名人作品与作者简介。

首先映入眼帘的是曹雪芹和曾国藩(windows系统默认拼音排序,曾国藩的“曾”被识别为“ceng”)。

曹雪芹,说他的《红楼梦》为中国古典文学最高成就不足为过吧?

《红楼梦》是一部具有世界影响力的人情小说作品,举世公认的中国古典小说巅峰之作,中国封建社会的百科全书,传统文化的集大成者。  ——百度百科

“作为一个中国人,既然有阅读能力,不可不读《红楼梦》,不读就不懂中国封建社会。读一遍也不行,最少看三遍,不看三遍没有发言权。” ——毛泽东

如下图:曹雪芹简介的文件大小占了整个文件夹总量的五分之一,和芙蓉女儿诔大小相当。

image

曾国藩,毛爷爷的湖南老乡,后世对其功过评价充满争议,但其历史地位却不可撼动。

image

“无辣不革命,无湘不成军”,晚清历史上就有“中兴将相什九湖湘”之说,共和国开国十大元帅中有3位是湖南籍、十名大将中有6位是湖南籍的。大Boss毛太祖,也是湖南的。贴些历史评价就知道曾国藩的历史地位如何了:

毛泽东:愚于近人,独服曾文正,观其收拾洪杨一役,完满无缺。使以今人易其位,其能如彼之完满乎?
梁启超对曾氏倾心推崇,称“吾谓曾文正集,不可不日三复也。”
蒋介石对曾氏更是顶礼膜拜,认为曾国藩为人之道,“足为吾人之师资”。他把《曾胡治兵语录》当作教导高级将领的教科书,自己又将《曾文正公全集》常置案旁,终生拜读不辍。
蔡锷将军对曾氏以爱兵来打造仁义之师的治兵思想推崇备至:“带兵如带子弟一语,最为慈仁贴切。能以此存心,则古今带兵格言,千言万语皆付之一炬。”
左宗棠对曾国藩的挽联:知人之明,谋国之忠,自愧不如元辅;同心若金,攻错若石,相期无负平生。
中国近代现代化建设的开拓者
修身齐家治国中华千古第一完人----立功、立德、立言“三不朽”。
升官最快做官最好保官最稳之楷模----十年七迁,连跃十级。
“从政要学曾国藩,经商要学胡雪岩”

虽然如此,曾国藩在打太平天国的时候几次被农民军打的要挂。

历史课本中有一幅图:曾国藩被太平天国打得狼狈不堪要投江自尽,随从拉着劝其东山再起。

iamge

历史书上没有的一段是:太平天国领导层在经历动荡后启用年轻将领李秀成,李秀成不负众望节节胜利,一路打到湘军大营,大军压境,遥望曾国藩营帐,再进一步,即可生擒曾国藩。当时曾国藩走投无路已经写下遗书等死了,结果李秀成的情报工作不给力,不清楚湘军虚实,停止不前。曾国藩逃过一劫,那么太平天国就不会那么幸运了。 以下历史人物的介绍同上述两人一样,作者介绍字数远远多于作品内容和赏析:

冯云山: 太平天国创始人之一,南王。
洪秀全:太平天国创始人,天王。
黄遵宪:晚清诗人,外交家、政治家、教育家。
纪昀:传说中的铁齿铜牙纪晓岚,主持编纂《四库全书》。
康有为:戊戌变法领导人,梁启超的师傅,出事后带着梁启超逃了。留下了弟弟康广仁以及谭嗣同等六君子英勇就义。
林则徐,“苟利国家生死以,岂因祸福避趋之”。睁眼看世界第一人,人民英雄纪念碑上刻着他的英雄事迹————虎门硝烟,被毛爷爷评价为是中国历史上第一个反抗英帝国主义的民族英雄;
李鸿章:晚清四杰之一,签署了几乎所有丧权辱国的条约,《马关条约》、《辛丑条约》,毛爷爷评其“水浅而舟大也”;
梁启超:戊戌变法领导人之一,梁思成他爹,林徽因公公;
谭嗣同:“有心杀贼,无力回天。死得其所,快哉快哉”,戊戌六君子之一;
蒲松龄:都是千年的狐狸,跟我玩什么《聊斋》;
秋瑾:华夏杰出女先烈,民族英雄;
王国维:古今之成大事业、大学问者,必经过三种之境界;
郑板桥:“千磨万击还坚劲,任尔东西南北风”;
...

最后,不能不提的满清第一词人----纳兰性德,忧郁的大才子,还有和红楼梦千丝万缕的传说;

满清历史人物不胜枚举,尤其是晚清,处于历史的剧变进程中,”乱烘烘你方唱罢我登场“,英雄造时势,时势造英雄。从作者介绍字数与作品赏析字数对比的结果可以得出结论:大清人物果然比诗文更值得解析

以上是从获取数据的数值属性简单分析,得出两个结论:

1、先秦作品多而作者少,是因为多数作者只留下了名作却不曾留下芳名。
2、处于历史剧变进程中的满清尤其是晚清,人物比作品更值得解读。

二、词频统计

以下基于词频统计对历朝历代的作品进行统计分析试图找到各朝的“主旋律”。按照历史顺序,择要说明

2.1 隋炀帝——一言不合说打就打的战斗皇帝

image

从词频看,满屏就在说一个事:战争

柳条:古人常折杨柳枝表送别。古人赠柳,寓意有二:一是柳树速长,折柳送友意味着无论漂泊何方都能枝繁叶茂,而纤柔细软的柳丝则象征着情意绵绵;二是柳与“留”谐音,折柳相赠有“挽留”之意。出现在隋朝,是指将士出发前的送别。

柳条折尽花飞尽,借问行人归不归?

辽东,高句丽:均是指隋炀帝三征高句丽。隋炀帝也是大才子,征讨高句丽时作诗《纪辽东二首》。

李广:汉朝大将,“飞将军”。在此借指将士。

大学时期,室友讲到隋炀帝喜欢打仗,一言不合说打就打,其中三征高句丽足以展现其魄力,当时国内局势已经岌岌可危了,依然昭告天下征讨高句丽,直接打到投降。只不过之后很快隋朝就被灭了。

隋文帝虽好征战,但在征战之前准备充足,整饬吏治,推进改革,府库充裕,兵强马壮。降服突厥,南下灭陈,无往而不利。

到了隋炀帝的时候,先是征服林邑(越南),然后又以胡治胡驯服契丹,

再招降琉球,琉球不从,打到你从,收复琉球,就是这么霸气威武!隋炀帝又派军收服伊吾,遣将进攻吐谷浑,后御驾亲征吐谷浑,开疆拓土,纵横天下谁人能敌?至此隋朝版图、国力达到鼎盛。

隋炀帝的此次亲征,彻底的征服、占领了吐谷浑。彻底的打开丝绸之路,畅通了中国与西方的联系。震服了西域各国,从此西域各国对中国朝贡不断。 ————百度百科

然盛极必衰,泰极丕来。打仗胜利会上瘾的,打仗拼的是后勤,连年征战,营造洛阳,开挖隋唐大运河(现如今仍是世界最伟大工程之一,影响力持续至今),都极度消耗了隋朝当时的人力物力;群雄并起,尤以李渊父子为胜;三征高句丽,国力倾颓,大隋帝国逐渐被隋炀帝打碎。

虽然古诗文网收录隋朝的作品不多,只有十六首。但隋朝的词频图是最能体现当朝主旋律的,完整地展现了贯穿隋朝始终的————战争

2.2 杜甫很忙,李白也很忙

image

唐朝词频分布,赫然几个大字:“唐代”、“诗人”,“李白”,“杜甫”。

唐诗成就最高当属诗仙与诗圣,既然说到他俩很忙了,就不单指唐朝了。这二人对后世影响太大了,以至于把宋代词频的人名做成云图(见2.4 李清照--千古第一女词人配图),赫然发现李白、杜甫也在其中。他俩很忙,估计是想要了解自己所写诗词的中心思想就翻后人的解析去了,穿越到宋朝,白居易和韩愈也跟着去了。

金朝、元朝、清朝,都有他俩的身影。足见此二人对中国文学影响之深远。

2.3 李煜---最悲催的“文青皇帝”

image

在这十二个朝代的词频分布中,唯独五代的关键词是一国之君。放眼望去,全是在说李煜,“词人”、“李煜”、“故国”、“南唐”、“不堪回首”。

故国不堪回首明月中,雕栏玉砌应犹在,只是朱颜改,问君能有几多愁,恰似一江春水向东流。

七夕佳节,有情人花好月圆,亡国君以泪洗面。吟一曲虞美人,怀念故国;捧一杯鸩毒酒,辞别人间。

同样在历史中另一个七夕,有**“七月七日长生殿,夜半无人私语时。”**

做人不开心,活着还有什么意义?或许李后主写下这首虞美人的时候就已经知道接下来的事了,可那又如何呢?

亡国之君,在帝王中是个十足的落魄者,但在诗词书画中却是集大成者,史称**“千古词帝”**。

说他悲催,是因为本不想当皇帝的他,偏偏被逼无奈当皇帝,排行第六的他本不是皇位继承人,偏偏二哥到五哥全死了,太子呢?担心父皇把皇位传给皇叔,把皇叔给杀了,然后三个月后自己暴毙,无形中把李煜推上了皇位。造化就是如此弄人,费尽心机当皇帝终归一场空,潜心文学与世无争偏偏难辞帝位。

据野史传说,李煜文学成就源自一个女人--一个被他迷恋着的女人——周后。因为爱卿,朕才那么悲伤

2.4 李清照--千古第一女词人

image

大宋王朝的词频图谱主要是人,苏轼(东坡)、辛弃疾(稼轩),陆游(放翁)都是比较喜欢的词人,但太多了,还是按性别筛选下吧,就说词中女神李清照了。

在统计的所有十二个朝代里面能够在词云上显示的人名中,女子姓名只有三个,分别是李清照陈圆圆黛玉

除了李清照是词人作者外,陈圆圆是“冲冠一怒为红颜”的女主,黛玉是“行动处似弱柳扶风”的小说人物。

没有在词云图谱上显示的女性作者中,汉朝稍多,蔡文姬卓文君王昭君,都是历史中赫赫有名的才貌双全世间少有的女子。文君一曲《白头吟》传唱至今,“愿得一心人,白首不相离”

毕竟历史中,女文人太少,才更显得李清照的可贵。大宋词坛,文人墨客如织如簇,却独开此一朵奇葩。如果苏小妹不是虚构的,那么李清照还不至于在文坛留下孤影。

在被统计的一千四百多名作者中,女性作者加起来还不够一个零头,堪称凤毛麟角。从数字的角度反衬了古代重男轻女思想之严重,即便历史中有武则天和慈禧女性统治时代,但二人加起来统治时间不过百年而已,在历史长河中不过是一道涟漪。

“女子无才便是德”,恰恰是这些鲜有的“无德”才女才使得古文坛不至于那么单调乏味,也只有她们才显得可爱、可敬。

见客入来,袜刬金钗溜。和羞走,倚门回首,却把青梅嗅。 一语道尽豆蔻少女娇羞态、调皮状,

2.5 元好问---千年一问,终无答案

image

问世间情为何物?直教生死相许!

这一问,至今仍没有人能给出准确答案,也没有什么标准答案,仁者见仁,痴者言痴,。

《牡丹亭》中的名句或许可以从一个角度诠释:

情不知所起,一往而深,生者可以死,死可以生。生而不可与死,死而不可复生者,皆非情之至也。

金朝词频分布中,忽略他朝穿越而来的诗人、词人,只看名词的话, 出现最多的是大雁和雁丘。和“问世间情为何物”一样,均是出自元好问的《摸鱼儿 雁丘词》

金朝诗词中,古诗文网只收录了3个人的63篇作品,其中元好问一人就占了61篇,另外两人基本可以忽略了。在元好问的所有作品中,《雁丘词》是最受关注的。

雁丘词的背景以及核心指向的是亘古不变的话题----爱情。不止人类,哪怕飞禽;无关古今,不论中外。

一只大雁被猎人射杀,伴侣生无可恋自尽而亡,深深地触动进京赶考的作者,买下二雁就地埋葬做雁丘,“千秋万古,为留待骚人,狂歌痛饮,来访雁丘处”。

2.6 纳兰公子---自古多情空余恨

image

“纳兰性德”、”纳兰“、”容若“、”纳兰词“、”卢氏“、”相思“,大清的词频分布上,纳兰占了不少,其余多是《红楼梦》相关。

江湖野史传:乾隆曾说,此(红楼梦)乃明珠家事也。明珠,即纳兰明珠,纳兰性德之父。如果事实果真如此,那么大清的词频分布基本都与纳兰和红楼相关。从词频来看,纳兰词和红楼梦分别代表了大清文学诗词与小说,而以纳兰的才情、红楼的地位,占据大清文坛也理所应当。

家家争唱饮水词,纳兰心事有谁知?

我是人间惆怅客,知君何事泪纵横。

山一程,水一程,身向榆关那畔行,夜深千帐灯。
风一更,雪一更,聒碎乡心梦不成,故园无此声。

一生一世一双人,怎教两处销魂?相思相望不相亲,天为谁春?

赌书消得泼茶香,当时只道是寻常。

人生若只如初见,何事秋风悲画扇?
等闲变却故人心,却道故人心易变。

郁郁寡欢,忧郁而终。情深不寿,天妒英才!

从先秦《诗经》至金朝《摸鱼儿 雁丘词》再到大清《纳兰词》、《红楼梦》,纵观两千年文学史,唯独“情”字最难解。

三、说明

  • 3.1 以上所有分析均基于从古诗文网爬取到的数据,时间跨度起于先秦止于晚清。
  • 3.2 分词工具:中文词法分析工具包THULAC C++版,用户字典约90W词。
  • 3.3 古诗文网中每个朝代下标总数不是实际收录数目,如唐代共47086篇,实际收录约2000篇。

image

  • 3.4 数据统计说明:
3.4.1  全量合计1439名作者是指除所有有名有姓的之外每个朝代均有一个“佚名”填充那些无名氏,朝代按照古诗文网划分,共12个朝代,学历史不必纠结怎么没有商朝和夏朝了;

3.4.2  在先秦和两汉两朝中,存在部分重复与群体性作者,皆独立算作一个作者,数量极少,不再深究。如“刘向 撰”,“刘向 编”,“班固 撰”,“孟子及弟子”,“孟子及其弟子”;

3.4.3  字数包括标点符号;

3.4.4 上海辞书出版社之所以会出现在词频图里,是因为参考资料多出自该出版社;

3.4.5 词频分析针对注释、翻译与赏析部分。之所以不选取原作提取词频是因为正文多言简意赅、借景用典,不能直观地体现文章思想;