不能尽信书 CorpusTalk分享雷 蕾教授 [华中科大外国语学院]CorpusTalk 讲述语言学与学术写作的故事 坚持原创
My homepage at HUST: http://sfl.hust.edu.cn/info/1139/5993.htm
不能尽信书 CorpusTalk分享
最近在折腾一个topic modeling 的小项目。
翻了几本书,照着书敲代码,结果跑出来了,甚喜,很简单啊,机器学习不过如此嘛!
于是,真实数据搞起来。
然后,问题拖家带口来了。
数据清洗难题一大堆。
书上的干净数据,直接跑;真实数据,dirty, dirty, dirty…
确认k值问题。
书上模拟运行,随便整个k值。
真实数据怎么确认k值?
网上查资料,发现了loglikelihood方法。
代码整过来,运行,等待,貌似死机…
重启。
检查代码,再来一遍。
死机again。
仔细阅读,说是整loglikelihood,需要运行很长时间。
再再来一遍吧,先吃饭去,让机器继续。
饭毕,机器还在跑。
等半小时,还在跑。
再等。
报错!
想起一句话:不能尽信书。
怀疑写书的都是骗纸 …
怀疑智商欠费 …
那些说语言学家是科学家的,请出来走两步。
领取专属 10元无门槛券
私享最新 技术干货