C# | 寱语

脍炙《通鉴》

Submitted by kzeng on Sun, 2012-09-23 00:15

（这是一篇关于很枯燥的技术，很枯燥的历史文本，和不太枯燥的统计的 blog）

看过一篇关于《全宋词》词频统计文章，挺有趣的，想用类似的方法处理一下《资治通鉴》，所以就趁周末花了几个小时作了一下。

词是长短句，统计两个字组成的词频比较合适，《通鉴》是古文，文字结构不同，所以我统计了单字频，两字词词频，三字词词频，四字词词频，和五字词词频。同时也记录各个统计单位（字或词）出现的卷数。《通鉴》294卷，从三家分晋到五代结束共共1362年，所以卷数可以作为时间的度量。

《全宋词》的词频是用 R 作的。R 虽然是不错的统计软件，也是我的最爱之一，但是 R 并不适合作文本分析，更不适合来作数据库操作。所以就用了 C# 和 Kdb +3.0。 C# 用来分析文本，.Net 是懒人的福音，并且多线程运算非常简单，能够大大提升文本处理速度，Kdb+用来储存数据，它差不多是性能最好的 in-memory 数据库了，从它的网站上能下载到免费版本。这个分析里数据库是重头戏，因为需要查询数百万行的数据 row，如果用 MySQL，估计会龟速到死。另外 Kdb + 本身只有 300多K，不用安装，很方便。还有就是 Kdb+ 的 Q 语言也能满足编程需要。

Kdb+ 的网站提供了各种语言 API 的源码，C# 的 API 不支持多线程，所以需要在适当的地方加锁。Kdb 唯一的问题是不支持 UTF-8。它用的是 UTF-7，所以在注入中文文字数据的时候可能会出现乱码，为了省事，从 C# 里 publish 数据的时候，直接 publish 为三字节的 int[] 了。query kdb 时用了一个免费的 GUI QPad。QPad 似乎是用 Java 写的，它的编码默认是 UTF-8，所以在 query Kdb 的时候直接把三字节的 int vector cast 成 char，在 QPad 里显示的就是中文了，所以也很方便。

产生数据的 C# 代码非常简单，发布数据的时候自动生成 Kdb 的 schema。使用的《资治通鉴》的文本是网上广为流传的国学网简体版，在生成数据前，先用 C# 作了预处理，主要是用正则表达式替换掉了现代语言的“污染”（譬如：“后一页”，公元xxx年等）

下表是各个字、词频的数据量：

类别	数据行数
单字	2,586,329
双字	2,102,023
三字	1,633,875
四字	1,221,713
五字	851,403

从上表看，《资治通鉴》应该有近两百六十万字。

单字的字频统计如下：

排名	字	次数	百分比	累积百分比
1	之	66087	2.56%	2.56%
2	以	39874	1.54%	4.10%
3	为	35677	1.38%	5.48%
4	不	34376	1.33%	6.81%
5	王	21578	0.83%	7.64%
6	曰	21279	0.82%	8.46%
7	于	20182	0.78%	9.24%
8	其	20100	0.78%	10.02%
9	人	19035	0.74%	10.76%
10	将	18209	0.70%	11.46%
11	军	18083	0.70%	12.16%
12	使	17160	0.66%	12.82%
13	州	16116	0.62%	13.45%
14	大	16031	0.62%	14.07%
15	子	15600	0.60%	14.67%
16	而	15558	0.60%	15.27%
17	上	15252	0.59%	15.86%
18	兵	14746	0.57%	16.43%
19	者	12826	0.50%	16.93%
20	有	12536	0.48%	17.41%

“之”字当之无愧的排在了第一位。第一个非虚词是“王”，它包含了姓和爵位，第一个动词是“曰”。“人”的频率也很高，“将”，“军” 在双字词频中也会遇到。“帝”字排名32，“后”字排名33。但是因为是简体字，“后”并不专指皇\王后。

下面是价值观念的排名：

排名	字	次数	百分比
152	义	3507	0.14%
181	忠	3004	0.12%
223	孝	2475	0.10%
240	礼	2287	0.09%
253	信	2190	0.08%
294	仁	1935	0.07%
767	智	694	0.03%

义、忠、孝排名在前，智排名最后，倒正印证了司马温公那句话：“凡取人之术，苟不得圣人、君子而与之，与其得小人，不若得愚人。”当然这个数据里噪音很多。

另外还有很多有趣的东西，就不一一叙述了。下面看一下两个字的词频：

排名	词	最早卷数	次数	百分比
1	将军	1	6,176	0.29%
2	刺史	21	4,790	0.23%
3	州刺	21	4,110	0.20%
4	节度	29	3,698	0.18%
5	以为	1	3,479	0.17%
6	度使	203	3,202	0.15%
7	天下	1	2,972	0.14%
8	尚书	20	2,742	0.13%
9	太子	1	2,584	0.12%
10	陛下	6	2,492	0.12%
11	不能	1	2,375	0.11%
12	不可	1	2,351	0.11%
13	太后	3	2,165	0.10%
14	皇帝	6	2,050	0.10%
15	太守	5	2,010	0.10%
16	大将	6	1,813	0.09%
17	遣使	4	1,501	0.07%
18	司马	1	1,480	0.07%
19	二月	4	1,477	0.07%
20	馀人	2	1,463	0.07%

“将军”出现的频率最高，在第一卷里就出现了，“度史”显然是“节度使”里出现的，虽然在203卷才出现，但是它居然出现了3202次，唉，唐朝啊！“节度”一次出现的要比“节度使”早。“皇帝”一次最早在第6卷出现，其实那时还是昭襄王元年，但是因为文本中出现了“秦始皇帝上”。

两字地名出现的最多的是“长安”，排名43，最早出现在第5卷，不过那里的“长安”并不是长安城，而是赵国的长安君。“洛阳”其次，排名81，最早出现在第2卷，三家分晋不久，洛阳附近就成了三晋与秦国的战场。

三个字的词频：

排名	词	最早卷数	次数	百分比
1	州刺史	21	4102	0.25%
2	节度使	210	3195	0.20%
3	大将军	6	1547	0.09%
4	平章事	203	933	0.06%
5	同平章	203	901	0.06%
6	十二月	4	704	0.04%
7	之子也	13	700	0.04%
8	十一月	7	686	0.04%
9	部尚书	70	655	0.04%
10	指挥使	254	578	0.04%

比较有趣的是“之子也”，老子英雄儿好汉。

四字字频：

排名	词	最早卷数	次数	百分比
1	同平章事	203	900	0.07%
2	仪同三司	49	403	0.03%
3	都指挥使	254	374	0.03%
4	日有食之	1	368	0.03%
5	中书侍郎	73	325	0.03%
6	节度使李	217	312	0.03%
7	散骑常侍	69	308	0.03%
8	开府仪同	79	300	0.02%
9	府仪同三	79	283	0.02%
10	御史大夫	9	281	0.02%

鉴于“州刺史”在三字字频中频繁出现，所以频率出现比较高的各个州刺史的频率单列出来：

排名	词	最早卷数	次数	百分比
15	豫州刺史	58	220	0.02%
19	荆州刺史	49	195	0.02%
26	兗州刺史	37	172	0.01%
32	徐州刺史	30	167	0.01%
38	扬州刺史	24	152	0.01%
42	雍州刺史	65	147	0.01%
52	江州刺史	86	122	0.01%
64	益州刺史	39	113	0.01%
68	二州刺史	49	111	0.01%
74	秦州刺史	79	109	0.01%
101	青州刺史	21	91	0.01%
105	梁州刺史	84	90	0.01%
107	冀州刺史	27	88	0.01%
114	并州刺史	52	84	0.01%
135	凉州刺史	31	71	0.01%
165	幽州刺史	50	62	0.01%
196	广州刺史	80	55	0.00%

豫州刺史第58卷时才登场，但是雄踞第一，而豫、荆、兖、徐、扬也勾勒出了中国政治地理的热点。顺便提一句，最早登场的豫州刺史是王允，而最早登场的荆州刺史是杨震。

五字词已经没有太大的意义：

排名	词	最早卷数	次数	百分比
1	府仪同三司	79	283	0.03%
2	开府仪同三	79	283	0.03%
3	尚书左仆射	77	167	0.02%
4	皇帝上之下	10	140	0.02%
5	为中书侍郎	84	118	0.01%
6	尚书右仆射	81	115	0.01%
7	军都指挥使	256	111	0.01%
8	骠骑大将军	39	107	0.01%
9	河东节度使	214	101	0.01%
10	督中外诸军	74	97	0.01%

最后看看慕容家的英杰们谁的全名被提到的次数最多：

词	次数
慕容彦超	27
慕容垂	26
慕容廆	24
慕容绍宗	15
慕容恪	18
慕容评	18
慕容皝	17
慕容农	15
慕容翰	15
慕容仁	12
慕容白曜	10

似乎是慕容彦超险胜慕容垂……慢着！慕容垂最初的名字是慕容霸，而慕容霸被提及了10次，所以慕容垂以 36 次远远胜出（慕容缺这个全名并没有出现在《通鉴》中：））。

Free Tags:

Blog分类:

(-1)^(1/3)：从 C++ 到傅立叶变换

Submitted by kzeng on Tue, 2012-01-17 13:17

一直好奇一个关于 power function 算法的问题，直到自己动手写 power function。

在不同的编程语言里，遇到过同一个问题：(-1)^(1/3) 是多少。很显然，在实数集里，这个表达式是有意义的，正如右图 Google Calculator 给的结果，在实数集里，它等于 -1。但是在很多编程语言的实数集运算中，这个表达式是无意义的。

譬如在 C++ 里，用 cmath library, 当你计算 (-1)^(1/3) 时，你得到输出结果是：

 -1.#IND

在 C#里，用 System.Math, 作同样的计算，得到的输出结果：

NaN

在 R 里，不使用复数集，得到的结果也是一样的：

[1] NaN

同样的在 VBA 里，如果不 call Excel的 power function ( i.e. Application.WorksheetFunction.Power) ，而是直接使用 ^, 得到的结果仍然是 run-time error. 其它的编程语言也类似。

在复数集中，如果用 MATLAB, 得到的结果：

 0.5000 + 0.8660i

用 Maple，结果：

.5000000001+.8660254037*I

用 R 的复数集(i.e. as.complex(-1)^(1/3))，得到的结果：

[1] 0.5+0.8660254i

很显然，所有的语言的 power function 用的是同一种算法。这种算法无法得到实数解，而复数解得到是同一个数值。因为 power function 太基本，虽然有疑问，但是也没有过多的想这个问题，直到后来用 Q。

Q 的语法和 C++/C#/JAVA，或者 MATLAB/R/MAPLE 都不太一样，"^" 符号的定义和 C++/C# 相同，不是 power function。刚开始用的时候，不知道 Q 的 power function 是 xexp，觉得 power function 又不难，自己写一个吧，但是真正开始写，却又卡壳了：(int，int) 的函数好写，那 (double, double) 的呢？

拿出算法圣经《 Numerical Recipe 》（第三版），但是却发现它没有给出 power function 的算法，大概是太基础了吧，所以自己又想了一下，幸亏 Q 里的 log 和 exp 还是 log 和 exp，后来就想到用

exp(y*log(x)) = exp(log(x^y)) = x^y

来定义 power function，解决非整数的问题。这样的以来，一般的问题都解决了，但是因为用到了 log(x) , x 的值必须非负（0 的问题可以很简单的处理），所以一旦 x<0，这个算法就不适用了 —— 这时才突然的想到莫非上面的那些问题的症结正在此？实数集的问题是由于 log(x), x<0 在实数集里无定义，那复数集呢？在 MATLAB 里试了

>> exp(1/3*log(-1))
ans =
   0.5000 + 0.8660i

果然是这样的。所有的算法都依赖于 log 函数来获得 power 函数的值，这导致了上述问题在实数集无定义，而在复数集因为 log（-1) = 3.1416i 这个默认值，导致了 0.5000 + 0.8660i 这个结果。

但是问题还没有结束。看到 log（-1），自然想到了 2*log(i), 然后自然而然的想到傅立叶变换里常用的 trick 可以解出 log（-1）的一般表达式（为了省事儿，下面用 LaTex写了）：

有了 log（-1）的通解，我们可以让 power function 获得任意 x^y, x<0 的所有解。譬如 (-1)^(1/3)简单测试一下，在 MATLAB 里，

x=2*i*(pi/2+2*(-3:3)*pi)
exp(1/3*x)

得到：

x =
        0 -34.5575i        0 -21.9911i        0 - 9.4248i        0 + 3.1416i        0 +15.7080i        0 +28.2743i        0 +40.8407i
ans =
   0.5000 + 0.8660i   0.5000 - 0.8660i  -1.0000 - 0.0000i   0.5000 + 0.8660i   0.5000 - 0.8660i  -1.0000 + 0.0000i   0.5000 + 0.8660i

结果里面包含了它的所有三个解。因为当 x<0, x^y = (-1)^y*(|x|)^y，所以只要有 (-1)^y ，就可以得到任何负数的 power function ( exp(a+bi）也可以用上面的方法转化成三角函数来解）。

上面的长篇累牍都起源于一开始的时候不知道 Q 的 power function 是 xexp，但是如果不是自己去写 power function，恐怕也没有机会搞明白 (-1)^(1/3) 这个简单的问题，俗谚云：“看人挑担不吃力，事非经过不知难。”诚哉：）

Free Tags:

Blog分类:

数据挖掘：eBay上的Galaxy Note

Submitted by kzeng on Fri, 2011-11-18 17:38

从有Samsung Galaxy Note 的消息开始，就很期待这款 5.3 寸屏的手机（5.3 寸啊！5.3 寸啊！5.3 寸啊！），但是不出所料，这款手机要很迟才能在北美上市（甚至连会不会上市都还是一个未知数），所以当 Galaxy Note 在欧洲和亚洲发布之后，就只能关注 eBay，等待它从亚欧流入北美。

当欧洲刚刚发布这款手机的时候，eBay 也同步有人开始售卖，一开始的价格大约在 $1000 左右，并且数量很少。等了一段时间，香港的发布会过后，随着大量香港卖家的加入，价钱开始迅速下跌，很快跌倒了$800左右。作为以数字为生的人，当然会“萌”任何时间序列的漂移、扩散和跳跃（不负责的翻译 drift, diffusion, & jump），但是不断的刷新去查看eBay页面是在令人厌恶，于是就写了一个简单的 C# 程序，定时去“挖掘”eBay 页面上的价格。

但凡提及买卖/价格，就不能不考虑风险（风险也是钱啊），特别是在 eBay 这样高风险的地方。eBay 正好在推出一个新的 beta 产品页面，在这个页面上 eBay 已经利用自己的算法选出了风险和价格最优的产品，这样一来，挖数据就简单多了，就像附在后面的 C# codes 里显示的那样，只要 request 页面数据，把数据转化成 string，然后利用 C# 自己的 string search/index method，找到相关数据 CSS class，读入数据即可（数据量很小，所以任何优化都不用做）。然后把数据不断存入 txt 文本。

开始测试时是每两个小时 quote 一次，后来改成一个小时 quote 一次。屏幕上跳出的数字，很像交易所的证券，所以就干脆把它用 chartSeries （R 的 quantmod package）画出来，然后就从数据里发现了很有趣的规律：

首先总的价格趋势是下跌的，因为开始的高价格完全是因为 supply 的不足，再加上消费类电子产品本身的贬值以及与之相竞争的 HTC，Samsung Android 手机的推出（譬如在北美正式销售的 Galaxy SII skyRocket）
其次从 Nov 11 到 Nov 14 之间，在微观结构上是两个卖家相互竞争导致价格下跌。为了拿到 eBay 页面上的产品推荐，风险相同的卖家不得不通过降价来相互竞争，但是降价的幅度一般都比较小，特别是从 Nov 13 开始，基本上就是几毛几毛的降；
Nov 15 左右出现了一段价格的稳定期，大约是一家放弃了价格的竞争；
Nov 16 其中一家的货卖完了，剩下的一家觉得自己暂时处在低风险卖家的垄断地位，所以遽然的开始升价，我们看到了一个大大的 jump；
但是 jump 过后显然市场的反应冷淡，并且我们在上面说过价格的总体趋势是下跌的，如果不能及时卖出，卖家始终有一个 negative carry （也就说价格对于时间的一阶导数是负的），还有最重要的是差不多这个时候，Apple 开始 ship unlock 的 iPhone 4S ，价格大约在 $649 ，对于 Galaxy Note 的价格也是一个打击；
所以过了 Nov 17 同一卖家又开始降回比原来更低的价格水平
然后 Nov 18，价格又开始大幅度的下调，因为有一个新的竞争者出现，而现在手里还攒有大量货的早期卖家基于自己的进货成本，不得不加大降价的力度， theta bleeds :)

当然数据有限，很多只是我的猜测，不过数据本身挺有趣的，不仅本身是一个很 behavior economics的测试，如果数据点足够的多，还能 fit 出一个 term structure 模型来。。。

。。。所以到后来忘了，我只是来买手机的。。。

附 C# codes:

using System;

using System.IO;

using System.Net;

using System.Text;

using System.Text.RegularExpressions;

using System.Threading;

/// <summary>

/// Fetch eBay Price

/// </summary>

class WebFetch

    static void Main(string[] args)

        while (true)

        // used to build entire input

        StringBuilder sb = new StringBuilder();

        // used on each read operation

        byte[] buf = new byte[8192];

        // prepare the web page we will be asking for

        HttpWebRequest request = (HttpWebRequest)

            WebRequest.Create("http://www.ebay.com/ctg/Samsung-Galaxy-Note-32GB-Black-Unlocked-Smartphone-/110509414");

        // execute the request

        HttpWebResponse response = (HttpWebResponse)request.GetResponse();

            // we will read data via the response stream

            Stream resStream = response.GetResponseStream();

            string tempString = null;

            int count = 0;

do

                // fill the buffer with data

                count = resStream.Read(buf, 0, buf.Length);

                // make sure we read some data

                if (count != 0)

                    // translate from bytes to ASCII text

                    tempString = Encoding.ASCII.GetString(buf, 0, count);

                    // continue building the string

                    sb.Append(tempString);

            while (count > 0);

            string page = sb.ToString();

            //page = Regex.Replace(page, @"<(.|\n)*?>", "");

            // print out page source

            string targetString = "bbx2-pv";

            int first = page.IndexOf(targetString);

            string price = page.Substring(first + targetString.Length + 2, 7);

            targetString = "ship tfsp bbx2-s";

            first = page.IndexOf(targetString);

            string temp = page.Substring(first + targetString.Length + 2, 20);

            targetString = "</s";

            first = temp.IndexOf(targetString);

            string shipping = temp.Substring(0, first);

            if (shipping == "Free shipping") shipping = "$0";

            DateTime time = DateTime.Now;

            string path = @"C:\Users\Kai\Dropbox\Mis\Android App\GalaxyNote.txt";

            using (StreamWriter sw = File.AppendText(path))

                sw.WriteLine("{0}\t{1}\t{2}", time.ToString(), price, shipping);

            Console.WriteLine("{0}\t{1}\t{2}", time.ToString(), price, shipping);

           Thread.Sleep(1000 * 60 * 60);

Free Tags:

Blog分类: