R 的 Vectorization

Submitted by kzeng on Thu, 2010-03-11 12:33

最先习惯的用的计量软件是 stata，然后是 vba for excel，然后是 R，大概因为是这个学习路径，导致了在 R 中的一些不良习惯。 stata 的指令很多都是直接针对 vector 的，譬如下面的 panel data：

ID	Year	X	Y
CHN	1990	45	36
CHN	1991	23	62
CHN	1992	55	90
JPN	1990	79	56
JPN	1991	60	72
JPN	1992	78	100

如果需要只需 CHN 的数据，在 stata 里只要：

keep if ID==”CHN”

就可以了。而 VBA 中因为 excel 表格的直观，一般是用 for 或者 do loop：

Sub chn()

n = Range("A50000").End(xlUp).Row

for i = n to 2 Step -1

if Cells(i,"A")!="CHN" then
Cells(i,"A").entiredRow.delete

end if 

next i

End Sub

因为 R 中的 if statement 不能直接针对 vector，所以就习惯像 VBA 一样用 loop 来整理数据，但是因为 excel 中最大的数据量不过 6万五千多行 256 列，数据量并不大，所以用 loop 虽然慢，但是因为数据量的限制，还算能忍受，但是在 R 中，如果有上十万的 observations，再用 loop 就极其的痛苦了，虽然R中的loop 的效率要比 VBA 高（尽管不如 S），虽然刚换了 Duo Quad 的 CPU，但是仍然能算到死机（虽然可以 remote access 学校的 cluster 上去，但是浪费学校的资源也不好），所以迫使自己重新学习 R 中的 vectorization，其实比如上面的例子，在 R 中用 vector 作也简单（假设上面 data frame 的名称是dat）：

chn<-dat[grep("CHN",dat$ID),]

也挺简单的。所以程序还是一个摸索熟练的过程（虽然我还没有发现如何像 stata 一样便捷的在 R 中的 panel data 里创建 lag variable，并且还在等待大牛人们完善 R 中的 panel data package，譬如 fixed-effect negative binomial model，但是 R 的灵活性，特别是在编程和模拟上，还是超出其他软件很多，特别是 R 是免费的！）

Free Tags:

vba

Stata

Blog分类:

经济