【数据整理难题】如何用stata或R处理dat数据格式

melodyhome |浏览4103次
2017/11/19 00:40

我有一个dat格式的数据,关于国外人口数据。已经确定该dat格式与GAUSS的dat格式无关。

查询谷歌,发现这类dat格式可能是压缩过的文本数据,用文本软件Notepad打开,果然如此,但遇到以下难题:

1、

上图的意思是,每一行代表一个观测值的全部数据不同列代表不同的变量属性,如第1-7列代表id,第8-9代表社区代码,第10代表家庭人数,第11-14代表家庭类型,直到第128列。

由于原始数据如图所示,没有包含变量名(有个codebook文档,仅标注第几列属于哪个变量,各个数值代表哪些变量选项内容),也没有按变量分开各列(不过每一行都是128列,没有错位),观测值总量即样本有近80万。


请问,如何用stata或R高效地将这样的数据处理成常用的数据格式,即满足:按变量名及其所占列宽去分开各列数据,并转化为第一行全部是变量名,下面是各观测值内容。形式参见CHIP或CFPS数据集。

向各位大神求救!!!!


收藏关注
全部回答(2)
0人关注该问题
 加载中...