ncesdata/state_parse.py at main · apaniagua6/ncesdata · GitHub

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
import zipfile
import pandas as pd
from io import BytesIO
import glob
from collections import defaultdict


#


def read_state_2010_2014():
    # needs to be between 2010 and 2011

    file_2010_2011 = "st101a_txt.zip"
    file_2011_2012 = "st111a_txt.zip"
    file_2012_2013 = "st121a_imp_txt.zip"
    file_2013_2014 = "st131a_imp_txt.zip"

    data_files_1 = [file_2010_2011, file_2011_2012, file_2012_2013, file_2013_2014]

    # Read all files that have the following format "*imp_txt.zip"
    mydataframes = []

    for filename in data_files_1:
        data_filename = 'ncesdata/state/{0}'.format(filename)
        archive = zipfile.ZipFile(data_filename, 'r')

        for filename in archive.filelist:
            # read bytes from archive
            mytext_file = archive.read(filename.filename)
            mypd = pd.read_csv(BytesIO(mytext_file), sep='\t')
            mydataframes.append(mypd)

    combined_df = pd.concat(mydataframes, sort=False)
    combined_df.to_csv('./state_combined_df_2013_2014.csv', index=False, header=True)


def read_state_2014_2016():
    # Read the state between 2014_2016

    # https://nces.ed.gov/ccd/data/zip/ccd_sea_029_1718_w_1a_083118.zip

    #  "ccd_sea_029_1415_w_0216161a_txt.zip"
    directory_list = ["ccd_sea_029_1415_w_0216161a_txt.zip",
                      "ccd_sea_029_1516_w_1a_011717_csv.zip",
                      ]

    membership_list = ["ccd_sea_052_1415_w_0216161a_txt.zip",
                       "ccd_sea_052_1516_w_1a_011717_csv.zip",
                       ]

    staff_list = ["ccd_sea_059_1415_w_0216161a_txt.zip",
                  "ccd_sea_059_1516_w_1a_011717_csv.zip",
                  ]

    tab_seperated_files = ["ccd_sea_059_1415_w_0216161a_txt.zip", "ccd_sea_052_1415_w_0216161a_txt.zip",
                           "ccd_sea_029_1415_w_0216161a_txt.zip"]

    data_files = {"directory": directory_list, "membership": membership_list, "staff": staff_list}

    mydataframes = defaultdict(list)

    for data_type, data_file_name_list in data_files.items():

        for filename in data_file_name_list:
            # print('reading Zip: ', filename)
            data_filename = 'ncesdata/state/{0}'.format(filename)
            archive = zipfile.ZipFile(data_filename, 'r')

            for myfilename in archive.filelist:
                # print('reading file: ', myfilename)
                if myfilename.filename.endswith("txt") or myfilename.filename.endswith("csv"):
                    # read bytes from archive
                    mytext_file = archive.read(myfilename.filename)

                    if filename in tab_seperated_files:
                        # print(myfilename)
                        mypd = pd.read_csv(BytesIO(mytext_file), sep='\t')
                    else:
                        mypd = pd.read_csv(BytesIO(mytext_file), sep=',')

                    mydataframes[data_type].append(mypd)

    directory_df = pd.concat(mydataframes["directory"], sort=False)
    membership_df = pd.concat(mydataframes["membership"], sort=False)
    staff_df = pd.concat(mydataframes["staff"], sort=False)

    directory_df.to_csv('./state_directory_df_2014_2016.csv', index=False, header=True)
    membership_df.to_csv('./state_membership_df_2014_2016.csv', index=False, header=True)
    staff_df.to_csv('./state_staff_df_2014_2016.csv', index=False, header=True)


def read_state_2017_2019():
    # Read the state between 2014 - 2019

    # https://nces.ed.gov/ccd/data/zip/ccd_sea_029_1718_w_1a_083118.zip

    #  "ccd_sea_029_1415_w_0216161a_txt.zip"
    directory_list = [
        "ccd_sea_029_1718_w_1a_083118.zip",
        "ccd_sea_029_1819_l_1a_091019.zip"]

    membership_list = [
        "ccd_sea_052_1718_l_1a_083118.zip",
        "ccd_sea_052_1819_l_1a_091019.zip"]

    staff_list = [
        "ccd_sea_059_1718_l_1a_083118.zip",
        "ccd_sea_059_1819_l_1a_091019.zip"]

    tab_seperated_files = ["ccd_sea_059_1415_w_0216161a_txt.zip", "ccd_sea_052_1415_w_0216161a_txt.zip",
                           "ccd_sea_029_1415_w_0216161a_txt.zip"]

    data_files = {"directory": directory_list, "membership": membership_list, "staff": staff_list}

    mydataframes = defaultdict(list)

    for data_type, data_file_name_list in data_files.items():

        for filename in data_file_name_list:
            # print('reading Zip: ', filename)
            data_filename = 'ncesdata/state/{0}'.format(filename)
            archive = zipfile.ZipFile(data_filename, 'r')

            for myfilename in archive.filelist:
                # print('reading file: ', myfilename)
                if myfilename.filename.endswith("txt") or myfilename.filename.endswith("csv"):
                    # read bytes from archive
                    mytext_file = archive.read(myfilename.filename)

                    if filename in tab_seperated_files:
                        # print(myfilename)
                        mypd = pd.read_csv(BytesIO(mytext_file), sep='\t')
                    else:
                        mypd = pd.read_csv(BytesIO(mytext_file), sep=',')

                    mydataframes[data_type].append(mypd)

    #directory_df = pd.concat(mydataframes["directory"], sort=False)
    #membership_df = pd.concat(mydataframes["membership"], sort=False)
    #staff_df = pd.concat(mydataframes["staff"], sort=False)
    for dir_name in mydataframes.keys():
        for index, data_frame in enumerate(mydataframes[dir_name]):
            unique_name = './state_directory_df_{0}.csv'.format(index)
            data_frame.to_csv(unique_name, index=False, header=True)


#read_state_2010_2014()

# Years 2014-2015, 2015-2016, 2016-2017, 2017-2018, 2018-2019
read_state_2014_2016()
read_state_2017_2019()