作業中のメモ

よく「計算機」を使って作業をする.知らなかったことを中心にまとめるつもり.

CSV ファイルを C 言語で読み込む

どうも,筆者です.

今回は,CSV ファイルを C 言語で読み込むことを考える.

考え方

カンマ(,)か改行コード(\n)が出てくるまで,データを char 型の配列に保持する.カンマ(,)か改行コード(\n)が出てきたら,atoi または,atof 関数で数値に変換する. この時,行数と列数が分からないので,一度ファイルの終端コード(EOF)が出てくるまで読み続ける.その後,先頭に戻って再度処理をするという流れになる.

プログラム

まず,戻り値の処理をするため,ヘッダに列挙型を定義する.

/* defineConstant.h */
#ifndef __DEFINECONSTANT_H__
#define __DEFINECONSTANT_H__

typedef enum {
    RETURN_OK = 0,
    ARGUMENT_ERROR,
    FILE_OPEN_ERROR,
    MALLOC_ERROR
} RETURN_TYPE;

#endif

次に,行数と列数をカウントするプログラムを作成する.

#include"defineConstant.h"
/*
   iCountRowCol: 行数と列数をカウントする

   char *pszFileName:   読み込むファイル名
   unsigned int *piRow: 行数
   unsigned int *piCol: 列数

   return: 正常終了 -> 0
           異常終了 -> 0 以外
 */
int iCountRowCol(char *pszFileName, unsigned int *puiRow, unsigned int *puiCol){
    FILE *prFile;
    int iRet;
    unsigned int uiRow, uiCol;
    char chData;
    iRet = RETURN_OK;

    /* 引数のチェック */
    if((NULL == pszFileName) || (NULL == puiRow) || (NULL == puiCol)){
        fprintf(stderr, "argument error\n");
        iRet = ARGUMENT_ERROR;
        goto EXIT_COUNT_ROWCOL;
    }
    else{
        *puiRow = *puiCol = 0;
    }
    if(NULL == (prFile = fopen(pszFileName, "r"))){
        fprintf(stderr, "Error: %s cannot open\n", pszFileName);
        iRet = FILE_OPEN_ERROR;
        goto EXIT_COUNT_ROWCOL;
    }
    uiRow = uiCol = 0;

    while(EOF != fscanf(prFile, "%c", &chData)){
        /* カンマの場合 */
        if(',' == chData){
            uiCol++;
        }
        /* 改行コードの場合 */
        if('\n' == chData){
            uiCol++;
            uiRow++;
        }
    }
    uiCol /= uiRow;

    *puiRow = uiRow;
    *puiCol = uiCol;
    fclose(prFile);

EXIT_COUNT_ROWCOL:
    return iRet;
}

その後,必要なサイズを malloc する関数を定義する.ここでは,int 型で確保する.同時に,領域を開放する関数も書く.

/*
   iMallocInt:          int 型の malloc を行う

   unsigned int uiSize: 確保するサイズ
   int **ppiArray:      確保先のアドレス

   return: 正常終了 -> 0
           異常終了 -> 0 以外
*/
int iMallocInt(unsigned int uiSize, int **ppiArray){
    unsigned int uiCnt;
    int iRet;
    iRet = RETURN_OK;

    /* 引数チェック */
    if(NULL == ppiArray){
        iRet = ARGUMENT_ERROR;
        goto EXIT_MALLOC_INT;
    }
    /* malloc */
    if(NULL == (*ppiArray = (int *)malloc(sizeof(int) * uiSize))){
        fprintf(stderr, "malloc error\n");
        iRet = MALLOC_ERROR;
        goto EXIT_MALLOC_INT;
    }
    else{
        for(uiCnt = 0; uiCnt < uiSize; uiCnt++){
            (*ppiArray)[uiCnt] = 0;
        }
    }

EXIT_MALLOC_INT:
    return iRet;
}

/*
   freeData: 確保した領域を開放する

   void *pvData: 確保した領域の先頭アドレス
*/
void freeData(void *pvData){
    if(NULL != pvData){
        free(pvData);
    }

    return;
}

最後に,データを解析し,読み込んでいく.

/*
   iReadData: データの読み込み

   char *pszFileName:  読み込むファイル名
   unsigned int uiRow: ファイルの行数
   unsigned int uiCol: ファイルの列数
   int *piArray:       データの格納先

   return: 正常終了 -> 0
           異常終了 -> 0 以外
*/
int iReadData(char *pszFileName, unsigned int uiRow, unsigned int uiCol, int *piArray){
    FILE *prFile;
    char chData;
    int iRet;
    unsigned int uiCntRow, uiCntCol, uiCharCnt;
    char achInputDataList[11];
    iRet = RETURN_OK;

    /* 引数のチェック */
    if(NULL == pszFileName){
        iRet = ARGUMENT_ERROR;
        goto EXIT_READ_DATA;
    }

    /* ファイルオープン */
    if(NULL == (prFile = fopen(pszFileName, "r"))){
        fprintf(stderr, "Error: %s cannot open\n", pszFileName);
        iRet = FILE_OPEN_ERROR;
        goto EXIT_READ_DATA;
    }

    /* ファイルの読み込み */
    for(uiCntRow = 0; uiCntRow < uiRow; uiCntRow++){
        for(uiCntCol = 0; uiCntCol < uiCol; uiCntCol++){
            uiCharCnt = 0;
            achInputDataList[0] = '\0';

            /* 1 文字ずつ読み込む  */
            while(EOF != fscanf(prFile, "%c", &chData)){
                /* 「,」または「\n」が来た場合,ループを抜ける */
                if((',' == chData) || ('\n' == chData)){
                    break;
                }

                /* 今回は,数値の部分だけ保存 */
                if(((int)'0' <= (int)chData) && ((int)chData <= (int)'9')){
                    achInputDataList[uiCharCnt++] = chData;
                }
            }
            achInputDataList[uiCharCnt] = '\0';
            piArray[uiCntRow * uiCol + uiCntCol] = atoi(achInputDataList);
        }
    }
    fclose(prFile);

EXIT_READ_DATA:
    return iRet;
}

これで,CSV ファイルからデータを読み込み,格納することができる.後は,これをまとめて行う関数を定義する.

/*
   iReadCSVFile: CSV ファイルからデータを読み込む

   char *pszFileName:   読み込むファイル名
   unsigned int *piRow: 行数
   unsigned int *piCol: 列数
   int **ppiArray:      確保先のアドレス

   return: 正常終了 -> 0
           異常終了 -> 0 以外
*/
int iReadCSVFile(char *pszFileName, unsigned int *puiRow, unsigned int *puiCol, int **ppiArray){
    int iRet;
    unsigned int uiSize = 0;

    iRet = iCountRowCol(pszFileName, puiRow, puiCol);
    if(RETURN_OK != iRet){
        fprintf(stderr, "Error: iCountRowCol\n");
        goto EXIT_READ_CSV_FILE;
    }

    uiSize = (*puiRow) * (*puiCol);
    iRet = iMallocInt(uiSize, ppiArray);
    if(RETURN_OK != iRet){
        fprintf(stderr, "Error: iMallocInt\n");
        goto EXIT_READ_CSV_FILE;
    }

    iRet = iReadData(pszFileName, *puiRow, *puiCol, *ppiArray);
    if(RETURN_OK != iRet){
        fprintf(stderr, "Error: iReadData\n");
        goto EXIT_READ_CSV_FILE;
    }

EXIT_READ_CSV_FILE:
    return iRet;
}

確認

このファイルを readCSVFile.c として保存し,正しく動作するか確認する.main 関数は,以下のようにした.

#include<stdio.h>
#include<stdlib.h>
#include"defineConstant.h"

extern int iReadCSVFile(char *pszFileName, unsigned int *puiRow, unsigned int *puiCol, int **ppiArray);
extern void freeData(void *pvData);
void printData(unsigned int uiRow, unsigned int uiCol, int *piArray);

int main(int iArgCnt, char **ppchArgVec){
    int iRet;
    unsigned int uiRow, uiCol;
    int *piArray;

    if(iArgCnt == 2){
        iRet = iReadCSVFile(ppchArgVec[1], &uiRow, &uiCol, &piArray);

        if(iRet == RETURN_OK){
            printData(uiRow, uiCol, piArray);
            freeData((void *)piArray);
        }
    }

    return 0;
}

void printData(unsigned int uiRow, unsigned int uiCol, int *piArray){
    unsigned int uiCntRow, uiCntCol;

    for(uiCntRow = 0; uiCntRow < uiRow; uiCntRow++){
        for(uiCntCol = 0; uiCntCol < uiCol; uiCntCol++){
            printf("%d ", piArray[uiCntRow * uiCol + uiCntCol]);
        }
        printf("\n");
    }
}

CSV ファイルは,以下のようなものを作成した.

01,02,03,04,05,06,07,08,09,10
11,12,13,14,15,16,17,18,19,20
21,22,23,24,25,26,27,28,29,30
31,32,33,34,35,36,37,38,39,40
41,42,43,44,45,46,47,48,49,50
51,52,53,54,55,56,57,58,59,60
61,62,63,64,65,66,67,68,69,70
71,72,73,74,75,76,77,78,79,80
81,82,83,84,85,86,87,88,89,90
91,92,93,94,95,96,97,98,99,100

実行結果は,以下のようになった.

1 2 3 4 5 6 7 8 9 10 
11 12 13 14 15 16 17 18 19 20 
21 22 23 24 25 26 27 28 29 30 
31 32 33 34 35 36 37 38 39 40 
41 42 43 44 45 46 47 48 49 50 
51 52 53 54 55 56 57 58 59 60 
61 62 63 64 65 66 67 68 69 70 
71 72 73 74 75 76 77 78 79 80 
81 82 83 84 85 86 87 88 89 90 
91 92 93 94 95 96 97 98 99 100 

正しく動作している.