Store all tokens found during the lexical analysis in an array.
[TP_AL_C.git] / lexer / main.c
index 8b137891791fe96927ad78e64b0aad7bded08bdc..db41495086b75c03aa4a24683d07a188dabbc429 100644 (file)
@@ -1 +1,282 @@
+#include <stdlib.h>
+#include <stdio.h>
+#include <string.h>
+#include <stdbool.h>
 
+#define TOKEN_MAX_LENGTH 50
+#define TOKEN_LIST_MAX 500
+
+FILE *source = NULL, *target = NULL;
+char c;
+unsigned int i = 0;
+char tokenValue[TOKEN_MAX_LENGTH];
+enum TokenType {
+    MOTCLE,
+    SECTION,
+    SSECTION,
+    NPARA,
+    MOT,
+    FIN
+} tokenType;
+const char* tokenTypestr[] = { "MOTCLE", "SECTION", "SSECTION", "NPARA", "MOT", "FIN" };
+const char* tokenList[TOKEN_LIST_MAX];
+
+/* It looks silly to check for each characters but for debugging, it's just the way to go */
+bool istAlpha() {
+    if (c == 'a' || c == 'b' || c == 'c' || c == 'd' || c == 'e' || c == 'f' || c == 'g' || \
+        c == 'h' || c == 'i' || c == 'j' || c == 'k' || c == 'l' || c == 'm' || c == 'n' || \
+        c == 'o' || c == 'p' || c == 'q' || c == 'r' || c == 's' || c == 't' || c == 'u' || \
+        c == 'v' || c == 'w' || c == 'x' || c == 'y' || c == 'z' || \
+        c == 'A' || c == 'B' || c == 'C' || c == 'D' || c == 'E' || c == 'F' || c == 'G' || \
+        c == 'H' || c == 'I' || c == 'J' || c == 'K' || c == 'L' || c == 'M' || c == 'N' || \
+        c == 'O' || c == 'P' || c == 'Q' || c == 'R' || c == 'S' || c == 'T' || c == 'U' || \
+        c == 'V' || c == 'W' || c == 'X' || c == 'Y' || c == 'Z' || \
+        c == '.' || c == '?' || c == '!' || c == ',' || c == ';' || c == ':' || c == '-' || \
+        c == '\''|| c == '#' || \
+        c == '0' || c == '1' || c == '2' || c == '3' || c == '4' || c == '5' || c == '6' || \
+        c == '7' || c == '8' || c == '9') {
+            return true;
+        }
+        return false;
+}
+
+bool isSeparator() {
+    if (c == '\t' || c == ' ' || c == '\n') {
+        return true;
+    }
+    return false;
+}
+
+int scanner() {
+    const char* Titre = "Titre";
+    const char* Auteur = "Auteur";
+    unsigned int j = 0;
+
+// The main loop get the next character
+init:
+    if (c == ' ' || c == '\t') {
+        c = fgetc(source);
+        tokenValue[i] = c;
+        i++;
+        goto init;
+    }
+    if (c == '\n') {
+        c = fgetc(source);
+        tokenValue[i] = c;
+        i++;
+        goto initLV1;
+    }
+    if (c == '>') {
+        c = fgetc(source);
+        tokenValue[i] = c;
+        i++;
+        goto MC1;
+    }
+    if (c == '=') {
+        c = fgetc(source);
+        tokenValue[i] = c;
+        i++;
+        goto S1SS1;
+    }
+    if (istAlpha()) {
+        c = fgetc(source);
+        tokenValue[i] = c;
+        i++;
+        goto M1;
+    }
+    if (c == EOF) {
+        goto FIN;
+    } else {
+        goto error;
+    }
+
+MC1:
+    // FIXME: Partial match need a rewind in the characters extraction from the file
+    if (c == Titre[j] && j < strlen(Titre) - 1) {
+        c = fgetc(source);
+        tokenValue[i] = c;
+        i++;
+        j++;
+        goto MC1;
+    }
+    if (c == Auteur[j] && j < strlen(Auteur) - 1) {
+        c = fgetc(source);
+        tokenValue[i] = c;
+        i++;
+        j++;
+        goto MC1;
+    } else {
+        c = fgetc(source);
+        tokenValue[i] = c;
+        i++;
+        goto MC2;
+    }
+
+S1SS1:
+    if (c == '=') {
+        c = fgetc(source);
+        tokenValue[i] = c;
+        i++;
+        goto SS2;
+    }
+    if (isSeparator() || c == EOF) {
+        goto SECTION;
+    }
+
+SS2:
+    if (isSeparator() || c == EOF) {
+        goto SSECTION;
+    }
+
+SECTION:
+    tokenType = SECTION;
+    return 1;
+
+SSECTION:
+    tokenType = SSECTION;
+    return 1;
+
+M1:
+    if (istAlpha()) {
+        c = fgetc(source);
+        tokenValue[i] = c;
+        i++;
+        goto M1;
+    }
+    if (isSeparator() || c == EOF) {
+        goto MOT;
+    }
+
+initLV1:
+    if (c == ' ' || c == '\t') {
+        c = fgetc(source);
+        tokenValue[i] = c;
+        i++;
+        goto initLV1;
+    }
+    if (c == '\n') {
+        c = fgetc(source);
+        tokenValue[i] = c;
+        i++;
+        goto initLV1LV2;
+    }
+    if (istAlpha()) {
+        c = fgetc(source);
+        tokenValue[i] = c;
+        i++;
+        goto M1;
+    }
+    if (c == '=') {
+        c = fgetc(source);
+        tokenValue[i] = c;
+        i++;
+        goto S1SS1;
+    }
+    if (c == '>') {
+        c = fgetc(source);
+        tokenValue[i] = c;
+        i++;
+        goto MC1;
+    }
+    if (c == EOF) {
+        goto FIN;
+    }
+
+initLV1LV2:
+    if (isSeparator()) {
+        c = fgetc(source);
+        tokenValue[i] = c;
+        i++;
+        goto initLV1LV2;
+    }
+    if (istAlpha()) {
+        goto NPARA;
+    }
+    if (c == '>') {
+        c = fgetc(source);
+        tokenValue[i] = c;
+        i++;
+        goto MC1;
+    }
+    if (c == '=') {
+        c = fgetc(source);
+        tokenValue[i] = c;
+        i++;
+        goto S1SS1;
+    }
+    if (c == EOF) {
+        goto FIN;
+    }
+
+NPARA:
+    tokenType = NPARA;
+    return 1;
+
+MOT:
+    tokenType = MOT;
+    return 1;
+
+MC2:
+    if (isSeparator() || c == EOF) {
+        goto MOTCLE;
+    }
+
+MOTCLE:
+    tokenType = MOTCLE;
+    return 1;
+
+FIN:
+    tokenType = FIN;
+    return 1;
+
+error:
+    tokenType = FIN;
+    return -1;
+}
+
+int main (int argc, char const *argv[]) {
+
+    // Ouvre le fichier test.txt en lecture seulement (le fichier doit exister) :
+    source = fopen("test.txt", "r");
+    // Cree et ouvre un fichier target.html en lecture/ecriture
+    // avec suppression du contenu au prealable :
+    target = fopen("target.html", "w+");
+
+    if (source == NULL) {
+        printf("Impossible d'ouvrir le fichier source\n");
+        return -1;
+    }
+
+    if (target == NULL) {
+        printf("Impossible d'ouvrir le fichier target\n");
+        return -1;
+    }
+
+    int tokenFound = 0;
+
+    do {
+        c = fgetc(source); // lecture du caractere suivant du fichier source
+        tokenValue[i] = c;
+        i++;
+        int scanrt = scanner();
+        if (scanrt == -1) {
+            printf ("Scanner error with token value: %s\n", tokenValue);
+            exit(EXIT_FAILURE);
+        }
+        if (c != EOF) {
+            printf ("Token type found: %s with value: %s\n", tokenTypestr[tokenType], tokenValue);
+        } else {
+            printf ("Token type found: %s\n", tokenTypestr[tokenType]);
+        }
+        tokenFound++;
+        tokenList[tokenFound] = tokenTypestr[tokenType];
+        // reinit tokenValue
+        i = 0;
+        memset(tokenValue, 0, sizeof(tokenValue));
+    } while (c != EOF); // tant que la fin du fichier n'est pas atteinte
+
+    if (source != NULL) fclose(source); // fermeture du fichier source
+    if (target != NULL) fclose(target); // fermeture du fichier target
+
+    return 0;
+}