#include <stdlib.h>
#include <stdio.h>
#include <string.h>
+#include <stdbool.h>
+#include <wchar.h>
-FILE *source, *target = NULL;
-char c;
+#define TOKEN_MAX 500
-int main (int argc, char const *argv[]) {
+struct token_s {
+ const char* type;
+ wint_t value[50];
+};
+struct token_s token[TOKEN_MAX] = {NULL, 0};
+
+FILE *source = NULL, *target = NULL;
+wint_t c;
+unsigned int tokenFound = 0;
+enum TokenType {
+ MOTCLE,
+ SECTION,
+ SSECTION,
+ NPARA,
+ MOT,
+ FIN
+} tokenType;
+const char* tokenTypestr[] = { "MOTCLE", "SECTION", "SSECTION", "NPARA", "MOT", "FIN" };
+
+/* It looks silly to check for each characters but for debugging, it's just the way to go */
+bool istAlpha() {
+ if (c == L'a' || c == L'b' || c == L'c' || c == L'd' || c == L'e' || c == L'f' || c == L'g' || \
+ c == L'h' || c == L'i' || c == L'j' || c == L'k' || c == L'l' || c == L'm' || c == L'n' || \
+ c == L'o' || c == L'p' || c == L'q' || c == L'r' || c == L's' || c == L't' || c == L'u' || \
+ c == L'v' || c == L'w' || c == L'x' || c == L'y' || c == L'z' || \
+ c == L'A' || c == L'B' || c == L'C' || c == L'D' || c == L'E' || c == L'F' || c == L'G' || \
+ c == L'H' || c == L'I' || c == L'J' || c == L'K' || c == L'L' || c == L'M' || c == L'N' || \
+ c == L'O' || c == L'P' || c == L'Q' || c == L'R' || c == L'S' || c == L'T' || c == L'U' || \
+ c == L'V' || c == L'W' || c == L'X' || c == L'Y' || c == L'Z' || \
+ c == L'.' || c == L'?' || c == L'!' || c == L',' || c == L';' || c == L':' || c == L'-' || \
+ c == L'\''|| c == L'#' || \
+ c == L'0' || c == L'1' || c == L'2' || c == L'3' || c == L'4' || c == L'5' || c == L'6' || \
+ c == L'7' || c == L'8' || c == L'9' || \
+ c == L'à' || c == L'â' || c == L'ç' || c == L'è' || c == L'é' || c == L'î' || c == L'ô' || \
+ c == L'ù' || c == L'û' || \
+ c == L'À' || c == L'Â' || c == L'Ç' || c == L'È' || c == L'É' || c == L'Î' || c == L'Ô' || \
+ c == L'Ù' || c == L'Û') {
+ return true;
+ }
+ return false;
+}
+
+bool isSeparator() {
+ if (c == L'\t' || c == L' ' || c == L'\n') {
+ return true;
+ }
+ return false;
+}
+
+int scanner() {
+ unsigned int i = 0;
+ wchar_t m[6];
+
+init:
+ if (c == L' ' || c == L'\t') {
+ c = fgetwc(source);
+ goto init;
+ }
+ if (c == L'\n') {
+ c = fgetwc(source);
+ goto initLV1;
+ }
+ if (c == L'>') {
+ c = fgetwc(source);
+ goto MC1;
+ }
+ if (c == L'=') {
+ c = fgetwc(source);
+ goto S1SS1;
+ }
+ if (istAlpha()) {
+ token[tokenFound].value[i] = c;
+ i++;
+ c = fgetwc(source);
+ goto M1;
+ }
+ if (c == WEOF) {
+ goto FIN;
+ }
+ goto error;
+
+MC1:
+ if (c == L'A' && !wcscmp(fgetws(m, 6, source), L"uteur")) {
+ wcscpy((wchar_t*)token[tokenFound].value, L">Auteur");
+ c = fgetwc(source);
+ goto MC2;
+ }
+ if (c == L'T' && !wcscmp(fgetws(m, 5, source), L"itre")) {
+ wcscpy((wchar_t*)token[tokenFound].value, L">Titre");
+ c = fgetwc(source);
+ goto MC2;
+ }
+ goto error;
+
+S1SS1:
+ if (c == L'=') {
+ c = fgetwc(source);
+ goto SS2;
+ }
+ if (isSeparator() || c == WEOF) {
+ goto SECTION;
+ }
+ goto error;
+
+SS2:
+ if (isSeparator() || c == WEOF) {
+ goto SSECTION;
+ }
+ goto error;
+
+SECTION:
+ tokenType = SECTION;
+ return EXIT_SUCCESS;
+
+SSECTION:
+ tokenType = SSECTION;
+ return EXIT_SUCCESS;
+
+M1:
+ if (istAlpha()) {
+ token[tokenFound].value[i] = c;
+ i++;
+ c = fgetwc(source);
+ goto M1;
+ }
+ if (isSeparator() || c == WEOF) {
+ goto MOT;
+ }
+ goto error;
+
+initLV1:
+ if (c == L' ' || c == L'\t') {
+ c = fgetwc(source);
+ goto initLV1;
+ }
+ if (c == L'\n') {
+ c = fgetwc(source);
+ goto initLV1LV2;
+ }
+ if (istAlpha()) {
+ token[tokenFound].value[i] = c;
+ i++;
+ c = fgetwc(source);
+ goto M1;
+ }
+ if (c == L'=') {
+ c = fgetwc(source);
+ goto S1SS1;
+ }
+ if (c == L'>') {
+ c = fgetwc(source);
+ goto MC1;
+ }
+ if (c == WEOF) {
+ goto FIN;
+ }
+ goto error;
+
+initLV1LV2:
+ if (isSeparator()) {
+ c = fgetwc(source);
+ goto initLV1LV2;
+ }
+ if (istAlpha()) {
+ goto NPARA;
+ }
+ if (c == L'>') {
+ c = fgetwc(source);
+ goto MC1;
+ }
+ if (c == L'=') {
+ c = fgetwc(source);
+ goto S1SS1;
+ }
+ if (c == WEOF) {
+ goto FIN;
+ }
+ goto error;
+
+NPARA:
+ tokenType = NPARA;
+ return EXIT_SUCCESS;
+
+MOT:
+ tokenType = MOT;
+ return EXIT_SUCCESS;
+
+MC2:
+ if (isSeparator() || c == WEOF) {
+ goto MOTCLE;
+ }
+ goto error;
+
+MOTCLE:
+ tokenType = MOTCLE;
+ return EXIT_SUCCESS;
+
+FIN:
+ tokenType = FIN;
+ return EXIT_SUCCESS;
+
+error:
+ tokenType = FIN;
+ return EXIT_FAILURE;
+}
+
+int main() {
// Ouvre le fichier test.txt en lecture seulement (le fichier doit exister) :
- source = fopen("test.txt", "r");
+ source = fopen("test.txt", "r+");
// Cree et ouvre un fichier target.html en lecture/ecriture
// avec suppression du contenu au prealable :
target = fopen("target.html", "w+");
return -1;
}
- c = fgetc(source); // lecture du caractere suivant du fichier source
- while(c != EOF) { // tant que la fin du fichier n'est pas atteinte
- fputc(c, target); // ecrire c dans le fichier target
- c = fgetc(source); // lecture du caractere suivant du fichier source
- }
+ c = fgetwc(source); // lecture du premier caractere
+ do {
+ int scanrt = scanner();
+ if (scanrt == EXIT_FAILURE) {
+ wprintf(L"Scanner error with token value: %ls\n", token[tokenFound].value);
+ exit(EXIT_FAILURE);
+ }
+ if (tokenType == MOT || tokenType == MOTCLE) {
+ wprintf(L"%20s: %ls\n", tokenTypestr[tokenType], token[tokenFound].value);
+ } else {
+ wprintf(L"%20s\n", tokenTypestr[tokenType]);
+ }
+ token[tokenFound].type = tokenTypestr[tokenType];
+ tokenFound++;
+ } while (tokenType != FIN); // tant que la fin du fichier n'est pas atteinte
if (source != NULL) fclose(source); // fermeture du fichier source
if (target != NULL) fclose(target); // fermeture du fichier target
- return 0;
+ return EXIT_SUCCESS;
}