Token の種類を判定する (文字・文字列) - SHUT THE FUCK UP AND WRITE SOME CODE

前回は、少し本格的に、
「/*」から「*/」までと、「//」から「\n」までを「コメント」と判定できるようにしたが、
文字列中の、「/*」、「*/」、「//」もコメントの開始・終了と認識してしまう。

そこで今回は、文字・文字列を認識する処理を追加して、
文字列中の、「/*」、「*/」、「//」は、単なる文字列として扱い、
コメントの開始・終了と誤認識しないようにする。

SourceToHtml7.plx



use strict;

#******************************************************************************

#   C# → HTML 変換処理

#******************************************************************************

# ヘッダ部

fileCopy(".\\Template\\header.txt");
# ソース部の変換

my $state = "その他";

my $kind  = "";
my $line;

putLine() while ($line = getLine());
# フッタ部

fileCopy(".\\Template\\footer.txt");
#==============================================================================

# テンプレートファイルのコピー

#==============================================================================

sub fileCopy

{

    my ($fileName) = @_;
    open(F, $fileName) || die "open: $!";

    print while (<F>);

    close(F);

}

#==============================================================================

# １行ずつ読み込む

#==============================================================================

sub getLine

{

    # １行読み込む

    $_  =   <>;
    # TABを空白に変換

    my $pos;

    my $num;

    while(($pos = index($_, "\t")) >= 0) #TABがあるか

    {

        $num = 4 - ($pos % 4); #空白何文字分に置き換えればよいか

        $_ = substr($_,0,$pos).(' ' x $num).substr($_,$pos+1); #空白に置き換え

    }
    # 行末の空白を削除

    s/ +$//;
    # 変換結果を返す

    return  $_;

}

#==============================================================================

# １行ずつ書き込む

#==============================================================================

sub putLine

{

    # 改行コードを取り除く

    chomp($line);
    while(length($line))

    {

        if ($state eq "その他")

        {

            # 単一行コメントか？

            if ($line =~ /^\/\//)

            {

                putToken($&, "単一行コメント");

                $line   =   $';
                stateComSingle();

            }
            # 複数行コメントか？

            elsif ($line =~ /^\/\*/)

            {

                putToken($&, "複数行コメント");

                $line   =   $';
                stateComMulti();

            }
            # 逐語的文字列か？

            elsif ($line =~ /^@"/)

            {

                putToken($&, "逐語的文字列");

                $line   =   $';
                stateStringLit();

            }
            # 文字列か？

            elsif ($line =~ /^"/)

            {

                putToken($&, "文字列");

                $line   =   $';
                stateString();

            }
            # 文字か？

            elsif ($line =~ /^'/)

            {

                putToken($&, "文字");

                $line   =   $';
                stateChar();

            }
            # その他

            else

            {

                # １文字取得

                $line   =~  /./;

                putToken($&, "その他");
                # １文字切り詰める

                $line   =   $';

            }

        }

        elsif ($state eq "複数行コメント")          {   stateComMulti();    }

        elsif ($state eq "逐語的文字列")            {   stateStringLit();   }

        elsif ($state eq "文字列")                  {   stateString();      }

        elsif ($state eq "文字")                    {   stateChar();        }

    }
    # 改行

    putToken("\n", $state);

}

#------------------------------------------------------------------------------

# 単一行コメント

#------------------------------------------------------------------------------

sub stateComSingle

{

    putToken($line, "単一行コメント");

    $line   =   "";

    $state  =   "その他";

}

#------------------------------------------------------------------------------

# 複数行コメント

#------------------------------------------------------------------------------

sub stateComMulti

{

    if ($line =~ /\*\//) # 終了があるか？

    {

        putToken($`.$&, "複数行コメント");

        $line   =   $';

        $state  =   "その他";

    }

    else

    {

        putToken($line, "複数行コメント");

        $line   =   "";

        $state  =   "複数行コメント";

    }

}

#------------------------------------------------------------------------------

# 逐語的文字列

#------------------------------------------------------------------------------

sub stateStringLit

{

    if ($line =~ /"/) # 終了があるか？

    {

        putToken($`.$&, "逐語的文字列");

        $line   =   $';
        my $after  = $';

        if ($after =~ /^"/) # 実は " か？

        {

            putToken($&, "逐語的文字列");

            $line   =   $';

            $state  =   "逐語的文字列";

        }

        else

        {

            $state  =   "その他";

        }

    }

    else

    {

        putToken($line, "逐語的文字列");

        $line   =   "";

        $state  =   "逐語的文字列";

    }

}

#------------------------------------------------------------------------------

# 文字列

#------------------------------------------------------------------------------

sub stateString

{

    my  $i  =   index($line, "\""); # 終了

    my  $j  =   index($line, "\\"); # エスケープ
    if ((($i < $j) && ($i >= 0)) || ($j < 0)) # 終了

    {

        $line =~ /"/;

        putToken($`.$&, "文字列");

        $line   =   $';

        $state  =   "その他";

    }
    elsif ((($j < $i) && ($j >= 0)) || ($i < 0))  # エスケープ

    {

        $line =~ /\\/;

        putToken($`.$&, "文字列");

        $line   =   $';
        if  ($line  =~  /./)

        {

            putToken($&, "文字列");

            $line   =   $';

            $state  =   "文字列";

        }

    }
    else

    {

        putToken($line, "文字列");

        $line   =   "";

        $state  =   "その他";

    }

}

#------------------------------------------------------------------------------

# 文字

#------------------------------------------------------------------------------

sub stateChar

{

    my  $i  =   index($line, "'");  # 終了

    my  $j  =   index($line, "\\"); # エスケープ
    if ((($i < $j) && ($i >= 0)) || ($j < 0)) # 終了

    {

        $line =~ /'/;

        putToken($`.$&, "文字");

        $line   =   $';

        $state  =   "その他";

    }
    elsif ((($j < $i) && ($j >= 0)) || ($i < 0))  # エスケープ

    {

        $line =~ /\\/;

        putToken($`.$&, "文字");

        $line   =   $';
        if  ($line  =~  /./)

        {

            putToken($&, "文字");

            $line   =   $';

            $state  =   "文字";

        }

    }
    else

    {

        putToken($line, "文字");

        $line   =   "";

        $state  =   "その他";

    }

}

#==============================================================================

# トークンを書き込む

#==============================================================================

sub putToken

{

    $_              =   shift;  #追加する文字列

    my  $kind_next  =   shift;  #追加するトークンの種類
    # トークンの種類が変わったら、書き込む

    if ($kind ne $kind_next)

    {

        print   "</SPAN>"   unless  (($kind eq "その他") || ($kind eq ""));
        if      ($kind_next eq  "複数行コメント")   {   print   "<SPAN CLASS=\"COM\">"; }

        elsif   ($kind_next eq  "単一行コメント")   {   print   "<SPAN CLASS=\"COM\">"; }

        elsif   ($kind_next eq  "逐語的文字列")     {   print   "<SPAN CLASS=\"STR\">"; }

        elsif   ($kind_next eq  "文字列")           {   print   "<SPAN CLASS=\"STR\">"; }

        elsif   ($kind_next eq  "文字")             {   print   "<SPAN CLASS=\"CHA\">"; }

    }

    $kind   =   $kind_next;
    # <, >, &, |, (, ) を置換

    s/&/&#x26;/g;   # &

    s/</&#x3C;/g;   # <

    s/>/&#x3E;/g;   # >

    s/\(/&#x28;/g;  # ( はてな用

    s/\)/&#x29;/g;  # ) はてな用

    s/\|/&#x7C;/g;  # | はてな用
    print $_;

}

実行形式



C:\Perl5>jperl SourceToHtml7.plx input.txt > output.txt