twitter本家は、ハッシュタグフォーマットの定義を公表してはいないけど、多くの場合に当てはまる正規表現を考えると以下のようにかける。日本語タグとかは無視。
#[0-9a-zA-Z_\-]+
抽出する場合は以下のようにかける。
#!/usr/bin/perl
my $text = "twitter timeline #hoge";
my $tw_hashtag_regex = q{#[0-9a-zA-Z_\-]+};
while ($text =~ /($tw_hashtag_regex)/g) {
print $1, "\n";
}
exit;
__END__