twitter本家は、ハッシュタグフォーマットの定義を公表してはいないけど、多くの場合に当てはまる正規表現を考えると以下のようにかける。日本語タグとかは無視。
#[0-9a-zA-Z_\-]+
抽出する場合は以下のようにかける。
#!/usr/bin/perl my $text = "twitter timeline #hoge"; my $tw_hashtag_regex = q{#[0-9a-zA-Z_\-]+}; while ($text =~ /($tw_hashtag_regex)/g) { print $1, "\n"; } exit; __END__